Skip to content

rafpas/open_innovation_analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

OpenAlex / OpenCoesione / CORDIS Analysis Toolkit

Repository per analisi dati su:

  • collaborazioni scientifiche (OpenAlex),
  • istituzioni italiane e georeferenziazione,
  • progetti e finanziamenti OpenCoesione,
  • progetti CORDIS Horizon e confronto Blue Growth per Italia/regioni.

Obiettivo

Costruire dataset comparabili per:

  • totale Italia,
  • totale per regione,
  • quota e specializzazione Blue Growth su progetti e finanziamenti.

La logica di aggregazione evita doppie conteggiature dove necessario:

  • dedupe per progetto per i totali Italia,
  • dedupe per combinazioni regione/progetto dove richiesto,
  • allocazione fondi per partnership (es. CORDIS) senza duplicazioni artificiali.

Requisiti

  • Python 3.10+ (consigliato 3.11)
  • pip aggiornato

Dipendenze principali usate dagli script:

  • pandas
  • numpy
  • requests
  • beautifulsoup4
  • pdfplumber
  • rapidfuzz
  • unidecode
  • lxml
  • openpyxl
  • html5lib

Esempio setup rapido:

python -m venv .venv
.venv\Scripts\activate
pip install -U pip
pip install pandas numpy requests beautifulsoup4 pdfplumber rapidfuzz unidecode lxml openpyxl html5lib

Struttura del progetto

openAlex/
|-- README.md
|-- requirements.txt
|-- analyse_collab_oa.py
|-- openalex_istituzioni_italia_match.py
|-- get_institute_by_query.py
|-- growth_opencoesione.py
|-- growth_opencoesione_adv.py
|-- blue_cinea_italia.py
|-- cordis-HORIZONprojects-json/
|   |-- cordis-analyser.py
|   |-- project.json
|   |-- organization.json
|   |-- topics.json
|   |-- legalBasis.json
|   `-- outputs/
|-- open_coesione/
|   `-- progetti_italy_opencoesione.csv
|-- example-vue-author/
|   `-- openalex-vue-demo/
|-- outputs/
`-- supporto/

Descrizione file/cartelle principali

  • analyse_collab_oa.py: analisi collaborazioni OpenAlex e output JSON.
  • openalex_istituzioni_italia_match.py: matching istituzioni italiane OpenAlex + arricchimento geografico e classificazione.
  • get_institute_by_query.py: query helper su istituzioni OpenAlex.
  • growth_opencoesione.py: analisi Blue Growth base su dataset OpenCoesione.
  • growth_opencoesione_adv.py: versione avanzata di classificazione Blue su OpenCoesione (score/soglia piu flessibile).
  • blue_cinea_italia.py: analisi Blue su file CINEA Excel con score e classi (CORE, EXTENDED, MIXED).
  • cordis-HORIZONprojects-json/cordis-analyser.py: pipeline CORDIS (join JSON, filtro partner italiani, allocazione fondi, aggregazione regionale, metrica Blue).
  • open_coesione/: dataset CSV di input OpenCoesione.
  • cordis-HORIZONprojects-json/: dump JSON CORDIS Horizon + output analisi.
  • outputs/: output aggregati prodotti da alcuni script.
  • supporto/: file di supporto intermedi o ausiliari.
  • example-vue-author/: demo front-end Vue per esplorazione dati.

Comandi principali

1) Collaborazioni OpenAlex (focus Puglia/Italia)

python analyse_collab_oa.py --output-json openalex_full_results.json --verbose

2) Matching istituzioni italiane OpenAlex

python openalex_istituzioni_italia_match.py

Output tipico:

  • openalex_italy_institutions_enriched.csv

3) OpenCoesione Blue Growth (base)

python growth_opencoesione.py --csv open_coesione/progetti_italy_opencoesione.csv --out blue_growth_by_region.csv --focus-puglia

4) OpenCoesione Blue Growth (avanzato)

python growth_opencoesione_adv.py --csv open_coesione/progetti_italy_opencoesione.csv --threshold 1 --save-blue-projects supporto/progetti_blue_inclusivo.csv

5) CINEA Italia Blue Growth

python blue_cinea_italia.py --xlsx CINEA_ITALIA.xlsx --threshold 2 --out-regions cinea_blue_by_region_v2.csv --out-region-funding cinea_blue_by_region_funding_v2.csv --focus-puglia

6) CORDIS Horizon (Italia + regioni, con Blue filter)

python cordis-HORIZONprojects-json/cordis-analyser.py --data-dir cordis-HORIZONprojects-json --out-dir cordis-HORIZONprojects-json/outputs --prefix cordis_italy --threshold 2

Output principali:

  • cordis_italy_partnerships.csv
  • cordis_italy_by_region.csv
  • cordis_italy_summary.json

Note metodologiche sintetiche

  • CORDIS: i fondi sono allocati a livello partnership (ecContribution, fallback netEcContribution), quindi la somma Italia rappresenta la quota italiana nelle partnership.
  • OpenCoesione: parsing robusto header CSV con gestione BOM UTF-8.
  • Blue Growth: classificazione a score con soglia configurabile (--threshold), utile per passare da filtro inclusivo a filtro conservativo.

Workflow consigliato

  1. Esegui prima gli script di estrazione/arricchimento (openalex_istituzioni_italia_match.py, eventuali query OpenAlex).
  2. Esegui analisi OpenCoesione/CINEA/CORDIS con stessa soglia Blue (threshold) per confronti coerenti.
  3. Confronta quote Blue Italia vs regioni usando i file *_by_region.csv e i summary JSON/CSV prodotti.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors