Repository per analisi dati su:
- collaborazioni scientifiche (OpenAlex),
- istituzioni italiane e georeferenziazione,
- progetti e finanziamenti OpenCoesione,
- progetti CORDIS Horizon e confronto Blue Growth per Italia/regioni.
Costruire dataset comparabili per:
- totale Italia,
- totale per regione,
- quota e specializzazione Blue Growth su progetti e finanziamenti.
La logica di aggregazione evita doppie conteggiature dove necessario:
- dedupe per progetto per i totali Italia,
- dedupe per combinazioni regione/progetto dove richiesto,
- allocazione fondi per partnership (es. CORDIS) senza duplicazioni artificiali.
- Python 3.10+ (consigliato 3.11)
- pip aggiornato
Dipendenze principali usate dagli script:
pandasnumpyrequestsbeautifulsoup4pdfplumberrapidfuzzunidecodelxmlopenpyxlhtml5lib
Esempio setup rapido:
python -m venv .venv
.venv\Scripts\activate
pip install -U pip
pip install pandas numpy requests beautifulsoup4 pdfplumber rapidfuzz unidecode lxml openpyxl html5libopenAlex/
|-- README.md
|-- requirements.txt
|-- analyse_collab_oa.py
|-- openalex_istituzioni_italia_match.py
|-- get_institute_by_query.py
|-- growth_opencoesione.py
|-- growth_opencoesione_adv.py
|-- blue_cinea_italia.py
|-- cordis-HORIZONprojects-json/
| |-- cordis-analyser.py
| |-- project.json
| |-- organization.json
| |-- topics.json
| |-- legalBasis.json
| `-- outputs/
|-- open_coesione/
| `-- progetti_italy_opencoesione.csv
|-- example-vue-author/
| `-- openalex-vue-demo/
|-- outputs/
`-- supporto/
analyse_collab_oa.py: analisi collaborazioni OpenAlex e output JSON.openalex_istituzioni_italia_match.py: matching istituzioni italiane OpenAlex + arricchimento geografico e classificazione.get_institute_by_query.py: query helper su istituzioni OpenAlex.growth_opencoesione.py: analisi Blue Growth base su dataset OpenCoesione.growth_opencoesione_adv.py: versione avanzata di classificazione Blue su OpenCoesione (score/soglia piu flessibile).blue_cinea_italia.py: analisi Blue su file CINEA Excel con score e classi (CORE,EXTENDED,MIXED).cordis-HORIZONprojects-json/cordis-analyser.py: pipeline CORDIS (join JSON, filtro partner italiani, allocazione fondi, aggregazione regionale, metrica Blue).open_coesione/: dataset CSV di input OpenCoesione.cordis-HORIZONprojects-json/: dump JSON CORDIS Horizon + output analisi.outputs/: output aggregati prodotti da alcuni script.supporto/: file di supporto intermedi o ausiliari.example-vue-author/: demo front-end Vue per esplorazione dati.
python analyse_collab_oa.py --output-json openalex_full_results.json --verbosepython openalex_istituzioni_italia_match.pyOutput tipico:
openalex_italy_institutions_enriched.csv
python growth_opencoesione.py --csv open_coesione/progetti_italy_opencoesione.csv --out blue_growth_by_region.csv --focus-pugliapython growth_opencoesione_adv.py --csv open_coesione/progetti_italy_opencoesione.csv --threshold 1 --save-blue-projects supporto/progetti_blue_inclusivo.csvpython blue_cinea_italia.py --xlsx CINEA_ITALIA.xlsx --threshold 2 --out-regions cinea_blue_by_region_v2.csv --out-region-funding cinea_blue_by_region_funding_v2.csv --focus-pugliapython cordis-HORIZONprojects-json/cordis-analyser.py --data-dir cordis-HORIZONprojects-json --out-dir cordis-HORIZONprojects-json/outputs --prefix cordis_italy --threshold 2Output principali:
cordis_italy_partnerships.csvcordis_italy_by_region.csvcordis_italy_summary.json
- CORDIS: i fondi sono allocati a livello partnership (
ecContribution, fallbacknetEcContribution), quindi la somma Italia rappresenta la quota italiana nelle partnership. - OpenCoesione: parsing robusto header CSV con gestione BOM UTF-8.
- Blue Growth: classificazione a score con soglia configurabile (
--threshold), utile per passare da filtro inclusivo a filtro conservativo.
- Esegui prima gli script di estrazione/arricchimento (
openalex_istituzioni_italia_match.py, eventuali query OpenAlex). - Esegui analisi OpenCoesione/CINEA/CORDIS con stessa soglia Blue (
threshold) per confronti coerenti. - Confronta quote Blue Italia vs regioni usando i file
*_by_region.csve i summary JSON/CSV prodotti.