Upload
ferro-lorenzi
View
218
Download
5
Embed Size (px)
Citation preview
1
La qualità dell’informazione statistica nell’era digitale
Luigi FabbrisUniversità di PadovaComstat
ISTITUTO NAZIONALEDI STATISTICA
2
Schema della Schema della presentazionepresentazione
1. Premesse: big data; censimenti continui e anagrafi
2. Qualità dei dati statistici e qualità dei processi di formazione dei dati
3. Le competenze necessarie e la competenza da riconoscere agli statistici
4. Big data vs. big brother: riservatezza vs. democrazia nell’uso dei dati
5. Alcune conclusioni
3
Big dataBig data Tanti dati, grazie all’informatizzazione dei servizi
sociali e degli scambi economici: dati amministrativi utilizzati a fini statistici (es: comunicazioni obbligatorie del Ministero del Lavoro)
Collegamento tra archivi per relazionare informazioni (es: censimento istituzioni non-profit: unite quasi 30 fonti amministrative o statistiche) o per fare archivi più grandi (es: anagrafe nazionale della popolazione)
Sistemi informativi invece di indagini statistiche (es: censimento continuo della popolazione)
Cambio epocale nella gestione dei dati statistici Nuovi rapporti tra cittadino/impresa/istituzione e informazione pubblica sistemi informativi e SISTAN
4
Qualità dei dati statisticiQualità dei dati statistici Dimensioni: Validità del processo produttivo delle statistiche:
◦ Tempestività◦ Economicità
Affidabilità del processo: fornire informazioni attendibili Utilità: i dati prodotti devono essere coerenti con le attese
degli stakeholder (es: CNUIS)
Oppure, semplificando, Efficienza tecnico-economica del processo produttivo
(tempestività, economicità, affidabilità) Efficacia dei dati prodotti (utilità)
5
Attendibilità dei dati Attendibilità dei dati Copertura dell’insieme atteso
◦ Completezza unitaria: tutti i record devono essere presenti◦ Copertura informativa: tutte le variabili inerenti ad un record
devono essere presenti◦ Copertura del fenomeno atteso: i dati registrati corrispondono
agli obiettivi conoscitivi Corrispondenza al vero delle informazioni riportate:
◦ Precisione campionaria: il campione deve essere selezionato secondo metodologia e sufficientemente ampio (si applica alle indagini statistiche)
◦ Accuratezza del microdato: i singoli dati registrati devono corrispondere al vero
◦ Accuratezza del macrodato: le statistiche pubblicate devono corrispondere al valore atteso (verosimili)
Completezza Completezza Affermazione: se i dati sono contenuti in una base
di dati informatica, sono perfetti. Niente di più sbagliato.
Esempio: nel 1981 si confrontarono i risultati del censimento della popolazione con i dati anagrafici: circa 1.500.000 italiani erano sfuggiti al censimento e all’anagrafe ne mancavano circa 930.000; dopo gli aggiustamenti, 2,7% mancava al censimento e un altro 2,7% mancava all’anagrafe.
Da 1991, l’Istat non ha più pubblicato i dati sul confronto anagrafe-censimento
Ogni statistica è affetta da errore, si può solo cercare di padroneggiare l’errore.
6
7
Il Sistan: sistema glocalIl Sistan: sistema glocal Tanti produttori di dati: se i dati derivano dall’ambito locale,
devono transitare dall’Ufficio di statistica per una “certificazione” (validation)
Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in reti internazionali (UE, OECD, ….)
Ruolo fondamentale dell’Istat: ◦ Codifica dei processi di produzione: passare da record di eventi a record di
unità statistiche (es: occupati nelle CO)◦ Metadati, definizioni per analizzare e confrontare◦ Formazione dei certificatori di dati che passano attraverso il Sistan
Ruolo nuovo anche per l’accademia◦ Rimodellare le competenze degli statistici per i nuovi processi di produzione
dei dati, cultura della qualità del dato
8
Progetto PLUG_INProgetto PLUG_IN PLUG_IN: Professional Life of University Graduates INformation system
OBIETTIVO Creare un prototipo di sistema informativo-statistico che
descrive carriera universitaria, storia lavorativa (CO) ed economica (UNIEMENS-INPS) dei laureati
Sistema informativo = sistema di indicatori statistici
OBIETTIVI Informare, ogni anno, sull’efficacia della formazione
acquisita dai laureati (valutazione corsi di studio) Misurare il valore sociale restituito dai laureati al mondo
del lavoro e della produzione (”quanto vale una laurea?”: orientamento “strategico”)
9
Come è stato creato Come è stato creato Plug_InPlug_In
1. Convenzioni tra Università di Padova e Veneto Lavoro, tra UdP e Ministero del Lavoro, tra MinLavoro e INPS (problema di privacy nell’abbinamento dei record: record anonimizzati)
2. Estrazione dagli archivi universitari dell’annata 2008 di laureati dell’Università di Padova (N=11.770). Collegamento di archivi mediante il Codice Fiscale. È possibile che i laureati siano solo nell’archivio universitario, in questo archivio e in UNIEMENS-INPS, in questi due archivi e tra le CO.
3. Collegamento tra il campione di laureati dell’indagine Agorà dell’Università di Padova (n=4.500) e gli archivi delle CO e dell’INPS, al fine di stimare (per campione) l’attendibilità degli archivi amministrativi (CO e INPS)
Plug_In è formato da archivi Plug_In è formato da archivi amministrativiamministrativi
Dati universitari, 2008 CO – MinLavoro, 2008 Versamenti INPS, 2008
Versamenti INPS, 2009CO – MinLavoro, 2009
CO – MinLavoro, 2010 Versamenti INPS, 2010
Versamenti INPS, 2011CO – MinLavoro, 2010
CO – MinLavoro, 2017 Versamenti INPS, 2017
10 anni di linkagetra archiviper ognilaureato
::
11
Alcune verifiche di Alcune verifiche di coperturacopertura
Gli 11.770 laureati sono stati identificati negli archivi delle CO, di UNIEMENS-INPS e Università:
CO+INPS: 6.823 Solo CO 555 Solo INPS 1.539 Né CO né INPS 2.853 Nessun archivio 832
(17,1%) Re-iscritti Università di PadovaCercano lavoro
(13,1%)Dipendenti INPS e altroLavoratori autonomiCollaboratori agricoliCollab. parasubordinati
(58,0%)Lavoratori dipendentiTirocinanti /stagiaires
(4,7%) Lavorava prima della laurea
(7,1%) Studenti iscritti a altra universitàLavorano in nero, all’estero per l’esteroMorti, usciti dal mercato, suore, ecc.Errori di sistema, rifiuto a collaborare
12
Commenti all’esperimentoCommenti all’esperimento1. Nella migliore delle ipotesi, utilizzando tutte le basi
informative elementari, anche private, manca 7-9% dei laureati. È un angolo buio degli archivi da spiegare.
2. I database nascono come archivi amministrativi: ogni archivio ha proprie terminologie e classificazioni. L’unità statistica non è la persona, ma un atto amministrativo (es.: Come si definisce un occupato? Notevole differenza tra rilevazioni delle forze di lavoro e CO). È necessario trovare nuove definizioni.
3. All’università interessa sapere se i lavori sono “da laureati”. Non ce lo dicono le CO (a meno che….), si può saperlo dallo stipendio INPS (tuttavia……). Non è ancora possibile sostituire del tutto i dati statistici con quelli amministrativi.
13
Le statistiche privateLe statistiche private La produzione di statistiche private si sta orientando
in modo simile a quello pubblico. Princìpi: Utilizzare in modo efficiente le informazioni interne
(sistemi informativi); Procurarsi le informazioni sul mercato attraverso la rete
di vendita e della distribuzione (osservazione indiretta); Va svolto solo un numero limitato di interventi mirati per
acquisire conoscenza diretta. Imperano, quindi, i princìpi che:
le informazioni devono costare tra poco e niente; Bisogna bilanciare osservazione diretta ed indiretta della
realtà che interessa.
Quindi….
15
Professionalità dello Professionalità dello statisticostatistico
Il Sistan ha bisogno di disporre di produttori qualificati di dati (statistici) i quali devono essere in grado di garantire il sistema delle statistiche pubbliche:
Devono saper riconoscere la qualità dei dati (abitudine ad elaborare dati anche a livello periferico)
Devono aver interiorizzato la razionalità dei metadati. Una statistica è di qualità se è stata prodotta da un
sistema “in qualità” La formazione dei componenti gli Uffici di statistica può
essere la forma di certificazione della qualità del processo di produzione a livello locale
Per le statistiche “private” e per quelle “terze”, necessità di certificare i produttori: statistici certificati?
Il rischio Il rischio dell’autoreferenzialitàdell’autoreferenzialità
16
L’Istat ha saldamente in mano l’informazione statistica italiana e, giustamente, reclama l’indipendenza dell’informazione dall’uso.
Per questo, è necessario il contatto continuo con gli utenti (CNUIS) e con l’ente di vigilanza (COGIS)
La formazione universitaria degli statistici non si è riformata tenendo in conto il cambiamento epocale. Nelle università non s’insegna il metodo dell’indagine e quello dell’utilizzazione statistica di grandi basi di dati. Non si insegna ad utilizzare sia l’informazione diretta che quella indiretta.
Bisogno di riflettere, dialogando, con la società che utilizza i dati statistici.
Grazieper l’attenzione