17
1 La qualità dell’informazione statistica nell’era digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Embed Size (px)

Citation preview

Page 1: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

1

La qualità dell’informazione statistica nell’era digitale

Luigi FabbrisUniversità di PadovaComstat

ISTITUTO NAZIONALEDI STATISTICA

Page 2: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

2

Schema della Schema della presentazionepresentazione

1. Premesse: big data; censimenti continui e anagrafi

2. Qualità dei dati statistici e qualità dei processi di formazione dei dati

3. Le competenze necessarie e la competenza da riconoscere agli statistici

4. Big data vs. big brother: riservatezza vs. democrazia nell’uso dei dati

5. Alcune conclusioni

Page 3: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

3

Big dataBig data Tanti dati, grazie all’informatizzazione dei servizi

sociali e degli scambi economici: dati amministrativi utilizzati a fini statistici (es: comunicazioni obbligatorie del Ministero del Lavoro)

Collegamento tra archivi per relazionare informazioni (es: censimento istituzioni non-profit: unite quasi 30 fonti amministrative o statistiche) o per fare archivi più grandi (es: anagrafe nazionale della popolazione)

Sistemi informativi invece di indagini statistiche (es: censimento continuo della popolazione)

Cambio epocale nella gestione dei dati statistici Nuovi rapporti tra cittadino/impresa/istituzione e informazione pubblica sistemi informativi e SISTAN

Page 4: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

4

Qualità dei dati statisticiQualità dei dati statistici Dimensioni: Validità del processo produttivo delle statistiche:

◦ Tempestività◦ Economicità

Affidabilità del processo: fornire informazioni attendibili Utilità: i dati prodotti devono essere coerenti con le attese

degli stakeholder (es: CNUIS)

Oppure, semplificando, Efficienza tecnico-economica del processo produttivo

(tempestività, economicità, affidabilità) Efficacia dei dati prodotti (utilità)

Page 5: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

5

Attendibilità dei dati Attendibilità dei dati Copertura dell’insieme atteso

◦ Completezza unitaria: tutti i record devono essere presenti◦ Copertura informativa: tutte le variabili inerenti ad un record

devono essere presenti◦ Copertura del fenomeno atteso: i dati registrati corrispondono

agli obiettivi conoscitivi Corrispondenza al vero delle informazioni riportate:

◦ Precisione campionaria: il campione deve essere selezionato secondo metodologia e sufficientemente ampio (si applica alle indagini statistiche)

◦ Accuratezza del microdato: i singoli dati registrati devono corrispondere al vero

◦ Accuratezza del macrodato: le statistiche pubblicate devono corrispondere al valore atteso (verosimili)

Page 6: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Completezza Completezza Affermazione: se i dati sono contenuti in una base

di dati informatica, sono perfetti. Niente di più sbagliato.

Esempio: nel 1981 si confrontarono i risultati del censimento della popolazione con i dati anagrafici: circa 1.500.000 italiani erano sfuggiti al censimento e all’anagrafe ne mancavano circa 930.000; dopo gli aggiustamenti, 2,7% mancava al censimento e un altro 2,7% mancava all’anagrafe.

Da 1991, l’Istat non ha più pubblicato i dati sul confronto anagrafe-censimento

Ogni statistica è affetta da errore, si può solo cercare di padroneggiare l’errore.

6

Page 7: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

7

Il Sistan: sistema glocalIl Sistan: sistema glocal Tanti produttori di dati: se i dati derivano dall’ambito locale,

devono transitare dall’Ufficio di statistica per una “certificazione” (validation)

Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in reti internazionali (UE, OECD, ….)

Ruolo fondamentale dell’Istat: ◦ Codifica dei processi di produzione: passare da record di eventi a record di

unità statistiche (es: occupati nelle CO)◦ Metadati, definizioni per analizzare e confrontare◦ Formazione dei certificatori di dati che passano attraverso il Sistan

Ruolo nuovo anche per l’accademia◦ Rimodellare le competenze degli statistici per i nuovi processi di produzione

dei dati, cultura della qualità del dato

Page 8: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

8

Progetto PLUG_INProgetto PLUG_IN PLUG_IN: Professional Life of University Graduates INformation system

OBIETTIVO Creare un prototipo di sistema informativo-statistico che

descrive carriera universitaria, storia lavorativa (CO) ed economica (UNIEMENS-INPS) dei laureati

Sistema informativo = sistema di indicatori statistici

OBIETTIVI Informare, ogni anno, sull’efficacia della formazione

acquisita dai laureati (valutazione corsi di studio) Misurare il valore sociale restituito dai laureati al mondo

del lavoro e della produzione (”quanto vale una laurea?”: orientamento “strategico”)

Page 9: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

9

Come è stato creato Come è stato creato Plug_InPlug_In

1. Convenzioni tra Università di Padova e Veneto Lavoro, tra UdP e Ministero del Lavoro, tra MinLavoro e INPS (problema di privacy nell’abbinamento dei record: record anonimizzati)

2. Estrazione dagli archivi universitari dell’annata 2008 di laureati dell’Università di Padova (N=11.770). Collegamento di archivi mediante il Codice Fiscale. È possibile che i laureati siano solo nell’archivio universitario, in questo archivio e in UNIEMENS-INPS, in questi due archivi e tra le CO.

3. Collegamento tra il campione di laureati dell’indagine Agorà dell’Università di Padova (n=4.500) e gli archivi delle CO e dell’INPS, al fine di stimare (per campione) l’attendibilità degli archivi amministrativi (CO e INPS)

Page 10: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Plug_In è formato da archivi Plug_In è formato da archivi amministrativiamministrativi

Dati universitari, 2008 CO – MinLavoro, 2008 Versamenti INPS, 2008

Versamenti INPS, 2009CO – MinLavoro, 2009

CO – MinLavoro, 2010 Versamenti INPS, 2010

Versamenti INPS, 2011CO – MinLavoro, 2010

CO – MinLavoro, 2017 Versamenti INPS, 2017

10 anni di linkagetra archiviper ognilaureato

::

Page 11: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

11

Alcune verifiche di Alcune verifiche di coperturacopertura

Gli 11.770 laureati sono stati identificati negli archivi delle CO, di UNIEMENS-INPS e Università:

CO+INPS: 6.823 Solo CO 555 Solo INPS 1.539 Né CO né INPS 2.853 Nessun archivio 832

(17,1%) Re-iscritti Università di PadovaCercano lavoro

(13,1%)Dipendenti INPS e altroLavoratori autonomiCollaboratori agricoliCollab. parasubordinati

(58,0%)Lavoratori dipendentiTirocinanti /stagiaires

(4,7%) Lavorava prima della laurea

(7,1%) Studenti iscritti a altra universitàLavorano in nero, all’estero per l’esteroMorti, usciti dal mercato, suore, ecc.Errori di sistema, rifiuto a collaborare

Page 12: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

12

Commenti all’esperimentoCommenti all’esperimento1. Nella migliore delle ipotesi, utilizzando tutte le basi

informative elementari, anche private, manca 7-9% dei laureati. È un angolo buio degli archivi da spiegare.

2. I database nascono come archivi amministrativi: ogni archivio ha proprie terminologie e classificazioni. L’unità statistica non è la persona, ma un atto amministrativo (es.: Come si definisce un occupato? Notevole differenza tra rilevazioni delle forze di lavoro e CO). È necessario trovare nuove definizioni.

3. All’università interessa sapere se i lavori sono “da laureati”. Non ce lo dicono le CO (a meno che….), si può saperlo dallo stipendio INPS (tuttavia……). Non è ancora possibile sostituire del tutto i dati statistici con quelli amministrativi.

Page 13: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

13

Le statistiche privateLe statistiche private La produzione di statistiche private si sta orientando

in modo simile a quello pubblico. Princìpi: Utilizzare in modo efficiente le informazioni interne

(sistemi informativi); Procurarsi le informazioni sul mercato attraverso la rete

di vendita e della distribuzione (osservazione indiretta); Va svolto solo un numero limitato di interventi mirati per

acquisire conoscenza diretta. Imperano, quindi, i princìpi che:

le informazioni devono costare tra poco e niente; Bisogna bilanciare osservazione diretta ed indiretta della

realtà che interessa.

Page 14: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Quindi….

Page 15: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

15

Professionalità dello Professionalità dello statisticostatistico

Il Sistan ha bisogno di disporre di produttori qualificati di dati (statistici) i quali devono essere in grado di garantire il sistema delle statistiche pubbliche:

Devono saper riconoscere la qualità dei dati (abitudine ad elaborare dati anche a livello periferico)

Devono aver interiorizzato la razionalità dei metadati. Una statistica è di qualità se è stata prodotta da un

sistema “in qualità” La formazione dei componenti gli Uffici di statistica può

essere la forma di certificazione della qualità del processo di produzione a livello locale

Per le statistiche “private” e per quelle “terze”, necessità di certificare i produttori: statistici certificati?

Page 16: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Il rischio Il rischio dell’autoreferenzialitàdell’autoreferenzialità

16

L’Istat ha saldamente in mano l’informazione statistica italiana e, giustamente, reclama l’indipendenza dell’informazione dall’uso.

Per questo, è necessario il contatto continuo con gli utenti (CNUIS) e con l’ente di vigilanza (COGIS)

La formazione universitaria degli statistici non si è riformata tenendo in conto il cambiamento epocale. Nelle università non s’insegna il metodo dell’indagine e quello dell’utilizzazione statistica di grandi basi di dati. Non si insegna ad utilizzare sia l’informazione diretta che quella indiretta.

Bisogno di riflettere, dialogando, con la società che utilizza i dati statistici.

Page 17: 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA

Grazieper l’attenzione