Metodologie e strumenti per l’analisi delle qualità dei dati
Roma, 12 marzo 2001
Obiettivi del progetto RAE
e qualità dei dati negli archivi amministrativi sulla base
dell’esperienza Unioncamere
F. Vernaci, P. Aimetti
Si tratta di un progetto promosso dall'AIPA nell’ambito delle iniziative tese:
Il “Repertorio Integrato degli Agenti Economici - RAE”
• alla semplificazione degli adempimenti amministrativi a carico degli operatori economici;
• al miglioramento qualitativo e quantitativo dei servizi offerti alle cittadini;
• alla razionalizzazione degli scambi informativi tra le amministrazioni.
migliorare l’interazione degli operatori economici (“Agenti”) con gli enti che offrono loro servizi amministrativi aumentare la qualità e la coerenza delle informazioni sulle imprese tramite un sistema informativo cooperativo tra gli enti con impatto minimo sulle procedure esistenticontribuire al progressivo allineamento dei dati comuni contenuti negli archivi amministrativi
Obiettivi del progetto RAE
Gli Enti interessati nella prima fase
AIPA Unioncamere Inps Inail
• per le Camere di commercio:- il Registro Imprese- il Repertorio delle notizie economico-amministrative (REA)
• per l'Istituto Nazionale della Previdenza Sociale:- l'archivio delle imprese non agricole con dipendenti- l'archivio delle imprese agricole con dipendenti- l'archivio dei committenti di collaborazioni coord. e continuative- l'archivio dei lavoratori autonomi "commercianti"- l'archivio dei lavoratori autonomi "artigiani"
• per l'INAIL:- l'archivio delle imprese aventi assicurati per infortuni sul lavoro.
Le fonti amministrative:
Agenti Economici RI REA INPS(DL)
INPS(ALTRI)
INAIL AT
A1 Imprese Agricole X X X
A2 Imprese non agric. con dipendenti (artigiane e non) X X X X X X
A3 Imprese artigiane senza dipendenti X X X X X
A4 Imprese non agric non artigiane senza dipendenti X X X X
B1 Enti non commerciali con dipendenti X X X X
B2 Enti non commerciali senza dipendenti X X
C1 Liberi professionisti con dipendenti X X X
C2 Liberi professionisti senza dipendenti X X
I “soggetti” interessati: gli Agenti Economici
Il progetto RAE: le componenti principali
L’analisi preliminare delle fontiLa costruzione dello stock iniziale degli
Agenti economiciLa creazione di un sistema di gestione degli
eventi
Gli Agenti di interesse del RAE possono essere individuati e descritti mediante un insieme di codici identificativi. .Ogni AE è infatti identificato in modo univoco dal suo codice fiscale .
La complessità della sua struttura e delle sue relazioni con gli ENTI è rappresentabile da un “grappolo” di codici identificativi: il codice fiscale (identificativo unico), i codici delle unità locali (RI/REA), i codici delle posizioni contributive (INPS) e i codici delle posizioni assicurative (Posizioni Assicurative Territoriali- INAIL)
IMPRESA(codice fiscale)
Unità Locali(codici UL)
Posizioni Contributive(matricole INPS)
Posizioni Assicurative(PAT- INAIL)
Le caratteristiche delle fonti utilizzate
Caratteri costitutivi ecodici identificativid’IMPRESACodice Fiscaleragione soc.,…(CODICI UL, MI, PAT)Foglio_1
Unità LocaleCodice Unità LocalCaratteri costitutivi
Caratteri di stato
Caratteri classificat
Foglio ULn
Unità LocaleCodice Unità LocaleCaratteri costitutivi
Caratteri di stato
Caratteri classificator
Foglio UL2
Unità Locale
Codice Unità LocaleCaratteri costitutivi
Caratteri di stato
Caratteri classificatori
Foglio UL1
Unità LocaleCodice Unità LocalCaratteri costitutivi
Caratteri di stato
Caratteri classificat
Foglio MIm
Unità LocaleCodice Unità LocaleCaratteri costitutivi
Caratteri di stato
Caratteri classificator
Foglio MI2
Posizione contributiva
Matricola INPS (MI)
Caratteri costitutivi
Caratteri di stato
Caratteri classificatori
Foglio MI1
Unità LocaleCodice Unità LocalCaratteri costitutivi
Caratteri di stato
Caratteri classificat
Foglio PATk
Unità LocaleCodice Unità LocaleCaratteri costitutivi
Caratteri di stato
Caratteri classificatori
Foglio PAT2
Posizione assicurativa
PATCaratteri costitutivi
Caratteri di stato
Caratteri classificatori
Foglio PAT1
Caratteri riassuntivid’IMPRESA (RI/REA)Caratteri di statoCaratteri classificatori
Foglio_1RI/REA
Caratteri riassuntivid’IMPRESA (INPS)Caratteri di statoCaratteri classificatori
Foglio_1INPS
Caratteri riassuntivid’IMPRESA (INAIL)Caratteri di statoCaratteri classificatori
Foglio_1INAIL
I caratteri anagrafici di impresa
La ricostruzione dello stock degli Agenti economici si ottiene secondo le seguenti fasi principali:il pre-trattamento delle fonti attraverso una serie di procedure di standardizzazione e normalizzazione delle informazioni;l’abbinamento delle fonti collegando tra loro tutti i record presenti nei diversi archivi e riconducibili a una stesso agente economico; l’analisi dei residui e attività di data cleaning;la produzione dello stock degli agenti economici.
Sistema di gestione del pregresso: la costruzione dello Stock iniziale
La creazione dello stock: le singole operazioni
1. Acquisizione e standardizzazione dei dati - costruzione dell’archivio con l’integrazione di tutte le informazioni relative ad ogni singolo record con dati INPS, INAIL, Registro Imprese; - i tracciati vengono resi il più possibile omogenei e confrontabili tra di loro.
2. Check e normalizzazione dei caratteri - monitoraggio della qualità e della copertura proprie di ciascuna fonte su una serie di campi ritenuti rilevanti; - ricodifica dei caratteri in modo univoco
3. Preclassificazione delle fonti - classificazione di ciascun record di ogni archivio in relazione al suo stato di attività, al settore di attività svolta e alla sua rilevanza economica o giuridica.
Pretrattamento delle fonti
La creazione dello stock: le singole operazioni
4. Ricostruzione degli abbinamenti noti- individuazione delle posizioni compresenti e invariate rispetto alle chiavi di abbinamento (codice fiscale, partita IVA, codici e matricole proprie degli archivi), creando per queste gli abbinamenti già ottenuti per il passato.
5. Linkage per chiavi certe (Codice Esatto)- l’operazione comprende tre distinte applicazioni per la ricerca di abbinamenti: - ricerca infrarchivi per codice esatto - ricerca interarchivi per codice esatto - ricerca interarchivi per codice fiscale parzialmente coincidente.
6. Linkage per codice a meno di un carattere- si cercano abbinamenti per codice fiscale e/o partita IVA coincidente per n-1 caratteri (nel caso del codice fiscale di persone fisiche si considerano solo i primi 11 caratteri) tra posizioni appartenenti ad archivi differenti.
Abbinamento delle fonti (1)
La creazione dello stock: le singole operazioni
7. Linkage probabilistico- ricorso a tecniche probabilistiche analizzando la somiglianza o coincidenza di una serie di indizi indipendenti quali la ragione sociale, la forma giuridica, l’indirizzo, l’attività economica svolta, le date di inizio e cessazione attività.
8. Trattamento grappoli complessi (tipo n-1)- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo n-1, se all’interno di uno stesso grappolo (e quindi per una stessa impresa) vi sono più codici di impresa
differenti
9. Trattamento grappoli complessi (tipo 1-n)- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo 1-n, quando avviene che uno stesso codice di impresa sia presente in più grappoli
Abbinamento delle fonti (2)
La creazione dello stock: le singole operazioni
10. Analisi dei residui non abbinati- valutazione della completezza del processo di abbinamento delle fonti analizzando i residui non abbinati per “spiegare” le cause del mancato abbinamento.
11. Analisi casistiche dubbie e definizione delle regole da seguire nella produzione del Repertorio integrato- riscontro di una serie di casistiche di non coerenza o apparente non compatibilità i cui
criteri di soluzione non appaiono scontati.
12. Restituzione agli enti fornitori del risultato delle procedure di abbinamento- ad ogni singolo ente fornitore sarà restituita la base dati di propria pertinenza arricchita dall’esito del processo di integrazione.
13. Produzione del Repertorio integrato degli agenti economici (stock)
Analisi dei residui e produzione del Repertorio integrato
Valutazioni sulla qualità degli archivi
amministrativi sulla base della
creazione dell’archivio
“Excelsior-REA” nel 1998
TAV. 1 - Consistenze delle fonti di input al 31.12.1997
Registro Imprese INPS INAIL TotaleUnità locali Pos. contributive Pos. assicurate
Attiva 5.200.045 1.671.315 2.976.527 9.847.887Inattiva 312.382 0 0 312.382Nuova nata 439.057 98.159 280.371 817.587Stato particolare (sospesa) 60.275 131.737 0 192.012Cessata (1) 275.920 39.802 381.884 697.606
Totale posizioni (record) trattate 6.287.679 1.941.013 3.638.782 11.867.474
NoteLa presenza di cessate serve a garantire una profondità storica a copertura dei disallineamenti tra le fonti
(1) Escluse cessate al 31-12
TAV. 2 - Copertura dei caratteri nelle forniture trattate: localizzazione
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
(1)Codice regione ISTAT 6.285.447 0 0 0Codice provincia ISTAT 0 0 543.794 3.637.895Sigla provincia 6.285.505 1.394.981 0 3.637.895Codice comune ISTAT 6.285.458 0 546.026 3.637.895Descrizione comune 6.285.447 1.394.986 0 3.638.227CAP 6.285.467 1.394.987 546.026 3.635.763
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
Localizzazione completa dopo normalizzazione
6.287.299 1.394.980 546.022 3.638.020
(1) La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997
TAV. 3 - Copertura dei caratteri nelle forniture trattate: indirizzo
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
Prefisso 6.071.686 1.333.300 0 0Toponimo 6.272.546 1.392.102 544.936 3.636.550Civico 5.590.925 1.214.860 0 0
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
NotaINPS Agricoltura e INAIL presentano un unico campo descrittivo dell'indirizzo
TAV. 4 - Copertura dei caratteri nelle forniture trattate: indirizzoDopo processo di standardizzazione degli indirizzi e normalizzazione del campo "prefisso"secondo la codifica del Registro Imprese
INPS Agricoltura INAILRegistro Imprese INPS standardizzata standardizzata
Unità locali Pos. contributive Pos. contributive Pos. assicurate
Prefisso 6.071.686 1.333.300 435.164 3.456.636Toponimo 6.272.546 1.392.102 544.936 3.636.550Civico 5.590.925 1.214.860 376.305 3.225.176
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
TAV. 5 - Copertura dei caratteri nelle forniture trattate: forma giuridica
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
Numero forme usate 60 162 0 0
Con forma giuridica 6.287.675 1.382.904 0 0di cui ditta individuale 3.967.871 496.427 s.r.l. 759.101 276.759 s.n.c. 728.804 247.555 s.a.s 444.747 99.282 s.p.a. 129.421 40.680 s.c.a.r.l. 128.565 20.333 altro 129.170 213.951
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
NotaIl campo forma giuridica della fonte INPS si esprime come stringa secondo più di 3.700 modalità diversenon sempre espressione di reali forme giuridiche; tra le 162 modalità con frequenza >= 50, solo 74 sono riconducibilia una forma giuridica secondo la codifica del Registro ImpreseINPS Agricoltura e INAIL non presentano una codifica propria della forma giuridica
TAV. 6 - Copertura dei caratteri nelle forniture trattate: forma giuridicaDopo trattamento della ragione sociale per l'assegnazione della forma giuridica secondo codificastandardizzata sulla base della classificazione del Registro Imprese
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
Numero forme usate 60 10 10 10
Con forma giuridica 6.287.679 1.394.987 546.026 3.638.782di cui ditta individuale 3.967.871 576.234 437.434 2.064.133 s.r.l. 759.101 278.575 540.505 s.n.c. 728.804 248.624 517.015 s.a.s 444.747 99.709 209.769 s.p.a. 129.421 40.936 103.589 s.c.a.r.l. 128.565 29.393 50.087 altro 129.170 121.516 108.592 153.684
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
TAV. 7 - Copertura dei caratteri nelle forniture trattate: date
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
Data iscrizione 6.247.349Data inizio 5.434.290 1.394.981 3.628.218Data cessazione (1) 572.733 261.213 534.543Data fallimento 37.390Data liquidazione 114.400Data iscrizione Albo Artigiani 1.651.446Data cessazione Albo Artigiani 180.411
Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782
NotaLa fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997 e non prevedevala presenza di date di inizio o cessazione dell'attività
(1) Per INPS cessazione o sospensione di attività
TAV. 15 - Esito delle procedure di abbinamento
Fase 1 Fase 2 Fase 3 Fase 4 Fase 5
Abbinamento delle tre fonti 952.845 1.088.902 1.089.092 1.090.986 1.096.144Abbinamento di due fonti 1.483.816 1.698.325 1.699.297 1.701.442 1.702.461Fonti non abbinate 4.777.983 3.285.766 3.282.643 3.271.578 3.237.592 di cui residui RI 3.411.893 2.883.347 2.881.953 2.876.571 2.864.821 residui INPS 749.378 110.609 109.327 106.081 100.557 residui INAIL 616.712 291.810 291.363 288.926 272.214
Totale grappoli creati 7.214.644 6.072.993 6.071.032 6.064.006 6.036.197
NotaFase 1: recupero degli abbinamenti storici derivanti dalle precedenti annualitàFase 2: ricerca di abbinamenti su codici chiave (codice fiscale e/o partita IVA) esattamente coincidentiFase 3: ricerca di abbinamenti su codici chiave coincidenti a meno di 1 carattere la cui validazione è stata confermata da circa 4.400 controlli puntualiFase 4: ricerca di abbinamenti su criteri probabilistici di coincidenza di attributi la cui validazione è stata confermata da circa 14.000 controlli puntualiFase 5: controllo puntuale di circa 45.000 grappoli complessi individuati per la presenza chiavi diverse (codice fiscale, numero di iscrizione al Registro Imprese) nello stesso grappolo
TAV. 16 - Analisi dei residui non abbinati
Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate
Residui spiegati 2.756.131 4.306 0 144.869 non attivi 634.103 4.306 0 144.869
fuori campo osserv. altre fonti 2.122.028
Residui non spiegati 108.690 24.816 71.435 127.345
Totale residui 2.864.821 29.122 71.435 272.214
NotaI residui "non attivi" (posizioni cessate, inattive o nuove iscrizioni) si considerano "spiegati" in quanto potrebberoriflettere un disallineamento temporale tra le fontiTra i residui sicuramente attivi del Registro Imprese si considerano "spiegati" in quanto esclusi dal campo diosservazione delle fonti INPS e INAIL i grappoli privi di addetti dipendenti e non artigiani
TAV. 17 - Confronto tra i caratteri delle diverse fonti: localizzazioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi Uguale per Uguale per Diverso Totalele 3 fonti 2 fonti grappoli
Copertura delle fonti
Indizio presente in tutte le fonti 576.369 27.175 466 604.010
Indizio presente in 2 fonti 128 5 133 Registro Imprese assente 125 5 130
INPS assente 2 2
INAIL assente 1 1
Totale grappoli (imprese) 576.369 27.303 471 604.143
TAV. 18 - Confronto tra i caratteri delle diverse fonti: indirizzoSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli
Copertura delle fonti
Indizio presente in tutte le fonti 286.331 209.896 105.218 601.445
Indizio presente in 2 fonti 1.339 1.114 2.453 Registro Imprese assente 519 618 1.137
INPS assente 110 113 223
INAIL assente 710 383 1.093
Indizio presente in 1 fonte 144 144 solo Registro Imprese 69 69
solo INPS 32 32
solo INAIL 43 43
Indizio assente in tutte le fonti 101 101
Totale grappoli (imprese) 286.331 211.235 106.332 245 604.143
NotaIl confronto di presenza viene fatto sul toponimo che risulta essere il campo più completoIl confronto di coincidenza viene fatto valutando l'uguaglianza di stringhe, naturalmente in presenza di unprocesso di normalizzazione dei toponimi tra le fonti migliorerebbe i risultati ottenuti
TAV. 19 - Confronto tra i caratteri delle diverse fonti: forma giuridicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli
Copertura delle fonti
Indizio significativo per tutte le fonti 232.250 18.524 518 251.292
Indizio significativo per 2 fonti 343.901 3.762 347.663 INPS generica 1.209 400 1.609
INAIL generica 342.692 3.362 346.054
Indizio significativo solo per RI 5.188 5.188
Totale grappoli (imprese) 232.250 362.425 4.280 5.188 604.143
NotaDurante la normalizzazione della forma giuridica di INPS e INAIL quando questa non è riconducibile a unformato specifico viene assegnata alla classe residuale altre forme; in questi casi il confronto di coincidenzadell'indizio non avrebbe senso, pertanto la classe residuale altre forme è stata considerata non confrontabile
TAV. 20 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Confronto per Confronto perdata inizio RI data iscrizione RI
Copertura delle fonti
Indizio presente in tutte le fonti 517.620 603.370
Indizio presente in 2 fonti 86.520 773 Registro Imprese assente 86.491 741
INPS assente 3 3
INAIL assente 26 29
Indizio presente in 1 fonte 3 solo INPS 3
Totale grappoli (imprese) 604.143 604.143
TAV. 21 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Confronto per Confronto perConfronto degli indizi per coppia di data inizio RI data iscrizione RIfonte (RI = base)
Data inizio INPS precede RI 83.834 131.923Data inizio INPS segue RI 433.812 471.476Non confrontabile 86.497 744 data RI assente 86.494 741
data INPS assente 3 3
Data inizio INAIL precede RI 131.889 252.542Data inizio INAIL segue RI 385.734 350.831Non confrontabile 86.520 770 data RI assente 86.491 741
data INAIL assente 26 29
date assenti entrambe 3
TAV. 22 - Confronto tra i caratteri delle diverse fonti: attività economicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
TotaleCopertura delle fonti grappoli
Indizio presente in tutte le fonti 582.270
Indizio presente in 2 fonti 21.873 Registro Imprese assente 21.826
INAIL assente 47
Totale grappoli (imprese) 604.143
TAV. 23 - Confronto tra i caratteri delle diverse fonti: attività economicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
TotaleCoincidenza degli indizi grappoli
Codice RI confermato da INPS e/o INAIL 531.693Codice INPS e INAIL diverso da codice RI 21.087Codice INPS e/o INAIL con codice RI assente 21.826Codice RI, INPS e INAIL diversi tra loro 29.537
Totale grappoli (imprese) 604.143
TAV. 24 - Confronto tra i caratteri delle diverse fonti: codice fiscaleSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli
Copertura delle fonti
Indizio presente in tutte le fonti 533.220 29.480 428 563.128
Indizio presente in 2 fonti 39.639 1.290 40.929 Registro Imprese assente 33.597 1.120 34.717
INPS assente 81 3 84
INAIL assente 5.961 167 6.128
Indizio presente in 1 fonte 86 86 solo Registro Imprese 1 1
solo INPS 84 84
solo INAIL 1 1
Totale grappoli (imprese) 533.220 69.119 1.718 86 604.143
NotaPoiché INPS non differenzia in due campi il codice fiscale e la partita IVA il confronto viene fatto sul codice fiscale