19
Sistemi Informativi Statistici per la conoscenza della realtà socio-economica della città di Milano: il progetto AMeRIcA Mario Mezzanzanica Biancamaria Zavanella Flavio Necchi [email protected] [email protected] [email protected] Dipartimento di scienze statistiche, Comune di Milano Facoltà di scienze statistiche Settore Statistica Università di Milano Bicocca Servizio Statistiche Economiche Via Bicocca degli Arcimboldi, 8 via Duccio di Boninsegna, 21 20126 Milano 20145 Milano Abstract Nel presente lavoro viene presentato un approccio metodologico per lo sviluppo di un Sistema informativo Statistico-SIS alimentato da dati provenienti da archivi amministrativi di Pubbliche Amministrazioni. Tali archivi costituiscono una ricca sorgente di informazioni, ma per renderli utili quali dati statistici al fine di realizzare analisi di supporto decisionale devono essere “messi in qualità” e riorganizzati. Gli errori e le incompatibilità dei dati amministrativi sono abitualmente non evidenziati nell’uso amministrativo quotidiano effettuato dagli operatori dei servizi amministrativi delle Pubbliche Amministrazioni e devono essere identificati e gestiti prima di procedere ad analisi aggregate. L’approccio metodologico della proposta evidenzia gli aspetti di base per la costruzione di un SIS che utilizza come fonti sorgenti dati amministrativi: disegno di un modello integrato per la gestione di differenti e eterogenee basi di dati amministrative, implementazione di un modello per la qualità dei dati, rimozione di errori che potrebbero avere impatto negativo sulle analisi statistiche, disegno del data warehouse per le analisi statistiche, disegno del modello multidimensionale del data base da utilizzarsi per lo sviluppo di indicatori di supporto decisionale. Viene presentato uno studio di caso, il progetto AMeRIcA, dove l’approccio metodologico è applicato alle basi di dati amministrative dell’anagrafe del Comune di Milano e degli archivi fiscali della Agenzia delle Entrate del Ministero delle Finanze. Si mostra inoltre un primo approccio all’integrazione degli archivi dei Centri per l’Impiego della Provincia di Milano

Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

Embed Size (px)

DESCRIPTION

Sistemi Informativi Statistici per la conoscenza della realtà socio-economica della città di Milano: il progetto AMeRIcA

Citation preview

Page 1: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

Sistemi Informativi Statistici per la conoscenza della

realtà socio-economica della città di Milano:

il progetto AMeRIcA

Mario Mezzanzanica Biancamaria Zavanella Flavio Necchi

[email protected] [email protected] [email protected]

Dipartimento di scienze statistiche, Comune di Milano

Facoltà di scienze statistiche Settore Statistica

Università di Milano Bicocca Servizio Statistiche Economiche

Via Bicocca degli Arcimboldi, 8 via Duccio di Boninsegna, 21

20126 Milano 20145 Milano

Abstract

Nel presente lavoro viene presentato un approccio metodologico per lo sviluppo di un Sistema

informativo Statistico-SIS alimentato da dati provenienti da archivi amministrativi di Pubbliche

Amministrazioni. Tali archivi costituiscono una ricca sorgente di informazioni, ma per renderli utili

quali dati statistici al fine di realizzare analisi di supporto decisionale devono essere “messi in

qualità” e riorganizzati. Gli errori e le incompatibilità dei dati amministrativi sono abitualmente non

evidenziati nell’uso amministrativo quotidiano effettuato dagli operatori dei servizi amministrativi

delle Pubbliche Amministrazioni e devono essere identificati e gestiti prima di procedere ad analisi

aggregate. L’approccio metodologico della proposta evidenzia gli aspetti di base per la costruzione

di un SIS che utilizza come fonti sorgenti dati amministrativi: disegno di un modello integrato per la

gestione di differenti e eterogenee basi di dati amministrative, implementazione di un modello per

la qualità dei dati, rimozione di errori che potrebbero avere impatto negativo sulle analisi statistiche,

disegno del data warehouse per le analisi statistiche, disegno del modello multidimensionale del

data base da utilizzarsi per lo sviluppo di indicatori di supporto decisionale. Viene presentato uno

studio di caso, il progetto AMeRIcA, dove l’approccio metodologico è applicato alle basi di dati

amministrative dell’anagrafe del Comune di Milano e degli archivi fiscali della Agenzia delle

Entrate del Ministero delle Finanze. Si mostra inoltre un primo approccio all’integrazione degli

archivi dei Centri per l’Impiego della Provincia di Milano

Page 2: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

Il progetto AMeRIcA 1

Il progetto AMeRIcA rappresenta un esempio di Sistema informativo statistico, nel quale si

sperimenta l’estensione al settore amministrativo delle tecniche di analisi dei dati a fini decisionali,

con la possibilità di integrare ed analizzare diversi archivi, provenienti da database di enti

amministrativi e tributari. I risultati del progetto dimostrano un elevato potenziale informativo, sia a

livello descrittivo del contesto milanese sia come supporto delle politiche decisionali comunali.

Il progetto AMeRIcA nasce dall’esigenza del comune di Milano di ricavare informazioni relative

alle condizioni reddituali dei suoi cittadini, al fine di supportare decisioni politico-amministrative

riguardanti il contesto socio-economico milanese; esperienze estere hanno dimostrato che l’utilizzo

di banche dati di tipo fiscale e anagrafico, opportunamente integrate, possono consentire di ottenere

informazioni molto ricche su tale argomento. Per rispondere alle richieste del Comune di Milano, il

Dipartimento di Statistica dell’Università di Milano Bicocca ha gettato le basi di un datawarehouse,

nel quale sono stati integrati i dati degli archivi dell’Anagrafe comunale milanese e dell’Agenzia

delle Entrate relativi ai medesimi soggetti.

Grazie all’integrazione di questi dati, è ora possibile, nel pieno rispetto della privacy, avere

informazioni dettagliate e precise sul reddito dichiarato dai cittadini, accompagnate da informazioni

sulle variabili anagrafiche che li caratterizzano. Fino ad ora, gli unici dati a disposizione in tale

ambito provenivano da indagini campionarie, la cui significatività si abbassa notevolmente quando

vengono indagati ambiti territoriali piccoli; pertanto questo progetto è in grado di fornire dati di

interesse, sia dal punto di vista delle politiche amministrative sia da quello delle analisi statistiche

rese in tal modo possibili.

Anagrafe del Comune di Milano

I dati anagrafici estratti dal Comune di Milano si riferiscono sia ai cittadini residenti,

successivamente identificati come “attivi”, che ai cittadini iscritti alla lista AIRE2. Allo stato attuale

dei lavori, il Data Warehouse contiene i dati relativi agli anni 2000, 2001, 2002 e 2003, ma si

prevede un continuo aggiornamento della base di dati anche per gli anni successivi.

Per ciascun anno, l’estrazione dall’Anagrafe di Milano avviene in data 31 dicembre e rappresenta

una fotografia dello stock dei cittadini residenti a tale data. Operando in questo modo vengono

1 Anagrafe Milanese e Redditi Individuali con Archivio

2 L’AIRE (Anagrafe degli Italiani Residenti all’Estero) è l’anagrafe della popolazione italiana residenti all’estero

Page 3: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

selezionati solo i cittadini presenti, tralasciando così tutti i movimenti demografici avvenuti durante

il corso dell’anno. Un confronto fra le diverse fotografie fornisce comunque la possibilità di

ricavare dati anche su coloro che, durante il corso dell’anno in esame, sono usciti perché emigrati o

perché deceduti. Considerazione analoga può essere fatta anche per i cittadini in entrata.

Agenzia delle Entrate

I dati forniti dall’Agenzia delle Entrate ed estratti a partire dalla lista dei residenti nel Comune di

Milano fanno riferimento solo alle persone fisiche; i modelli fiscali presenti sono quindi il Modello

Unico, il Modello 730 e i quadri SA, per la maggior parte estrapolati dal Modello 770.

Gli anni a disposizione sono il 2000, 2001, 2002 e 2003, caricati e puliti nel Data Warehouse

AMeRIcA.

Il Modello 730

Il requisito fondamentale per poter compilare il Modello 730 è quello di non possedere redditi

provenienti da lavoro autonomo o redditi da imprese. Generalmente è quindi compilato da coloro

che possiedono un lavoro dipendente. Il 730 è preferito per la maggiore semplicità di compilazione

e per la possibilità di ricevere in tempi più brevi eventuali crediti d’imposta.

Il Modello Unico

Il Modello di dichiarazione UNICO viene presentato da coloro che hanno prodotto:

• redditi da lavoro autonomo perché possessori di partita IVA;

• redditi d’impresa, anche in forma di partecipazione;

• redditi derivanti dall’esercizio di arti e professioni abituali, anche in forma associata;

• solo redditi patrimoniali e non percepiscono un reddito da lavoro dipendente.

Modello 770 - Quadro SA

Il Quadro SA si trova all’interno del modello 770. Viene compilato dai sostituti d’imposta, ovvero

da coloro che hanno corrisposto somme o valori soggetti a ritenuta alla fonte e/o contributi

previdenziali e assistenziali dovuti all’INPS e/o premi assicurativi dovuti all’INAIL. Il Quadro SA

viene quindi utilizzato per indicare l’elenco dei soggetti ai quali sono stati corrisposti, nell’anno di

imposta considerato, redditi da lavoro dipendente e assimilati. In particolare, il sostituto d’imposta

(datore di lavoro, ente pensionistico, etc.) è chi, per legge, sostituisce in tutto o in parte il

Page 4: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

contribuente (sostituito) nei rapporti con l’Amministrazione finanziaria, trattenendo le imposte

dovute dai compensi, salari, pensioni o altri redditi erogati e versandole successivamente allo Stato.

Sistemi informativi statistici e uso statistico dei dati amministrativi

Come si è detto, il progetto AMeRIcA è nato dall’iniziativa del Comune di Milano; infatti, la

pubblica amministrazione, in un momento di profondi cambiamenti istituzionali e organizzativi, ha

bisogno di un sistema informativo che permetta di prendere decisioni con rapidità, basandosi sulla

conoscenza approfondita dei fenomeni di interesse. In tale contesto assume un ruolo determinante la

creazione di un Sistema Informativo Statistico (SIS), orientato alla raccolta, all’archiviazione, alla

trasformazione ed alla distribuzione dell’informazione statistica.

Gli archivi amministrativi costituiscono lo schema di memoria dei processi attuati da sistemi

gestionali amministrativi e sono caratterizzati in modo diverso in funzione del contenuto

informativo gestito, a seconda del grado di strutturazione interna, delle modalità di gestione e delle

motivazioni che hanno portato alla loro formazione. Il sistema informativo statistico recupera i dati

in uscita da quello amministrativo-gestionale e li rielabora con finalità di tipo conoscitivo,

esplorativo, di controllo e valutazione.

Il sistema informativo ha quindi due finalità principali:

• supportare i processi decisionali attraverso la raccolta, l’analisi e l’elaborazione delle

informazioni e la costruzione di indicatori direzionali;

• ritornare le informazioni al sistema gestionale per consentire l’aggiornamento e l’evoluzione

nel tempo.

Un sistema informativo statistico deve rispondere ad esigenze di affidabilità, imparzialità,

pertinenza, tempestività, tutela delle riservatezza, trasparenza ed efficienza.

Tuttavia, le finalità di un SIS possono andare anche molto al di la dei citati scopi di supporto alle

politiche. Infatti, se l’integrazione viene effettuata con modalità non puramente informatiche, ma in

un ottica di vera e propria formazione di dati statistici, le informazioni provenienti da un SIS

possono rendere possibili analisi statistiche prima impossibili.

Ad esempio, i dati contenuti in AMeRIcA sono di grande interesse per l’analisi dei redditi a livello

comunale, ossia a un livello di granularità territoriale non raggiungibile utilizzando le fonti

campionarie prima disponibili. Inoltre, i dati di AMeRIcA rendono possibile studiare sia i redditi

individuali che quelli familiari, infatti tramite le informazioni dell’anagrafe si possono ricostruire le

famiglie, delle quali si conoscono tutte le caratteristiche anagrafiche (composizione, età e genere dei

Page 5: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

componenti, nazionalità, ecc.). Ma ciò non basta, in AMeRIcA si trovano anche informazioni sulle

tipologie di reddito percepite dai cittadini (redditi da lavoro dipendente, redditi patrimoniali ecc.),

accoppiate con le caratteristiche di coloro che percepiscono i diversi tipi di reddito. Si deve anche

notare, che per ora si dispone già di quattro anni di dati, ma la serie storica iniziata crescerà nel

tempo, rendendo possibili anche analisi di tipo dinamico.

Infine, si deve sottolineare che le possibilità di analisi statistiche aumentano a dismisura se si

formula l’ipotesi di integrare ulteriormente AMeRIcA con dati provenienti da altre fonti (INPS,

INAIL; Centri per l’impiego, ecc.), in tal modo si disporrebbe, infatti, di un quadro economico-

sociale dei cittadini milanesi, che renderebbe possibili analisi prima impensabili e interventi di

politica sociale estremamente mirate ed efficaci.

Sistema Informativo Statistico per il supporto decisionale

Come già detto, le basi dati dei sistemi di gestione di servizi amministrativi sono utilizzate come

fonti sorgenti nei sistemi informativi statistici. Le informazioni in essi contenute, dopo una fase di

estrazione, pulizia e controllo, vengono integrate e riorganizzate all’interno di un datawarehouse, in

modo che siano effettuabili attività di analisi finalizzate in particolare a migliorare la conoscenza

della realtà ed il supporto alle decisioni. Il sistema informativo così ottenuto acquisisce da un lato la

funzione di sistema di “retroazione e controllo” rispetto al sistema amministrativo, cioè suggerisce

delle regole di organizzazione delle informazioni e dei dati utili al miglioramento del sistema

amministrativo e dall’altro diventa uno strumento di rilevanza per i decisori in quanto contiene

volumi di dati con livelli di copertura molto elevata o “totale” della popolazione di riferimento.

Questo fatto costituisce una risposta per i decisori (responsabili e dirigenti di istituzioni) che, in un

momento di profondi cambiamenti istituzionali e organizzativi, hanno bisogno di migliorare

puntualmente la conoscenza della realtà per intervenire nel prendere decisioni con rapidità in merito

a politiche di sviluppo degli interventi di natura economica e sociale.

In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico

(SIS) inteso come un sistema informativo di tipo non gestionale a supporto di decisioni,

monitoraggio e controllo; è quindi un sistema informativo orientato alla raccolta, all’archiviazione,

alla trasformazione ed alla distribuzione dell’informazione statistica.

Un requisito essenziale del sistema informativo statistico è rappresentato dalla capacità di

rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela della

riservatezza, trasparenza ed efficienza.

Page 6: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

Metodologia e modellazione di un SIS

La metodologia di progettazione di un SIS prevede fasi distinte e indipendenti: dalla raccolta e

analisi dei requisiti utente alla definizione degli indicatori statistici, passando per l’analisi delle fonti

informative, la progettazione delle basi dati, il processo di trasformazione e trattamento delle

informazioni, la definizione di un modello multidimensionale per l’analisi dei dati per il supporto

direzionale. Un’importante caratteristica del SIS consiste nella sua capacità di evolvere

dinamicamente nel tempo al momento dell’integrazione della base dati con una nuova fonte

informativa, sia essa un aggiornamento di un archivio già integrato o un nuovo insieme di dati.

Le informazioni che alimentano un SIS sono raccolte e acquisite tramite un tracciato record

prestabilito ma del tutto destrutturato; tale fatto introduce ridondanza all’interno dei dati e implica

una difficile integrazione data anche dalla diversa formattazione degli stessi dati. Si procede

pertanto ad una operazione preliminare che consiste in una accurata analisi dei dati forniti

finalizzata a ristrutturare e riorganizzane il modello dati.

Si possono presentare due situazioni: la prima, rappresentata in figura 1 in cui si tratta di

aggiornamento della base dati negli anni: è necessario progettare la riorganizzazione dei dati per

renderli compatibili con il modello preesistente, passando da un formato destrutturato ad uno

strutturato. Occorre, inoltre, ricondurre i dati di partenza agli standard classificatori adottati

attraverso l’utilizzo di metadati, minimizzando così la perdita di informazione.

Tabella

Tabella

Tabella

Modello

destrutturato Modello entità

relazioni

Metadati

TabellaTabella

Classificazioni

adottateTabellaTabella

Tabelle di

transcodifica

Transcodifica

MappingCaricamento

Figura 1 - Aggiornamento della base dati

La seconda situazione ( in figura 2) è rappresentata da dati provenienti da un archivio di prima

adozione; in tale caso è necessaria una fase di analisi più approfondita per la progettazione del

modello dei dati, che consenta, normalizzazione delle informazioni, minimizzazione delle

ridondanze, definizione delle entità coinvolte e delle relazioni che intercorrono tra esse e con le

Page 7: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

entità già presenti nel modello di base.

Figura 2 - Integrazione di un nuovo archivio

Nel progettare il modello dati devono essere considerati due aspetti: le esigenze di integrazione, per

le quali occorre prevedere i possibili punti di integrazione tra le diverse banche dati, predisponendo

i dati in modo da risultare successivamente compatibili e confrontabili; le esigenze di analisi,

registrando le informazioni in modo che possano essere facilmente accessibili e fruibili nel corso

delle successive fasi di elaborazione. In questa fase si cercano di massimizzare le informazioni

registrate e solo successivamente verranno distinte le informazioni utili fine dell’analisi e quelle

accessorie, che rimangono disponibili per successive integrazioni o analisi di dettaglio.

Una volta predisposto il modello dati, prima del caricamento, i dati vengono “trattati” al fine di

migliorarne la qualità e l’affidabilità e per ricondurli a classificazioni standard. I processi a cui

vengono sottoposti sono la pulizia semantica, riguardante la correttezza formale del dato, e la

pulizia sintattica, caratteristica del dominio da cui proviene l’informazione.

Qualità dei dati

Come accennato in precedenza, gli archivi amministrativi generalmente non sono in uno stato

qualitativo sufficiente per svolgere correttamente delle analisi, sono infatti presenti errori e

inconsistenze i quali, sebbene non influiscano sull’uso “normale” degli archivi, possono

condizionare pesantemente il risultato delle operazioni di analisi aggregate. Prima di procedere a

qualsiasi analisi è necessario quindi verificare lo “stato qualitativo” degli archivi. Strumentale a

Page 8: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

questa fase è l’attività di analisi della struttura e del contenuto dei database di origine. In generale la

qualità dell’informazione si articola su tre aspetti principali: la qualità del modello concettuale con

cui è organizzata l’informazione all’interno degli archivi, la qualità dei valori dei dati presenti negli

archivi e la qualità con la quale l’informazione viene rappresentata esternamente. Le principali

analisi di qualità degli archivi amministrativi riguardano i primi due aspetti. L’analisi di qualità

viene svolta sia a livello di singolo archivio, sia confrontando il contenuto di diversi archivi;

naturalmente il confronto di dati simili proveniente da archivi diversi permette di svolgere

operazioni di valutazione altrimenti non possibili a livello di singolo archivio.

Con riferimento alla qualità del modello concettuale riportiamo alcune delle dimensioni di qualità di

maggior interesse per gli archivi amministrativi:

• rilevanza, ottenibilità e chiarezza della definizione del contenuto. La rilevanza indica in che

misura i dati sono rilevanti per gli scopi di analisi, l’ottenibilità è una misura della facilità

con cui le informazioni necessarie per l’analisi sono ottenibili dagli schemi a disposizione e

la chiarezza indica se ogni termine nella definizione del modello è chiaramente definito o

meno.

• scopo, definito come il grado con cui il modello comprende i dati necessari per soddisfare le

necessità di analisi.

• granularità degli attributi e precisione dei domini rappresentati. La granularità indica il

numero di possibili valori utilizzabili per rappresentare un concetto (maggiore è il numero di

attributi, più finemente un concetto può essere rappresentato), la precisione dei domini

rappresentati è il livello di dettaglio delle misure o dello schema di classificazione che

definiscono il dominio o i domini di riferimento.

In merito alla qualità del valore dei dati, possiamo considerare le seguenti dimensioni di analisi:

• Accuratezza: è la vicinanza del valore di un dato memorizzato negli archivi al valore

effettivamente descrittivo della situazione reale.

• Currency: misura l’adeguatezza della rapidità di aggiornamento dei dati memorizzati negli

archivi, nel contesto di realtà mutevoli nel tempo.

• Completezza: indica in che misura un dato previsto a livello di schema è effettivamente

presente all’interno dell’archivio; una possibile misura della completezza di un attributo può

essere data dalla percentuale di valori nulli che l’attributo assume nell’archivio. In generale

un attributo non dovrebbe mai assumere un valore nullo, salvo che il valore nullo non abbia

un significato.

Page 9: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

• Consistenza. L’inconsistenza tra i valori si ha quando due attributi, tra i quali esiste una

forma di dipendenza, presentano valori non compatibili.

Scopo dell’analisi di qualità degli archivi è stabilire se i dati contenuti negli archivi presentano un

livello qualitativo sufficiente per lo svolgimento delle analisi preposte oppure se è necessario

svolgere delle operazioni di messa in qualità al fine di raggiungere un livello qualitativo sufficiente

per lo svolgimento delle analisi.

La scarsa qualità degli archivi amministrativi è spesso causata da una conformazione non

appropriata dei processi amministrativi che alimentano gli archivi stessi. Le attività di messa in

qualità degli archivi hanno un effetto che non perdura nel tempo se non si interviene sulle cause

sistemiche che causano l’introduzione di nuovi errori negli archivi. L’attività di revisione dei

processi può essere efficacemente guidata dall’attività di analisi della qualità degli archivi, in

quanto consente di far emergere quali sono i processi che necessitano di una revisione, senza dover

procedere ad un’analisi approfondita di tutti i processi amministrativi coinvolti.

In figura 3 viene rappresentato il processo complessivo di caricamento, trattamento e definizione

delle strutture dati utilizzato nel progetto AMeRIcA:

Figura 3 - Il processo complessivo di estrazione, trasformazione e caricamento

Data Warehouse

L’archivio prodotto come risultato delle attività di integrazione di archivi differenti e di messa in

qualità dei dati costituisce il punto di partenza per le successive attività di analisi. Tuttavia, tale

archivio, così come è strutturato, non permette di svolgere analisi in modo efficiente, pertanto si

rende necessaria una riorganizzazione dei dati. La riorganizzazione dei dati deve facilitare per

Page 10: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

quanto possibile l’integrazione di nuove forniture di dati, riguardanti sia archivi precedentemente

integrati, sia nuovi archivi che si rendono disponibili nel tempo. Nell’ambito delle tecnologie

informatiche, lo strumento tradizionalmente impiegato per questi scopi è il data warehouse. Un data

warehouse è una soluzione informatica per la memorizzazione, gestione e l’analisi di grandi volumi

di dati che viene impiegato con il fine di produrre informazione sintetica per il supporto alle

decisioni.

Il datawarehouse AMeRIcA si basa, dal punto di vista architetturale, su tre livelli.

• Il livello di archivio: ogni archivio può essere considerato separatamente dagli altri presenti

all’interno del Data Warehouse e le analisi condotte su di esso non vengono influenzate dai

valori caricati nei rimanenti archivi;

• Il livello annuale: gli archivi vengono aggregati in base all’anno a cui fanno riferimento;

ciascun archivio annuale prevede informazioni riguardanti l’anagrafe milanese, i dati fiscali

ed eventuali altri dati derivanti da archivi correlati; al suo interno possono essere condotte

analisi riguardanti le informazioni aggregate relative a ciascun anno;

• Il livello globale: gli archivi vengono aggregati in un unico modello, che consente di

analizzare l’andamento delle variabili lungo tutto il periodo preso in considerazione, tanto

per i dati anagrafici quanto per quelli fiscali o combinazioni di essi, identificando entrate,

uscite e variazioni nel flusso complessivo.

Figura 4 - Architettura del Data Warehouse AMeRIcA

Un datawarehouse richiede di riorganizzare il contenuto informativo secondo uno schema

opportuno (schema a stella o a fiocco di neve) per poter svolgere velocemente ed efficacemente le

Page 11: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

analisi richieste. Le informazioni risultanti al termine del processo di estrazione, trattamento e

caricamento sono state riorganizzate secondo un modello multidimensionale, in modo da agevolare

le successive operazioni di analisi, predisponendo una struttura che comprenda:

• Fatti: le principali entità oggetto delle analisi;

• Misure: le variabili riferite ai fatti che determinano gli indicatori di analisi;

• Dimensioni: le direzioni lungo cui si intende operare l’analisi, esaminandole nel dettaglio

(calcolando ad esempio un indicatore in base all’età del cittadino) o eventualmente

aggregandole (ad esempio calcolando l’indicatore sulla base delle fasce di età) e

combinandole (aggiungendo ad esempio la dimensione del genere del cittadino insieme a

quella dell’età).

Nella Figura 5 viene rappresentato schematicamente lo schema descrittivo degli elementi principali

(fatti misure e dimensioni) su cui è progettato il data warehouse AMeRIcA.

Figura 5 - Schema descrittivo di fatti misure e dimensioni su cui è articolato DWH America

I principali fatti individuati all’interno del datawarehuose AMeRIcA riguardano individui e

famiglie: nella figura di seguito riportata è illustrato lo schema del modello multidimensionale

relativo al fatto Individuo.

Page 12: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

Figura 6 - Il fatto "individuo"

Per utilizzare un data warehouse è necessario definire sin dal primo momento i fatti e le dimensioni

di analisi, pertanto è necessario che sia già delineato il “fil rouge” lungo il quale dovranno essere

svolte le attività di analisi.

Una volta che un data warehouse sia stato costruito attorno a certi fatti e dimensioni di analisi,

successive forniture di dati possono essere integrate facilmente, facilitando la continuazione

dell’attività di analisi e permettendo in questo modo di monitorare nel tempo l’evoluzione dei

fenomeni di interesse.

La progettazione e realizzazione di un data warehouse che veda come principali fonti informative

gli archivi dei sistemi di gestione amministrativa può risultare uno strumento efficace per l’analisi

di fenomeni, in particolare territoriali e settoriali, per diverse considerazioni: puntualità dell’analisi,

incrementalità delle basi dati nel tempo, accelerazione del “time to market decisionale”, cioè la

possibilità di ridurre i tempi di analisi dei fenomeni e di mettere velocemente in circolo

informazioni per i decisori.

L’ipotesi esposta presuppone lo svolgimento di un lavoro e l’investimento in attività di ricerca per

la messa a punto dei modelli di integrazione, messa in qualità e progettazione di un sistema

informativo basato su data warehouse che integri le diverse sorgenti informative. Queste attività

prevedono la partecipazione di soggetti con competenze differenti: statistica, informatica, giuridica

ed economica. Inoltre risulta fondamentale la creazione di partnership fortemente motivate tra

Page 13: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

istituzioni, in primis, e operatori privati per la messa a disposizione tempestiva delle fonti dati

sorgenti.

Esempi di analisi basate sul datawarehouse AMeRIcA

Si riportano, in questo paragrafo, alcuni esempi delle possibili analisi basate sulle informazioni

conservate nel datawarehouse AMeRIcA. In Figura 3 viene rappresentato l’andamento della

popolazione milanese, soggetto principale di tutte le analisi, nel quadriennio caricato fino ad ora,

stratificato per genere. Come si può notare l’andamento è sostanzialmente costante, anche se analisi

più approfondite mostrano come il fenomeno sia frutto di un equilibrio dinamico tra un flusso

uscente dei cittadini di nazionalità italiana, soprattutto nelle fasce più giovani, ed un flusso entrante

dovuto all’immigrazione straniera.

0

100.000

200.000

300.000

400.000

500.000

600.000

700.000

800.000

Femmine Maschi

Femmine 676.112 674.068 671.824 676.303

Maschi 600.708 599.028 596.198 602.879

2000 2001 2002 2003

Figura 3 - Popolazione milanese nel quadriennio 2000 - 2003 stratificata per genere

In Figura 4 viene invece rappresentata la distribuzione per genere e classe d’età della popolazione

milanese nell’anno 2003; ad arricchire il dato numerico contribuisce l’indicazione del tasso medio

di incremento annuo nel quadriennio che consente di fornire considerazioni in merito al flusso nel

corso degli anni della popolazione oltre che alla situazione annuale.

Page 14: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

0%

5%

10%

15%

20%

-5%

-4%

-3%

-2%

-1%

0%

1%

2%

3%

4%

Tass

o di

incr

emen

to m

edio

ann

uo 0

0-03

2003 Femmine 2003 Maschi

Tasso di Incremento Femmine Tasso di Incremento Maschi

2003 Femmine 10,5% 3,1% 3,9% 6,1% 8,2% 15,6% 12,4% 14,1% 13,3% 12,8%

2003 M aschi 12,6% 3,7% 4,7% 7,2% 9,4% 17,7% 12,8% 13,3% 11,3% 7,4%

Tasso di Incremento Femmine 2,2% -1,4% -3,2% -4,5% 0,5% 2,9% -2,3% -0,7% 0,2% 1,3%

Tasso di Incremento M aschi 2,2% -0,9% -2,9% -4,3% -0,4% 2,8% -1,4% -1,1% 0,6% 2,9%

0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75+

Figura 4 - Popolazione milanese nell'anno 2003 stratificata per genere e per classe d'età

La Figura 5 introduce il dato fiscale all’interno delle analisi descrivendo la composizione dei

cittadini milanesi di nazionalità italiana che hanno presentato dichiarazione fiscale nel corso

dell’anno 2003 e stratificandoli per genere e classe d’età. L’indicazione del tasso di incremento

facilita la comprensione dell’andamento nel corso degli anni evidenziando un sostanziale calo dei

dichiaranti, in particolar modo nella classi d’età inferiori, ad eccezione della classe che va dai 35 ai

44 anni.

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o +

-10%

-8%

-6%

-4%

-2%

0%

2%

4%

Tas

so d

i in

crem

ento

med

io a

nn

uo

00-

03

Femmine Maschi

Tasso incremento femmine Tasso incremento Maschi

Figura 5 - Dichiaranti milanesi di nazionalità italiana suddivisi per sesso e per classi d’età

Page 15: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

In Figura 6 viene invece indicato il reddito imponibile medio dichiarato dai cittadini milanesi nel

corso dell’anno 2003. Da sottolineare la profonda differenza di reddito tra i due generi a partire dai

30 anni ed il differente andamento del tasso di incremento, in particolare per le classi più giovani.

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

-25%

-20%

-15%

-10%

-5%

0%

5%

Tass

o di

incr

emen

to m

edio

ann

uo 0

0-03

Femmine Maschi

Tasso incremento femmine Tasso incremento maschi

Femmine 2.423 3.190 7.721 12.83517.88020.81621.52516.36312.45013.415

Maschi 2.446 3.955 8.666 15.56423.69435.62341.54640.31632.34724.825

Tasso incremento femmine 3,5% -19,2 -12,4 -12,9 -9,4% -1,0% 0,3% 1,9% -2,4% -0,3%

Tasso incremento maschi -0,1% -5,1% -12,4 -2,0% -2,4% -0,4% -2,4% 1,8% 2,3% 3,0%

0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o +

Figura 6 - Reddito medio dei cittadini milanesi stratificato per sesso e per classi d'età

0

100.000

200.000

300.000

400.000

500.000

600.000

Red

diti

da la

voro

dip

ende

nte

Red

diti

solo

da

lavo

rodi

pend

ente

Red

diti

-pos

itivi

- da

lavo

roau

tono

mo

Red

diti

-pos

itivi

- da

impr

esa

Red

diti

da im

pres

a o

da la

voro

auto

nom

o ne

gativ

i

Altr

e tip

olog

ie d

i red

dito

-po

sitiv

i- pr

eval

enti

Sol

o re

dditi

pat

rimon

iali

Red

diti

nulli

-40%

-30%-20%

-10%0%

10%20%

30%

Tas

so d

i in

crem

ento

med

io a

nn

uo

00-

03

Tipologie di reddito Tasso di crescita medio annuo

Figura 7 - Tipologie di reddito prevalenti

La Errore. L'origine riferimento non è stata trovata. indaga la composizione dei redditi

Page 16: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

dichiarati dai cittadini milanesi indicando per ciascuno di essi la fonte di reddito prevalente. Da

notare la prevalenza del reddito da lavoro dipendente, nella maggior parte dei casi addirittura

presente come unica voce di reddito.

1276819 1273095 1268022 1279182

0 073825

692247712523705725663651

53674 607935444652284

0

200000

400000

600000

800000

1000000

1200000

1400000

2000 2001 2002 2003 2004

Popolazione milanese Dichiaranti reddito dipendente Individui avviati

Figura 12 - Popolazione milanese, lavoro dipendente e avviamenti al lavoro

In Figura 2 la popolazione milanese negli anni in esame viene confrontata con la porzione

dichiarante reddito da lavoro dipendente e con i cittadini soggetti, estratti dalla base dati degli

avviamenti dei centri per l’impiego della provincia di Milano, che hanno avuto avviamenti nel corso

degli anni di riferimento.

7745,00

10182,84

6183,35

9086,48

16861,4416342,71

6979,91

12349,00

8735,00

6956,00

5151,40

12692,00

0,002000,004000,006000,008000,00

10000,0012000,0014000,0016000,0018000,00

Altr

o ra

ppor

to

App

rend

ista

to

Avv

iam

ento

di

una

gior

nata

Lavo

ro a

tem

pode

term

inat

o

Lavo

ro a

tem

poin

dete

rmin

ato

Lavo

roin

terin

ale

Media Mediana

Figura 83 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per tipologia di rapporto

Page 17: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

La Figura 83 focalizza l’attenzione sui cittadini milanesi soggetti ad avviamento che vengono

stratificati sulla base della tipologia di rapporto instaurato: la differenza tra i redditi medi e mediani

sottolinea l’asimmetria delle distribuzioni, particolarmente accentuata nel caso di lavoro a tempo

indeterminato.

4294,32

12230,25

15865,85 15693,5716355,83

18381,61

8658,47

3008,00

7543,00

10989,60 11167,00 10586,00 11331,00

13663,45

0,00

2000,00

4000,00

6000,00

8000,00

10000,00

12000,00

14000,00

16000,00

18000,00

20000,00

Da 16 a 19 Da 20 a 25 Da 26 a 30 Da 31 a 40 Da 41 a 50 Da 51 a 60 Da 61 a 65

Media Mediana

Figura 9 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per classi d’età

La medesima analisi, stratificata in Figura 9 per classi d’età, evidenzia da un lato l’asimmetria tra

redditi medi e mediani in tutte le classi d’età, con particolare accentuazioni per le età maggiori, e le

forti differenze di retribuzione tra le classi giovanili e le rimanenti.

4000

9000

14000

19000

24000

29000

34000

39000

Numero Componenti

Reddito imponibile mediano

Reddito imponibile mediano 14,450 22,958 33,023 37,187 34,502 29,158

1 2 3 4 5 6+

Figura 10 - Reddito imponibile mediano delle famiglie milanesi stratificato per numero di componenti

Infine la Figura 10 introduce un’ulteriore potenzialità del DW AMeRIcA: la possibilità di aggregare

i dai individuali fino a ricostruire le famiglie milanesi ed i rispettivi redditi; nel caso in esame viene

Page 18: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

analizzato il reddito imponibile mediano stratificato per numero di componenti delle famiglie.

Conclusioni

In questo lavoro è stato descritta la metodologia seguita per lo sviluppo di un sistema informativo

statistico alimentato da archivi amministrativi, il quale permette di fornire informazioni utili per il

supporto alle attività decisionali. L’integrazione dei dati e gli aspetti connessi alla qualità degli

stessi costituiscono le problematiche principali da affrontare per poter trasferire il contenuto di

archivi eterogenei verso un sistema di supporto alle decisioni. Il data warehouse risultante (che

costituisce il cuore del sistema per il supporto alle decisioni) permette sia di svolgere analisi

dettagliate su tutta la popolazione sia di focalizzare le ricerche su specifiche classi di persone, in

entrambi i casi la varietà delle fonti informative che alimentano il sistema informativo statistico

permette di analizzare in modo esauriente e completo i diversi aspetti della realtà di interesse (sono

stati riportati in questo articolo esempi di analisi svolte in termini sia di età, sia di distribuzione

territoriale, sia di suddivisione in classi reddituali, sia in base alla tipologia di contratto lavorativo).

L’enorme patrimonio informativo risultante si rivela, nello specifico caso preso in esame, una

preziosa fonte di informazioni per i soggetti responsabili di promuovere politiche attive a sostegno

del mercato del lavoro.

Infine esiste la possibilità di instaurare una forte sinergia tra archivi amministrativi e sistemi

informativi statistici per il supporto alle decisioni, tuttavia questa possibilità non è usualmente

sfruttata in modo adeguato. Il rapporto di utilità tra le due entità è bidirezionale: gli archivi

amministrativi forniscono dati al sistema informativo statistico, mentre quest’ultimo fornisce

indicazioni su come può essere migliorata la qualità dei dati degli archivi e il modello di servizio

con cui sono erogati i servizi delle pubbliche amministrazioni. Iniziare a sfruttare questo rapporto di

utilità reciproca può innestare un circolo virtuoso capace di produrre notevoli benefici agli utenti

finali dei due sistemi.

Bibliografia

B. Zavanella “Verso Architetture Integrate di Sistemi Informativi Amministrativi: Nuove

Opportunità per l’Analisi Statistica Territoriale”, Atti della XLI Riunione Scientifica della SIS,

Milano, giugno 2002.

AA. VV. “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Spunti tratti

dalla riflessione di Marco Martini per un nuovo modello di relazione tra sistemi amministrativi e

sistema statistico. A cura di P. Aimetti e B. Zavanella, Franco Angeli, Milano luglio 2004.

Page 19: Sistemi Informativi Statistici per la conoscenza dellarealtà socio-economica della città

B. Zavanella, “Nuovi dati per l’analisi statistica territoriale: le opportunità offerte dai sistemi

informativi della pubblica amministrazione”, in “Qualità degli archivi amministrativi e qualità

dell’informazione statistica”, Franco Angeli, Milano luglio 2004.

M. Martini, “Qualità degli archivi amministrativi: aspetti teorici e ipotesi di miglioramento degli

archivi degli agenti economici in Italia”, in “Qualità degli archivi amministrativi e qualità

dell’informazione statistica”, Franco Angeli, Milano luglio 2004.

L. Buzzigoli, “The new role of statistics in local public administrations”, atti della conferenza

“Quantitative methods in economics (multiple criteria decision making xi)”, svolta presso la

Faculty of Economics and Management, Slovak Agricultural University, Nitra (SK), 2002

M. Denk, K. Froeschl, “The IDARESA data mediation architecture for statistical aggregates”,

“Research in Official Statistics”, 3(1), 2000, p.7-38.

M. Eppler, “Managing information quality”; Springer Verlag, 2003

E. Hoffmann, “We must use administrative data for official statistics - but how should we use

them?”, “Statistical Journal of the United Nations/ECE”, 12, 1995, pp. 41-48.

Information Quality I, “Principles and foundation, the MIT total data quality management

program”, Ottobre-Novembre 2005, http://web.mit.edu/tdqm/www/index.shtml.

H. Papageorgiou, F. Pentaris, E. Theodorou, M. Vardaki, M. Petrakos, “A statistical metadata

model for simultaneous manipulation of both data and metadata”. Journal of Intelligent

Information Systems, 17(2-3), pp. 169-192, 2001.

Statistics Denmark, “The use of administrative sources for statistics and international

comparabilità”, invited paper a”Conference of european statisticians, 48th plenary session”,

Paris (FR), giugno 2000

B. Sundgren, “Making statistical data more available”, “International Statistical Review”, 64(1), pp.

23-38, 1996

I. Thomson, A. Holmy, “Combining data from surveys and administrative record systems - the

norwegian experience”, “International Statistical Review”, 66(2), pp. 201-221, 1998

R. Wang, “A product perspective on total data quality management”, “Communication of the

ACM”, 41(2), 1998

P. Mariani, M. Mezzanzanica, B. Zavanella, “Statistical Information Systems and Data Warehouses

for Job Marketplaces”, Atti della XLIII Riunione Scientifica della SIS, Torino, luglio 2002.