Modellazione concettuale dei dati: metodi e
strumenti
Percorso formativo per gli Analisti
15 -16/04/2008
Tazzoli – Aula 30
Riccardo GrossoDirezione Banche Dati, Cultura e Atenei /
Cataloghi, Banche Dati, Cultura e Turismo
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
2
Modellazione concettuale dei dati: metodi e strumenti
ContenutiLa modellazione concettuale
I repository di schemi concettuali
Le ontologie informatiche e il web semantico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
3
La modellazione concettuale
Concetti base (cenni) della modellazione entita’ relazioni Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html
Metodi e Tools (cenni): UML, Erwin Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html
ProCSI, metadati e modellazione Case study di modellazione concettuale basato sull’interpretazione linguistica dei testi
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
4
La scomposizione in fasi del processo di progettazione ha lo scopo di scomporre i problemi e garantire la possibilità di modifica delle soluzioni adottate.
Queste fasi sono: Schema concettuale (o modello concettuale) Progettazione Schema logico (o modello Logico) RealizzazioneSchema Fisico (o modello Fisico) Implementazione
Progettazione Basi Dati operazionali
Il modello dei datiIl modello dei dati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
5
Il livello concettualelivello concettuale rappresenta la realtà dei dati e le relazioni tra essi attraverso uno schema. Il livello concettuale è la rappresentazione completa ed efficace del contesto, cioè della realtà a cui si riferisce. Essa è la rappresentazione più vicina alla logica umana. I modelli dei dati usati nella progettazione concettuale vengono definiti modelli semantici. Quello più diffuso è l’’ENTITY-RELATIONSHIPENTITY-RELATIONSHIP che prevede la individuazione delle Entità, cioè degli oggetti concreti o astratti, a la loro classificazione in insiemi omogenei.
Il modello concettualeIl modello concettuale
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
6
La fase logica del processo di progettazione di un DB ha lo scopo di tradurre lo schema concettuale in modello logico dei datitradurre lo schema concettuale in modello logico dei dati.
Lo schema logico (a differenza del concettuale) dipende dal tipo di DBMS utilizzato e in particolare dal modello logico dei dati.
Il Modello logico dei dati rappresenta come sono organizzati i dati negli archivi elettronici: descrive quindi la composizione ed il formato dei dati nel loro aspetto di struttura logica di dati. Il livello logico viene derivato dal livello concettuale
Il Modello logico dei dati è quindi la tecnica di organizzazione e Il Modello logico dei dati è quindi la tecnica di organizzazione e accesso ai dati utilizzata da specifiche categorie di DBMSaccesso ai dati utilizzata da specifiche categorie di DBMS
Progettazione Basi Dati operazionali
Il modello logicoIl modello logico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
7
Il Modello fisicoModello fisico rappresenta l'effettiva installazione degli archivi elettronici: esso indica l'ubicazione dei dati nelle memorie di massa (dischi). Il livello fisico è quindi l'implementazione del livello logico sui supporti per la registrazione fisica dei dati: partizioni, puntatori, blocchi fisici, cluster, indici.
Il Modello fisicoModello fisico stabilisce come le strutture definite a livello logico debbano essere organizzate negli archivi e nelle strutture del file-system; esso dipende quindi dal tipo di DBMS, dal sistema operativo e dalla piattaforma hardware utilizzata del sistema che ospita il DBMS.
Progettazione Basi Dati operazionali
Il modello fisicoIl modello fisico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
8
Cosa sono i metadati
http://it.wikipedia.org/wiki/Metadato
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
9
AUT OMOBILEF IGLIO
DONNAUOMO
generae'
generato da
s pos as i s pos a con
guidae' guidata da
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
10
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
UOMO.sposa.DONNA
» Ovvero
SOGGETTO.predicato-verbale.COMPLEMENTO-OGGETTO
» Ovvero
ENTITA.relazione.ENTITA
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
11
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
Gli esempi che seguono utilizzano il tool Erwin
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
12
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
13
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
14
Forme normali
http://www.liceofoscarini.it/didattic/data-base/formenormali.html
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
15
Le generalizzazioni
• PERSONA generalizza» UOMO» DONNA
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
16
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
Lo schema che segue utilizza il tool StarUML:\\wi064175\StarUmlExe2
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
17
PERSONA
UOMO DONNA
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationshipIl Bignami dell’entity relationship
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
18
Il Case Study dal titolo: IL CITTADINO CHE PAGA I TRIBUTIIl cittadino e’ un soggetto con caratteristiche fisiche e giuridiche. Puo’ possedere un’impresa. Puo’ ammalarsi e quindi godere dell’assistenza medica. Puo’ candidarsi alle elezioni… Ma prima di ogni cosa deve pagare i tributi ! Per fare questo, la pubblica amministrazione lo aiuta…La pubblica amministrazione si occupa di gestire le cose pubbliche: i beni dei cittadini e i documenti che comprovano che il cittadino ha versato i tributi ! Altrimenti il cittadino va incontro ad atti giudiziari. Il cittadino possiede quindi dei beni, e per tali beni viene “convinto” a pagare i tributi. I beni possono essere mobili, come le automobili, e immobili, come abitazioni, fabbricati e terreni. Se il cittadino possiede immobili, questi devono essere registrati al catasto. Nell’esempio, il cittadino Valter possiede una abitazione ed alcuni terreni. Da pochi giorni, insieme al fratello Silvio, ha un’impresa che possiede fabbricati. I cittadini e le imprese possono risiedere in localita’ diverse. Una localita’ e’ identificabile da un indirizzo: via o strada, numero civico. I cittadini possiedono automobili. Per pagare i tributi effettuano versamenti. L’ impresa dei nostri amici Valter e Silvio risiede in provincia di Roma, mentre le loro rispettive abitazioni sono entrambi nel comune di Roma. Le loro automobili sono targate Roma. L’abitazione di Silvio da verifiche effettuate non risultava censita come particella catastale. Per tutti i loro beni esistevano versamenti.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
19
Approfondimenti sulla progettazione concettuale datiApprofondimenti sulla progettazione concettuale dati
Il corso del professor Lenzerini:
http://www.dis.uniroma1.it/~lenzerin/didattica/basididati/materiale/4-progettazioneconcettuale.pdf
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
20
Approfondimenti sulle tecniche di reverse/forwardApprofondimenti sulle tecniche di reverse/forward
http://www.tecnetdati.it/portale/download/Re_database.ppt
Progettazione Basi Dati operazionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
21
Introduzione alle basi dati decisionaliIntroduzione alle basi dati decisionali
Basi dati operazionali e decisionali
Differenze
Dall’operazionale al decisionale
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
22
Due tipologie di banche dati:
operazionali: • contengono dati di interesse quotidiano• vengono aggiornate costantemente in relazione alle • procedure amministrative e tecniche di competenza di un ente
informativo-decisionali: • servono per supportare le esigenze di integrazione di • informazioni provenienti da banche dati operazionali diverse• sia ai fini di diffondere conoscenze, sia per supportare i • processi decisionali ai diversi livelli (micro o macro decisioni)
Tipologie di Banche DatiTipologie di Banche Dati
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
23
Nel DW i dati sono organizzati per soggetto anziché per applicazione
Tra tutte le informazioni operazionali vengono selezionate solo quelle necessarie per il processo decisionale
Subject-oriented (Orientata ai soggetti)Subject-oriented (Orientata ai soggetti)
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
24
Comune BeneficiarioComune Beneficiario
ProcedimentoProcedimento
Oggetto di InterventoOggetto di Intervento
FinanziamentiFinanziamenti
La Base Dati è un insieme di “La Base Dati è un insieme di “fattifatti” ” nello spazio multidimensionalenello spazio multidimensionale
Progettazione Basi Dati decisionali
Struttura di una base dati decisionaleStruttura di una base dati decisionale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
25
L’architettura fisica del Modello Dimensionale è descritta attraverso lo STAR SCHEMASTAR SCHEMA
ClientiClienti
ProdottoProdotto
TempoTempo
ProduzioneProduzioneGeografiaGeografia
Progettazione Basi Dati decisionaliStruttura multidimensionaleStruttura multidimensionale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
26
Dimensione1_PK
Dimensione1_PKDimensione2_PKDimensione3_PKDimensione4_PK
Misura1Misura2Misura3Misura4
Dimensione3_PK Dimensione4_PK
Dimensione2_PKTavola dei FattiTavola dei Fatti
Dimensione1Dimensione1 Dimensione2Dimensione2
Dimensione3Dimensione3 Dimensione4Dimensione4
Progettazione Basi Dati decisionali
Data Modeling per sistemi decisionali: lo Data Modeling per sistemi decisionali: lo Star SchemaStar Schema
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
27
Progettazione Basi Dati decisionaliEsempio di Esempio di Star SchemaStar Schema
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
28
Progettazione Basi Dati decisionaliEsempio di Esempio di Star SchemaStar Schema
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
29
Analisi base dati gestionale
Studio delle interrogazioni
+
Progettazione Basi Dati decisionali
Dal DB gestionale…Dal DB gestionale…
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
30
… … al DB decisionaleal DB decisionale
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
31
Approfondimenti sulla progettazione DataWarehouseApprofondimenti sulla progettazione DataWarehouse
Il corso del professor Batini:
http://www.disco.unimib.it/upload/3.1%20DWData%20WarehouseRevCB020205.pdf
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
32
ProCSI
Metadati e ProCSIhttp://intranet/prog/banchedati/dwd/metadpro.ppt
Modellazione dati e ProCSIhttp://intranet/organizzazione/processi/procsi/dwd/Modello_dati.doc
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
33
I repository di schemi concettuali
Metadati e cataloghi Riuso dati, servizi (archimede) e metadati Repository schemi PA (esperienze con univ. MI-Bicocca)
Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html
Standard, metodi e tools (Dublin Core, etc.)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
34
Metadati e cataloghi
Metadati e cataloghi: vecchio e nuovo infodir
Infodir = information directory
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
35
Il vecchio infodir
Propedeutico per la comprensione del metamodello dei dati del repository metadati
Si evolve nel nuovo infodir che puo’ classificare qualsiasi oggetto introducendo nuovi oggetti e nuove tassonomie
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
36
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
37
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
38
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
39
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
40
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
41
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
42
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
43
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
44
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
45
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
46
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
47
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
48
Cosa dicono i guru (fonte Zach Wahl)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
49
La nostra interpretazione applicata alle basi dati
PeopleSoggetto
PlacesGeografia
• Luogo • Territorio • Urbanistica
ThingsBeneDocumento
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
50
GEOGRAFIA LUOGOGEOGRAFIA LUOGO
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
51
GEOGRAFIA TERRITORIOGEOGRAFIA TERRITORIO
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
52
GEOGRAFIA URBANISTICAGEOGRAFIA URBANISTICA
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
53
BENE (COSA)BENE (COSA)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
54
DOCUMENTO (COSA)DOCUMENTO (COSA)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
55
SOGGETTO FISICOSOGGETTO FISICO
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
56
SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
57
Ad inizio 2007 è stata rilasciata una nuova versione di Information Directory che supera alcuni limiti architetturali del vecchio infodir nato nel 1999.
Esso è stato infatti generalizzato e potenziato, nonchè condiviso tra le 3 principali pubbliche amministrazioni piemontesi (Regione, Città e Provincia di Torino), e riconosciuto come “il nuovo infodir”.
Il nuovo infodir annovera tra le sue principali caratteristiche le seguenti:
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
58
Caratteristiche principali:backend decentrato (data stewardship) presso i centri di competenza per materia presenti in CSI e presso gli entiviste separate e viste condivise dei metadati, sia di business che tecnicioggetti generalizzatimodello dimensionale o facet-based (a faccette e focus)classificazioni dinamiche, ovvero tassonomie, generalizzate, ed associabili a criteri di text mining che permettono di classificare automaticamente gli oggetti via via censitisearch, browse e ricerche avanzate tra loro intersecabili
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
59
Metamodello del catalogo descritto
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
60
Classificazione automatica in infodirNella migrazione di una delle tassonomie previste, si e’ fatto un esperimento di text miningClusterizzando gli oggetti in automatico classificandoli nella vecchia tassonomiaConfrontando i risultati automatici con quelli manuali dati dagli oggetti classificati manualmente nella vecchia tassonomiaUsando i risultati del confronto per affinare gli algoritmi automaticiUsando infine gli algoritimi automatici affinati applicandoli alla nuova tassonomia e migrando in automatico gli oggettiChiedendo ai power-user di verificare la migrazione risparmiando loro manualita’
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
61
Searching & Browsing in infodirLe ricerche sono possibili partendo indifferentemente da searching e da browsing di:
Tassonomie
Tipi di oggetto
Partendo ad esempio da un search, posso affinare la ricerca per
Tassonomia
Tipo di oggetto
Singolo metadato (ad esempio fase)
Di seguito si mostra una sequenza di screenshot di esempio
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
62
Esempio I
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
63
Esempio II
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
64
Esempio III
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
65
Riuso dati, servizi (archimede) e metadati
Riuso dati, servizi (archimede) e metadati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
66
Cenni sul riuso dei datiCenni sul riuso dei dati
Costruire una serie di tavole di riferimento (di uso operazionale e decisionale) contenenti codifiche comuni, complete, certificate ed aggiornate costituisce un primo passo per l'integrazione delle basi dati, l'interscambio informativo e la cooperazione tra le diverse amministrazioni.
Per acquisire la classificazione che si vuole gestire in una tavola trasversale, viene ricercata la fonte dati più qualificata. Obiettivo è quello di identificare l'ente responsabile dell'informazione (ISTAT per i codici Istat, Ministero delle Finanze per i codici Belfiore, ecc): in tal senso i dati acquisiti vengono considerati "certificati", ovvero emessi dalla fonte che li produce e ne è responsabile.
Progettazione Basi Dati decisionali
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
67
Cenni sul riuso dei datiCenni sul riuso dei dati
Una volta acquisito il flusso informativo dalla fonte dati individuata, si procede comunque ad una fase sistematica di controllo e validazione dei dati acquisiti: viene verificata, ad esempio, la corrispondenza del livello di aggiornamento con quello dichiarato dalla fonte, la completezza dell'informazione, in sintesi l'idoneità dei dati a corrispondere all'obiettivo informativo per cui sono raccolti.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
68
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
69
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
70
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
71
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
72
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
73
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
74
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
75
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
76
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
77
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
78
Esercitazione pratica di riuso su Business Objects - Webi
Cercare nell’universo webi le topten e gli impatti delle entita’ e degli attributi del modello concettuale “cittadino paga tributi”
Supertipi su dimensioni condivisibili (user = metadati, pwd = meta$1, selezionare in alto la categoria "Top 10 e Analisi di impatto")
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
79
Repository schemi PA (esperienze con univ. MI-Bicocca)
Repository schemi PA (esperienze con univ. MI-Bicocca)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
80
L’informazione negli schemi e’ nascosta ……
DATA DIVISION.WORKING-STORAGE SECTION.01 PERSONA.05 UOMo.10 COD-UOMO PIC X(5).10 DESC-UOMO PIC X(80).05 DONNA REDEFINES UOMO.10 TIPO-RECORD PIC X.10 COD-DONNA PIC 9(5).10 DESC-DONNA PIC X(80).01 AMMINISTRAZIONE.05 REGIONE.10 COD-REGIONE PIC X(3).10 COD-DUMMY PIC X(6).10 DES-REGIONE PIC X(80).05 PROVINCIA REDEFINES REGIONE.10 COD-REGIONE PIC X(3).10 COD-PROVINCIA PIC X(3).10 COD-DUMMY2 PIC X(3).10 DES-PROVINCIA PIC X(80).05 COMUNE REDEFINES REGIONE.10 COD-REGIONE PIC X(3).10 COD-PROVINCIA PIC X(3).10 COD-COMUNE PIC X(3).10 DES-COMUNE PIC X(80).01 PERSONA-AMMINISTRAZIONE.05 LEGAME.10 COD-PERSONA PIC X(5).10 COD-AMMIN PIC X(3).
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
81
Gli schemi sono non integrati ed eterogenei
Anagrafe residenti
Anagrafe assistiti
Anagrafe soggettifiscali
Archivio dipendenti
Archivio cacciatori
Persona
Codiceprogres-sivo
Codicefiscale
Codicefiscale
Numero tessera sanitaria
Codiceinterno
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
82
Visione
Il CSI Piemonte e le Amministrazioni del piemonte sono coinvolte nei processi di eGovernment, sia a livello locale (Piemonte) sia a livello nazionale (cooperazione con le Amministrazioni centrali)
Sono percio’ protagonisti nel disegno di cambiamento
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
83
Per attuare questo disegno serve
1. Un modello per rappresentare gli schemi dati
2. Una struttura con cui organizzare gli schemi in un repository
3. Una metodologia con cui creare e manutenere il repository in maniera efficiente a partire dalla conoscenza disponibile
4. Uno scenario di utilizzazione della conoscenza accumulata
5. Uno strumento di supporto
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
84
1. Il modelloIl modello Entita’ Relazione
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
85
Generalizzazione
Esempio di schema nel modello Entita’ Relazione
PersonaCodice
Cognome
UomoDonna
ComuneCodiceNomenato
ProvinciaCodiceNome
in in
Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome
RegioneCodiceNome
Entita’ Relazione Attributo
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
86
Dal Cobol,al modello Entita’ Relazione al linguaggio naturale
PersonaCodice
Cognome
UomoDonna
ComuneCodiceNomenato
ProvinciaCodiceNome
In inRegioneCodiceNome
DATA DIVISION.
WORKING-STORAGE SECTION.
01 PERSONA.
05 UOMo.
10 COD-UOMO PIC X(5).
10 DESC-UOMO PIC X(80).
05 DONNA REDEFINES UOMO.
10 TIPO-RECORD PIC X.
10 COD-DONNA PIC 9(5).
10 DESC-DONNA PIC X(80).
01 AMMINISTRAZIONE.
05 REGIONE.
10 COD-REGIONE PIC X(3).
10 COD-DUMMY PIC X(6).
10 DES-REGIONE PIC X(80).
05 PROVINCIA REDEFINES REGIONE.
10 COD-REGIONE PIC X(3).
10 COD-PROVINCIA PIC X(3).
10 COD-DUMMY2 PIC X(3).
10 DES-PROVINCIA PIC X(80).
05 COMUNE REDEFINES REGIONE.
10 COD-REGIONE PIC X(3).
10 COD-PROVINCIA PIC X(3).
10 COD-COMUNE PIC X(3).
10 DES-COMUNE PIC X(80).
01 PERSONA-AMMINISTRAZIONE.
05 LEGAME.
10 COD-PERSONA PIC X(5).
10 COD-AMMIN PIC X(3).
Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
87
2. La struttura del repository di schemi
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
88
Studio CSI Assinform
Organizzazione
Flusso di dati
Fornisce Fruisce
Riguarda Materia
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
89
Noi siamo interessati sia ai flussi che alle basi di dati
OrganizzazioneBase Dati
Flusso di dati
Fornisce Fruisce
AggiornaUsa
Materia
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
90
Schema concettuale
Concetto di schema(Entita’/Rel/Generalizzazione)
Metaschema – Versione dettagliata - 1
Organizzazione Schema logicofisico
Flusso di dati
FruisceUsa
Materia/Argomento CSI
Aggiorna
Fornisce
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
91
Con tanti schemi…
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
92
Due strumenti concettuali
Integrazione, per “mettere insieme” e “riconciliare”
Astrazione, per “capire” e “sintetizzare”
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
93
Integrazione (linguaggio naturale)
Schema 1
Lavoratori e loro organizzazioniSchema 2
Lavoratori, loro citta’ di nascita e relativa area regionale
Schema 3
Organizzazioni e regioni dove sono localizzate
•Lavoratori, loro citta’ di nascita e relativa regione•Lavoratori e loro organizzazioni, e, delle organizzazioni, •regioni dove sono localizzate
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
94
L’integrazione: modello Entita’ Relazione
Lavoratore Citta’ Regione
Organizzazione
lavora
nato
in
in
Lavoratore
Organizzazione
Lavoratore Citta’ RegioneArea
Organizzazione
in
in
lavoranato
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
95
L’astrazione (linguaggio naturale)
•Lavoratori, loro citta’ di nascita e relativa regione•Lavoratori e loro organizzazioni, e delle organizzazioni •Regioni dove sono localizzate
•Lavoratori, organizzazioni dove lavorano e riferimenti •geografici di nascita e di localizzazione.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
96
L’astrazione: modello Entita’ Relazione
LavoratoreRiferimentogeografico
Organizzazione
lavora
in
nato
Lavoratore Citta’ Regione
Organizzazione
lavora
in
nato in
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
97
Se le usiamo insieme: integrazione + astrazione
Lavoratore
Organizzazione
Lavoratore Citta’ Regione
Area
Organizzazione
lavora
nato in in
IntegrazioneLavoratore Citta’ Regione
Organizzazione
in
in
in
nato
LavoratoreRiferimentogeografico
Organizzazione
Astrazione
in
in
nato
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
98
La struttura di integrazione - astrazione
Integrazione –Astrazione
LavoratoreRiferimentogeografico
Organizzazione
nato
in
lavora
Lavoratore
Organizzazione
Lavoratore Citta’ Regione
Regione
Organizzazione
lavorain innato
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
99
Le abbiamo usate iterativamente ottenendo il repository
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
100
Schemi base e schemi astratti
Schemi astratti
Schemi base
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
101
3. Una metodologia per costruire il repository a partire dalla conoscenza disponibile
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
102
Conoscenza disponibile
Gli schemi logici e fisici della PA Piemontese (PAP) gestiti da InfodirCirca 500 schemi logici conCirca 18.000 tabelle con Circa 200.000 campi
Gli schemi concettuali della PA centrale (PAC) censiti e organizzati dall’Aipa in un Repository analogo
Circa 5.000 entita’ Circa 10.000 attributiCirca 50 schemi astratti della PA Centrale, organizzati secondo le operazioni di integrazione astrazione
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
103
Facendo cio’ con basso utilizzo di risorse
Se procediamo con una metodologia tradizionale di reverse engineering sui 500 schemi PAP, assumendo due settimane persona a schema, si ha:
Risorse con procedura tradizionale = 0,5 mesi persona * 500 = 25 anni persona
Dovevamo inventarci una metodologia approssimata che ci permetta di ridurre l’uso delle risorse di un ordine di grandezza
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
104
Repository PAC – struttura completa
TRASPORTI COMUNICAZIONIPRODUZIONELAVOROCULTURAEDILIZIA
AMBIENTEISTRUZIONESANITA'SICUREZZA GIUSTIZIADIFESAAFFARI ESTERI
ASSICURAZIO- NE SOCIALE
CERTIFICA-
SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 1° LIVELLO
SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 2° LIVELLO
SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 3° LIVELLO
SERVIZI
SERVIZI GENERALI SERVIZI DIRETTISERVIZI SOCIALI ED ECONOMICI
CA
TA
STO
PR
EV
IDE
NZ
A
RE
LA
ZIO
NI
ES
TE
RE
IN
IT
AL
IA
RE
LA
ZIO
NI
ITA
LIA
NE
AL
L' E
ST
ER
O
AT
TIV
ITA
' GIU
RID
ICA
CR
IMIN
AL
ITA
'
SIC
UR
EZ
ZA
IN
TE
RN
A
AS
SIS
TE
NZ
A
SE
RV
IZIO
SA
NIT
AR
IO
IST
RU
ZIO
NE
AM
BIE
NT
E
BE
NI
CU
LT
UR
AL
I
LA
VO
RO
AZ
IEN
DE
AG
RIC
OL
E
AZ
IEN
DE
IN
DU
ST
RA
LI
TR
AS
PO
RT
I
SERVIZI SOCIALI SERVIZI ECONOMICI
TR
ASF
ER
IME
NT
O F
ON
DI
A
EN
TI
LO
CA
LI
PER
EN
TI
PUIB
BL
ICI
CA
PIT
OL
I D
I SP
ESA
STATISTICARISORSE DI SUPPORTO
RISORSE FINANZIARIE
RISORSE STRUMENTALI E IMMOBILIARI
RISORSE UMANE
PRO
TO
CO
LL
O
OR
GA
NI
CO
LL
EG
IAL
I
FISC
O
DO
GA
NE
RISORSE
STR
UM
EN
TI
AU
TO
ME
ZZ
I
BE
NI
IMM
OB
ILI
DIP
EN
DE
NT
I
FOR
MA
ZIO
NE
RA
PPR
ESE
NT
AN
ZE
2/93
2/12 8/
293
6/69
3/18
23/
30
2/89
3/59
2/65
37/3
36
3/75
3/66
9/11
8
4/36
6/53 10
/76 6/
76
6/13
0 5/56
6/15
5 3/13
4
8/21
3
10/1
00 9/11
8
3/53
9/11
2 10/1
78
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
105
Lo schema piu’ astratto
BeneSoggetto
Documento
Unitàorganizzativa
Riferimentoterritoriale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
106
In sintesi
18.000 tabelle
Rappresentazione logico fisica
550 schemiRappresentazione
concettuale
Pubblica Amministrazione
localePubblica Amministrazione
centrale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
107
Schemi descritti nel Repository
Soggetto
Bene Soggetto
Documento
Unitàorganizzativa
Riferimentoterritoriale
S. fisico S. giuridico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
108
Soggetto fisico
pensionato
di guerra
invalidità civile
Ricorrente per invalidità civile
casalinga
volontario
studentestraniero
con handicap
borsista
candidato
Segretario comunale
assistito
tossicodipendente contribuente
utente anagrafetributaria
Contribuente ufficio iva
appartenente catasto
fisco
scuola
giustizia
affari esteri
lavoro
pensioni
Salute ed assistenza
politica
vita sociale
lavoratore
disoccupato
autonomodipendente
Alla ricerca di nuova occupazione
Alla ricerca di prima occupazione
detenuto
condannato
in attesa di giudizio
segnalato
Tossicodipendente segnalato
straniero italiano
residente all’estero
Richiedente cittadinanza
Richiedente visto
47
164
91
161
520
162
163MI, MT, MD
363739
38
40
8289
153
MF, MT
35
48
5998
110
165
174
180526
650
MGG, MI,MIBCA , MT, MTN
MI, MS
6
16
63
72
80
600
66
81
99
1827
735
90
132
142
MAE, MURST, MPI
MAE, MGG,MI
MAE, MI, MLPS
MI
601
507602
1902
453
54
71
74
88
101
104105
160
171603
653
654
663
5292
111170
7
910
1112
20 24 25
4551
5564
65
68
87
93 9697
108120
131137
173
501
506515516
651
19
86136
172
531
656
MAE, MF, MGG, MI,
MIBCA, MLP, MLPS, MT,MTN, MCE,MD, MURST
21
109
Schemi base e Gerachie di generalizzazioneCaso Soggetto fisico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
109
La gerarchia di soggetto
–soggetto fisico•Lavoro
•lavoratore–lavoratore autonomo–dipendente pubblico
•disoccupato•……
–soggetto giuridico•impresa•istituzione p.a.•Istituzione sociale privata•……
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
110
Utlizzeremo percio’ una conoscenza piu’ sintetica: le gerarchie di generalizzazione
Schemi logici
Schemi
concettuali
Pubblica Amministrazione
Locale
Pubblica Amministrazione Centrale
Gerarchie diGeneralizzazione:-Cittadino-Impresa-Organizzazione-Documento-Luogo-Bene
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
111
Sintesi della metodologia
Scopo della metodologia: semplificare il compito del referente dati, utilizzando il piu’ possibile strumenti automatici, a costo di una certa approssimazione nelle scelte.
Assunzione: ad un certo livello di astrazione gli schemi della PAL Piemontese sono “simili” a quelli della PA Centrale. Si differenziano nei livelli di astrazione piu’ bassi.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
112
Le due fasi della metodologia
Fase automatica
Schemascheletro
Schemafinale
Fasemanuale
Referente dati competentesul dominio
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
113
Fase automatica: generazione entita’
1-GENERAZIONE ENTITA'
input:a) le entita' delle ontologieb) le tavole della base dati
output:x) le tavole "pescate" dall'algoritmoy) le entita' delle ontologie corrispondenti alle tavole pescate in x
ALGORITMO: - PER OGNI ENTITA' DELLE ONTOLOGIE (LOOP) - PER OGNI TAVOLA DELLA BASE DATI - SE C'E' ALMENO 1 ATTRIBUTO DELLA TAVOLA CHE SIA"SOMIGLIANTE" AL NOME DELL'ENTITA' DELL'ONTOLOGIA - SCELGO L'ENTITA' - ENDIF - END LOOP - END LOOP
SOMIGLIANTE = LIKE "STRINGA" IN NOME E/O DESCRIZIONE ATTRIBUTO
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
114
Passo 1: Generazione entita’
…..Attributi eTabelle
Gerarchie
E1
PA Piemontese
PA Centrale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
115
Generazione entita’ - Ricerca per somiglianza
…..
Attributi eTabelle degliSchemi logici
Gerarchie
E1
PA Piemontese
PA Centrale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
116
Generazione entita’ - passo finale
E1
E2
E3
Attributi eTabelle
E1
E2
E3
…..
PA Centrale
PA Piemontese
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
117
Generazione generalizzazioni
2-GENERAZIONE GENERALIZZAZIONI
input:a) le entita' trovate in generazione entita'b) le tavole trovate in generazione entita'
output:x) le generalizzazioni delle entita'y) le generalizzazioni delle tavole
algoritmo:- osservando le generalizzazioni complete delle entita' delle ontologie,riporto quelle presenti nelle entita' selezionate in generazione entita'- per analogia, le tavole corrispondenti alle entita' "sposano" le medesimegeneralizzazioniCon un esempio astratto, se ho una ontologia completaA B C D E
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
118
Generazione generalizzazioni
se precedentemente ho selezionato A, B, D le generalizzazioni trovatesarannoA B D
Se avevamo corrispondenza tra A e TAV1, B e TAV2, D e TAV4, avremo lagerarchia di generalizzazione tavole:TAV1 TAV2 TAV4
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
119
Generazione relazioni
3-GENERAZIONE RELAZIONI
input:a) le entita' selezionate ai passi precedenti
output:x) le relazioni tra le entita' selezionate
algoritmo:- per ogni entita' delle ontolologie selezionata (loop) - cerco nei 500 schemi le entita' (dei 500 schemi) - con riferimento all'esempio astratto di cui sopra avremo adesempio: per A: A1,A2,...AN per B: B1,B2,..BN per C: C1,C2,...CN per D: D1,D2,...DN per E: E1,E2,...EN
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
120
Generazione relazioni
- supponiamo di trovare A1-B4 (A-B) A7-B5 (A-B) B3-D9 (B-D) C8-C4 (C-C) C6-D2 (C-D) C1-E8 (C-E) - in casi di molteplicita' scelgo 1 sola relazione, piu' o menoarbitrariamente... - nell'esempio scegliero': A-B (una delle 2 relazioni trovate) B-D C-D C-E non scelgo ma potrei farlo C-C - il cammino relazionale selezionato sara' A-B-D-C-E
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
121
Generazione attributi
4-GENERAZIONE ATTRIBUTI
input:a) le entita' selezionate in passo 1b) le tavole selezionate in passo 1c) gli attributi delle tavole selezionate in passo 1 (vedasi algoritmo delpasso 1)output:x) per ciascuna entita' i suoi attributialgoritmo:importo IN ciascuna entita' gli attributi delle tavole corrispondentiCon il solito esempio, se avevamoA corrisponde a TAV1 (CAMPO1, CAMPO2)B corrisponde a TAV2 (CAMPO3, CAMPO4)D corrisponde a TAV4 (CAMPO5, CAMPO6)l'output sara'A (CAMPO1, CAMPO2)B (CAMPO3, CAMPO4)D (CAMPO5, CAMPO6)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
122
Infer constraints
5-GENERAZIONE RELAZIONI (PASSO ADDITIVO FATTO SUI CONSTRAINTS FISICI)input:a) le tavole pescate al punto 1 di generazione entita'output:x) le tavole selezionate unite dagli eventuali constraints, piu' eventualitavole che si frappongono per costituire il cammino dei constraintsalgoritmo:- con un tool (generalmente erwin) si effettuano sulla base dati operazionidi "infer relationship" considerando: - chiavi primarie e chiavi straniere esistenti - indici univoci - somiglianza di nomi campi- si derivano i constraints (relazioni fisiche)Con un esempio, se avevamo individuato precedentemente le tavole TAV1, TAV2e TAV4, il cammino relazionale fisico ottenuto dai constraints potrebbeessere: TAV1-tav5-TAV4-TAV2 (tav5 viene introdotto perche' necessaria alcammino per unire TAV1 e TAV4)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
123
Verifica col referente dati
6-VERIFICA CON REFERENTE DATI
input:a) tutto il materiale prodotto nei passi precedentib) le indicazioni del referente dati che in generale saranno di 2 tipi: - mi aspettavo venisse pescata ANCHE questa tavola - NON mi aspettavo venisse pescata quest'altra tavola
output:x) il modello dati con i concetti in piu' e/o in meno verificati colreferente dati
algoritmo:- per ogni entita' pescata impropriamente, la rimuovo (il criterio disomiglianza spara nel mucchio)- per ogni entita' mancante, la aggiungo con la consulenza del referentedati, corredandola di attributi e relazioni
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
124
Passo Manuale: Verifica del referente dati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
125
Esempio simbolico
Schema “automatico” Schema
dopo verifica referente
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
126
I tools realizzati
Tool con schemi concettuali PA locale piemontese mutuati per inferenza induttiva da quelli della PA centrale
Tool contenente sia gli schemi PA centrale che quelli della PA locale piemontese mutuati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
127
Tool PA locale
Screenshot del tool
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
128
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
129
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
130
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
131
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
132
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
133
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
134
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
135
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
136
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
137
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
138
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
139
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
140
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
141
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
142
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
143
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
144
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
145
Tool PA centrale e locale
Screenshot del tool
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
146
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
147
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
148
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
149
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
150
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
151
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
152
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
153
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
154
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
155
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
156
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
157
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
158
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
159
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
160
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
161
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
162
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
163
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
164
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
165
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
166
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
167
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
168
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
169
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
170
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
171
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
172
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
173
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
174
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
175
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
176
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
177
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
178
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
179
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
180
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
181
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
182
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
183
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
184
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
185
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
186
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
187
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
188
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
189
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
190
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
191
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
192
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
193
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
194
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
195
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
196
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
197
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
198
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
199
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
200
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
201
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
202
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
203
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
204
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
205
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
206
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
207
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
208
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
209
Standard, metodi e tools (Dublin Core, etc.)
Standard, metodi e tools (Dublin Core, etc.)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
210
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
211
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
212
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
213
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
214
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
215
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
216
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
217
Le ontologie informatiche e il web semantico
Schemi concettuali come ontologie leggere e glossari
Inferenza induttiva per il riuso dei concetti
Tassonomie e Semantica Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html
Standard (OWL)
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
218
Per valorizzare il patrimonio di metadati censiti, a supporto di Infodir è stata sperimentata una metodologia, implementata in un tool, che fa uso di ontologie “leggere”.
In particolare, la metodologia sfrutta tassonomie derivate dalle gerarchie di generalizzazione di un’ontologia della conoscenza gestita dalle pubbliche amministrazioni centrali (PAC).
La metodologia e il tool hanno come principali obiettivi:fornire nuovi metadati che arricchiscano le tassonomie esistenti attraverso un processo matching supportato da criteri di somiglianza (implementati nel tool come criteri ‘like’ di SQL) tra
• i nomi degli elementi presenti nelle tassonomie PAC • i nomi degli elementi estratti dalla nuove sorgenti informative.
Sfruttare le tassonomie PAC e i constraints presenti nelle strutture delle basi dati logiche censite per strutturare il patrimonio di metadati estratto dalla nuove sorgenti informative (abilitando un’attività di Data Reverse Engineering).
Metadati e ontologie: finalità
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
219
Ontologie “leggere” e ontologia PAC
L’ontologia PAC è stata costruita a partire da un insieme di schemi concettuali relativi alla PAC, integrati/astratti a diversi livelli, e dalle gerarchie di generalizzazione definite dal livello di integrazione/astrazione degli schemi.
Ciascuno schema contiene: • Entità e attributi • Gerarchie di generalizzazione Is-A• Relazioni tra entità
Relazioni interschema definiscono le relazioni di generalizzazione tra concetti e i rapporti tra i diversi schemi
Le ontologie “leggere” di infodir sono costituite da :Entità e attributi Relazioni tra entitàGerarchie di generalizzazione
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
220
Ontologie in infodir usate in duplice senso:
1. Creazione di tassonomie di concetti di rilievo per le PA a supporto della navigazione e del recupero delle informazioni presenti nelle basi di dati locali
3. Estrazione di conoscenza da schemi logici di basi di dati locali, con inferenza di ontologie specifiche relative a tali basi di dati
Duplice uso delle ontologie in infodir
Navigazione di infodir e recupero delle informazioni mediante uso di
ontologie
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
222
Inferenza di Supertipi di Entità PAL
Riutilizzando la tassonomia derivata dall’ontologia PAC sono stati derivati supertipi di entita’ degli schemi logici delle basi di dati locali
Mapping dinamici tra concetti della tassonomia PAC e entita’ degli schemi logici delle basi PALUtilizzo di tali mapping per per recuperare concetti e informazioni delle basi di dati PAL Sono stati ottenuti 261 supertipi specializzati per tematica di business (ad es. Imprese) riguardanti principalmente:
• La tematica di business “Imprese”• La gerarchia “soggetto”• La gerarchia “bene”• La gerarchia “documento” • La gerarchia “geografia” (luogo, urbanistica, territorio)
Ciascun livello delle singole tassonomie ha associato un criterio di somiglianza che “pesca” dai metadati descrittivi tecnici delle componenti delle basi dati (tavole, campi).
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
223
In questo modo è possibile ricondurre concetti molto specifici di dominio a concetti più astratti quali Soggetto, Documento, Proprietà, Luogo e utilizzare criteri di ricerca più intuitivi per l’utente.
Questa tecnica di inferenza tassonomico-ontologica attuata su infodir, consente, per ogni singolo concetto della PA, di verificare in quali basi dati questo concetto e’ fisicamente istanziato, come e’ correlato o correlabile sia top-down che bottom-up.
Risultati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
224
Un esempio: Geografia Urbanistica
Sperimentazione con metodi e tool per la mappatura di schemi concettuali PA con
schemi logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano
Bicocca )
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
226
Per incrementare e valorizzare il patrimonio esistente di metadati, abbiamo quindi sperimentato tali vie metodologiche e progettuali, per permettere poi lo sviluppo di un tool per la creazione di uno schema repositoryE’ stato preso come riferimento il repository della PA centrale (realizzato alcuni anni or sono), con l’obiettivo di costruirne uno specifico per la PA locale piemontese, fondato sulle similitudini concettuali dei due diversi livelli di PAIn CSI abbiamo ideato e realizzato metodo e tool grazie ad una collaborazione molto importante con il professor Carlo Batini dell’Universita’ di Milano Bicocca, che ringrazio pubblicamente di cuore, depositario degli schemi concettuali PA centrale rilevati in passato. Con Manuel Garasi abbiamo realizzato il tool che implementa il metodo.
Utilizzo dell’ontologia PAC per la costruzione di ontologie specifiche PAL
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
227
Tipi di conoscenza estratta a partire dagli schemi logici locali
La metodologia sfrutta due approcci principali:Approccio top-down (a partire da ontologie PAC):
• Entità affini a concetti delle ontologie PAC e loro attributi• Gerarchie IS-A tra entità (inferenza super-tipi) • Relazioni tra entità
Approccio bottom-up (a partire da tabelle PAL):• Relazioni tra entità
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
228
Si sfruttano le relazioni tra le tassonomie/gerarchie, ad esempio:
cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico, tributo elemento della gerarchia bene) per inferire dall’alto al basso relazioni tra gli oggetti censitiCon questi metodi abbiamo creato numerose ontologie.
Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di loro dei constraints, forniscono inferenza dal basso all’alto, quindi relazioni, tra gli elementi delle tassonomie/gerarchie.
Gerarchie di generalizzazione, Constraints e ontologie
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
229
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
CONCETTUALE
FISICO
Subject
Citizen
Juridical person/
legal entity
Physical subject/ person
“Good”
Tax/Tributepay
like “cittadin” like “tribut”
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
230
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
FISICO
CONCETTUALE
Agricolture
Bovine
Sheep farming
Breeding
Health
Vaccination
Text mining retrieval
Estensioni di infodir
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
232
Estensioni future: verso uno strumento semantico integrato
Verso infodir come strumento semantico integrato:
Estendere l’approccio proposto alla navigazione delle basi integrate di conoscenza nell’ambito del Web
Fornire strumenti di navigazione di arbitrari oggetti disponibili via web (dati semi-strutturati, non strutturati e multimediali), sfruttando l’ontologia creata
Fornire strumenti di navigazione non basati solo su tassonomie ma su mappe concettuali più estese sfruttando la natura ontologica dei modelli creati
Arricchimento della semantica delle ontologie utilizzate per supportare tecniche di ragionamento più sofisticato
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
233
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Subject
Citizen
Juridical person/
legal entity
Physical subject/ person
“Good”
Tax/Tributepay
Text mining retrieval
Oggetti del portale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
234
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Agricolture
Bovine
Sheep farming
Breeding
Health
Vaccination
Text mining retrieval
Oggetti del portale
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
235
Analizzando i risultati delle nostre sperimentazioni, ed altre soluzioni presenti sul web e descritte in letteratura, e’ possibile classificare le soluzioni ontologico-semantiche in livelli, precisando che il numero di livello crescente NON vuole essere indice di miglior soluzione:
1 livello ne’ ontologico ne’ semantico
2 livello solo ontologico
3 livello solo semantico
4 livello ontologico e semantico
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
236
1 livello ne’ ontologico ne’ semantico
sviluppare la navigazione tassonomica sotto forma di mappe concettuali, come in questo esempio (http://oasisvilweb01.csi.it/RelationBrowser/RelationBrowser.html ).
Tale livello per cosi’ dire "alla moda" e' solo un altro modo di vedere rappresentata una tassonomia con i suoi oggetti collegati, non aggiunge nulla in termini di intelligenza
http://mappadelpotere.casaleggioassociati.it/
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
237
2 livello solo ontologico:http://www.diviana.net
http://arianna.diviana.net/Arianna/default.asp
3 livello solo semanticohttp://www.expertsystem.net/
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
238
4 livello ontologico e semantico
ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in base a criteri di somiglianza cerco nel portale gli oggetti che somigliano alle entita' dello schema. Con un esempio, se dico cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e quelli che somigliano a tributo, sfrutto la relazione che gia' conosco (paga) e metto in relazione le 2 famiglie di oggetti. Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle basi dati insieme al professor Batini (vedi ad esempio http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf ).
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
239
4 livello ontologico e semantico
In tali sperimentazioni descritte e' l'ontologia che prevale sulla semantica, cioe' ho delle ontologie ricche e della semantica povera (criteri sql like, gerarchie di generalizzazione)
La semantica povera non e’ sufficientemente bilanciata rispetto alle ontologie, cioe’ non riesce ad arricchire ulteriormente quest’ultime.
E’ necessario creare meccanismi di autoapprendimento dove i criteri semantici piu’ sofisticati “creano” o perfezionano le ontologie esistenti.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
240
4 livello ontologico e semantico
In altre parole un portale ontologico-semantico generalizzato, ovvero un qualcosa che ha nella parte alta le ontologie, e nella parte bassa gli oggetti dei portali. Le ontologie a disposizione guidano la parte bassa, ma anche la parte bassa con opportune inferenze induttive (vedi Cogito) e' in grado di "apprendere" nuove ontologie da regalare alla parte alta.
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
241
LAVORI IN CORSO…
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
242
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
243
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
244
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
245
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
246
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
247
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
248
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
249
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
250
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
251
Intranet
http://intranet/prog/banchedati/supporto.htm
http://intranet/prog/banchedati/csidd.htm
http://intranet/prog/banchedati/csiddpopolam.htmhttp://intranet/prog/banchedati/standard.htm
http://intranet/prog/banchedati/documentazione.htm
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
252
Riferimenti Facolta’ di Fisica UniTO:http://fisica.campusnet.unito.it/cgi-bin/didattica.pl/Search?search=corso%3A7733&corso=7733&format=4&sort=U2&fields=_delete http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html Pubblicazione capitolo libro con Batini:http://www.ecampus.com/bk_detail.asp?isbn=1591409357 Partecipazione a convegni internazionali:http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf http://www.urbanontology.net/Programme.htm http://www.iasummit.it/2007/program/ Corso 4gg Batini in CSI:
http://intranet/formaz/formazione/materiale/modellaz_concet_dati.htmSeminario sui dati ai dirigenti CSI, Regione, Citta’TO e ProvinciaTO:
http://intranet.csi.it/cgi-bin/cdocum/vdoc/utenti/dettaglioDoc.cgi?kdoc=5701Materiali condivisi su cartella:
\\wi064175\corso2gg
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
253
Libri consigliati
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
254
15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati
255