Modellazione concettuale dei dati: metodi e

Preview:

Citation preview

Modellazione concettuale dei dati: metodi e

strumenti

Percorso formativo per gli Analisti

15 -16/04/2008

Tazzoli – Aula 30

Riccardo GrossoDirezione Banche Dati, Cultura e Atenei /

Cataloghi, Banche Dati, Cultura e Turismo

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

2

Modellazione concettuale dei dati: metodi e strumenti

ContenutiLa modellazione concettuale

I repository di schemi concettuali

Le ontologie informatiche e il web semantico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

3

La modellazione concettuale

Concetti base (cenni) della modellazione entita’ relazioni Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html

Metodi e Tools (cenni): UML, Erwin Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html

ProCSI, metadati e modellazione Case study di modellazione concettuale basato sull’interpretazione linguistica dei testi

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

4

La scomposizione in fasi del processo di progettazione ha lo scopo di scomporre i problemi e garantire la possibilità di modifica delle soluzioni adottate.

Queste fasi sono: Schema concettuale (o modello concettuale) Progettazione Schema logico (o modello Logico) RealizzazioneSchema Fisico (o modello Fisico) Implementazione

Progettazione Basi Dati operazionali

Il modello dei datiIl modello dei dati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

5

Il livello concettualelivello concettuale rappresenta la realtà dei dati e le relazioni tra essi attraverso uno schema. Il livello concettuale è la rappresentazione completa ed efficace del contesto, cioè della realtà a cui si riferisce. Essa è la rappresentazione più vicina alla logica umana. I modelli dei dati usati nella progettazione concettuale vengono definiti modelli semantici. Quello più diffuso è l’’ENTITY-RELATIONSHIPENTITY-RELATIONSHIP che prevede la individuazione delle Entità, cioè degli oggetti concreti o astratti, a la loro classificazione in insiemi omogenei.

Il modello concettualeIl modello concettuale

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

6

La fase logica del processo di progettazione di un DB ha lo scopo di tradurre lo schema concettuale in modello logico dei datitradurre lo schema concettuale in modello logico dei dati.

Lo schema logico (a differenza del concettuale) dipende dal tipo di DBMS utilizzato e in particolare dal modello logico dei dati.

Il Modello logico dei dati rappresenta come sono organizzati i dati negli archivi elettronici: descrive quindi la composizione ed il formato dei dati nel loro aspetto di struttura logica di dati. Il livello logico viene derivato dal livello concettuale

Il Modello logico dei dati è quindi la tecnica di organizzazione e Il Modello logico dei dati è quindi la tecnica di organizzazione e accesso ai dati utilizzata da specifiche categorie di DBMSaccesso ai dati utilizzata da specifiche categorie di DBMS

Progettazione Basi Dati operazionali

Il modello logicoIl modello logico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

7

Il Modello fisicoModello fisico rappresenta l'effettiva installazione degli archivi elettronici: esso indica l'ubicazione dei dati nelle memorie di massa (dischi). Il livello fisico è quindi l'implementazione del livello logico sui supporti per la registrazione fisica dei dati: partizioni, puntatori, blocchi fisici, cluster, indici.

Il Modello fisicoModello fisico stabilisce come le strutture definite a livello logico debbano essere organizzate negli archivi e nelle strutture del file-system; esso dipende quindi dal tipo di DBMS, dal sistema operativo e dalla piattaforma hardware utilizzata del sistema che ospita il DBMS.

Progettazione Basi Dati operazionali

Il modello fisicoIl modello fisico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

8

Cosa sono i metadati

http://it.wikipedia.org/wiki/Metadato

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

9

AUT OMOBILEF IGLIO

DONNAUOMO

generae'

generato da

s pos as i s pos a con

guidae' guidata da

Progettazione Basi Dati operazionali

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

10

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

UOMO.sposa.DONNA

» Ovvero

SOGGETTO.predicato-verbale.COMPLEMENTO-OGGETTO

» Ovvero

ENTITA.relazione.ENTITA

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

11

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

Gli esempi che seguono utilizzano il tool Erwin

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

12

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

13

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

14

Forme normali

http://www.liceofoscarini.it/didattic/data-base/formenormali.html

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

15

Le generalizzazioni

• PERSONA generalizza» UOMO» DONNA

Progettazione Basi Dati operazionali

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

16

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

Lo schema che segue utilizza il tool StarUML:\\wi064175\StarUmlExe2

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

17

PERSONA

UOMO DONNA

Progettazione Basi Dati operazionali

Il Bignami dell’entity relationshipIl Bignami dell’entity relationship

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

18

Il Case Study dal titolo: IL CITTADINO CHE PAGA I TRIBUTIIl cittadino e’ un soggetto con caratteristiche fisiche e giuridiche. Puo’ possedere un’impresa. Puo’ ammalarsi e quindi godere dell’assistenza medica. Puo’ candidarsi alle elezioni… Ma prima di ogni cosa deve pagare i tributi ! Per fare questo, la pubblica amministrazione lo aiuta…La pubblica amministrazione si occupa di gestire le cose pubbliche: i beni dei cittadini e i documenti che comprovano che il cittadino ha versato i tributi ! Altrimenti il cittadino va incontro ad atti giudiziari. Il cittadino possiede quindi dei beni, e per tali beni viene “convinto” a pagare i tributi. I beni possono essere mobili, come le automobili, e immobili, come abitazioni, fabbricati e terreni. Se il cittadino possiede immobili, questi devono essere registrati al catasto. Nell’esempio, il cittadino Valter possiede una abitazione ed alcuni terreni. Da pochi giorni, insieme al fratello Silvio, ha un’impresa che possiede fabbricati. I cittadini e le imprese possono risiedere in localita’ diverse. Una localita’ e’ identificabile da un indirizzo: via o strada, numero civico. I cittadini possiedono automobili. Per pagare i tributi effettuano versamenti. L’ impresa dei nostri amici Valter e Silvio risiede in provincia di Roma, mentre le loro rispettive abitazioni sono entrambi nel comune di Roma. Le loro automobili sono targate Roma. L’abitazione di Silvio da verifiche effettuate non risultava censita come particella catastale. Per tutti i loro beni esistevano versamenti.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

19

Approfondimenti sulla progettazione concettuale datiApprofondimenti sulla progettazione concettuale dati

Il corso del professor Lenzerini:

http://www.dis.uniroma1.it/~lenzerin/didattica/basididati/materiale/4-progettazioneconcettuale.pdf

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

20

Approfondimenti sulle tecniche di reverse/forwardApprofondimenti sulle tecniche di reverse/forward

http://www.tecnetdati.it/portale/download/Re_database.ppt

Progettazione Basi Dati operazionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

21

Introduzione alle basi dati decisionaliIntroduzione alle basi dati decisionali

Basi dati operazionali e decisionali

Differenze

Dall’operazionale al decisionale

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

22

Due tipologie di banche dati:

operazionali: • contengono dati di interesse quotidiano• vengono aggiornate costantemente in relazione alle • procedure amministrative e tecniche di competenza di un ente

informativo-decisionali: • servono per supportare le esigenze di integrazione di • informazioni provenienti da banche dati operazionali diverse• sia ai fini di diffondere conoscenze, sia per supportare i • processi decisionali ai diversi livelli (micro o macro decisioni)

Tipologie di Banche DatiTipologie di Banche Dati

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

23

Nel DW i dati sono organizzati per soggetto anziché per applicazione

Tra tutte le informazioni operazionali vengono selezionate solo quelle necessarie per il processo decisionale

Subject-oriented (Orientata ai soggetti)Subject-oriented (Orientata ai soggetti)

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

24

Comune BeneficiarioComune Beneficiario

ProcedimentoProcedimento

Oggetto di InterventoOggetto di Intervento

FinanziamentiFinanziamenti

La Base Dati è un insieme di “La Base Dati è un insieme di “fattifatti” ” nello spazio multidimensionalenello spazio multidimensionale

Progettazione Basi Dati decisionali

Struttura di una base dati decisionaleStruttura di una base dati decisionale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

25

L’architettura fisica del Modello Dimensionale è descritta attraverso lo STAR SCHEMASTAR SCHEMA

ClientiClienti

ProdottoProdotto

TempoTempo

ProduzioneProduzioneGeografiaGeografia

Progettazione Basi Dati decisionaliStruttura multidimensionaleStruttura multidimensionale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

26

Dimensione1_PK

Dimensione1_PKDimensione2_PKDimensione3_PKDimensione4_PK

Misura1Misura2Misura3Misura4

Dimensione3_PK Dimensione4_PK

Dimensione2_PKTavola dei FattiTavola dei Fatti

Dimensione1Dimensione1 Dimensione2Dimensione2

Dimensione3Dimensione3 Dimensione4Dimensione4

Progettazione Basi Dati decisionali

Data Modeling per sistemi decisionali: lo Data Modeling per sistemi decisionali: lo Star SchemaStar Schema

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

27

Progettazione Basi Dati decisionaliEsempio di Esempio di Star SchemaStar Schema

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

28

Progettazione Basi Dati decisionaliEsempio di Esempio di Star SchemaStar Schema

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

29

Analisi base dati gestionale

Studio delle interrogazioni

+

Progettazione Basi Dati decisionali

Dal DB gestionale…Dal DB gestionale…

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

30

… … al DB decisionaleal DB decisionale

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

31

Approfondimenti sulla progettazione DataWarehouseApprofondimenti sulla progettazione DataWarehouse

Il corso del professor Batini:

http://www.disco.unimib.it/upload/3.1%20DWData%20WarehouseRevCB020205.pdf

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

32

ProCSI

Metadati e ProCSIhttp://intranet/prog/banchedati/dwd/metadpro.ppt

Modellazione dati e ProCSIhttp://intranet/organizzazione/processi/procsi/dwd/Modello_dati.doc

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

33

I repository di schemi concettuali

Metadati e cataloghi Riuso dati, servizi (archimede) e metadati Repository schemi PA (esperienze con univ. MI-Bicocca)

Fonte: http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html

Standard, metodi e tools (Dublin Core, etc.)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

34

Metadati e cataloghi

Metadati e cataloghi: vecchio e nuovo infodir

Infodir = information directory

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

35

Il vecchio infodir

Propedeutico per la comprensione del metamodello dei dati del repository metadati

Si evolve nel nuovo infodir che puo’ classificare qualsiasi oggetto introducendo nuovi oggetti e nuove tassonomie

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

36

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

37

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

38

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

39

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

40

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

41

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

42

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

43

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

44

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

45

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

46

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

47

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

48

Cosa dicono i guru (fonte Zach Wahl)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

49

La nostra interpretazione applicata alle basi dati

PeopleSoggetto

PlacesGeografia

• Luogo • Territorio • Urbanistica

ThingsBeneDocumento

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

50

GEOGRAFIA LUOGOGEOGRAFIA LUOGO

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

51

GEOGRAFIA TERRITORIOGEOGRAFIA TERRITORIO

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

52

GEOGRAFIA URBANISTICAGEOGRAFIA URBANISTICA

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

53

BENE (COSA)BENE (COSA)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

54

DOCUMENTO (COSA)DOCUMENTO (COSA)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

55

SOGGETTO FISICOSOGGETTO FISICO

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

56

SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

57

Ad inizio 2007 è stata rilasciata una nuova versione di Information Directory che supera alcuni limiti architetturali del vecchio infodir nato nel 1999.

Esso è stato infatti generalizzato e potenziato, nonchè condiviso tra le 3 principali pubbliche amministrazioni piemontesi (Regione, Città e Provincia di Torino), e riconosciuto come “il nuovo infodir”.

Il nuovo infodir annovera tra le sue principali caratteristiche le seguenti:

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

58

Caratteristiche principali:backend decentrato (data stewardship) presso i centri di competenza per materia presenti in CSI e presso gli entiviste separate e viste condivise dei metadati, sia di business che tecnicioggetti generalizzatimodello dimensionale o facet-based (a faccette e focus)classificazioni dinamiche, ovvero tassonomie, generalizzate, ed associabili a criteri di text mining che permettono di classificare automaticamente gli oggetti via via censitisearch, browse e ricerche avanzate tra loro intersecabili

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

59

Metamodello del catalogo descritto

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

60

Classificazione automatica in infodirNella migrazione di una delle tassonomie previste, si e’ fatto un esperimento di text miningClusterizzando gli oggetti in automatico classificandoli nella vecchia tassonomiaConfrontando i risultati automatici con quelli manuali dati dagli oggetti classificati manualmente nella vecchia tassonomiaUsando i risultati del confronto per affinare gli algoritmi automaticiUsando infine gli algoritimi automatici affinati applicandoli alla nuova tassonomia e migrando in automatico gli oggettiChiedendo ai power-user di verificare la migrazione risparmiando loro manualita’

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

61

Searching & Browsing in infodirLe ricerche sono possibili partendo indifferentemente da searching e da browsing di:

Tassonomie

Tipi di oggetto

Partendo ad esempio da un search, posso affinare la ricerca per

Tassonomia

Tipo di oggetto

Singolo metadato (ad esempio fase)

Di seguito si mostra una sequenza di screenshot di esempio

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

62

Esempio I

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

63

Esempio II

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

64

Esempio III

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

65

Riuso dati, servizi (archimede) e metadati

Riuso dati, servizi (archimede) e metadati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

66

Cenni sul riuso dei datiCenni sul riuso dei dati

Costruire una serie di tavole di riferimento (di uso operazionale e decisionale) contenenti codifiche comuni, complete, certificate ed aggiornate costituisce un primo passo per l'integrazione delle basi dati, l'interscambio informativo e la cooperazione tra le diverse amministrazioni.

Per acquisire la classificazione che si vuole gestire in una tavola trasversale, viene ricercata la fonte dati più qualificata. Obiettivo è quello di identificare l'ente responsabile dell'informazione (ISTAT per i codici Istat, Ministero delle Finanze per i codici Belfiore, ecc): in tal senso i dati acquisiti vengono considerati "certificati", ovvero emessi dalla fonte che li produce e ne è responsabile.

Progettazione Basi Dati decisionali

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

67

Cenni sul riuso dei datiCenni sul riuso dei dati

Una volta acquisito il flusso informativo dalla fonte dati individuata, si procede comunque ad una fase sistematica di controllo e validazione dei dati acquisiti: viene verificata, ad esempio, la corrispondenza del livello di aggiornamento con quello dichiarato dalla fonte, la completezza dell'informazione, in sintesi l'idoneità dei dati a corrispondere all'obiettivo informativo per cui sono raccolti.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

68

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

69

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

70

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

71

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

72

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

73

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

74

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

75

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

76

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

77

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

78

Esercitazione pratica di riuso su Business Objects - Webi

Cercare nell’universo webi le topten e gli impatti delle entita’ e degli attributi del modello concettuale “cittadino paga tributi”

Supertipi su dimensioni condivisibili (user = metadati, pwd = meta$1, selezionare in alto la categoria "Top 10 e Analisi di impatto")

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

79

Repository schemi PA (esperienze con univ. MI-Bicocca)

Repository schemi PA (esperienze con univ. MI-Bicocca)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

80

L’informazione negli schemi e’ nascosta ……

DATA DIVISION.WORKING-STORAGE SECTION.01 PERSONA.05 UOMo.10 COD-UOMO PIC X(5).10 DESC-UOMO PIC X(80).05 DONNA REDEFINES UOMO.10 TIPO-RECORD PIC X.10 COD-DONNA PIC 9(5).10 DESC-DONNA PIC X(80).01 AMMINISTRAZIONE.05 REGIONE.10 COD-REGIONE PIC X(3).10 COD-DUMMY PIC X(6).10 DES-REGIONE PIC X(80).05 PROVINCIA REDEFINES REGIONE.10 COD-REGIONE PIC X(3).10 COD-PROVINCIA PIC X(3).10 COD-DUMMY2 PIC X(3).10 DES-PROVINCIA PIC X(80).05 COMUNE REDEFINES REGIONE.10 COD-REGIONE PIC X(3).10 COD-PROVINCIA PIC X(3).10 COD-COMUNE PIC X(3).10 DES-COMUNE PIC X(80).01 PERSONA-AMMINISTRAZIONE.05 LEGAME.10 COD-PERSONA PIC X(5).10 COD-AMMIN PIC X(3).

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

81

Gli schemi sono non integrati ed eterogenei

Anagrafe residenti

Anagrafe assistiti

Anagrafe soggettifiscali

Archivio dipendenti

Archivio cacciatori

Persona

Codiceprogres-sivo

Codicefiscale

Codicefiscale

Numero tessera sanitaria

Codiceinterno

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

82

Visione

Il CSI Piemonte e le Amministrazioni del piemonte sono coinvolte nei processi di eGovernment, sia a livello locale (Piemonte) sia a livello nazionale (cooperazione con le Amministrazioni centrali)

Sono percio’ protagonisti nel disegno di cambiamento

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

83

Per attuare questo disegno serve

1. Un modello per rappresentare gli schemi dati

2. Una struttura con cui organizzare gli schemi in un repository

3. Una metodologia con cui creare e manutenere il repository in maniera efficiente a partire dalla conoscenza disponibile

4. Uno scenario di utilizzazione della conoscenza accumulata

5. Uno strumento di supporto

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

84

1. Il modelloIl modello Entita’ Relazione

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

85

Generalizzazione

Esempio di schema nel modello Entita’ Relazione

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

in in

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

RegioneCodiceNome

Entita’ Relazione Attributo

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

86

Dal Cobol,al modello Entita’ Relazione al linguaggio naturale

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

In inRegioneCodiceNome

DATA DIVISION.

WORKING-STORAGE SECTION.

01 PERSONA.

05 UOMo.

10 COD-UOMO PIC X(5).

10 DESC-UOMO PIC X(80).

05 DONNA REDEFINES UOMO.

10 TIPO-RECORD PIC X.

10 COD-DONNA PIC 9(5).

10 DESC-DONNA PIC X(80).

01 AMMINISTRAZIONE.

05 REGIONE.

10 COD-REGIONE PIC X(3).

10 COD-DUMMY PIC X(6).

10 DES-REGIONE PIC X(80).

05 PROVINCIA REDEFINES REGIONE.

10 COD-REGIONE PIC X(3).

10 COD-PROVINCIA PIC X(3).

10 COD-DUMMY2 PIC X(3).

10 DES-PROVINCIA PIC X(80).

05 COMUNE REDEFINES REGIONE.

10 COD-REGIONE PIC X(3).

10 COD-PROVINCIA PIC X(3).

10 COD-COMUNE PIC X(3).

10 DES-COMUNE PIC X(80).

01 PERSONA-AMMINISTRAZIONE.

05 LEGAME.

10 COD-PERSONA PIC X(5).

10 COD-AMMIN PIC X(3).

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

87

2. La struttura del repository di schemi

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

88

Studio CSI Assinform

Organizzazione

Flusso di dati

Fornisce Fruisce

Riguarda Materia

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

89

Noi siamo interessati sia ai flussi che alle basi di dati

OrganizzazioneBase Dati

Flusso di dati

Fornisce Fruisce

AggiornaUsa

Materia

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

90

Schema concettuale

Concetto di schema(Entita’/Rel/Generalizzazione)

Metaschema – Versione dettagliata - 1

Organizzazione Schema logicofisico

Flusso di dati

FruisceUsa

Materia/Argomento CSI

Aggiorna

Fornisce

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

91

Con tanti schemi…

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

92

Due strumenti concettuali

Integrazione, per “mettere insieme” e “riconciliare”

Astrazione, per “capire” e “sintetizzare”

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

93

Integrazione (linguaggio naturale)

Schema 1

Lavoratori e loro organizzazioniSchema 2

Lavoratori, loro citta’ di nascita e relativa area regionale

Schema 3

Organizzazioni e regioni dove sono localizzate

•Lavoratori, loro citta’ di nascita e relativa regione•Lavoratori e loro organizzazioni, e, delle organizzazioni, •regioni dove sono localizzate

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

94

L’integrazione: modello Entita’ Relazione

Lavoratore Citta’ Regione

Organizzazione

lavora

nato

in

in

Lavoratore

Organizzazione

Lavoratore Citta’ RegioneArea

Organizzazione

in

in

lavoranato

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

95

L’astrazione (linguaggio naturale)

•Lavoratori, loro citta’ di nascita e relativa regione•Lavoratori e loro organizzazioni, e delle organizzazioni •Regioni dove sono localizzate

•Lavoratori, organizzazioni dove lavorano e riferimenti •geografici di nascita e di localizzazione.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

96

L’astrazione: modello Entita’ Relazione

LavoratoreRiferimentogeografico

Organizzazione

lavora

in

nato

Lavoratore Citta’ Regione

Organizzazione

lavora

in

nato in

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

97

Se le usiamo insieme: integrazione + astrazione

Lavoratore

Organizzazione

Lavoratore Citta’ Regione

Area

Organizzazione

lavora

nato in in

IntegrazioneLavoratore Citta’ Regione

Organizzazione

in

in

in

nato

LavoratoreRiferimentogeografico

Organizzazione

Astrazione

in

in

nato

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

98

La struttura di integrazione - astrazione

Integrazione –Astrazione

LavoratoreRiferimentogeografico

Organizzazione

nato

in

lavora

Lavoratore

Organizzazione

Lavoratore Citta’ Regione

Regione

Organizzazione

lavorain innato

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

99

Le abbiamo usate iterativamente ottenendo il repository

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

100

Schemi base e schemi astratti

Schemi astratti

Schemi base

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

101

3. Una metodologia per costruire il repository a partire dalla conoscenza disponibile

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

102

Conoscenza disponibile

Gli schemi logici e fisici della PA Piemontese (PAP) gestiti da InfodirCirca 500 schemi logici conCirca 18.000 tabelle con Circa 200.000 campi

Gli schemi concettuali della PA centrale (PAC) censiti e organizzati dall’Aipa in un Repository analogo

Circa 5.000 entita’ Circa 10.000 attributiCirca 50 schemi astratti della PA Centrale, organizzati secondo le operazioni di integrazione astrazione

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

103

Facendo cio’ con basso utilizzo di risorse

Se procediamo con una metodologia tradizionale di reverse engineering sui 500 schemi PAP, assumendo due settimane persona a schema, si ha:

Risorse con procedura tradizionale = 0,5 mesi persona * 500 = 25 anni persona

Dovevamo inventarci una metodologia approssimata che ci permetta di ridurre l’uso delle risorse di un ordine di grandezza

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

104

Repository PAC – struttura completa

TRASPORTI COMUNICAZIONIPRODUZIONELAVOROCULTURAEDILIZIA

AMBIENTEISTRUZIONESANITA'SICUREZZA GIUSTIZIADIFESAAFFARI ESTERI

ASSICURAZIO- NE SOCIALE

CERTIFICA-

SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 1° LIVELLO

SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 2° LIVELLO

SCHEMA INTEGRATO DELLE BASI DI DATI DELLA PA DI 3° LIVELLO

SERVIZI

SERVIZI GENERALI SERVIZI DIRETTISERVIZI SOCIALI ED ECONOMICI

CA

TA

STO

PR

EV

IDE

NZ

A

RE

LA

ZIO

NI

ES

TE

RE

IN

IT

AL

IA

RE

LA

ZIO

NI

ITA

LIA

NE

AL

L' E

ST

ER

O

AT

TIV

ITA

' GIU

RID

ICA

CR

IMIN

AL

ITA

'

SIC

UR

EZ

ZA

IN

TE

RN

A

AS

SIS

TE

NZ

A

SE

RV

IZIO

SA

NIT

AR

IO

IST

RU

ZIO

NE

AM

BIE

NT

E

BE

NI

CU

LT

UR

AL

I

LA

VO

RO

AZ

IEN

DE

AG

RIC

OL

E

AZ

IEN

DE

IN

DU

ST

RA

LI

TR

AS

PO

RT

I

SERVIZI SOCIALI SERVIZI ECONOMICI

TR

ASF

ER

IME

NT

O F

ON

DI

A

EN

TI

LO

CA

LI

PER

EN

TI

PUIB

BL

ICI

CA

PIT

OL

I D

I SP

ESA

STATISTICARISORSE DI SUPPORTO

RISORSE FINANZIARIE

RISORSE STRUMENTALI E IMMOBILIARI

RISORSE UMANE

PRO

TO

CO

LL

O

OR

GA

NI

CO

LL

EG

IAL

I

FISC

O

DO

GA

NE

RISORSE

STR

UM

EN

TI

AU

TO

ME

ZZ

I

BE

NI

IMM

OB

ILI

DIP

EN

DE

NT

I

FOR

MA

ZIO

NE

RA

PPR

ESE

NT

AN

ZE

2/93

2/12 8/

293

6/69

3/18

23/

30

2/89

3/59

2/65

37/3

36

3/75

3/66

9/11

8

4/36

6/53 10

/76 6/

76

6/13

0 5/56

6/15

5 3/13

4

8/21

3

10/1

00 9/11

8

3/53

9/11

2 10/1

78

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

105

Lo schema piu’ astratto

BeneSoggetto

Documento

Unitàorganizzativa

Riferimentoterritoriale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

106

In sintesi

18.000 tabelle

Rappresentazione logico fisica

550 schemiRappresentazione

concettuale

Pubblica Amministrazione

localePubblica Amministrazione

centrale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

107

Schemi descritti nel Repository

Soggetto

Bene Soggetto

Documento

Unitàorganizzativa

Riferimentoterritoriale

S. fisico S. giuridico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

108

Soggetto fisico

pensionato

di guerra

invalidità civile

Ricorrente per invalidità civile

casalinga

volontario

studentestraniero

con handicap

borsista

candidato

Segretario comunale

assistito

tossicodipendente contribuente

utente anagrafetributaria

Contribuente ufficio iva

appartenente catasto

fisco

scuola

giustizia

affari esteri

lavoro

pensioni

Salute ed assistenza

politica

vita sociale

lavoratore

disoccupato

autonomodipendente

Alla ricerca di nuova occupazione

Alla ricerca di prima occupazione

detenuto

condannato

in attesa di giudizio

segnalato

Tossicodipendente segnalato

straniero italiano

residente all’estero

Richiedente cittadinanza

Richiedente visto

47

164

91

161

520

162

163MI, MT, MD

363739

38

40

8289

153

MF, MT

35

48

5998

110

165

174

180526

650

MGG, MI,MIBCA , MT, MTN

MI, MS

6

16

63

72

80

600

66

81

99

1827

735

90

132

142

MAE, MURST, MPI

MAE, MGG,MI

MAE, MI, MLPS

MI

601

507602

1902

453

54

71

74

88

101

104105

160

171603

653

654

663

5292

111170

7

910

1112

20 24 25

4551

5564

65

68

87

93 9697

108120

131137

173

501

506515516

651

19

86136

172

531

656

MAE, MF, MGG, MI,

MIBCA, MLP, MLPS, MT,MTN, MCE,MD, MURST

21

109

Schemi base e Gerachie di generalizzazioneCaso Soggetto fisico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

109

La gerarchia di soggetto

–soggetto fisico•Lavoro

•lavoratore–lavoratore autonomo–dipendente pubblico

•disoccupato•……

–soggetto giuridico•impresa•istituzione p.a.•Istituzione sociale privata•……

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

110

Utlizzeremo percio’ una conoscenza piu’ sintetica: le gerarchie di generalizzazione

Schemi logici

Schemi

concettuali

Pubblica Amministrazione

Locale

Pubblica Amministrazione Centrale

Gerarchie diGeneralizzazione:-Cittadino-Impresa-Organizzazione-Documento-Luogo-Bene

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

111

Sintesi della metodologia

Scopo della metodologia: semplificare il compito del referente dati, utilizzando il piu’ possibile strumenti automatici, a costo di una certa approssimazione nelle scelte.

Assunzione: ad un certo livello di astrazione gli schemi della PAL Piemontese sono “simili” a quelli della PA Centrale. Si differenziano nei livelli di astrazione piu’ bassi.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

112

Le due fasi della metodologia

Fase automatica

Schemascheletro

Schemafinale

Fasemanuale

Referente dati competentesul dominio

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

113

Fase automatica: generazione entita’

1-GENERAZIONE ENTITA'

input:a) le entita' delle ontologieb) le tavole della base dati

output:x) le tavole "pescate" dall'algoritmoy) le entita' delle ontologie corrispondenti alle tavole pescate in x

ALGORITMO: - PER OGNI ENTITA' DELLE ONTOLOGIE (LOOP) - PER OGNI TAVOLA DELLA BASE DATI - SE C'E' ALMENO 1 ATTRIBUTO DELLA TAVOLA CHE SIA"SOMIGLIANTE" AL NOME DELL'ENTITA' DELL'ONTOLOGIA - SCELGO L'ENTITA' - ENDIF - END LOOP - END LOOP

SOMIGLIANTE = LIKE "STRINGA" IN NOME E/O DESCRIZIONE ATTRIBUTO

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

114

Passo 1: Generazione entita’

…..Attributi eTabelle

Gerarchie

E1

PA Piemontese

PA Centrale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

115

Generazione entita’ - Ricerca per somiglianza

…..

Attributi eTabelle degliSchemi logici

Gerarchie

E1

PA Piemontese

PA Centrale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

116

Generazione entita’ - passo finale

E1

E2

E3

Attributi eTabelle

E1

E2

E3

…..

PA Centrale

PA Piemontese

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

117

Generazione generalizzazioni

2-GENERAZIONE GENERALIZZAZIONI

input:a) le entita' trovate in generazione entita'b) le tavole trovate in generazione entita'

output:x) le generalizzazioni delle entita'y) le generalizzazioni delle tavole

algoritmo:- osservando le generalizzazioni complete delle entita' delle ontologie,riporto quelle presenti nelle entita' selezionate in generazione entita'- per analogia, le tavole corrispondenti alle entita' "sposano" le medesimegeneralizzazioniCon un esempio astratto, se ho una ontologia completaA B C D E

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

118

Generazione generalizzazioni

se precedentemente ho selezionato A, B, D le generalizzazioni trovatesarannoA B D

Se avevamo corrispondenza tra A e TAV1, B e TAV2, D e TAV4, avremo lagerarchia di generalizzazione tavole:TAV1 TAV2 TAV4

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

119

Generazione relazioni

3-GENERAZIONE RELAZIONI

input:a) le entita' selezionate ai passi precedenti

output:x) le relazioni tra le entita' selezionate

algoritmo:- per ogni entita' delle ontolologie selezionata (loop) - cerco nei 500 schemi le entita' (dei 500 schemi) - con riferimento all'esempio astratto di cui sopra avremo adesempio: per A: A1,A2,...AN per B: B1,B2,..BN per C: C1,C2,...CN per D: D1,D2,...DN per E: E1,E2,...EN

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

120

Generazione relazioni

- supponiamo di trovare A1-B4 (A-B) A7-B5 (A-B) B3-D9 (B-D) C8-C4 (C-C) C6-D2 (C-D) C1-E8 (C-E) - in casi di molteplicita' scelgo 1 sola relazione, piu' o menoarbitrariamente... - nell'esempio scegliero': A-B (una delle 2 relazioni trovate) B-D C-D C-E non scelgo ma potrei farlo C-C - il cammino relazionale selezionato sara' A-B-D-C-E

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

121

Generazione attributi

4-GENERAZIONE ATTRIBUTI

input:a) le entita' selezionate in passo 1b) le tavole selezionate in passo 1c) gli attributi delle tavole selezionate in passo 1 (vedasi algoritmo delpasso 1)output:x) per ciascuna entita' i suoi attributialgoritmo:importo IN ciascuna entita' gli attributi delle tavole corrispondentiCon il solito esempio, se avevamoA corrisponde a TAV1 (CAMPO1, CAMPO2)B corrisponde a TAV2 (CAMPO3, CAMPO4)D corrisponde a TAV4 (CAMPO5, CAMPO6)l'output sara'A (CAMPO1, CAMPO2)B (CAMPO3, CAMPO4)D (CAMPO5, CAMPO6)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

122

Infer constraints

5-GENERAZIONE RELAZIONI (PASSO ADDITIVO FATTO SUI CONSTRAINTS FISICI)input:a) le tavole pescate al punto 1 di generazione entita'output:x) le tavole selezionate unite dagli eventuali constraints, piu' eventualitavole che si frappongono per costituire il cammino dei constraintsalgoritmo:- con un tool (generalmente erwin) si effettuano sulla base dati operazionidi "infer relationship" considerando: - chiavi primarie e chiavi straniere esistenti - indici univoci - somiglianza di nomi campi- si derivano i constraints (relazioni fisiche)Con un esempio, se avevamo individuato precedentemente le tavole TAV1, TAV2e TAV4, il cammino relazionale fisico ottenuto dai constraints potrebbeessere: TAV1-tav5-TAV4-TAV2 (tav5 viene introdotto perche' necessaria alcammino per unire TAV1 e TAV4)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

123

Verifica col referente dati

6-VERIFICA CON REFERENTE DATI

input:a) tutto il materiale prodotto nei passi precedentib) le indicazioni del referente dati che in generale saranno di 2 tipi: - mi aspettavo venisse pescata ANCHE questa tavola - NON mi aspettavo venisse pescata quest'altra tavola

output:x) il modello dati con i concetti in piu' e/o in meno verificati colreferente dati

algoritmo:- per ogni entita' pescata impropriamente, la rimuovo (il criterio disomiglianza spara nel mucchio)- per ogni entita' mancante, la aggiungo con la consulenza del referentedati, corredandola di attributi e relazioni

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

124

Passo Manuale: Verifica del referente dati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

125

Esempio simbolico

Schema “automatico” Schema

dopo verifica referente

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

126

I tools realizzati

Tool con schemi concettuali PA locale piemontese mutuati per inferenza induttiva da quelli della PA centrale

Tool contenente sia gli schemi PA centrale che quelli della PA locale piemontese mutuati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

127

Tool PA locale

Screenshot del tool

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

128

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

129

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

130

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

131

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

132

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

133

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

134

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

135

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

136

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

137

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

138

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

139

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

140

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

141

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

142

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

143

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

144

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

145

Tool PA centrale e locale

Screenshot del tool

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

146

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

147

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

148

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

149

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

150

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

151

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

152

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

153

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

154

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

155

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

156

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

157

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

158

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

159

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

160

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

161

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

162

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

163

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

164

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

165

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

166

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

167

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

168

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

169

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

170

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

171

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

172

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

173

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

174

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

175

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

176

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

177

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

178

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

179

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

180

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

181

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

182

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

183

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

184

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

185

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

186

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

187

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

188

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

189

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

190

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

191

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

192

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

193

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

194

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

195

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

196

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

197

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

198

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

199

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

200

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

201

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

202

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

203

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

204

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

205

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

206

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

207

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

208

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

209

Standard, metodi e tools (Dublin Core, etc.)

Standard, metodi e tools (Dublin Core, etc.)

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

210

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

211

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

212

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

213

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

214

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

215

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

216

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

218

Per valorizzare il patrimonio di metadati censiti, a supporto di Infodir è stata sperimentata una metodologia, implementata in un tool, che fa uso di ontologie “leggere”.

In particolare, la metodologia sfrutta tassonomie derivate dalle gerarchie di generalizzazione di un’ontologia della conoscenza gestita dalle pubbliche amministrazioni centrali (PAC).

La metodologia e il tool hanno come principali obiettivi:fornire nuovi metadati che arricchiscano le tassonomie esistenti attraverso un processo matching supportato da criteri di somiglianza (implementati nel tool come criteri ‘like’ di SQL) tra

• i nomi degli elementi presenti nelle tassonomie PAC • i nomi degli elementi estratti dalla nuove sorgenti informative.

Sfruttare le tassonomie PAC e i constraints presenti nelle strutture delle basi dati logiche censite per strutturare il patrimonio di metadati estratto dalla nuove sorgenti informative (abilitando un’attività di Data Reverse Engineering).

Metadati e ontologie: finalità

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

219

Ontologie “leggere” e ontologia PAC

L’ontologia PAC è stata costruita a partire da un insieme di schemi concettuali relativi alla PAC, integrati/astratti a diversi livelli, e dalle gerarchie di generalizzazione definite dal livello di integrazione/astrazione degli schemi.

Ciascuno schema contiene: • Entità e attributi • Gerarchie di generalizzazione Is-A• Relazioni tra entità

Relazioni interschema definiscono le relazioni di generalizzazione tra concetti e i rapporti tra i diversi schemi

Le ontologie “leggere” di infodir sono costituite da :Entità e attributi Relazioni tra entitàGerarchie di generalizzazione

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

220

Ontologie in infodir usate in duplice senso:

1. Creazione di tassonomie di concetti di rilievo per le PA a supporto della navigazione e del recupero delle informazioni presenti nelle basi di dati locali

3. Estrazione di conoscenza da schemi logici di basi di dati locali, con inferenza di ontologie specifiche relative a tali basi di dati

Duplice uso delle ontologie in infodir

Navigazione di infodir e recupero delle informazioni mediante uso di

ontologie

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

222

Inferenza di Supertipi di Entità PAL

Riutilizzando la tassonomia derivata dall’ontologia PAC sono stati derivati supertipi di entita’ degli schemi logici delle basi di dati locali

Mapping dinamici tra concetti della tassonomia PAC e entita’ degli schemi logici delle basi PALUtilizzo di tali mapping per per recuperare concetti e informazioni delle basi di dati PAL Sono stati ottenuti 261 supertipi specializzati per tematica di business (ad es. Imprese) riguardanti principalmente:

• La tematica di business “Imprese”• La gerarchia “soggetto”• La gerarchia “bene”• La gerarchia “documento” • La gerarchia “geografia” (luogo, urbanistica, territorio)

Ciascun livello delle singole tassonomie ha associato un criterio di somiglianza che “pesca” dai metadati descrittivi tecnici delle componenti delle basi dati (tavole, campi).

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

223

In questo modo è possibile ricondurre concetti molto specifici di dominio a concetti più astratti quali Soggetto, Documento, Proprietà, Luogo e utilizzare criteri di ricerca più intuitivi per l’utente.

Questa tecnica di inferenza tassonomico-ontologica attuata su infodir, consente, per ogni singolo concetto della PA, di verificare in quali basi dati questo concetto e’ fisicamente istanziato, come e’ correlato o correlabile sia top-down che bottom-up.

Risultati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

224

Un esempio: Geografia Urbanistica

Sperimentazione con metodi e tool per la mappatura di schemi concettuali PA con

schemi logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano

Bicocca )

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

226

Per incrementare e valorizzare il patrimonio esistente di metadati, abbiamo quindi sperimentato tali vie metodologiche e progettuali, per permettere poi lo sviluppo di un tool per la creazione di uno schema repositoryE’ stato preso come riferimento il repository della PA centrale (realizzato alcuni anni or sono), con l’obiettivo di costruirne uno specifico per la PA locale piemontese, fondato sulle similitudini concettuali dei due diversi livelli di PAIn CSI abbiamo ideato e realizzato metodo e tool grazie ad una collaborazione molto importante con il professor Carlo Batini dell’Universita’ di Milano Bicocca, che ringrazio pubblicamente di cuore, depositario degli schemi concettuali PA centrale rilevati in passato. Con Manuel Garasi abbiamo realizzato il tool che implementa il metodo.

Utilizzo dell’ontologia PAC per la costruzione di ontologie specifiche PAL

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

227

Tipi di conoscenza estratta a partire dagli schemi logici locali

La metodologia sfrutta due approcci principali:Approccio top-down (a partire da ontologie PAC):

• Entità affini a concetti delle ontologie PAC e loro attributi• Gerarchie IS-A tra entità (inferenza super-tipi) • Relazioni tra entità

Approccio bottom-up (a partire da tabelle PAL):• Relazioni tra entità

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

228

Si sfruttano le relazioni tra le tassonomie/gerarchie, ad esempio:

cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico, tributo elemento della gerarchia bene) per inferire dall’alto al basso relazioni tra gli oggetti censitiCon questi metodi abbiamo creato numerose ontologie.

Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di loro dei constraints, forniscono inferenza dal basso all’alto, quindi relazioni, tra gli elementi delle tassonomie/gerarchie.

Gerarchie di generalizzazione, Constraints e ontologie

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

229

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

CONCETTUALE

FISICO

Subject

Citizen

Juridical person/

legal entity

Physical subject/ person

“Good”

Tax/Tributepay

like “cittadin” like “tribut”

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

230

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

FISICO

CONCETTUALE

Agricolture

Bovine

Sheep farming

Breeding

Health

Vaccination

Text mining retrieval

Estensioni di infodir

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

232

Estensioni future: verso uno strumento semantico integrato

Verso infodir come strumento semantico integrato:

Estendere l’approccio proposto alla navigazione delle basi integrate di conoscenza nell’ambito del Web

Fornire strumenti di navigazione di arbitrari oggetti disponibili via web (dati semi-strutturati, non strutturati e multimediali), sfruttando l’ontologia creata

Fornire strumenti di navigazione non basati solo su tassonomie ma su mappe concettuali più estese sfruttando la natura ontologica dei modelli creati

Arricchimento della semantica delle ontologie utilizzate per supportare tecniche di ragionamento più sofisticato

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

233

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Subject

Citizen

Juridical person/

legal entity

Physical subject/ person

“Good”

Tax/Tributepay

Text mining retrieval

Oggetti del portale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

234

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Agricolture

Bovine

Sheep farming

Breeding

Health

Vaccination

Text mining retrieval

Oggetti del portale

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

235

Analizzando i risultati delle nostre sperimentazioni, ed altre soluzioni presenti sul web e descritte in letteratura, e’ possibile classificare le soluzioni ontologico-semantiche in livelli, precisando che il numero di livello crescente NON vuole essere indice di miglior soluzione:

1 livello ne’ ontologico ne’ semantico

2 livello solo ontologico

3 livello solo semantico

4 livello ontologico e semantico

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

236

1 livello ne’ ontologico ne’ semantico

sviluppare la navigazione tassonomica sotto forma di mappe concettuali, come in questo esempio (http://oasisvilweb01.csi.it/RelationBrowser/RelationBrowser.html ).

Tale livello per cosi’ dire "alla moda" e' solo un altro modo di vedere rappresentata una tassonomia con i suoi oggetti collegati, non aggiunge nulla in termini di intelligenza

http://mappadelpotere.casaleggioassociati.it/

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

237

2 livello solo ontologico:http://www.diviana.net

http://arianna.diviana.net/Arianna/default.asp

3 livello solo semanticohttp://www.expertsystem.net/

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

238

4 livello ontologico e semantico

ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in base a criteri di somiglianza cerco nel portale gli oggetti che somigliano alle entita' dello schema. Con un esempio, se dico cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e quelli che somigliano a tributo, sfrutto la relazione che gia' conosco (paga) e metto in relazione le 2 famiglie di oggetti. Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle basi dati insieme al professor Batini (vedi ad esempio http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf ).

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

239

4 livello ontologico e semantico

In tali sperimentazioni descritte e' l'ontologia che prevale sulla semantica, cioe' ho delle ontologie ricche e della semantica povera (criteri sql like, gerarchie di generalizzazione)

La semantica povera non e’ sufficientemente bilanciata rispetto alle ontologie, cioe’ non riesce ad arricchire ulteriormente quest’ultime.

E’ necessario creare meccanismi di autoapprendimento dove i criteri semantici piu’ sofisticati “creano” o perfezionano le ontologie esistenti.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

240

4 livello ontologico e semantico

In altre parole un portale ontologico-semantico generalizzato, ovvero un qualcosa che ha nella parte alta le ontologie, e nella parte bassa gli oggetti dei portali. Le ontologie a disposizione guidano la parte bassa, ma anche la parte bassa con opportune inferenze induttive (vedi Cogito) e' in grado di "apprendere" nuove ontologie da regalare alla parte alta.

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

241

LAVORI IN CORSO…

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

242

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

243

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

244

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

245

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

246

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

247

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

248

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

249

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

250

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

251

Intranet

http://intranet/prog/banchedati/supporto.htm

http://intranet/prog/banchedati/csidd.htm

http://intranet/prog/banchedati/csiddpopolam.htmhttp://intranet/prog/banchedati/standard.htm

http://intranet/prog/banchedati/documentazione.htm

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

252

Riferimenti Facolta’ di Fisica UniTO:http://fisica.campusnet.unito.it/cgi-bin/didattica.pl/Search?search=corso%3A7733&corso=7733&format=4&sort=U2&fields=_delete http://www.ph.unito.it/ccl/ccl/dispense/Trattamento_dati_nelle_imprese.html Pubblicazione capitolo libro con Batini:http://www.ecampus.com/bk_detail.asp?isbn=1591409357 Partecipazione a convegni internazionali:http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf http://www.urbanontology.net/Programme.htm http://www.iasummit.it/2007/program/ Corso 4gg Batini in CSI:

http://intranet/formaz/formazione/materiale/modellaz_concet_dati.htmSeminario sui dati ai dirigenti CSI, Regione, Citta’TO e ProvinciaTO:

http://intranet.csi.it/cgi-bin/cdocum/vdoc/utenti/dettaglioDoc.cgi?kdoc=5701Materiali condivisi su cartella:

\\wi064175\corso2gg

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

253

Libri consigliati

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

254

15-16/04/2008 Riccardo Grosso Modellazione concettuale dei dati

255

Recommended