ComplexData Mining WorkflowMiningstaff.icar.cnr.it/pontieri/didattica/PM/slides/CDM_Intro.pdf ·...

Complex Data Mining &Workflow Mining

Obiettivi

• Processo di Knowledge Discovery– Estremamente complesso, non automatizzabile

– Che succede nel caso di dati complessi?

• Uno sguardo all’analisi di dati complessi (direzioni principali)

– casi paradigmatici di applicazione• Text/Web Mining

• Graph Mining

• Workflow Mining

• Multirelational Data Mining

Outline• Introduzione e concetti di base

– Motivazioni, applicazioni– Concetti di base nell’analisi dei dati complessi

• Text/Web Mining– Concetti di base sul Text Mining– Tecniche di data mining su dati testuali

• Graph Mining– Introduzione alla graph theory– Principali tecniche e applicazioni

• Workflow Mining– I workflow: grafi con vincoli– Frequent pattern mining su workflow: motivazioni, metodi, applicazioni

• Multi‐Relational data mining– Motivazioni: da singole tabelle a strutture complesse– Alcune delle tecniche principali

Materiale didattico

• Lezioni (slide MS PowerPoint):

– http://www.icar.cnr.it/pontieri/didattica/cdm

• Alcuni libri di riferimento

– I. Witten, E. Frank, Data Mining: Practical Machine Learning Tools with Java Implementation. Morgan Kaufman, 1999 [DM]

– R. Baeza‐Yates, B. Ribeiro‐Neto, Modern Information Retrieval, Addison‐Wesley‐ACM Press, 1999 [MIR]

– I.Witten, A.Moffat, T.C.Bell, Managing Gigabytes, Morgan Kaufman, 1999 [MG]

• Riferimenti bibliografici e altro:

– Distribuiti durante le lezioni

Outline• Introduzione e concetti di base

– Motivazioni, applicazioni– Concetti di base nell’analisi dei dati complessi

• Text/Web Mining– Concetti di base sul Text Mining– Tecniche di data mining su dati testuali

• Graph Mining– Introduzione alla graph theory– Principali tecniche e applicazioni

• Workflow Mining– I workflow: grafi con vincoli– Frequent pattern mining su workflow: motivazioni, metodi, applicazioni

• Multi‐Relational data mining– Motivazioni: da singole tabelle a strutture complesse– Alcune delle tecniche principali

Concetti, Proprietà, Misurazioni

• Il mondo reale consiste di Concetti– Automobili, Vigili, Norme, …

– Nel nostro caso, ciò che deve essere appreso

– Possono esistere relazioni fra concetti

• Ad ogni concetto è associabile un insieme di proprietà (features)– Colore, Cilindrata, Proprietario, …

• Su ogni proprietà è possibile stabilire delle misurazioni– Colore = rosso, Cilindrata = 50cc, Proprietario = luigi, …

La Nostra Modellazione

• La realtà di interesse è descritta da un insieme di istanze, raccolte in una tabella

• Le tuple (istanze) della tabelle sono esempi deii concetti che si vuole analizzare

• Le colonne (attributi) della tabella rappresentano le caratteristiche degli oggetti

• Una variabile è un contenitore per una misurazione di una caratteristica particolare di un oggetto

Istanze, attributi, misurazioni

Tid Refund Marital Status

Taxable Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Attributi

Istanze

Cos’è un esempio?

• Istanza: esempio di concetto– La cosa da classificare, clusterizzare, associare

– Un esempio individuale e indipendente di concetto target

– Caratterizzato da un insieme predeterminato di attributi

• Input ad uno schema di learning: un insieme di istanze (dataset)– Rappresentato da una singola relazione/tabella

• Rappresentazione piuttosto povera– Non si possono esprimere relazioni tra oggetti– La più tipica nel data mining

Un albero genealogico

Peter M

PeggyF

Steven M

Graham M

Grace F

= RayM

LuiseF

Brian M

Anna F

Nikki F

L’albero genealogico rappresentatoin forma tabellare

La relazione “sister‐of”

Una rappresentazione completaFirst person Second person Sister

Name Gender Parent1 Parent2 Name Gender Parent1 Parent2

Steven Male Peter Peggy Pam Female Peter Peggy Yes

Graham Male Peter Peggy Pam Female Peter Peggy Yes

Ian Male Grace Ray Pippa Female Grace Ray Yes

Brian Male Grace Ray Pippa Female Grace Ray Yes

Anna Female Pam Ian Nikki Female Pam Ian Yes

Nikki Female Pam Ian Anna Female Pam Ian Yes

Generazione di un file “piatto”

• Chiamato anche processo di “denormalizzazione”– Molte relazioni sono messe in join per costruirne un’unica

• Problema: relazioni senza un numero di oggettipredefinito

• La denormalizzazione può produrre regolarità scontate(dipendenze funzionali)– Esempio: “fornitore” predice “Indirizzo fornitore”

witten&eibe

Tipi di dato

• Variabili Discrete (simboliche)– Nominali– Categoriche– Ordinali– Binarie

• Variabili Continue (numeriche)– Interval‐Based (valori interi)– Ratio‐Scaled (valori reali)

Dati complessi• Esistono altri tipi di dati:

– Testo

– Grafi

– Dati spazio‐temporali

• Spesso molti di questi dati possono essere riportati nel formato descritto in precedenza… ma non è vero (o conveniente) in generale

Text Data• Ogni documento è trattato come un vettore di termini

– Un termine è un attributo (componente) del vettore

– Il valore di ogni componente è la rilevanza (es. frequenza) del termine per il documento

Document 1

season

timeout

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

Dati transazionali

• Coinvolgono insiemi– Si possono trasformare nel formato tabellare

TID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

5 Coke, Diaper, Milk

• Grafo dei collegamenti HTML

<a href="papers/papers.html#bbbb">Data Mining </a><li><a href="papers/papers.html#aaaa">Graph Partitioning </a><li><a href="papers/papers.html#aaaa">Parallel Solution of Sparse Linear System of Equations </a><li><a href="papers/papers.html#ffff">N-Body Computation and Dense Linear System Solvers

• Dati chimici

Molecola del benzene: C6H6

Dati ordinati

• Sequenze genomiche

GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG

Dati ordinati

• Sequenze di transazioni

Un elementodella sequenza

Items/Eventi

Dati ordinati

• Dati spazio‐temporali

Temperaturamedia mensile

Mining Complex Types

• Mining text databases

• Mining graph structures and graph databases

• Mining time‐series and sequential data

• Mining spatial e spatio‐temporal databases

• Mining multimedia databases

Un esampio paradigmatico: Il Web

• La sorgente più ampia di dati complessi– La più intrigante

• Il punto iniziale: pagine html– Documenti di testo contenenti una struttura di presentazione– Contenuti

• Testo• Immagini• Video• Applicazioni• …

Mining the World‐Wide Web

• E’ un’enorme fonte di informazioni distribuita– Contenuti: news, advertisements, consumer information, financial

management, education, government, e‐commerce, ...– Collegamenti tra informazioni– Servizi di ricerca

• Sfide per Knowledge Discovery– Troppo grande per le tecniche tradizionali di warehousing e mining– Troppo complesso ed eterogeneo, niente/troppi standard,

nessuna struttura

La collezione dei documenti Web

• Nessuna progettazione/cordinamento• Creazione e pubblicazione distribuita

(democratica)• Contenuti svariati: verità, bugie, dati

obsoleti, contraddizioni …• Dati non strutturati (testo, html, …),

semi‐strutturati (XML, immaginiannotate), strutturati (Databases)…

• Si espande più lentamente degli inizi –”volume doubling every few months”‐ma si espande ancora

• I contenuti possono essere generatidinamicamente

Il Web

Web Mining

Web StructureMining

Web ContentMining

Web PageContent Mining

Search ResultMining

Web UsageMining

General AccessPattern Tracking

CustomizedUsage Tracking

Una tassonomia del Web Mining

Mining della struttura del Web

• Trovare pagine “autorevoli”– Pagine non solo rilevanti, ma anche di alta qualità

• I link possono aiutare a inferire la nozione di autorevolezza– Rappresentano annotazione latente

– Un hyperlink può essere visto come un suggerimento verso un’altra pagina

Classificazione di Documenti Web

• Un problema di classificazione– Ma di nuovo c’è che l’obiettivo è classificare un documento

• Keyword‐based document classification• Problemi

– Alta dimensionalità– Irrilevanza– Categorie multiple

• Modelli statistici

Web usage mining

• data mining sui tracciati Weblog– Pattern di associazione, pattern sequenziali– Modelli sequenziali di accesso ad una pagina/un servizio

• Utile per– system performance, Web caching/prefetching, recommendation systems

ComplexData Mining WorkflowMiningstaff.icar.cnr.it/pontieri/didattica/PM/slides/CDM_Intro.pdf ·...

Documents

Informatica per la dell’Arte€¦ · Notizie Docente: Ing. Salvatore Sorce, Ph.D. salvatore.sorce@unipa.it, 09123862609 Lezioni: Lun, 14‐17, aula Multimediale A del Polo Didattico

Architettura degli Elaboratori - dsi.unive.itarchitet/lezioni/01-Intro.pdf · n serie di domande teoriche ed esercizi n Materiale didattico disponibile sul sito del corso n slide

Per le lezioni del prof. P.P. Battaglini Schemi di · Principi di Neuroscienze. Casa Editrice Ambrosiana, 2003 Queste immagini vengono utilizzate per l’elevato contenuto didattico

NERVI CRANICI - docente.unife.itdocente.unife.it/enrico.granieri/materiale-didattico/lezioni... · delle mucose del faringe e delle tube e dell’orecchio esterno. LESIONI DEL 9°

Imparare all’aria aperta - wwf.ch · vi presentiamo il dossier didattico “Imparare all’aria aperta” dedicato agli insegnanti che desiderano svolgere le proprie lezioni all’esterno

Scuola SCIENZE E INGEGNERIA REGOLAMENTO DIDATTICO … · - Biotecnologie agrarie, ... 1) Possono accedere al corso di laurea magistrale, ... • Lezioni frontali svolte da un docente;

Università di Pisa DIPARTIMENTO DI PATOLOGIA CHIRURGICA, … · Biologia cellulare e Molecolare. Karp Edises Materiale didattico distribuito durante le lezioni. Ricevimento Studenti

BANDO DI AMMISSIONE MASTER UNIVERSITARIO DI II … · materiale didattico integrativo (slides, norme, articoli). Per la fruizione delle lezioni è essenziale disporre di adeguate

(Lez 02a Espressione dell ... - misure.mecc.polimi.itmisure.mecc.polimi.it/files/Materiale Didattico/Lezioni/Civili... · Perché diverse misure siano compatibili è necessario e

PROBLEMI URGENTI 1) COMITATI ORDINATORI 2) TRONCO COMUNE 3) ORGANIZZAZIONE LEZIONI 4) ORGANIZZAZIONE TIROCINIO 5) REGOLAMENTO DIDATTICO 6) ADEMPIMENTI

REGOLAMENTO DIDATTICO - Istituto Mediatori Linguistici · SEZIONE IX - Doveri didattici dei docenti Art. 27 ... I Mediatori linguistici, grazie a lezioni frontali, esercitazioni e

DISORDINI DEL MOVIMENTO - Docenti Unifem.docente.unife.it/enrico.granieri/materiale-didattico/lezioni-n... · • MIOCLONIE D’AZIONE (sindr. ... • A) Mioclono essenziale familiare

ALCUNE SEMPLICI REGOLE DI PROGETTAZIONE MECCANICA Didattico... · Corso di “Costruzione di macchine” Anno acacdemico 2015-6. Lezioni su “Regole di Progettazione Meccanica”

Bando Master Amministrazione Personale e Consulenza Lavoro · Per poter seguire adeguatamente le lezioni e dunque apprendere al meglio il programma didattico, Alma Laboris provvede

DESIGN BY ANALYSIS/4 (ASME VIII Div. TIPI DI … Didattico... · Lezioni su “Boiler and Pressure Vessel ... Elastic‐Plastic Stress Analysis ... Lezioni su “Boiler and Pressure

Normativa di riferimento 2 - misure.mecc.polimi.itmisure.mecc.polimi.it/files/Materiale Didattico/Lezioni/Civili/(Lez... · tutte le grandezze considerate omogenee. ... anche l’unità

Intuizioni sul task di classificazione La classificazionestaff.icar.cnr.it/pontieri/didattica/LabSI/lezioni/Lezione5-Classificazione.pdf · Numero di acquisti (fare molti acquisti

LE SINCOPI e LE ALTRE CRISI NON EPILETTICHEm.docente.unife.it/enrico.granieri/materiale-didattico/lezioni... · Cause di Perdita di Coscienza Sincope • Riflessa neuromediata •

Lezioni sull’analisi di piastre circolari assialsimmetriche didattico... · Lezioni sull’analisi di piastre circolari assialsimmetriche ... delle coordinate. Tensioni agenti (simmetria

DISORDINI DELLE SENSIBILITA’ - Docenti Unifem.docente.unife.it/enrico.granieri/materiale-didattico/lezioni... · •atassia sensitiva da sofferenza delle vie sensitive profonde: