fouille des données

Embed Size (px)

Citation preview

  • 8/3/2019 fouille des donnes

    1/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data Mining, fouille de donnes:Concepts et techniques

    Data Mining, fouille de donnes:

    Concepts et techniques

    Marius Fieschi

    Facult de Mdecine de Marseille

  • 8/3/2019 fouille des donnes

    2/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data Mining, fouille de donnes:

    Concepts et techniques

    Data Mining, fouille de donnes:

    Concepts et techniques

    Ce cours est trs proche du cours diffus sur le net par

    Jiawei Han et Micheline KamberIntelligent Database Systems Research Lab School of Computing Science

    Simon Fraser University, Canada

    http://www.cs.sfu.ca

    Quils en soient remercis

  • 8/3/2019 fouille des donnes

    3/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Introduction

    Introduction

    Motivation: Pourquoi le data mining (fouille de donnes)?

    Quest-ce que le data mining?

    Fouille de donnes: Sur quel type de donnes?

    Fonctionnalits de la fouille de donnes

    Classification des systmes de data mining

  • 8/3/2019 fouille des donnes

    4/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Pourquoi la fouille de donnes?Pourquoi la fouille de donnes?

    Lexplosion des donnes

    Les outils de collecte automatique des donnes et les bases de donnes

    conduisent dnormes masses de donnes stockes dans des entrepts

    Submergs par les donnes, manque de connaissance!

    Solution: Entrepts de donnes et fouille de donnes

    Entrepts de donnes et analyse on-line

    Extraction de la connaissance intressante (rgles, rgularits, patterns,

    contraintes) partir de grandes bases de donnes

  • 8/3/2019 fouille des donnes

    5/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Evolution de la technologie des bases de

    donnes

    Evolution de la technologie des bases de

    donnes

    1970: Bases de donnes relationnelles (RDBMS)

    1980: RDBMS, modles de donnes avancs (extension du

    relationnel, OO, ...) et DBMS orients application (spatial,

    scientifique, )

    1990 - 2000: Fouilles de donnes et entrepts de donnes, BDD

    multimdia, bases de donnes Web

  • 8/3/2019 fouille des donnes

    6/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Quest-ce que la fouille de donnes?Quest-ce que la fouille de donnes?

    Fouille de donnes (dcouverte de connaissance dans de grandesbases de donnes):

    Extraction dinformation intressante (non triviale, implicite, non

    connue prcdemment et potentiellement utile) ou de patterns Dcouverte de connaissance (mining) dans des Bdd, extraction de

    connaissance, analyse de donnes/pattern.

    Propose des rsums dinformation (rapports multidimensionnels,rsums statistiques)

  • 8/3/2019 fouille des donnes

    7/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data Mining: Un processus de dcouverte de connaissanceData Mining: Un processus de dcouverte de connaissance

    Data

    Cleaning

    Bases dedonnes

    Intgration de

    donnes

    Data

    Warehouse

    Donnes

    pertinentes

    Slection

    Data

    Mining

    Evaluation

    du modle

    Connaissance

  • 8/3/2019 fouille des donnes

    8/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Etapes dun processus de dcouverte de connaissanceEtapes dun processus de dcouverte de connaissance

    Connatre le domaine dapplicationConnaissance pertinente dj tablie et buts de lapplication

    Slection des donnes cibles

    Data cleaning, pr traitement

    Rduction de donnes et transformation:

    Choix des fonctions du data miningSynthse, rsum, classification, rgression, association, clustering.

    Choix des algorithmes de fouille

    Data mining:Recherche des modles intressants

    Evaluation des pattern et prsentation de la connaissanceVisualisation, transformation, etc.

    Utilisation de la connaissance

  • 8/3/2019 fouille des donnes

    9/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Architecture dun systme type de data miningArchitecture dun systme type de data mining

    Data cleaning,

    intgration

    Filtrage

    Serveur de base de donnes oudentrept de donnes

    Moteur de Data mining

    Evaluation du Pattern

    Interface utilisateur

    Base de

    connaissance

    Bases de donnes Data Warehouse

  • 8/3/2019 fouille des donnes

    10/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data mining: Sur quel type de donnes?Data mining: Sur quel type de donnes?

    Bases de donnes relationnelles Data warehouses / entrepts de donnes

    Rservoir de donnes

    Orientes Objet

    Bases de donnes spatiales

    Donnes chronologiques et donnes temporelles

    Bases textuelles et multimdia

    WWW

  • 8/3/2019 fouille des donnes

    11/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Intrt des modles (patterns) dcouvertsIntrt des modles (patterns) dcouverts

    Un systme de data mining gnre des milliers de patterns, tous

    ne sont pas intressants.

    Intrt

    Un pattern est intressant si il est

    facilement compris par les humains,

    valide sur donnes nouvelles ou testes avec un certain degr de certitude,

    potentiellement utile,

    nouveau, ou validant certaines hypothses que lon cherche confirmer

    Objectif vs. subjectif

    Objectif: bas sur des statistiques et des structures de patterns

    Subjectif: bas sur des croyances des utilisateurs

  • 8/3/2019 fouille des donnes

    12/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    La fouille de donnesLa fouille de donnes

    Fouille de donnes

    Technologie des

    bases de donnesStatistiques

    Autres

    disciplines

    Science de

    linformation

    ApprentissageMachine

    Learning

    Visualisation

  • 8/3/2019 fouille des donnes

    13/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    La fouille de donnesLa fouille de donnes

    Bases de donnes fouillerRelationnelles, transactionnelles, orientes objet, spatiales, sries

    chronologiques, textuelles, multi-media, WWW, etc.

    Connaissance fouillerCaractrisation, discrimination, association, classification, dviation etanalyse des outliers

    Techniques utilises

    Bases de donnes, data warehouse (OLAP), machine learning,

    statistiques, visualisation, rseaux de neurones.

  • 8/3/2019 fouille des donnes

    14/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Entrepts de donnes (data warehousing)

    et technologies pour la fouille de donnes

    (data mining)

    Entrepts de donnes (data warehousing)

    et technologies pour la fouille de donnes

    (data mining)

  • 8/3/2019 fouille des donnes

    15/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data Warehouse: les applicationsData Warehouse: les applications

    Trois types dapplications pour les data warehouse

    Traitement de linformation

    Pour requtes, analyse statistique de base, rapports, tableaux croiss,

    diagrammes, graphiques

    Traitement analytique ++

    Analyse multidimensionnelle des donnes

    Data miningDcouverte de connaissances et de modles

    Pour raliser des classifications, des analyses de prdiction.

  • 8/3/2019 fouille des donnes

    16/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data Warehousing et technologies pour la fouille

    de donnes

    Data Warehousing et technologies pour la fouille

    de donnes

    Quest-ce quun data warehouse?

    Un modle de donnes multi dimensionnelles

    Architecture du data warehouse

    Implmentation dun data warehouse

    Du data warehousing la fouille de donnes

  • 8/3/2019 fouille des donnes

    17/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Quest-ce que le Data Warehouse?Quest-ce que le Data Warehouse?

    Une base de donnes daide la dcision qui est entretenue de

    manire spare de la base de donnes oprationnelle de

    lorganisation

    Aide au traitement de linformation en fournissant une

    plateforme de donnes historiques consolides pour lanalyse.

    Data warehousing: Le processus de construction et dutilisationdu data warehouse

  • 8/3/2019 fouille des donnes

    18/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Lapproche Subject-Oriented du data

    warehouse

    Lapproche Subject-Oriented du data

    warehouse

    Organis autour des sujets majeurs, tels que personne, client,

    Sujet= Faits + dimensions

    Centr sur la modlisation et lanalyse de donnes pour les

    dcideurs, non pour des oprations quotidiennes

    Fournit une vue simple, concise sur des sujets particuliers en

    excluant des donnes inutiles dans le processus daide ladcision

    Construit par intgration de sources de donnes multiples et

    htrognes

  • 8/3/2019 fouille des donnes

    19/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Le schma en toileLe schma en toile

    Une table de faits encadres par N tables de dimensions

    Exemple

    IDper

    anne

    trimestre

    mois

    jour

    Priodes

    IDmag

    nom

    ville

    dpartement

    pays

    Magasins

    Table de faits ventes

    produit

    magasin

    units_vendues

    montant_ventes

    taxes_ventes

    IDprod

    description

    couleur

    taillefournisseur

    Produits

    priode

  • 8/3/2019 fouille des donnes

    20/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data WarehouseData Warehouse

    La consolidation des donnesApplication de techniques de data cleaning et de data intgration

    La cohrence des donnes doit tre assureNommer les rgles de codage, les mesures, les attributs, pour les

    diffrentes sources de donnes

    La conversion des donnes intgres au datawarehouse

    Limportance du temps pour le

    data warehouse

    Toutes les structures cls dans le data warehouse contiennent un

    lment de temps, explicitement ou implicitement

  • 8/3/2019 fouille des donnes

    21/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Data WarehouseData Warehouse

    La mise jour de donnes oprationnelles nest pas ralise dans

    le data warehouseNe demande pas de transactionnel et mcanismes de contrle daccs

    concurrentiels

    Demande uniquement deux oprations en accs aux donnes:

    Chargement initial de donnes et accs aux donnes.

    Intgration traditionnelle de bases de donnes (bdd) htrognes:

    Construction de wrappers/mdiateurs au dessus des bdd htrognes

  • 8/3/2019 fouille des donnes

    22/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Deux types de traitements: OLAP / OLTPDeux types de traitements: OLAP / OLTP

    OLTP (on-line transaction processing)

    Tche majeure des Bdd relationnelles traditionnelles

    Oprations quotidiennes enregistres.

    OLAP (on-line analytical processing)

    Tche majeure des systmes de data warehouse

    Analyse de donnes et dcision

    Le data warehouse: OLAP

  • 8/3/2019 fouille des donnes

    23/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    OLTP vs. OLAPOLTP vs. OLAP

    OLTP OLAPUtilisateurs employ, professionnel Analyste connaissance

    Fonction Oprations au jour le jour Aide la dcisionConception de la Bdd Oriente application Oriente sujet

    Donne

    courante,

    dtaille, simple relationnel

    historique, rsume,

    multidimensionnelle,

    intgre, consolide

    Usage rptitif ad-hoc

    Accsread/write

    index/hash sur cl primairemultiples

    Unit de travail court, transaction simple Requte complexe

    Enregistrements accs. dizaines millions

    Nb utilisateurs milliers centaines

    Taille de la Bdd 100MB-GB 100GB-TB

    Mtrique transaction requte

  • 8/3/2019 fouille des donnes

    24/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Pourquoi sparer leData Warehouse?Pourquoi sparer leData Warehouse?

    Haute performance pour les deux systmes

    DBMS: performance pour OLTP

    mthodes daccs, index, accs concurrentiels, restauration

    Warehouse: performance pour OLAPrequtes complexes, vue multidimensionnelle, consolidation

    Diffrentes fonctions et diffrentes donnes

    Donnes manquantes:Laide la dcision (AAD) demande des donnes historiques. Les Bddoprationnelles ne les grent pas toujours

    Consolidation de donnes:

    LAAD demande la consolidation (agrgation, rsum) de donnesissues de sources htrognes

    Qualit des donnes:

    Habituellement diffrentes sources utilisent des reprsentations dedonnes non cohrentes, des codes et des formats rconcilier

  • 8/3/2019 fouille des donnes

    25/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Les cubes de donnesLes cubes de donnes

    Un data warehouse est bas sur un modle de donnes

    multidimensionnel qui voit les donnes sous forme de

    data cube

    Un data cube , comme par exemple les ventes, permet de

    modliser et de voir les donnes relatives aux ventes en de

    multiples dimensions

  • 8/3/2019 fouille des donnes

    26/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Une hirarchie de concepts: Dimension (lieu)Une hirarchie de concepts: Dimension (lieu)

    Tous

    Timone Nord

    obsttriquecardiologiecardiologieneurochirurgie

    hospitalisation

    ...

    ......

    ... ...

    Tous

    hpital

    service

    H d JconsultationUF

  • 8/3/2019 fouille des donnes

    27/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Donnes multidimensionnellesDonnes multidimensionnelles

    Volume des factures, une fonction de lactivit, mois, et de lhpital

    Dimensions: Activit, Lieu, Temps

    Synthses hirarchiques

    MCO Hpital Anne

    Chir. Service Trimestre

    Actes UF Mois Semaine

    JourActivit

    H

    pital

    Mois

  • 8/3/2019 fouille des donnes

    28/28

    Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

    Un exemple de cube de donnesUn exemple de cube de donnes

    Total annuel activit

    de chir. TimoneDate

    Activit

    Etablissement

    somme

    sommeChir.

    Obst.Md.

    1trim 2trim 3trim 4trim

    Timone

    Conception

    Nord

    somme