Data Warehousing and Data Mining

Conservatoire National desData warehouse et data mining

Version 1.1Arts et Métiers de Lille Le 15 Juin 1998

SOMMAIRE GENERAL

PRESENTATION (page 10)

LA PROBLEMATIQUE DE L'ENTREPRISE (page 11)

LE DATA WAREHOUSE (page 69)

OLAP ET ANALYSE MULTIDIMENSIONNELLE (page 98)

LE DATA MINING (page 127)

DIVERS : ETHIQUE, WEB, … (page 213)

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 1



SOMMAIRE DETAILLE

Page1 - INTRODUCTION...............................................................................................................................................................11

2 - LA PROBLEMATIQUE DE L'ENTREPRISE...............................................................................................................12

2.1 - INTRODUCTION........................................................................................................................................................122.1.1 - L’ENTREPRISE........................................................................................................................................................122.1.2 - LE DÉCIDEUR........................................................................................................................................................142.1.3 - LES NIVEAUX DE PRÉOCCUPATIONS DU DÉCIDEUR................................................................................................142.1.4 - RESUME..............................................................................................................................................................15

2.2 - LE SYSTÈME DÉCISIONNEL DE L’ORGANISATION.........................................................................................152.2.1 - LA RÉSOLUTION DE PROBLÈME..............................................................................................................................16

2.2.1.1 - Le Problème.....................................................................................................................................................................162.2.1.2 - La Résolution du Problème..............................................................................................................................................162.2.1.3 - L’espace de Résolution....................................................................................................................................................17

2.2.1.3.1 - L’espace des états....................................................................................................................................................172.2.1.3.2 - Les Opérateurs.........................................................................................................................................................172.2.1.3.3 - La Réduction de la Différence.................................................................................................................................172.2.1.3.4 - l’Heuristique............................................................................................................................................................182.2.1.3.5 - En résumé................................................................................................................................................................18

2.2.2 - LE PARADIGME STI................................................................................................................................................182.2.2.1 - STI....................................................................................................................................................................................182.2.2.2 - la Représentation du STI..................................................................................................................................................192.2.2.3 - Matière traitée : Signes et Symboles................................................................................................................................202.2.2.4 - Les décalages espace, temps, forme du STI.....................................................................................................................202.2.2.5 - La définition de Simon.....................................................................................................................................................202.2.2.6 - En Résumé........................................................................................................................................................................20

2.2.3 - L’ORGANISATION ET LE STI...................................................................................................................................212.2.3.1 - La Perception de l’environnement...................................................................................................................................212.2.3.2 - La représentation mentale et les niveaux de préoccupation.............................................................................................222.2.3.3 - Les composantes du modèle.............................................................................................................................................222.2.3.4 - L’élément déclencheur du problème................................................................................................................................23

2.2.3.4.1 - Variation entre 2 évaluations de la représentation du modèle.................................................................................232.2.3.4.2 - Variation de l’état des préoccupations....................................................................................................................23

2.2.3.5 - Le Projet de l’Organisation..............................................................................................................................................232.2.3.6 - En Résumé........................................................................................................................................................................24

2.2.4 - LA DECISION..........................................................................................................................................................252.2.4.1 - Les Phases de la Prise de décision....................................................................................................................................252.2.4.2 - Echelle des préoccupations et échelle de normalisation des Décisions...........................................................................262.2.4.3 - Structuration du processus de décision............................................................................................................................28

2.2.4.3.1 - Introduction.............................................................................................................................................................282.2.4.3.2 - Rôle des conseils extérieurs....................................................................................................................................292.2.4.3.3 - Processus de structuration et de Normalisation.......................................................................................................29

2.2.4.3.3.1 - Définitions......................................................................................................................................................292.2.4.3.3.2 - Développement du Processus.........................................................................................................................30

2.2.4.4 - La Représentation.............................................................................................................................................................312.2.4.4.1 - Représentation, Structuration, Process....................................................................................................................312.2.4.4.2 - Les Niveaux de Représentations.............................................................................................................................322.2.4.4.3 - Equilibration et Modèles.........................................................................................................................................332.2.4.4.4 - Les Niveaux de Représentation...............................................................................................................................342.2.4.4.5 - Modèle.....................................................................................................................................................................342.2.4.4.6 - 1er Espace de résolution..........................................................................................................................................342.2.4.4.7 - 2d Espace de Résolution..........................................................................................................................................35

2.2.5 - LE PRINCIPE DE RATIONALITÉ LIMITÉE..................................................................................................................362.2.5.1.1 - Les Modèles à Fonction optimisée..........................................................................................................................362.2.5.1.2 - Hypothèses de la rationalité limitée........................................................................................................................362.2.5.1.3 - Conséquences..........................................................................................................................................................362.2.5.1.4 - Rationalité Limitée et Décision Satisfaisante..........................................................................................................372.2.5.1.5 - rationalité limitée et paradigme STI........................................................................................................................382.2.5.1.6 - Rationalité limitée dans les programmes.................................................................................................................39

2.2.6 - LE SIAD OU SYSTÈME INTERACTIF D’AIDE A LA DECISION...................................................................................392.2.6.1.1 - Définition.................................................................................................................................................................392.2.6.1.2 - Interactif..................................................................................................................................................................402.2.6.1.3 - SIAD & Aide à la décision......................................................................................................................................40

2.2.7 - LES SIAD ÉLÉMENTAIRES.......................................................................................................................................41




2.2.7.1 - Le tableur..........................................................................................................................................................................412.2.7.1.1 - Théorie.....................................................................................................................................................................412.2.7.1.2 - Méthode...................................................................................................................................................................412.2.7.1.3 - Modèle.....................................................................................................................................................................412.2.7.1.4 - Processeur d’états....................................................................................................................................................412.2.7.1.5 - S.T.I.........................................................................................................................................................................412.2.7.1.6 - Organisation de l’ensemble des modèles................................................................................................................412.2.7.1.7 - La recherche Heuristique sur les modèles...............................................................................................................422.2.7.1.8 - La recherche Heuristique sur les valeurs.................................................................................................................422.2.7.1.9 - Organisation de l’ensemble des modèles................................................................................................................42

2.2.7.2 - Système de gestion de bases de données..........................................................................................................................422.2.7.2.1 - La Théorie “ Base de données ”..............................................................................................................................422.2.7.2.2 - La méthode..............................................................................................................................................................422.2.7.2.3 - Le Modèle................................................................................................................................................................422.2.7.2.4 - L’état.......................................................................................................................................................................432.2.7.2.5 - le processeur d'état..................................................................................................................................................432.2.7.2.6 - Démarche Heuristique sur les Modèles...................................................................................................................43

2.2.7.3 - Générateur de systèmes experts.......................................................................................................................................432.2.7.3.1 - La Théorie...............................................................................................................................................................432.2.7.3.2 - Remarque.................................................................................................................................................................442.2.7.3.3 - Exemple d’une base de faits....................................................................................................................................442.2.7.3.4 - Présentation succincte des systèmes experts...........................................................................................................442.2.7.3.5 - Représentation des connaissances...........................................................................................................................452.2.7.3.6 - Représentation des faits...........................................................................................................................................452.2.7.3.7 - Inférence incertaine.................................................................................................................................................462.2.7.3.8 - Choix d’une règle applicable...................................................................................................................................462.2.7.3.9 - Le moteur d’inférence.............................................................................................................................................472.2.7.3.10 - Types de Fonctionnement : Chaînage avant, arrière, mixte.................................................................................472.2.7.3.11 - Logique des Prédicats............................................................................................................................................472.2.7.3.12 - La Théorie.............................................................................................................................................................472.2.7.3.13 - La Méthode............................................................................................................................................................482.2.7.3.14 - Le Modèle..............................................................................................................................................................482.2.7.3.15 - Etat.........................................................................................................................................................................482.2.7.3.16 - Opérateur...............................................................................................................................................................482.2.7.3.17 - Processeur d’état....................................................................................................................................................482.2.7.3.18 - Recherche Heuristique sur les modèles.................................................................................................................482.2.7.3.19 - Remarques.............................................................................................................................................................49

2.2.8 - LE SYSTÈME DÉCISIONNEL......................................................................................................................................502.3 - LE CONTENU INFORMATIF DU SYSTÈME DÉCISIONNEL..............................................................................53

2.3.1 - CONTENU INFORMATIF ELEMENTAIRE...................................................................................................................532.3.1.1 - Acte economique..............................................................................................................................................................53

2.3.1.1.1 - Structure de l’acte économique...............................................................................................................................532.3.1.1.2 - le Contrat.................................................................................................................................................................542.3.1.1.3 - L’environnement.....................................................................................................................................................542.3.1.1.4 - base de faits.............................................................................................................................................................542.3.1.1.5 - Base de Compréhension..........................................................................................................................................55

2.3.1.2 - Les Activités.....................................................................................................................................................................562.3.1.2.1 - Les Activités Industrielles.......................................................................................................................................562.3.1.2.2 - Les Activités Administratives.................................................................................................................................562.3.1.2.3 - Les Activités Associatives.......................................................................................................................................56

2.3.2 - STRATÉGIE DES ORGANISATIONS............................................................................................................................562.3.2.1 - le diagnostic externe.........................................................................................................................................................562.3.2.2 - Analyse de l’Environnement............................................................................................................................................572.3.2.3 - Le diagnostic interne........................................................................................................................................................582.3.2.4 - Approche Création de Valeur...........................................................................................................................................582.3.2.5 - Conclusion........................................................................................................................................................................592.3.2.6 - L’Ensemble des décisions stratégiques............................................................................................................................59

2.3.3 - LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES PRÉOCCUPATIONS.................................................................602.3.3.1 - Passage du compliqué au complexe.................................................................................................................................612.3.3.2 - La Mondialisation.............................................................................................................................................................612.3.3.3 - Le client............................................................................................................................................................................612.3.3.4 - Des contingences évolutives............................................................................................................................................612.3.3.5 - Un niveau scolaire occidental élevé.................................................................................................................................612.3.3.6 - Le développement des alliances, des réseaux d’entreprises.............................................................................................612.3.3.7 - La 4ème révolution du Savoir..........................................................................................................................................62

2.3.4 - CONCLUSION.........................................................................................................................................................622.4 - CONCLUSION DE LA PROBLEMATIQUE.............................................................................................................62

2.4.1 - SYSTÈME DÉCISIONNEL...........................................................................................................................................622.4.2 - POSTIONNEMENT DES OUTILS D’AIDE A LA DECISION..............................................................................................62




2.4.2.1 - Positionnement du Data Warehouse.................................................................................................................................632.4.2.2 - Autres Outils décisionnels................................................................................................................................................652.4.2.3 - Tableur et Modèles...........................................................................................................................................................652.4.2.4 - Positionnement de l’analyse multidimensionnelle...........................................................................................................662.4.2.5 - Positionnement du Data Mining.......................................................................................................................................672.4.2.6 - Positionnement du Système Expert..................................................................................................................................682.4.2.7 - Positionnement du tableau de Bord..................................................................................................................................682.4.2.8 - Positionnement des E.I.S (Executive Information System).............................................................................................68

2.4.3 - CONCLUSION.........................................................................................................................................................69

3 - LE DATA WAREHOUSE..................................................................................................................................................70

3.1 - PRÉSENTATION........................................................................................................................................................703.2 - POURQUOI UN DATA WAREHOUSE.....................................................................................................................71

3.2.1 - LA PROBLÉMATIQUE DES ENTREPRISES...................................................................................................................713.2.2 - LA RÉALITÉ DES SYSTÈMES D’INFORMATIONS..........................................................................................................723.2.3 - LES OBJECTIFS.......................................................................................................................................................73

3.3 - DÉFINITION................................................................................................................................................................743.4 - LES CONCEPTS DE BASE........................................................................................................................................76

3.4.1 - LA STRUCTURE.......................................................................................................................................................763.4.2 - LES ARCHITECTURES..............................................................................................................................................78

3.4.2.1 - L’architecture réelle.........................................................................................................................................................783.4.2.2 - L’architecture virtuelle.....................................................................................................................................................793.4.2.3 - L’architecture remote.......................................................................................................................................................793.4.2.4 - Synthèse............................................................................................................................................................................79

3.4.3 - INFOCENTRE ET DATA WAREHOUSE.......................................................................................................................80

4 - LA CONSTRUCTION DU DATA WAREHOUSE.........................................................................................................82

4.1 - LES APPLICATIONS..................................................................................................................................................834.2 - LES COMPOSANTS FONCTIONNELS....................................................................................................................83

4.2.1 - L’ACQUISITION.......................................................................................................................................................834.2.2 - LE STOCKAGE.........................................................................................................................................................844.2.3 - L’ACCÈS.................................................................................................................................................................84

4.3 - LES INFRASTRUCTURES.........................................................................................................................................85

5 - LA CONCEPTION DU DATA WAREHOUSE..............................................................................................................86

5.1 - DÉCOUVRIR ET DÉFINIR LES INITIATIVES........................................................................................................875.1.1 - L’ÉTUDE STRATÉGIQUE..........................................................................................................................................875.1.2 - LE PLAN D’ACTION.................................................................................................................................................87

5.2 - L’INFRASTRUCTURE...............................................................................................................................................885.2.1 - L’INFRASTRUCTURE TECHNIQUE.............................................................................................................................885.2.2 - L’INFRASTRUCTURE ORGANISATIONNELLE..............................................................................................................89

5.3 - LA FORMATION........................................................................................................................................................895.4 - LA MISE EN ŒUVRE DES APPLICATIONS...........................................................................................................89

6 - L’ADMINISTRATION DES DONNÉES.........................................................................................................................91

6.1 - LES MÉTADONNÉES................................................................................................................................................916.2 - LE RÉFÉRENTIEL DU DATA WAREHOUSE.........................................................................................................926.3 - LA MISE EN ŒUVRE.................................................................................................................................................93

6.3.1 - SÉCURITÉ...............................................................................................................................................................936.3.2 - GESTION DES PERFORMANCES................................................................................................................................946.3.3 - BATCHS..................................................................................................................................................................95

7 - LE DATA MART................................................................................................................................................................96

7.1 - DÉFINITION................................................................................................................................................................967.2 - MISE EN PLACE.........................................................................................................................................................97

8 - LE CONCEPT OLAP.........................................................................................................................................................99

8.1 - PRÉSENTATION........................................................................................................................................................998.2 - LES 12 RÈGLES OLAP...............................................................................................................................................99

8.2.1 - TYPOLOGIE DES REGLES O.L.A.P.....................................................................................................................1028.2.2 - COMMENTAIRES...................................................................................................................................................103

9 - ANALYSE MULTIDIMENTIONNELLE.....................................................................................................................105

9.1 - LE MODÈLE..............................................................................................................................................................106




9.1.1 - LES DIMENSIONS..................................................................................................................................................1069.1.2 - LES VARIABLES.....................................................................................................................................................107

9.2 - NAVIGATION DANS LES DONNÉES...................................................................................................................1089.2.1 - DRILL-DOWN, DRILL-UP.......................................................................................................................................1089.2.2 - SLICE AND DICE...................................................................................................................................................1089.2.3 - DATA SURFING.....................................................................................................................................................109

9.3 - PROBLEME DES MATRICES CREUSES...............................................................................................................109

10 - MODELISATION...........................................................................................................................................................110

10.1 - MODÉLISATION RELATIONNELLE..................................................................................................................11110.1.1 - MODÈLE DE DONNÉES NORMALISÉ.....................................................................................................................11110.1.2 - MODÈLE DE DONNÉES DÉNORMALISÉ.................................................................................................................111

10.2 - MODÉLISATION DIMENSIONNELLE................................................................................................................11210.2.1 - MODÉLISER EN ÉTOILE.......................................................................................................................................11210.2.2 - MODÉLISER EN FLOCON.....................................................................................................................................112

11 - STOCKAGE DES DONNEES.......................................................................................................................................114

11.1 - LE STOCKAGE DES DONNÉES EXTERNES.....................................................................................................11411.2 - OPTIMISATION PHYSIQUE.................................................................................................................................115

11.2.1 - AGREGATION DE TABLES.....................................................................................................................................11511.2.2 - PARTITIONNEMENT DE TABLES............................................................................................................................116

11.3 - LES MÉTA-DONNÉES...........................................................................................................................................117

12 - LES DIFFERENTS OUTILS OLAP.............................................................................................................................118

12.1 - LES OUTILS MOLAP.............................................................................................................................................11812.2 - LES OUTILS ROLAP..............................................................................................................................................119

13 - L'ALIMENTATION DU DATA WAREHOUSE........................................................................................................121

13.1 - LES PHASES DE L'ALIMENTATION.................................................................................................................12113.2 - LA DECOUVERTE DES DONNÉES.....................................................................................................................12213.3 - L'EXTRACTION DES DONNÉES.........................................................................................................................12213.4 - LA TRANSFORMATION DES DONNÉES...........................................................................................................12313.5 - LE CHARGEMENT DES DONNÉES....................................................................................................................123

14 - QUELQUES CHIFFRES...............................................................................................................................................125

14.1 - LE MARCHÉ DU DATA WAREHOUSE..............................................................................................................12514.2 - LE RETOUR SUR INVESTISSEMENTS..............................................................................................................126

15 - INTRODUCTION AU DATA MINING.......................................................................................................................127

15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE..........................................................................................................12715.2 - PRESENTATION DU DATA MINING..................................................................................................................12715.3 - DEFINITION............................................................................................................................................................12915.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE........................................................................12915.5 - STATISTIQUES ET DATA MINING.....................................................................................................................130

16 - LA RECHERCHE DE CONNAISSANCES.................................................................................................................131

16.1 - LES STATISTIQUES..............................................................................................................................................13116.1.1 - INDICATEURS DE TENDANCE CENTRALE................................................................................................13116.1.2 - INDICATEURS DE DISPERSION...................................................................................................................13116.1.3 - RELATIONS ENTRE VARIABLES...................................................................................................................132

16.2 - LES SCHEMAS D’INFERENCE............................................................................................................................13316.2.1 - L’ABDUCTION................................................................................................................................................13316.2.2 - LA DEDUCTION.............................................................................................................................................13416.2.3 - L’INDUCTION.................................................................................................................................................134

17 - LES TACHES DU DATA MINING..............................................................................................................................135

17.1 - LA CLASSIFICATION...........................................................................................................................................13517.2 - L’ESTIMATION......................................................................................................................................................13617.3 - LA PREDICTION....................................................................................................................................................13617.4 - LE REGROUPEMENT PAR SIMILITUDES.........................................................................................................13617.5 - L’ANALYSE DES CLUSTERS..............................................................................................................................13717.6 - LA DESCRIPTION..................................................................................................................................................13717.7 - L’OPTIMISATION..................................................................................................................................................137




17.8 - ILLUSTRATION DES TACHES DU DATA MINING.........................................................................................13817.9 - SYNTHESE..............................................................................................................................................................139

18 - LE CERCLE VERTUEUX............................................................................................................................................140

19 - METHODOLOGIE DE DATA MINING.....................................................................................................................141

19.1 - LE TEST D’HYPOTHESES....................................................................................................................................14119.1.1 - PROCESSUS DU TEST D'HYPOTHESE........................................................................................................141

19.1.1.1 - Générer de bonnes idées...............................................................................................................................................14119.1.1.2 - Déterminer les données pour tester les idées................................................................................................................14219.1.1.3 - Localiser les données....................................................................................................................................................14219.1.1.4 - Préparer les données pour l'analyse..............................................................................................................................143

19.1.1.4.1 - Définir le bon niveau de résumé..........................................................................................................................14319.1.1.4.2 - Les architectures informatiques incompatibles...................................................................................................14319.1.1.4.3 - Le codage incohérent des données......................................................................................................................14319.1.1.4.4 - Les données textuelles.........................................................................................................................................14419.1.1.4.5 - Les valeurs manquantes.......................................................................................................................................144

19.1.1.5 - Construire des modèles informatiques.........................................................................................................................14419.1.1.6 - Evaluer les modèles informatiques...............................................................................................................................145

19.1.2 - SYNTHESE.......................................................................................................................................................14519.2 - LA DECOUVERTE DE CONNAISSANCES.........................................................................................................146

19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE..........................................................................14619.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE.........................................................................................147

19.2.1.1.1 - Identifier les sources de données disponibles......................................................................................................14719.2.1.1.2 - Préparer les données pour l'analyse.....................................................................................................................147

19.2.1.1.2.1 - Regrouper les données et les transformer...................................................................................................14819.2.1.1.2.2 - Distribuer les données................................................................................................................................148

19.2.1.1.3 - Construire et instruire le programme informatique.............................................................................................14919.2.1.1.4 - Evaluer le modèle informatique..........................................................................................................................15019.2.1.1.5 - Appliquer le modèle informatique à de nouvelles données................................................................................15019.2.1.1.6 - Identifier les cibles potentielles pour la découverte de connaissances dirigée....................................................15019.2.1.1.7 - Générer de nouvelles hypothèses à tester............................................................................................................151

19.2.1.2 - SYNTHESE..................................................................................................................................................................15119.2.2 - LA DECOUVERTE DE CONNAISSANCES DIRIGEE...................................................................................152

19.2.2.1 - METHODOLOGIE......................................................................................................................................................15219.2.2.2 - SYNTHESE..................................................................................................................................................................152

20 - L'EVALUATION............................................................................................................................................................153

21 - PRESENTATION RAPIDE DES TECHNIQUES......................................................................................................154

21.1 - ANALYSE DU PANIER DE LA MENAGERE.....................................................................................................15421.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE...............................................................................................15421.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS............................................................................................15421.4 - L'ANALYSE DES LIENS........................................................................................................................................15521.5 - LES ARBRES DE DECISION.................................................................................................................................15521.6 - LES RESEAUX DE NEURONES...........................................................................................................................15521.7 - LES ALGORITHMES GENETIQUES....................................................................................................................15621.8 - LES AGENTS INTELLIGENTS OU KNOWBOT.................................................................................................15621.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL).......................................................................................156

22 - ANALYSE DU PANIER DE LA MENAGERE...........................................................................................................157

22.1 - PRESENTATION....................................................................................................................................................15722.2 - UTILISATION.........................................................................................................................................................15722.3 - FONCTIONNEMENT.............................................................................................................................................158

22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES................................................................................................15822.3.2 - LIRE ET INTERPRÉTER LE TABLEAU.....................................................................................................................159

22.4 - LES REGLES...........................................................................................................................................................15922.4.1 - GÉNÉRER DES RÈGLES........................................................................................................................................15922.4.2 - TYPOLOGIE DES RÈGLES.....................................................................................................................................160

22.4.2.1 - La règle utile.................................................................................................................................................................16022.4.2.2 - La règle triviale............................................................................................................................................................16022.4.2.3 - La règle inexplicable....................................................................................................................................................160

22.5 - METTRE EN ŒUVRE LA TECHNIQUE..............................................................................................................16122.5.1 - LA TAXINOMIE...............................................................................................................................................16122.5.2 - LES ARTICLES VIRTUELS.............................................................................................................................16122.5.3 - LES REGLES DE DISSOCIATION..................................................................................................................16122.5.4 - LES SERIES TEMPORELLES.........................................................................................................................162




22.6 - EVALUER LES RESULTATS................................................................................................................................16222.6.1 - LA FRÉQUENCE..................................................................................................................................................16222.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE................................................................................................................16222.6.3 - LE NIVEAU DE SUPPORT.............................................................................................................................16322.6.4 - LE TAUX D'AMÉLIORATION..................................................................................................................................163

22.7 - LES POINTS FORTS...............................................................................................................................................16322.8 - LES POINTS FAIBLES...........................................................................................................................................16422.9 - QUAND L'UTILISER ?...........................................................................................................................................16422.10 - SYNTHESE............................................................................................................................................................164

23 - LE RAISONNEMENT BASE SUR LA MEMOIRE...................................................................................................165

23.1 - PRESENTATION....................................................................................................................................................16523.2 - UTILISATION.........................................................................................................................................................16523.3 - FONCTIONNEMENT.............................................................................................................................................16623.4 - METTRE EN ŒUVRE LE RBM.............................................................................................................................167

23.4.1 - LA FONCTION DE DISTANCE......................................................................................................................16723.4.2 - LA FONCTION DE COMBINAISON..............................................................................................................168

23.5 - EXEMPLE................................................................................................................................................................16823.6 - LES POINTS FORTS DU RBM..............................................................................................................................17023.7 - LES POINTS FAIBLES DU RBM..........................................................................................................................17023.8 - SYNTHESE..............................................................................................................................................................170

24 - LA DETECTION AUTOMATIQUE DE CLUSTERS...............................................................................................171


24.3.1 - METHODE DES K-MOYENNES.....................................................................................................................17124.3.2 - METHODE PAR AGGLOMERATION............................................................................................................172

24.4 - MISE EN ŒUVRE...................................................................................................................................................17224.5 - EXEMPLES..............................................................................................................................................................172

24.5.1 - METHODE DES K-MOYENNES.....................................................................................................................17224.5.2 - METHODE PAR AGGLOMERATION............................................................................................................174

24.6 - EVALUER................................................................................................................................................................17624.7 - LES POINTS FORTS...............................................................................................................................................17624.8 - LES POINTS FAIBLES...........................................................................................................................................17624.9 - SYNTHESE..............................................................................................................................................................176

25 - LES ALGORITHMES GENETIQUES........................................................................................................................177


25.3.1 - NOTIONS DE GENETIQUE............................................................................................................................17725.3.2 - LES ALGORITHMES GENETIQUES..............................................................................................................178

25.4 - MISE EN ŒUVRE DES ALGORITHMES GENETIQUES...................................................................................17825.4.1 - PREPARATION DES DONNEES....................................................................................................................17825.4.2 - FONCTION D'EVALUATION.........................................................................................................................17825.4.3 - GENERATION DES DESCENDANTS.............................................................................................................17925.4.4 - PROCESSUS DE SELECTION........................................................................................................................18025.4.5 - MANIPULATIONS GENETIQUES..................................................................................................................181

25.4.5.1 - Hybridation...................................................................................................................................................................18125.4.5.2 - Mutation.......................................................................................................................................................................18125.4.5.3 - Inversion.......................................................................................................................................................................181

25.4.6 - FIN DU PROCESSUS......................................................................................................................................18225.4.7 - SYNOPTIQUE..................................................................................................................................................182

25.5 - EXEMPLE................................................................................................................................................................18325.6 - LES POINTS FORTS...............................................................................................................................................18425.7 - LES POINTS FAIBLES...........................................................................................................................................18425.8 - SYNTHESE..............................................................................................................................................................184

26 - LES AGENTS INTELLIGENTS OU KNOWBOT.....................................................................................................185

26.1 - PRESENTATION....................................................................................................................................................18526.2 - UTILISATION.........................................................................................................................................................18526.3 - LES CONSEILLERS ELECTRONIQUES..............................................................................................................186




26.3.1 - LES AGENTS NEGOCIATEURS.....................................................................................................................18626.3.2 - LES AGENTS VENDEURS..............................................................................................................................186

26.4 - KNOWBOT ET DATA MINING............................................................................................................................18626.5 - EXEMPLE................................................................................................................................................................18726.6 - SYNTHESE..............................................................................................................................................................187

27 - LES RESEAUX BAYESIENS.......................................................................................................................................188

27.1 - PRÉSENTATION....................................................................................................................................................18827.1.1 - RAPPEL SUR LA THÉORIE DES GRAPHES..............................................................................................................188

27.2 - FONCTIONNEMENT.............................................................................................................................................18927.3 - MISE EN PLACE.....................................................................................................................................................190

27.3.1 - PRÉPARATION DES VARIABLES............................................................................................................................19027.3.2 - SÉLECTION DES VARIABLES.................................................................................................................................19027.3.3 - IDENTIFICATION DES DÉPENDANCES...................................................................................................................19027.3.4 - MATRICE DES PROBABILITÉS...............................................................................................................................191

27.4 - LES POINTS FORTS...............................................................................................................................................19127.4.1 - BONNE RÉSOLUTION...........................................................................................................................................19127.4.2 - BONNE VISIBILITÉ...............................................................................................................................................19127.4.3 - BONNE DÉCOUVERTE DE RELATIONS..................................................................................................................191

27.5 - LES POINTS FAIBLES...........................................................................................................................................19127.5.1 - MAUVAISE ADAPTATION......................................................................................................................................19127.5.2 - PEU D’OUTILS....................................................................................................................................................19227.5.3 - MAUVAISE PERFORMANCE..................................................................................................................................192

28 - LES ARBRES DE DECISIONS....................................................................................................................................193

28.1 - PRÉSENTATION....................................................................................................................................................19328.2 - FONCTIONNEMENT.............................................................................................................................................193

28.2.1 - CART................................................................................................................................................................19428.2.2 - C4.5..................................................................................................................................................................196

28.2.2.1 - Nombre de sorties d’un nœud variable.........................................................................................................................19628.2.2.2 - Méthode de détermination de l’ordre des bifurcations.................................................................................................19628.2.2.3 - Elagage.........................................................................................................................................................................19628.2.2.4 - Ensemble de règles.......................................................................................................................................................196

28.2.3 - CHAID..............................................................................................................................................................19728.2.3.1 - Développement de l’arbre............................................................................................................................................197

28.3 - MISE EN PLACE.....................................................................................................................................................19728.3.1 - PRÉPARATION DES DONNÉES..............................................................................................................................19728.3.2 - ENRICHISSEMENT DES DONNÉES.........................................................................................................................19828.3.3 - CRÉATION ET VALIDATION DE L’ARBORESCENCE.................................................................................................198

28.4 - LES POINTS FORTS...............................................................................................................................................19828.4.1 - SIMPLICITÉ D’UTILISATION.................................................................................................................................19828.4.2 - BONNE LISIBILITÉ...............................................................................................................................................19828.4.3 - BONNE ADAPTATION...........................................................................................................................................199

28.5 - LES POINTS FAIBLES...........................................................................................................................................19928.5.1 - MAUVAISE PERFORMANCE..................................................................................................................................19928.5.2 - COÛT DE L’APPRENTISSAGE...............................................................................................................................199

29 - LES RESEAUX DE NEURONES.................................................................................................................................200

29.1 - PRÉSENTATION....................................................................................................................................................20029.2 - FONCTIONNEMENT.............................................................................................................................................200

29.2.1 - NEURONE FORMEL.............................................................................................................................................20029.2.2 - RÉGLE D’ACTIVATION.........................................................................................................................................20129.2.3 - ORGANISATION EN COUCHES..............................................................................................................................20129.2.4 - RÉGLE D’APPRENTISSAGE...................................................................................................................................202

29.3 - MISE EN PLACE.....................................................................................................................................................20229.3.1 - PRÉPARATION DES DONNÉES..............................................................................................................................20229.3.2 - DÉTERMINATION DES ENTRÉES ET DES SORTIES..................................................................................................20229.3.3 - CONSTITUTION DE LA BASE D’EXEMPLES............................................................................................................20229.3.4 - CODAGE DES ENTRÉES.......................................................................................................................................20329.3.5 - OPTIMISATION DU JEU DE DONNÉES...................................................................................................................20329.3.6 - DÉTERMINATION DES PARAMÈTRES.....................................................................................................................20329.3.7 - PHASE D’APPRENTISSAGE...................................................................................................................................204

29.4 - LES POINTS FORTS...............................................................................................................................................205




29.4.1 - SOUPLESSE........................................................................................................................................................20529.4.2 - BONNE RÉSOLUTION...........................................................................................................................................20529.4.3 - BONNE ADAPTATION...........................................................................................................................................20529.4.4 - OUTILS DISPONIBLES..........................................................................................................................................205

29.5 - LES POINTS FAIBLES...........................................................................................................................................20529.5.1 - CODAGE DES ENTRÉES.......................................................................................................................................20629.5.2 - LISIBILITÉ..........................................................................................................................................................20629.5.3 - DÉTERMINATION DE LA TAILLE...........................................................................................................................20629.5.4 - NON OPTIMALITÉ...............................................................................................................................................20629.5.5 - PERFORMANCE..................................................................................................................................................206

30 - MISE EN PLACE...........................................................................................................................................................207

30.1 - POSER LE PROBLÈME..........................................................................................................................................20730.2 - RECHERCHE DES DONNÉES..............................................................................................................................20730.3 - SÉLECTION DES DONNÉES................................................................................................................................20830.4 - NETTOYAGE DES DONNÉES..............................................................................................................................20830.5 - ACTIONS SUR LES VARIABLES.........................................................................................................................20830.6 - RECHERCHE DU MODÈLE..................................................................................................................................20930.7 - EVALUATION DU RÉSULTAT............................................................................................................................20930.8 - INTÉGRATION DE LA CONNAISSANCE...........................................................................................................209

31 - CHOISIR LE BON OUTIL...........................................................................................................................................210

31.1 - CARACTÉRISTIQUES INFORMATIQUES.........................................................................................................21131.2 - GAMMES DE PRIX ET DE PUISSANCE.............................................................................................................21131.3 - ADÉQUATION DE L’OUTIL.................................................................................................................................21231.4 - NIVEAU DE COMPÉTENCE.................................................................................................................................212

32 - DATA MINING ET ETHIQUE.....................................................................................................................................213

33 - OUVERTURE À INTERNET.......................................................................................................................................214

33.1 - ACCÈS À DES PAGES STATIQUES....................................................................................................................21433.2 - ACCÈS À DES PAGES DYNAMIQUES...............................................................................................................21533.3 - LE WEB ET L'AIDE À LA DÉCISION..................................................................................................................216

34 - CONCLUSION................................................................................................................................................................217

34.1 - LES OUTILS D’AIDE À LA DÉCISION...............................................................................................................21734.2 - LES PERSPECTIVES POUR L’ENTREPRISE......................................................................................................21734.3 - CONCLUSION........................................................................................................................................................218

35 - GLOSSAIRE...................................................................................................................................................................219

36 - INDEX..............................................................................................................................................................................230

37 - TABLES...........................................................................................................................................................................232

37.1 - TABLE DES FIGURES...........................................................................................................................................23237.2 - TABLE DES GRAPHIQUES..................................................................................................................................23237.3 - TABLES DES TABLEAUX....................................................................................................................................233

38 - BIBLIOGRAPHIE..........................................................................................................................................................235

39 - SITES INTERNET.........................................................................................................................................................238




1 - INTRODUCTION

"L'information au bout des doigts"; un slogan publicitaire apparu au début des années 1990 qui reflétait bien le fait que les entreprises commençaient de plus en plus à s’intéresser à l’informatique décisionnelle.

L’outil client du Data Warehouse a pour principal objectif de permettre à un utilisateur d’accéder de manière simple et ergonomique à un serveur de données et de valoriser l’information récupérée. Cet outil d’aide à la décision doit répondre aux différents besoins des utilisateurs.

Les requêteurs leur permettent en toute autonomie un accès à l'information en libre service sans se soucier des chemins d'accès à celle-ci. Ils veulent également analyser les données mises à leur disposition et visualiser les informations (les indicateurs) par rapport à différents axes d’analyse ce qui nécessite de s'appuyer sur une information pré-packagée et fortement structurée. Les outils OLAP (On Line Analytical Processing) répondent à ces besoins. Les outils de Data Mining vont plus loin et permettent aux utilisateurs "métier" d'extraire de la connaissances de ses données grâce des mécanismes d'induction.




2 - LA PROBLEMATIQUE DE L'ENTREPRISE

2.1 - INTRODUCTION

“ La Problématique de l’Entreprise ”, ce titre amène naturellement à définir la position de l’entreprise par rapport au sujet “ le Datawarehouse, le Datamining ” et définir en quoi celle-ci est concernée. Plus précisément, montrer comment ces techniques d’informatique décisionnelle sont une réponse au problème de prise de décision de l’organisation au vu de son contexte, de ses contraintes, de ses objectifs poursuivis sur les plans sécurité, développement et rentabilité.

Nous proposons de répondre à cette problématique en décrivant :

un modèle “ du système décisionnel de l’entreprise ”, et le contenu informatif de ce système décisionnel..

Nous commençons par définir l’entreprise, le décideur, et les niveaux de préoccupation du décideur.

2.1.1 - L’ENTREPRISE

Dans un souci d’exhaustivité, nous nous appuyons sur le schéma des secteurs institutionnels ci-dessous.

Tableau 1 : les secteurs institutionnels




Nous désignons donc sous le terme “ Entreprise ” toute organisation humaine devant gérer sa raison d’être et/ou sa pérennité au travers des objectifs cités ci-dessus (sécurité, développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée d’un centre de décision.

Ainsi, par le terme “ entreprise ”, nous couvrons :

chacun des secteurs institutionnels de la comptabilité nationale (Français et Etrangers).

Les Sociétés et quasi sociétés Les Institutions Financières Les Sociétés d’Assurance Les Ménages Les Administrations Publiques Les Administrations Privées.

les associations (Françaises et étrangères). toute autre organisation que celles citées ci-dessus.

La figure “ Les secteurs institutionnels ” illustre les relations de marché ou les relations concurrentielles et les relations non concurrentielles de la part des administrations.

La généralisation du concept “ entreprise ” s’appuie sur la similitude de problématique quand il s’agit de conduire une organisation à travers le temps et l’espace dans un contexte en perpétuelle mouvance sachant que la prise de décision ne peut relever du réflexe.Trois exemples de problème à résoudre ou de défi à relever pour des organisations appartenant à des secteurs institutionnels différents.

Objectif de Développement

Contrainte

Société Gagner x% de part de Marché

Taux de rémunération du capital de y% fixé par les actionnaires

=> Recherche de Solution

Administration (Secteur Hospitalier Français )

Répondre à l'augmentation de la demande

Travailler à Budget Constant

=> Recherche de Solution

Association à but non lucratif

Augmenter la qualité d'un service

Résultat de l'exercice = 0 => Recherche de Solution

Tableau 2 : exemple de défi à relever par chaque type d’organisation

Remarque : l’objectif de rentabilité d’une association est assimilé à l’équilibre financier de l’exercice.




2.1.2 - LE DÉCIDEUR

Dans l’organisation ainsi définie, le décideur peut-être le responsable de cette organisation ou le responsable d’une fonction de cette organisation. Nous associons le terme “ Décideur ” et la responsabilité vis à vis de la pérennité de l’organisation.

2.1.3 - LES NIVEAUX DE PRÉOCCUPATIONS DU DÉCIDEUR

Thomas Gilbert énonce une succession de niveaux de préoccupation de la part du dirigeant d’entreprise que la figure ci-dessous présente sous forme de pyramide. Il décompose cette pyramide en 3 parties :

Partie 1, ( niveau 1 ) : la philosophie personnelle du dirigeant, présente dans la tête du dirigeant.

Partie 2, ( niveaux 2 à 4 ) constituant la cohérence et la pérennité de l’entreprise. Partie 3, ( niveaux 5 à 7 ) constituant la partie opérationnelle de l’entreprise.

Figure 1 : les Niveaux de préoccupation du décideur (selon Thomas Gilbert)

Nous adoptons cette échelle des niveaux de préoccupation pour définir le contexte général de la prise de décision dans l’entreprise et nous disons que l’espace des décisions du décideur est structuré par les niveaux de ses préoccupations.




2.1.4 - RESUME

Le terme “ Entreprise ” désigne toute organisation humaine devant gérer sa raison d’être et/ou sa pérennité au travers des objectifs de sécurité, de

développement, de rentabilité et se trouvant par voie de conséquence dotée d’un centre de décision.

Le terme “ Décideur ” est celui qui engage la pérennité ou la raison d’être de l’Organisation.

L’espace des décisions du décideur est structuré par les niveaux de ses préoccupations.

2.2 - LE SYSTÈME DÉCISIONNEL DE L’ORGANISATION

Cette première partie va s’attacher à montrer les aspects du “ Système Décisionnel de l’Organisation ” où le décideur et la machine ( le système informatique ) interagissent pour permettre au décideur de prendre la meilleure décision. Nous définirons aussi ce qu’est la meilleure décision.

Cette partie s’est largement inspirée de l’ouvrage de Pierre Lévine et Jean Charles Pomerol , 1990, Systèmes interactifs d’aide à la décision et systèmes experts, Editions Hermès. Ces auteurs s’appuient sur les travaux de H.A. Simon et de Newell aux USA et de Le Moigne qui a popularisé ces travaux en France. Nous ferons référence de temps à autre à ces auteurs. Toutefois, l’objectif n’est pas de redire une théorie de la décision, mais de présenter les concepts utiles à la compréhension et à la construction du système décisionnel de l’organisation.




2.2.1 - LA RÉSOLUTION DE PROBLÈME

2.2.1.1 - LE PROBLÈME

Le mot “ problème ” est pris dans une acception très générale. Nous disons qu’un sujet est confronté à un “ problème ” dès qu'il doit produire une action non réflexe sur son environnement. Exemple :

Changer le système informatique de l’entreprise. Racheter une P.M.E. Mettre sur le marché une nouvelle gamme de produits.

Remarques :

Le Sujet : au sens du terme “ Entreprise ” défini au paragraphe précédent. L’Environnement : au sens le plus large: environnement personnel, relationnel,

marché, financier, législatif, politique, etc..

A ce niveau d’exposé, nous ne disons rien sur l’état amont à la résolution du problème.

2.2.1.2 - LA RÉSOLUTION DU PROBLÈME

D’après Simon et Newell, la résolution d'un problème donné s'effectue en progressant, de situation en situation, d'une situation initiale à la solution. Tout se passe, un peu, comme si le problème consistait à traverser une rivière sur des pierres.

Figure 2 : comment traverser ?

Partant de la situation initiale (ou état) S0, comment atteindre la situation St (ou état terminal, ou la solution) ?




2.2.1.3 - L’ESPACE DE RÉSOLUTION

Aussi, pour Simon et Newell, la résolution du problème passe par la définition d’un espace de résolution. Cet espace de résolution contient :

l’espace des états, les opérateurs de passage entre états, l’état initial, le ou les état(s) solution, les informations disponibles et relatives

à chaque état, augmentées des calculs relatifs à l'état courant, à l’avancement de la résolution, au cheminement de la résolution, aux états précédemment rencontrés à l’environnement.

2.2.1.3.1 - 2.2.1.3.1 - L’espace des étatsL’espace des états

Dans le cas de la rivière, les états sont les pierres. L'ensemble des états s'appelle l'espace des états.

2.2.1.3.2 - 2.2.1.3.2 - Les OpérateursLes Opérateurs

En s’appuyant sur le même exemple, pour passer d'une pierre à l'autre, je saute. De S0, je peux atteindre certaines pierres et pas d'autres, ainsi à chaque état Si j'associe les états Sij que je peux atteindre à partir de Si. Pour le passage de Si à Sj1, j'utilise un opérateur (de saut, en l'occurrence).

Mais je peux me tromper et arriver sur une pierre à partir de laquelle mes forces m'interdisent d'atteindre la suivante. Je reviens alors en arrière et j'essaye un autre chemin (stratégie d'exploration avec retour arrière ou backtracking strategy).

Chaque opérateur me fait passer d'un état à un autre qui me rapproche, en principe, de St.

2.2.1.3.3 - 2.2.1.3.3 - La Réduction de la DifférenceLa Réduction de la Différence

La méthode générale pour choisir un opérateur ou construire un opérateur (raisonnement) consiste à essayer de combler le fossé entre les états Si et Sj. C'est ce que Simon appelle la “ réduction de la différence ”. En définitive, c'est du rapprochement mental entre Si et Sj que naît l'opérateur. Les raisons qui me font passer d'un état à l'autre résultent d'une appréciation des différences entre ces états et de l'idée que je me fais du chemin qui me permettra de passer.




2.2.1.3.4 - 2.2.1.3.4 - l’Heuristiquel’Heuristique..

L'ensemble du procédé qui me permet de me “ promener ” dans l'espace d'états, s'appelle une heuristique.

2.2.1.3.5 - 2.2.1.3.5 - En résuméEn résumé

La résolution de problème part d'une représentation formalisable en un espace d'états et d'une aptitude à explorer intelligemment cet espace d'états.

Les états, les opérateurs permettant de passer d'un état à un autre et les informations dont on peut disposer à chaque état, forment une représentation

implicite du problème.

C'est cet ensemble que Newell et Simon appellent l'espace de résolution.

2.2.2 - LE PARADIGME 1 ST I

2.2.2.1 - STI

Le sigle “ STI ”2 ou “ Système de Traitement de l’Information ” désigne le contexte général du traitement de l'information et de la résolution de problème.

L’introduction de ce contexte général s’inscrit dans des recherches sur les liens entre la théorie de l’information, la théorie de la gestion des organisations, la théorie de la décision et de la gestion.

1 “ Paradigme ”, du grec “ paradigma ”, signifie “ modèle ”; Le mot paradigme sera pris au sens de T.S.Kuhn ( rôle des paradigmes dans l’histoire des sciences ), c’est à dire, il représente l’ensemble des contingences environnementales dans lequel évolue le système.

2 On trouvera dans Demailly et Le Moigne (1986) de nombreux éclairages sur la génèse du paradigme, en particulier un article historique de Simon (1986 a).




Le paradigme STI s’appuie sur 3 postulats énoncés par Simon :

Postulat 1 : “ Il est possible de construire une théorie de l'esprit au niveau du traitement de

l'information. Théorie où les processus informationnels en sont les fondements premiers ”

Postulat 2 : “ L'étude des processus décisionnels est possible à un niveau d'agrégation qui

est celui du traitement de l’information. c'est-à-dire celui de la manipulation des signes ”.

Postulat 3 : “ Pour décrire le processus du traitement de l’information dans un STI, il est

posé, en attendant la preuve du contraire, que le cerveau est l’archétype3 des STI. ”.

Remarque : Ce dernier postulat est le corollaire du postulat posé par Simon : “ Pour résoudre des problèmes avec des machines, faisons comme les gens font ”.

Remarquons qu’à ce niveau d’agrégation, on ne décrit pas les phénomènes physiologiques du cerveau, mais on s’intéresse aux flux d’informations. A des niveaux d’agrégation plus bas, des modèles connexionnistes peuvent être beaucoup plus proche de la réalité du fonctionnement des neurones.

2.2.2.2 - LA REPRÉSENTATION DU STI

Newell et Simon, Le Moigne et Demailly proposent la représentation suivante du paradigme STI .

Figure 3 : le Système de Traitement de l’Information

3 “ Archétype ”, du grec “ arkhetupon ”, signifie modèle original ( premier) ou modèle idéal sur lequel est fait un ouvrage ou une oeuvre.




Ainsi, cette représentation s’appuie sur les postulats énoncés ci-dessus.Le cerveau reçoit des stimuli par le biais de nos cinq sens. Ces stimuli sont convertis, grâce à des médiations chimiques, en signaux électriques ou ioniques transmis par les neurones.L'information est donc reçue par nos récepteurs et circule.

Une partie de cette information est stockée dans la mémoire. ( les processus physiologiques et l’organisation plus ou moins connus opérant le stockage en mémoire ne nous intéressent pas à ce niveau de considération.).

Les stimuli reçus et transmis au cerveau, ainsi que les informations mémorisées, sont ensuite traités pour produire des réponses nerveuses qui actionnent nos muscles.

2.2.2.3 - MATIÈRE TRAITÉE : SIGNES ET SYMBOLES

Le STI manipule (traite) des signes qui sont des formes (un ensemble de spécifications physiques) reconnaissables et reproductibles.

Ces signes, comme les impulsions électriques (ou ioniques) transmises dans les neurones, n'ont pas de sens intrinsèque, c'est l'observateur ou le sujet qui donne la signification aux signes, les transformant alors en symboles.

2.2.2.4 - LES DÉCALAGES ESPACE, TEMPS, FORME DU STI

La mémoire est le système de décalage des signes dans le temps.Le module de réception / émission est le système de décalage des signes dans l'espace.Les processeurs assurent la “ computation ” sur les signes (loi de composition interne), le décalage de la forme.

2.2.2.5 - LA DÉFINITION DE SIMON

Simon définit le STI comme un modèle comportemental à deux archétypes : le cerveau et les ordinateurs; l’adjectif comportemental faisant référence au postulat 3.

2.2.2.6 - EN RÉSUMÉ

“ STI ” ou “ Système de Traitement de l’Information ” est le sigle qui désigne le contexte général du traitement de l'information et de la résolution de problème.

Ce STI peut être vu comme un modèle à deux archétypes : le cerveau et les ordinateurs.




2.2.3 - L’ORGANISATION ET LE STI

Nous représentons par le schéma ci-dessous la définition du STI de Simon. Nous prenons ce schéma comme base de la structure décisionnelle de l’organisation.

Figure 4 : structure du Système décisionnel (1)

2.2.3.1 - LA PERCEPTION DE L’ENVIRONNEMENT

La représentation mentale que nous nous faisons de l’environnement est alimentée par :

notre perception directe de l’environnement (Les 5 sens) notre perception de l’environnement au travers des informations transmises par la

machine.

et elle s’exprime au travers d’un modèle.




2.2.3.2 - LA REPRÉSENTATION MENTALE ET LES NIVEAUX DE PRÉOCCUPATION

Ainsi, le schéma de la structure décisionnelle évolue de la façon suivante :


L’échelle des niveaux de préoccupations jouera le rôle de référentiel. (Référentiel non définitif dans son contenu).

2.2.3.3 - LES COMPOSANTES DU MODÈLE

Les composantes de l’environnement qui entrent dans la représentation sont des composantes sélectionnées dans l’ordre des préoccupations et sélectionnées parmi celles qui à un instant données semblent rendre compte des objectifs.

Calendrier des tâches à exécuter de niveau de Chiffre d’affaires, de stocks, de besoin de fonds de roulement, liste des objectifs fixés




2.2.3.4 - L’ÉLÉMENT DÉCLENCHEUR DU PROBLÈME

2.2.3.4.1 - 2.2.3.4.1 - Variation entre 2 évaluations de la représentation du modèleVariation entre 2 évaluations de la représentation du modèle

La représentation mentale est évaluée au travers des valeurs des composantes sélectionnées dans le modèle ou au travers du résultat d’une fonction d’évaluation intégrée dans le modèle. L’élément déclencheur ou Evénement déclencheur d’un problème à résoudre sera la perception d’une variation de valeurs entre 2 évaluations successives de la représentation. De plus, la variation entre 2 évaluations sera rapproché d’un seuil. Ce seuil déterminera le déclenchement ou non d’une action de résolution de problème.

Exemple :

“ diminution du Chiffre d’affaires de 5% sur 3 mois par rapport à la même période de l’année précédente.”

2.2.3.4.2 - 2.2.3.4.2 - Variation de l’état des préoccupationsVariation de l’état des préoccupations

De même, on pourrait dire qu’une variation de l’état des préoccupations peut déclencher un processus de résolution de problème.

Exemple :

Vouloir passer de la 3ème place à la position de leader sur son marché. Cette volonté va entraîner une étude de faisabilité, avec différents scénarios possibles, il y aura choix et éventuellement une critique ultérieure de la décision. Cette volonté va entraîner la création d’un espace de résolution.

Vérifier une hypothèse. etc....

2.2.3.5 - LE PROJET DE L’ORGANISATION

Repérer les variations du modèle de la représentation mentale sous-entend faire appel à une norme préétablie auprès de la quelle il est possible de définir des seuils au-delà desquels une action doit être entreprise.

Cette norme supérieure ou ce référentiel est le projet. Le projet peut-être :

La raison d’être de l’organisation : Exemple : La Vente par correspondance des produits de beauté.

Des projets stratégiques, des sous projets.




Nous intégrons maintenant le projet dans le schéma décisionnel. C’est lui le référentiel du modèle de la représentation mentale de l’environnement.


2.2.3.6 - EN RÉSUMÉ

Le Modèle du système décisionnel se décompose :

Niveau Conceptuel : les Représentations

du Projet, du modèle de la position de l’organisation dans l’environnement,

de l'espace de résolution de problèmedes Niveaux de Préoccupations

Niveau Physique : L’Homme,

La Machinel’Environnement.




2.2.4 - LA DECISION

Soit l’axiome suivant : entre les deux issues mutuellement exclusives d'une alternative, l'individu X qui choisit une issue à la suite d'un processus mental, appelé réflexion, aurait pu tout aussi bien choisir l'autre.

Nous appelons ce choix : “ décision ” ou plus précisément “ prise de décision ”.Nous considérons toujours qu'il y a correspondance biunivoque non ambiguë entre une prise de décision et un problème que l'on cherche à résoudre.

2.2.4.1 - LES PHASES DE LA PRISE DE DÉCISION

Simon distingue quatre phases dans le processus de décision :

l'information ou le renseignement

le décideur se met en quête d'informations relatives aux questions qui le préoccupent. : Quelles sont les solutions possibles ? Que font les concurrents ? Quelle est la pratique dans les entreprises qui ont un métier voisin ?... Comment se segmente la clientèle ? etc...

la conception Dans un deuxième temps, le décideur construit des solutions, imagine des

scénarios, ce qui peut l'amener à rechercher de l'information supplémentaire.

le choix Ensuite, le décideur choisit entre les différentes actions qu'il a été capable de

construire et d'identifier pendant la phase de conception.

l'évaluation des choix précédents. Après le choix, et dans la mesure où la décision s'intègre dans un processus

dynamique ; Une rétroaction (feed-back) intelligente permet de corriger bien des erreurs et, sur le déroulement d'un processus décisionnel.

Remarques : Les étapes décrites par Simon ne se déroulent pas forcément suivant un processus purement séquentiel, il peut y avoir des retours en arrière. Assez fréquemment l'information et la conception contiennent déjà le choix dans la mesure où le décideur privilégie assez vite une seule action parmi celles possibles. Celle-ci est ensuite la seule documentée et construite.




2.2.4.2 - ECHELLE DES PRÉOCCUPATIONS ET ÉCHELLE DE NORMALISATION DES DÉCISIONS

Simon indique que les décisions dans les entreprises se répartissent sur toute la longueur d'une échelle qui va du moins normalisé au plus normalisé. A cette échelle de normalisation de Simon, nous faisons correspondre l’échelle des préoccupations du Manager ou du Décideur. Nous faisons correspondre aussi, pour chaque niveau de préoccupation, une période indicative pour laquelle il existe une probabilité non nulle d’apparition de problème entraînant une prise de décision. Ces périodes, indiquées sur la figure ci-dessous sont données pour fixer un ordre de grandeur. Les rapports entre les ordres de grandeurs caractériseraient davantage la probabilité d’apparition d’une décision quand on passe d’un niveau de préoccupation au niveau voisin.

Figure 7 : échelle de Normalisation des décisions




Figure 8 : niveaux de préoccupations et niveau d’agrégation

De même, nous donnons un espace-temps d’impact des décisions prises selon le niveau de préoccupation et le niveau d’agrégation croissant vers la partie haute des niveaux de préoccupations.

Quelques caractéristiques de ces décisions4

Décision Bien Normalisée Peu NormaliséeFréquence Elevée

d’où l’effort à normaliser le processus

faible ou peu élevée

Caractère Routine exceptionnel par sa nouveauté ou son enjeu

Programme Un programme au déroulement fixé : Il existe un processus connu et explicitable permettant de traiter les informations “ intrantes ” dans le STI.

Formalisée la démarche de résolution du problème que se pose le décideur nécessiterait un gros effort.

Démarche Heuristique

Disparue Utilisée

Exemples facturations, achats, etc. le choix d’une campagne de publicité.

Tableau 3 : tableau de décisions normalisées

4 A Décision bien normalisée et peu normalisée correspondent en anglais les expressions “ Programmed decision ” et “ Non-Programmed decision ”. Cf Levine et PommerolC:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 26



2.2.4.3 - STRUCTURATION DU PROCESSUS DE DÉCISION

2.2.4.3.1 - 2.2.4.3.1 - IntroductionIntroduction

Les parties hautes de l’échelle des préoccupations relèvent par nature de processus de décisions peu ou faiblement normalisés. La question devient :

“ Comment ramener une décision au caractère exceptionnel à un ensemble de décisions normalisées ? ”

Aux questions particulières de telle organisation : Comment remplacer le Directeur financier partant en retraite ?, Comment situer l’entreprise sur son marché des techniques de séparation des jaunes et des blancs d'œufs ?, Comment créer une alliance stratégique avec un leader de la pâtisserie industrielle ?, Comment mener une certification ISO 9000 ?, etc.

A ces questions particulières, des méthodes sont élaborées, affinées en permanence pour répondre au mieux aux besoins du décideur. C’est à ce niveau que nous faisons la jonction avec les cabinets de conseils; exemple : Ernst & Yung pour le recrutement d’un cadre financier, le Boston Consulting Group proposa la première matrice de positionnement sur un marché; AB Conseils SA spécialisé dans la conduite des alliances stratégiques ou la maîtrise des facteurs clés de succès, l’AFAQ et la démarche qualité.

Ces cabinets “ conseil ” ou “ d’aide à la décision ” intègrent un grand nombre d’exemples d’organisation aux prises avec tel type de problème. Ils font évoluer leurs méthodes et leurs modèles en intégrant les retours d’expérience. Ces organismes ou cabinets apportent une aide auprès du décideur dans son processus décisionnel.

Ce qui est vrai pour les cabinets conseils en organisation l’est aussi pour les centres de recherche universitaire ou industriel qui ouvrent de nouveaux espaces de résolution de problèmes dans les domaines techniques et scientifiques.

L’objectif est de normaliser le plus grand nombre de problèmes dans les niveaux hauts des préoccupations.

Ainsi, cet objectif amène à considérer une échelle propre de décision normalisée pour chaque niveau de préoccupations.

Par extension, nous pouvons réaffecter une échelle de normalisation de décisions dans les niveaux bas des préoccupations en intégrant le management des personnes.

Le passage de l’organisation taylorienne à un management plus participatif, d’une organisation pyramidale à une organisation par projet amène à introduire de la “ complexité ” dans les niveaux opérationnels et nous le verrons dans le paragraphe sur la rationalité limitée.




Nous considérons que le dernier étage l’exécution de la tâche sur le poste de travail est absorbé dans un management d’équipe au niveau des du service incluant

Figure 9 : échelle de normalisation des décisions

2.2.4.3.2 - 2.2.4.3.2 - Rôle des conseils extérieursRôle des conseils extérieurs

Un rôle de structuration et de normalisation des problèmes d’organisation qui se posent que quelques fois dans une entreprise mais qui sont fréquents si on considère une population d’organisations.

Ce Rôle est interactif ; c’est parce que le cabinet Conseil a accompagné une entreprise en lui proposant telle démarche pour résoudre son problème que ce même cabinet peut améliorer sa méthode, ses modèles grâce au retour d’expériences.

2.2.4.3.3 - 2.2.4.3.3 - Processus de structuration et de NormalisationProcessus de structuration et de Normalisation

2.2.4.3.3.1 - 2.2.4.3.3.1 - DéfinitionsDéfinitions

Structure Canonique Une structure canonique est une structure facile à trouver ou à retrouver pour

une large classe de sujets, partageant une même culture. Exemple : La décision d'accorder un prêt à un client est en général mal

structurée; car il n'y a pas de représentation canonique des clients et de leurs capacités à rembourser. Cependant lorsqu'un système expert est réalisé pour faire ce travail la décision devient normalisée, mais auparavant elle aura été structurée.




Qualité de la structuration Le problème, ou la décision, paraît bien structurée lorsque la formulation du

problème, ou des actions possibles, s'effectue à l'aide d'un modèle et d'une représentation canonique.

Exemple : la paye est structurée par les modèles comptables ; l'approvisionnement par certains modèles de la recherche opérationnelle, etc.

Structuration et Modélisation. La structuration est la notion descriptive du processus de résolution. La modélisation est davantage la décomposition en fonctions. Ce sont les facettes d'un même processus qui permet de rendre intelligible un

contexte de décision.

2.2.4.3.3.2 - 2.2.4.3.3.2 - Développement du ProcessusDéveloppement du Processus

Au départ la décision observée est baptisée spontanée, automatique, intuitive, on se plaît à y reconnaître créativité, expérience, émotion, bref il s'agit de décisions non structurées. Ensuite, quand on le peut, on passe à la phase de structuration et de modélisation

Figure 10 : structuration & normalisation




Schéma : Branche Basse de la figure “ Structuration et Normalisation ”

Les décisions empruntant le chemin du bas sont celles pour lesquelles la normalisation suit aisément la structuration et la modélisation, elles se présentent fréquemment et entrent dans les modèles classiques de comptabilité, de programmation linéaire, ou de tout autre modèle normalisé.

Ici, la structuration canonique conduit à des programmes classiques qui fonctionnent bien. La procédure de décision devient routine.

Schéma : Branche Haute.

Dans la branche du haut, on trouve les opérations qui dans leur modélisation classique ne sont pas solubles par des algorithmes efficaces si bien que le problème est structuré, mais la décision est en général prise “ à l'expérience ”, à la suite de procédures essai erreur par des professionnels qualifiés.

Toutefois , un problème ou une décision peut passer du chemin du bas au chemin du haut si l'on refuse la structuration “ dominante ”.

2.2.4.4 - LA REPRÉSENTATION

Structurer, mais d'après quel modèle ?

Dans cette optique, le problème central est celui de la modélisation, c'est-à-dire de la structuration des problèmes non structurés.

Pour le décideur, le problème à résoudre ne se présente en général pas sous forme d'opérations simples; il y a un travail pour passer de la perception à la représentation.

2.2.4.4.1 - 2.2.4.4.1 - Représentation, Structuration, ProcessReprésentation, Structuration, Process

L'approche “ intelligence artificielle ” a permis de bien distinguer entre représentation, c'est-à-dire une certaine structuration descriptive de la connaissance (matrice du tableur ou les fiches d'un logiciel comme hypercard) et le processing (par exemple, le calcul sur les cellules du tableur) qui est le modèle, en fait l'application au sens mathématique du terme.




2.2.4.4.2 - 2.2.4.4.2 - Les Niveaux de ReprésentationsLes Niveaux de Représentations

Ce passage de la perception à la représentation n'est pas immédiat. D'autant plus que la représentation admet aussi des niveaux qui correspondent plus ou moins aux niveaux de traitement.

Les différents niveaux de représentation que l'on peut observer dans la résolution de problèmes sont décrits dans la figure ci-dessous avec des exemples, les exemples du niveau n+l correspondent à des sous représentations du niveau n.

Tableau 4 : les niveaux de représentation

La structuration apparaît comme un préalable à la normalisation.

Ainsi, pour un problème donné, faisons le choix d'une résolution par la recherche opérationnelle et optons pour la programmation linéaire.

Une représentation est construite à partir des concepts pertinents ou objets :

machines, ouvriers, nombre d'heures ouvrées, etc., ces objets sont liés dans un modèle qui met sous forme d'équations les contraintes et donne la fonction économique.

Enfin dans un dernier niveau, on définit quelles seront les variables entières et les variables continues.




Il va de soi que les niveaux précédents ne sont pas indépendants entre eux et que certains choix sont simultanés, comme par exemple celui des objets et des valeurs, parfois même la représentation modèle-objets-valeurs se forme de façon concomitante dans la tête d'un individu.

Notons aussi que la détermination de la théorie et de la méthode stricto sensu se font souvent ensemble, si bien qu'on peut les regrouper en un terme de méthode ou mieux, de planification.

Nous désignerons les deux niveaux inférieurs de représentation sous le nom de modèle ou modélisation.

Cette partition en deux niveaux correspond alors à ce qui a été observé lors de la résolution de problèmes, le niveau supérieur étant celui des plans de Newell et Simon (1972).

Comme nous venons de le dire, l'indépendance entre les niveaux de représentation n'est pas de règle.

Piaget a même montré que les niveaux de représentation ne s'acquièrent que progressivement, en passant de l'un à l'autre grâce à un processus “ d'abstraction réfléchissante ”.

2.2.4.4.3 - 2.2.4.4.3 - Equilibration et ModèlesEquilibration et Modèles

Pour Piaget, toute action se place dans le cadre d'une représentation (pour nous d'un “modèle”) qui s'enrichit par “assimilation” (attraction de nouveaux objets par le modèle) et “accommodation” (particularisation du modèle), l'ensemble de ce processus d'enrichissement en fonction des expériences (actions et résultats des actions) s'appelle “l'équilibration”. L'échec de l'équilibration va conduire à un autre modèle suivant le schéma suivant inspiré de Courbon et Stabell (1986) et Ramaprasad (1987).

Action Résultat de l’action

espéré renforcement du modèle

différent de celui espéré

équilibration réussie

spécialisation ou

généralisation du modèle

équilibration impossible

construction d’un nouveau modèle par abstraction

réfléchissante.

Tableau 5 : Modèle-Action-Equilibration




2.2.4.4.4 - 2.2.4.4.4 - Les Niveaux de ReprésentationLes Niveaux de Représentation

Il nous semble que chaque niveau de représentation, sauf le plus bas, est “ fixable ”,

le niveau modèle, le niveau méthode le niveau théorie.

A chacun de ces niveaux de fixation correspondent des STI différents.

STI 1 : Quand la méthode est fixée, le système doit posséder une mémoire des modèles et des processeurs de modèles. STI 2 :Quand le modèle est fixé, les objets le sont aussi ipso facto, seules les valeurs peuvent changer. Dans ce cas là, des processeurs arithmético-logiques simples sont suffisants pour procéder.

Exemple :

dans les anciennes bases de données de type fichier, on est juste capable d'ajouter des données et de faire des interrogations prédéterminées.

2.2.4.4.5 - 2.2.4.4.5 - ModèleModèle

Définition :

Un modèle a toujours une traduction immédiate en un programme informatique. Le modèle correspond au processing et la computation s'exerce sur les

représentations.

2.2.4.4.6 - 2.2.4.4.6 - 1er Espace de résolution1er Espace de résolution

Nous avons donc un premier espace de résolution formé de modèles. C'est-à-dire qu'un état de cet espace est un modèle, les opérateurs de cet espace sont des opérateurs de choix de modèles, la réduction de la différence se réfère à la validité des modèles. Ce système de production fonctionne pour le choix du modèle.




2.2.4.4.7 - 2.2.4.4.7 - 2d Espace de Résolution2d Espace de Résolution

A un étage au-dessous, pour un modèle fixé, le système, afin d'évaluer les résultats, fonctionne dans un espace de résolution formé d'états du type objets valués, un objet valué étant un couple (objet, valeur).

Les opérateurs portent sur les valeurs, la réduction de la différence porte sur le résultat.

Disons enfin qu'il existe des STI pour lesquels les méthodes ne sont pas fixées. C'est le cas par exemple en statistique.

Le système vous donne le choix, méthode de Box-Jenkins ou l'analyse des données, puis vous choisissez votre modèle relatif à la méthode sélectionnée, enfin vous choisissez vos séries.

En résumé,

les représentations forment le bagage culturel acquis qui nous permet d'interpréter nos perceptions et d'effectuer une première structuration statique

des informations qui nous parviennent de l'environnement.

Une représentation est structurée quand on peut lui associer un modèle.

Les 4 Niveaux de représentation peuvent se décomposer en 2 niveaux sur lesquels des STI peuvent opérer la résolution de problème par démarche

heuristique : 1. Le niveau méthode-Modèle

2.Le niveau Modèle-Objet valué.




2.2.5 - LE PRINCIPE DE RATIONALITÉ LIMITÉE

2.2.5.1.1 - 2.2.5.1.1 - Les Modèles à Fonction optimiséeLes Modèles à Fonction optimiséeLes modèles des mathématiques et de la recherche opérationnelle, qui ont représenté jusqu'ici la base de la majorité des SIAD, reposent sur les hypothèses suivantes.

Toutes les actions possibles sont identifiées avant le traitement. Il y a un préordre total sur les actions qui est représentable par une fonction

d'utilité explicite dont on peut donner l'expression mathématique. Les intrants (paramètres, données) sont numériques, et contiennent toute

l'information utile. La meilleure décision est celle qui maximise la fonction d'utilité.

2.2.5.1.2 - 2.2.5.1.2 - Hypothèses de la rationalité limitéeHypothèses de la rationalité limitée

Bien souvent ces hypothèses ne sont pas réalistes, en particulier la seconde, surtout quand l'individu est confronté à des objectifs contradictoires (cadre de la modélisation multicritère). La vision proposée par Simon, s'inspire du comportement humain. Il faut raisonner dans le cadre d'un modèle qui prend en compte les éléments suivants :

Les décisions humaines, qu'elles soient indépendantes ou non, sont prises une par une, dans des domaines limités suivant un processus temporel.

L'appréciation du futur est limitée et, en tout cas, on en n'évalue pas tous les scénarios.

Il n'existe pas de fonction d'utilité globale et il n'est pas nécessaire d'en construire, d'autant plus que nos désirs sont souvent contradictoires.

A l'intérieur du processus de décision, la phase d'information est la plus longue, l'information conditionne, en quelque sorte, très fortement la décision.

2.2.5.1.3 - 2.2.5.1.3 - ConséquencesConséquences

Si l'on accepte ces hypothèses dites de la rationalité limitée, on en déduit :

un processus progressif de décision est un comportement rationnel (limité). Le processus accepte une sériation dans le temps des décisions même

dépendantes, ce qui entraîne que l'ordre de présentation des actions possibles peut influer sur le choix.

les individus n'optimisent pas, car nous sommes bien en peine de savoir quoi optimiser.




2.2.5.1.4 - 2.2.5.1.4 - Rationalité Limitée et Décision SatisfaisanteRationalité Limitée et Décision Satisfaisante

la rationalité limitée se résume à la recherche d'une décision satisfaisante

et à l'affirmation que l'on peut organiser rationnellement le processus temporel de recherche de cette décision. C'est-à-dire que la rationalité est dans la

procédure.

Ce que cherche le décideur c'est une action “ satisfaisante ” compte tenu de ses fins. Cependant, la rationalité limitée ne doit pas être comprise comme le refus de tout apport normatif.

Le Paradigme de la Prise de décision dirait que :

la prise de décision est un processus temporel, faisant appel de façon non séquentielle et parfois récursive aux fonctions information, conception, choix,

feed-back .

A cause de nos limites cognitives, ce processus n'est pas rationnel dans son ensemble (rationalité limitée), ce qui entraîne qu'il n'est pas déterministe en ce sens qu'à situation égale, deux individus différents arriveront à deux décisions différentes, mais que la façon de chercher (problem solving) tend à être rationnelle compte tenu des capacités, des acquis et des représentations de chaque individu (rationalité procédurale).

Remarque :

En admettant même que l'on puisse donner un sens à l'expression “ décision optimale ”, le coût de la recherche de l'optimalité risque d'être prohibitif (c'est par exemple le coût d'étude de toutes les actions possibles). Mettre le coût de la recherche dans la fonction à optimiser ne résout pas le problème car l'on entre alors dans un jeu de spécularité infinie. En effet, il faudrait aussi considérer le coût de la recherche du coût, etc.

Nous positionnons les qualités de la rationalité sur l’échelle des préoccupations.




Tableau 6 : niveaux de Préoccupation et rationalité Limitée

2.2.5.1.5 - 2.2.5.1.5 - rationalité limitée et paradigme STIrationalité limitée et paradigme STI

Le lien avec le paradigme STI consiste à dire que :

Les processus rationnels sont normalisables et programmablesun processeur peut donc remplacer le cerveau et, de fait, les recherches heuristiques sur ordinateur sont “ de la rationalité limitée en action ”.

“ Les raisonnements sont formalisables en règles de production. ” Une telle règle se met alors sous la forme : SI situation ALORS action.




2.2.5.1.6 - 2.2.5.1.6 - Rationalité limitée dans les programmesRationalité limitée dans les programmes

la rationalité est dans le processus de décision; la rationalité limitée en action conduit à explorer intelligemment un espace de résolution. Il existe un programme permettant cette démarche heuristique donc cette gestion des points de contrôle.

Les possibilités aux points de contrôle ( passage d’un état à un autre ) sont les suivantes :

à un nœud (état) donné, choisir un opérateur. à un nœud donné, décider si l'on doit continuer à partir de là ou pas ; à un nœud donné, déterminer s'il mérite d'être conservé en mémoire pour un

éventuel retour arrière ; quand on décide d'abandonner un nœud, choisir le nouveau nœud d'où l'on va

continuer le processus.

Ainsi, il existe diverses méthodes qui vont permettre de différencier les heuristiques. L'évaluation qui consiste à savoir si l'état où l'on se trouve est digne d'intérêt, soit pour continuer l'exploration à partir de lui, soit pour être mis en réserve afin d'être développé par la suite, cette évaluation est le point le plus important de toute recherche heuristique.

2.2.6 - LE SIAD 5 OU SYSTÈME INTERACTIF D’AIDE A LA DECISION

2.2.6.1.1 - 2.2.6.1.1 - DéfinitionDéfinition

Un SIAD est un Système Informatique de traitement de l’information et de résolution de

problème pratiquant la recherche heuristique.

5 SIAD , le terme anglais est Decision Support System ou DSS.C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 38



2.2.6.1.2 - 2.2.6.1.2 - InteractifInteractif

Interactif avait un sens fort dans les années 70, car ils s’opposaient à “ saisie par cartes perforées ”, “ traitement par lot ”. Aujourd’hui, les accès à la machine sont des transactions interactives Homme Machine. Toutefois, le sens “ Interactif ” des années 70 n’a pas changé. Le SIAD était interactif parce qu’il laissait le contrôle à l’Homme pour choisir ou décider du modèle à appliquer lors de l’étape suivante. Nous verrons dans le paragraphe suivant 3 siad élémentaires qui mettent à la disposition de l’utilisateur des bibliothèques de méthodes et de modèles et laissent au décideur, le soin de bâtir son cheminement heuristique.

En effet, les objets valués, correspondant à un état, sont définis, un certain nombre de “computations”, effectuées par un processeur d'état, fournissent, suivant un programme informatique non interactif, des extrants (des données de sortie), ce sont ces dernières valeurs qui vont être appréciées par l'utilisateur pour décider de la suite de la recherche heuristique.

Nous pouvons donc affirmer au niveau le plus bas

un SIAD est un programme de recherche heuristique dont la fonction d'évaluation se présente à chaque étape

sous la forme d'un modèle.

2.2.6.1.3 - 2.2.6.1.3 - SIAD & Aide à la décisionSIAD & Aide à la décision

“Aide à la décision ” s'oppose à “prise de décision automatique” et par conséquent à “processus à sens unique”.

la notion “ d'aide à la décision ” s'interprète comme une aide à la recherche des solutions satisfaisantes en utilisant un système de recherche heuristique.

Un SIAD est un système qui augmente la qualité des processus de décision plutôt que leur productivité.

il faut, lors de la modélisation, utiliser certains modèles normatifs et élargir les connaissances et les capacités du décideur ; par exemple, introduire la décision multicritère alors qu'elle était monocritère, introduire du qualitatif quand le décideur n'utilisait que des raisonnements numériques, etc.




2.2.7 - LES SIAD ÉLÉMENTAIRES

Nous présentons les siad élémentaires selon les 3 items suivants : la Théorie, La Méthode, Le Modèle.

2.2.7.1 - LE TABLEUR

2.2.7.1.1 - 2.2.7.1.1 - ThéorieThéorie

la Théorie de résolution de problème : tout problème se résout à l'aide de comptes.

2.2.7.1.2 - 2.2.7.1.2 - MéthodeMéthode

La méthode est le moyen mis en œuvre : une matrice informatique.La méthode consiste à mettre des items dans un tableau matriciel. La méthode du tableur est fixe.

2.2.7.1.3 - 2.2.7.1.3 - ModèleModèle

On construit le modèle en choisissant des objets (concepts) et les relations (équations) entre les objets.

2.2.7.1.4 - 2.2.7.1.4 - Processeur d’étatsProcesseur d’états

Cette grille de calcul (processeur d'état) met à jour le tableau après chaque modification.

2.2.7.1.5 - 2.2.7.1.5 - S.T.IS.T.I..

Le modèle étant fixé, on entre dans un système de résolution de problème où chaque état est une grille et les opérateurs sont ceux qui servent à modifier les valeurs de la grille.

2.2.7.1.6 - 2.2.7.1.6 - Organisation de l’ensemble des modèlesOrganisation de l’ensemble des modèles

Il n'y a pas d'exploration de style système de production sur l'ensemble des modèles, le changement à ce niveau est “ irrévocable ”. C’est l’utilisateur qui gère sa base de modèles; celle-ci n’est pas explicite; sa construction en est laissée à l’utilisateur. Les modèles sont contenus en puissance dans les fonctions du du tableur mises à la disposition de l’utilisateur.Ou plutôt, je dois organiser le changement.




2.2.7.1.7 - 2.2.7.1.7 - La recherche Heuristique sur les modèlesLa recherche Heuristique sur les modèles

La recherche heuristique n’est pas aidée par la machine; c’est à l’utilisateur de gérer cette démarche en construisant les modèles qui lui semblent opportuns de créer pour réduir la différence. Au niveau supérieur, le modèle peut varier, changement de variables explicatives, des équations, etc.

2.2.7.1.8 - 2.2.7.1.8 - La recherche Heuristique sur les valeursLa recherche Heuristique sur les valeurs

C’est par une réduction de différence par rapport au résultat que va s’organiser la recherche heuristique des bonnes valeurs.

Exemple : les items des soldes intermédiaires de gestion seraient placés dans les lignes de la matrice et aux colonnes correspondraient des périodes de temps (années, mois ou jours).le problème est : Augmentation de la capacité d'autofinancement de l’entreprise.la décision doit permettre d’apporter une solution ou au moins une amélioration.

2.2.7.1.9 - 2.2.7.1.9 - Organisation de l’ensemble des modèlesOrganisation de l’ensemble des modèles

Une extraction de base de données correspond à un sous-modèle; déplacement dans les sous-modèles.

2.2.7.2 - SYSTÈME DE GESTION DE BASES DE DONNÉES

2.2.7.2.1 - 2.2.7.2.1 - La Théorie “La Théorie “ Base de donnéesBase de données ””

La théorie consiste à dire que tout problème se résout par l'accès aux bonnes données qui doivent ou devraient être quelque part.

2.2.7.2.2 - 2.2.7.2.2 - La méthodeLa méthode

La méthode est caractérisée par le moyen mis en oeuvre ; exemple :

des fiches papier(de police), des fichiers, des bases de données hiérarchiques des bases de données relationnelles

2.2.7.2.3 - 2.2.7.2.3 - Le ModèleLe Modèle

Le modèle est l’ensemble des entités, des attributs et les relations définis par l’utilisateur.




2.2.7.2.4 - 2.2.7.2.4 - L’étatL’état

Soit une requête pour connaître les clients qui paient à plus de 30 jours.L’état est la relation engendrée par la requête

2.2.7.2.5 - 2.2.7.2.5 - le processeur d'étatle processeur d'état

Le processeur d’état est le processeur de requête qui fait les jointures, les projections et les sélections nécessaires pour évaluer l'état engendré (relation) par ma demande.

2.2.7.2.6 - 2.2.7.2.6 - Démarche Heuristique sur les ModèlesDémarche Heuristique sur les Modèles

le SGBD permet d'introduire de nouveaux attributs et de nouvelles relations.c'est-à-dire de changer les modèles. Par contre, on évolue de modèles en modèles plus “ large ” ou plus complet.Le choix du modèle M+1, en général, est tel que le modèle M est contenu dans le modèle M+1. ( dans le cas contraire, il y a risque de pertes de données )Par contre, on peut être amené à travailler sur des sous-modèles.Toutefois, tout est possible.

Remarque : A ce “ métaniveau ” l'évaluation porte en partie sur la valeur des concepts.

Un SGBD est donc un SIAD à deux niveaux tout comme le tableur.

Il n’existe pas d’aide dans le choix du modèle suivant.

Cela implique : Le décideur doit connaître sa bibliothèque de modèles pour une meilleure démarche heuristique.

2.2.7.3 - GÉNÉRATEUR DE SYSTÈMES EXPERTS

Nous insérons entre Théorie et Méthode quelques concepts sur les systèmes experts.

2.2.7.3.1 - 2.2.7.3.1 - La ThéorieLa Théorie

La théorie : tout problème peut être résolu à la suite de raisonnements qui sont décomposables en règles logiques.

Des règles logiques, soit au sens de : la logique des propositions ( mode 0+ ). de l’emploi de variables dans la logique des prédicats ( mode 1 )..




2.2.7.3.2 - 2.2.7.3.2 - RemarqueRemarque

Selon la rationalité présente dans les processus de décision (Cf. le paragraphe sur la rationalité limitée) , les raisonnements sont formalisables sous forme de règles de production du type : SI situation ALORS action

Type déductif : si a vraie alors b vraie; cette règle est une inférence, la partie gauche, la prémisse, la partie droite , la conclusion.

2.2.7.3.3 - 2.2.7.3.3 - Exemple d’une base de faitsExemple d’une base de faits

niveau des investissements = important environnement social = bon cadre juridique = stable protection environnement = croissante environnement = acceptable réseau commercial = adapté sous-traitance = instable faisabilité technique = moyenne risque faisabilité = moyen

2.2.7.3.4 - 2.2.7.3.4 - Présentation succincte des systèmes expertsPrésentation succincte des systèmes experts

Un système expert comprend une base de faits, un ensemble de règles et une structure de contrôle.En général, la base de faits est divisée en 2 parties : la base de faits elle-même et la base des faits que l’on voudrait prouver ou “ buts ”.Le fonctionnement du Système Expert correspond à la figure ci-dessous.




Figure 11 : fonctionnement d’un système expert

2.2.7.3.5 - 2.2.7.3.5 - Représentation des connaissancesReprésentation des connaissances

On distingue :

Les connaissances assertionnelles, connaissances de la base de faits ou connaissances déclaratives ou faits bruts.

Les connaissances contenues dans les règles sont des connaissances opératoires.

L’ensemble des règles et des faits constituent une base de connaissances. Les connaissances du système de contrôle sont des connaissances de stratégies

de contrôle. Elles disent dans quel ordre appliquer les règles pour résoudre le problème.

2.2.7.3.6 - 2.2.7.3.6 - Représentation des faitsReprésentation des faits

Une représentation des faits est souvent du type <ATTRIBUT><OBJET><VALEUR>Exemple < Rendement-81><Action Michelin><7%>

Elle peut se faire selon différentes méthodes dont l’emploi des prédicats ou l’utilisation des “ Frame ” ou forme-objet où une unité d’information regroupe un certain nombre de rubriques.




Figure 12 : différentes formes-objets reliées entre elles dans un réseau sémantique

2.2.7.3.7 - 2.2.7.3.7 - Inférence incertaineInférence incertaine

Cette notion permet d’attribuer un niveau de confiance à une règle. soit un nombre compris entre 0 et 1.

2.2.7.3.8 - 2.2.7.3.8 - Choix d’une règle applicableChoix d’une règle applicable

Les propositions d’une base de faits sont vraies.( A B ) CLe système examine si A et B sont contenues dans le fichier “ base de faits ”si oui, alors ( A B ) C devient une règle applicablesi le système décide de l’appliquer alors C est détachée et ajoutée à la base de faits.




2.2.7.3.9 - 2.2.7.3.9 - Le moteur d’inférenceLe moteur d’inférence

Le moteur d’inférence est le module qui gère les opérations filtrage, sélection, exécution, test d’arrêt. Ces opérations forment le cycle du moteur d’inférence.La Restriction => limitation du nombre de règles à filtrerLe Filtrage => élection d’un groupe de règles à l’exécution.La Sélection => ordonnancement séquentiel des règles à présenter à l’exécution.L’Exécution de la règle => génération d’un fait nouveau ( en général )Test d’arrêt.

2.2.7.3.10 - 2.2.7.3.10 - Types de Fonctionnement : Chaînage avant, arrière, mixte.Types de Fonctionnement : Chaînage avant, arrière, mixte.

Un Système gouverné par les faits fonctionne en “ chaînage avant ”.SI a ALORS b ; soit a vraie, et b un fait que nous considérons comme un fait vrai que nous voudrions prouver

Un Système gouverné par les buts fonctionne en “ chaînage arrière ”.SI a b c ALORS d ; pour démontrer d vraie, il faut démontrer que a vraie, b vraie, c vraie. Ainsi le processus commence, démontrons que a vraie , si a est elle même le résultat d’une condition , le système devra remonter aux prémisses de la condition et ainsi de suite. Puis faire le même processus sur b et sur c.

Le Système est à chaînage mixte s’il est gouverné à la fois par les faits et par les buts.

2.2.7.3.11 - 2.2.7.3.11 - Logique des PrédicatsLogique des Prédicats

Soit la règle suivante : SI INDICE-BRANCHE (y, HAUSSE) et si APPARTIENT (x,y) ALORS ACHETER (x)exemple si y = Pétrole et si indice-branche est en hausse et si x=TOTAL alors on peut acheter des actions Total

Cette formulation des règles permet une application indépendante des faits.

2.2.7.3.12 - 2.2.7.3.12 - La ThéorieLa Théorie

Nous reprenons la présentation canonique des siad élémentaires “ Théorie, Méthode, Modèle ”La théorie : tout problème peut être résolu à la suite de raisonnements qui sont décomposables en règles logiques.

Des règles logiques, soit au sens de : la logique des propositions ( mode 0+ ). de l’emploi de variables dans la logique des prédicats ( mode 1 ).




2.2.7.3.13 - 2.2.7.3.13 - La MéthodeLa Méthode

La méthode est l'emploi de règles conjointement avec une structuration des connaissances ad hoc :

réseaux sémantiques, certains réseaux de formes-objets.

2.2.7.3.14 - 2.2.7.3.14 - Le ModèleLe Modèle

Ici, le modèle n'est pas fixé, il correspond à la base de règles qui sera réalisée.

Exemple :

je souhaite acheter une PME. Pour cela je vais faire un modèle d'évaluation des PME. Je ferai intervenir des concepts quantitatifs (comme le chiffre d'affaires, le résultat brut d'exploitation, etc.), et qualitatifs (comme la qualité des dirigeants et du personnel). Ce modèle ou base de règles me permet de faire de multiples évaluations de PME.

2.2.7.3.15 - 2.2.7.3.15 - EtatEtat

Chaque état est un état de la PME (paramètres qualitatifs et quantitatifs, c'est-à-dire base de faits).

2.2.7.3.16 - 2.2.7.3.16 - OpérateurOpérateur

Des opérateurs permettent de changer ces paramètres.

2.2.7.3.17 - 2.2.7.3.17 - Processeur d’étatProcesseur d’état

L'évaluation d'un état (processeur d'état) porte sur le résultat de l'expertise et l'obtention d'une évaluation de la PME qui semble réaliste.

2.2.7.3.18 - 2.2.7.3.18 - Recherche Heuristique sur les modèlesRecherche Heuristique sur les modèles

Il existe un deuxième niveau de recherche heuristique, c'est celui qui permet de faire varier les modèles de l'entreprise. Chaque état est un modèle de l'entreprise (sous forme de règles, d'objets et de relations entre les objets, un graphe de schémas par exemple).Les opérateurs sont des opérateurs de modification des objets et des relations entre objets (schémas).




2.2.7.3.19 - 2.2.7.3.19 - RemarquesRemarques

Chaque état, sous forme de base de règles est stockable en mémoire et fonctionne avec tout état du niveau inférieur ou base de faits.

L'évaluation à ce niveau porte sur la qualité de la base de règles, sa richesse, sa cohérence et sa complétude.

En Résumé :

les 3 Théories de résolution de problème réunies disent ceci :

Pour résoudre un problème, il faut d’abord accéder aux bonnes données ( le SGBD remplit l’opération de filtre ( recherche heuristique sur les modèles), puis

positionner les items dans une matrice et leurs valeurs dans les cellules de la matrice ( le tableur remplit ce rôle de matrice ) enfin rechercher, par une

démarche heuristique, la succession de modèles qui vous amènera à la solution du problème par réduction progressive de la différence.

Ces résolutions génèrent de la connaissance qui peuvent alimenter une base de connaissance ( base de faits et base de connaissances procédurales (règles ))

d’un système expert sur laquelle le moteur d’inférence génèrera de nouvelles connaissances ou confirmera des faits ou des hypothèses.

Remarque

la base du SGBD est un ensemble de tables contenant les bonnes données. Tableur et Base du SGBD ont donc la même structure cellulaire. Sur le SGBD, la méthode consiste à permettre d’établir des liens entre les cellules. Sur le tableur, la méthode permet l’établissement des expressions de fonction entre les cellules. Ainsi, un transfert d’une base de données vers un tableur est une opération miroir ou neutre.




2.2.8 - LE SYSTÈME DÉCISIONNEL

Nous reprenons le modèle du système décisionnel de l’organisation que nous avons construit précédemment et nous développons l’élément “ Machine ” pour le décomposer en siad élémentaires.

Remarque : Nous cherchons à illustrer au travers d’une représentation simple les quelques relations entre les éléments exposés dans ce sujet en sachant que la représentation comporte ses propres limites.

Figure 13 : le système décisionnel

Ainsi, la structure de la machine intègre les 3 siad élémentaires et la partie du schéma “ Représentation mentale ” intègre de l’ensemble des Théories, Méthodes et Modèles, celles et ceux qui sont reconnus par la machine.




Figure 14 : structure de la machine

Cette partie a permis de définir des concepts utiles à cerner le Système décisionnel de l’organisation .

Le Système Homme-machine Les caractéristiques de la décision.

En résumé, nous rappelons les échelles liées à l’échelle des préoccupations du dirigeant ou du décideur.




Figure 15 : échelles liées à l'échelle des niveaux de préoccupations (1)

Figure 16 : échelles liées à l'échelle des niveaux de préoccupations (2)

A partir de la structure du système décisionnel , nous positionnerons les outils d’aide à la décision dans la conclusion finale de la “ Problématique Entreprise ”.




2.3 - LE CONTENU INFORMATIF DU SYSTÈME DÉCISIONNEL

Après la problématique de la structure du système décisionnel de l’organisiation, nous présentons le contenu informatif de ce système décisionnel.

2.3.1 - CONTENU INFORMATIF ELEMENTAIRE

L’atome informatif du contenu informatif est l’échange économique ( échange d’un produit ou service et d’un flux financier ) entre deux Tiers. Nous désignons cet échange sous le terme “ Acte économique ”; nous en faisons l’extension à toute prestation faite par une administration publique ou privée auprès de ses administrés, sachant que le flux financier peut-être éventuellement nul. Nous étendons cette définition également aux relations Clients-Fournisseurs entre 2 services d’une organisation. Le contenu informatif commence par le traçage des évènements de base que sont ces actes économiques.

Leur compréhension et les explications à postériori trouveront des éléments de réponse dans le contexte de ces évènements basiques. Ce contexte est en tout premier lieu constitué par le contrat qui lie les tiers concernés, puis plus largement viendront les éléments extérieurs, marché, concurrence, etc..

2.3.1.1 - ACTE ECONOMIQUE

2.3.1.1.1 - 2.3.1.1.1 - Structure de l’acte économiqueStructure de l’acte économique

L’acte économique se réalise dans une relation contractuelle exprimée ou non exprimée éventuellement , s’il s’agit d’une administration.Exemple de Sociétés : Un Groupe de lingerie passe un contrat de référencement de 4 marques de lingerie féminine avec un groupe Distributeur. Le contrat prévoit la prise de commande par les services achats du distributeur, les livraisons aux centres logistiques, l’envoi de la facturation au siège, etc... période : du 1er Janvier 99 au 31 décembre 99, Tarif : tel niveau de prix, remises, avec p campagnes promotionnelles, avec x manifestations ponctuelles et les utilisant l’EDI pour la prise de commande, l’avis de livraison, la remontée des ventes vers le fournisseur, via le réseau ALLEGRO.




Exemple d’Administration :

Le service d’état civil de la mairie est ouvert du Lundi au Vendredi de 9h à 12h, de 14h à 17h et le Samedi de 9h à 11h.Les “ actes économiques ” de ce service sont les délivrances de fiches d’état civil, de “ certifications conformes ” de photocopie, d’extrait de naissance, etc...

La structure de l’acte : 2 Tiers ( Contrat d’échange ( n actes économiques)). Acte économique ( tiers1, tiers2, produit, prix d’échange, date, No de contrat )

2.3.1.1.2 - 2.3.1.1.2 - le Contratle Contrat

Le contrat pourrait être défini de la façon suivante : Contrat ( No , tiers 1, tiers 2 ( Type d’actes économiques ou prestations, Liste des clauses ) )

Exemple : Clauses Juridiques, d’assurance, de livraison, de facturation, de réglement, de garantie, de service après-vente, de maintenance, de fin de vie du produit, etc... )Si n tiers interviennent dans un contrat, on peut toujours décomposer en m contrats de tiers pris 2 à 2.

2.3.1.1.3 - 2.3.1.1.3 - L’environnementL’environnement

L’environnement de l’acte économique est constitué d’abord du contrat et ensuite de l’état de la conjonction économique, du marché, et de nombreux facteurs d’environnement que nous reprendrons d’après le schéma des forces de Porter. Cet environnement est constitué de tous les événements perçus et repérés par l’organisation et qui ont eu un impact sur elle.

2.3.1.1.4 - 2.3.1.1.4 - base de faitsbase de faits

La Base des actes économiques est la base des faits.




2.3.1.1.5 - 2.3.1.1.5 - Base de CompréhensionBase de Compréhension

la base des événements relatifs à la compréhension sont : les contrats, les événements non répétitifs à fort impact, l’évolution extérieure.

Nous présentons un modèle MCD schématique du contenu informatif du système décisionnel.

Exemple d'événements : Une Campagne promotionnelle dans la vallée du Rhône sur les fruits frais le départ du responsable commercial lors du lancement d’un nouveau produit,

etc...

Figure 17 : modèle des données simplifié du contenu informatif de base du système décisionnel




2.3.1.2 - LES ACTIVITÉS

Nous avons présenté, en introduction de cette partie, les types d’entreprises ou organisations concernées par notre sujet. Nous croisons type d’organisations et type d’activités et nous ne retenons que les intersections renseignées; nous les listons simplement.

2.3.1.2.1 - 2.3.1.2.1 - Les Activités IndustriellesLes Activités Industrielles

Les Activités Industrielles dans les secteurs primaire, secondaire, tertiaire.

2.3.1.2.2 - 2.3.1.2.2 - Les Activités AdministratiLes Activités Administrativesves

Les Activités Administratives dans les domaines de l’Education, de la santé, de la sécurité publique, l’armée, la Police, la gestion des collectivités territoriales etc...

2.3.1.2.3 - 2.3.1.2.3 - Les Activités AssociativesLes Activités Associatives

Les Activités Associatives Culturelles, Sportives, de Loisirs, sociales, caritatives, etc...

2.3.2 - STRATÉGIE DES ORGANISATIONS

Pour approcher le contenu informatif des systèmes décisionnels, nous pouvons suivre la démarche stratégique de l’organisation.Elles croisent en général différentes approches qui vont se retrouver dans le système décisionnel de l’entreprise.

2.3.2.1 - LE DIAGNOSTIC EXTERNE

un état des lieux ( l’analyse de l’environnement : Listes des Menaces et des Opportunités )

Marché : Les segments de clientèle, la couverture, la position sur les matrices BCG, Mc Kinsey ou autres matrices.

Relations financières Actionnaires, Banques, marché Boursier Evolution Technologique Environnement législatif et réglementaire Les Tendances économiques Les Evolutions sociales et des comportements. Les Brevets et les marques déposées. Etc..

Nous développons un aspect de l’environnement extérieur.




2.3.2.2 - ANALYSE DE L’ENVIRONNEMENT

En reprenant le diagramme des Forces de Porter, immergé dans un environnement dont on notera les composantes significatives (Cf. le schéma : les composantes environnementales sont données à titre d’exemple, la liste n’est pas exhaustive.

Ce schéma peut aussi être pris en considération par une organisation qui se trouve dans la périphérie environnementale.

Exemple Un Organisme de santé sera sensible à l’aspect démographique, épidémiologique d’une région, des risques épidémiologiques des régions voisines, etc....

Figure 18 : l'entreprise, les 5 Forces de Porter, l’environnement




2.3.2.3 - LE DIAGNOSTIC INTERNE

Analyse des ressources internes de l’entreprise

Définition ou redéfinition des ses facteurs clés de succès, compétences distinctes ou atouts concurrentiels. La Responsabilité sociale de l’entreprise. Le système de valeurs de ses dirigeants

Nous listons en prenant la grille des 5 M.

Marketing ( positionnement des 4 P ) Money ( Fonds de Roulement, BFR, Trésorerie , ... ) Machine ( savoir-faire, .. ) Men 5 Ressources Humaines, Composition, Nombre, Climat social, capacité

d’adaptabilité,...) Management fonctionnement de l’entreprise, structure du Management.

2.3.2.4 - APPROCHE CRÉATION DE VALEUR

Nous présentons le schéma d’une autre approche “ Création de Valeur ” pour montrer la prise en compte des éléments intérieurs ( recherche et développement, Unités de Productions, Savoir-Faire Managériaux, etc.... ).

Figure 19 : différenciation par la technologie et la baisse des coûts


Création de Valeur

Accroissement de la Différenciation

Baisse des coûts relatifs

Savoir faire Markéting

Savoir faire Technologique

Productivité Coût des Facteurs

Savoir-faire managériaux



Enfin, une approche ajoutant la prise en compte de la satisfaction client.

Figure 20 : approche centrée sur le prix

2.3.2.5 - CONCLUSION

Le système décisionnel intègre l’ensemble du système d’information de l’organisation.

2.3.2.6 - L’ENSEMBLE DES DÉCISIONS STRATÉGIQUES

Pour terminer l’aspect stratégique, nous montrons la correspondance avec la définition d’un espace de résolution de problème.




L’ensemble des décisions stratégiques prises ou à prendre représentent l’espace d’états d’un espace de résolution de problème.

Graphique 1 : graphe des décisions de niveau de préoccupation stratégique

Amener l’organisation du point A initial au point B état final est une gestion de projet qui peut se mener comme une “ gestion de projet canonique ”. La relecture, à posteriori du chemin parcouru par rapport aux objectifs, se comprendra d’autant mieux que les événements importants auront été tracés.

2.3.3 - LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES PRÉOCCUPATIONS

La manière de nourrir la partie haute des niveaux de préoccupations influera sur les décisions des niveaux plus bas. Cette partie haute peut s’intéresser aux évolutions sur des périodes plus longues; réintégrer le passé de l’entreprise pour mieux se projeter dans l’avenir.

Nous donnons quelques caractéristiques du changement de paradigme en citant Hervé Sérieyx et Martin Forest du Groupe Innovation.




2.3.3.1 - PASSAGE DU COMPLIQUÉ AU COMPLEXE

Le management des entreprises s’inscrit dans un environnement complexe. Il faut passer de la “ gestion du compliqué ” à la “ gestion de l ’incertain, de l’aléatoire, de l’imprévisible ”.

La gestion du compliqué est la gestion de tout ce qui est réductible à l’analyse;

La gestion du complexe est le domaine dans lequel il nous faut avancer dans un état d’esprit de rationalité limitée et d’organisation apprenante en permanence.

2.3.3.2 - LA MONDIALISATION

La mondialisation ou L’espace de libre échange au sens anglo-saxon du terme.

2.3.3.3 - LE CLIENT

Un client de plus en plus difficile à satisfaire, versatile, et qui n’est pas nécessairement argenté entraînant une organisation orientée vers le client et inversant de haut vers le bas, la traditionnelle pyramide hiérarchique. Modification d’organisation Pyramide vers la Pyramide et le Réseau. Développement du management par projet.

2.3.3.4 - DES CONTINGENCES ÉVOLUTIVES

Un contexte général évoluant rapidement et entraînant une nécessité de s’ajuster au plus vite; réduction des portées dans le temps des plans stratégiques.

2.3.3.5 - UN NIVEAU SCOLAIRE OCCIDENTAL ÉLEVÉ

Le Niveau scolaire occidental très élevé implique un système d’intelligences interconnectées.

2.3.3.6 - LE DÉVELOPPEMENT DES ALLIANCES, DES RÉSEAUX D’ENTREPRISES

Le développement des maillages d’alliances de P.M.E., de Grandes Entreprises qui se signifient entre autre au travers du Co-branding, (image de marque commune ) nécessite de se centrer sur ses facteurs critiques de succès.




2.3.3.7 - LA 4ÈME RÉVOLUTION DU SAVOIR

Après l’avènement de l’écriture ( - 5000 ans : Mémoire du Savoir), l’avènement de l’imprimerie ( - 500 ans : Diffusion du savoir ), l’avènement de l’ordinateur ( - 50 ans : Extension du Cerveau ), voici l’avènement du WEB ( - 5 ans ou l’interconnexion des cerveaux entre eux ).

2.3.4 - CONCLUSION

“ Montrez-moi votre système d’information, et je vous dirai qui vous êtes ” . En effet, si la structure du contenu peut s’exprimer relativement simplement dans les niveaux opérationnels de l’organisation ( structure des actes économiques ); toute la variété des organisations et de leurs activités proviendra de cette partie environnementale ( Contrat, historique des événements marquants ) et des richesses intellectuelles et humaines des dirigeants.

2.4 - CONCLUSION DE LA P ROBLEMATIQUE

2.4.1 - SYSTÈME DÉCISIONNEL

La Problématique de l’entreprise relative au data warehouse et au data mining a été abordée en définissant :

la structure du système décisionnel le paradigme de la décision et de la prise de décision le contenu informatif du système décisionnel

C’est dans cet environnement que nous terminons en positionnant chacun des outils d’aide à la décision.

2.4.2 - POSTIONNEMENT DES OUTILS D’AIDE A LA DECISION

Nous proposons de situer les outils et les techniques d’aide à la décision que sont

le data warehouse, l’analyse multidimensionnelle, le Data Mining, le Système Expert, le tableau de Bord et l’E.I.S.

Nous rappelons la figure : structure de la Machine.




Figure 21 : structure de la machine

2.4.2.1 - POSITIONNEMENT DU DATA WAREHOUSE

Le Data Warehouse, "l’Entrepôt de données" remplit la fonction du SGBD. De même, les bases de données de production font ce premier travail de sélectionner les “ bons événements ”, les “ bonnes données ” utiles au fonctionnement de l’organisation.

Le chapitre suivant présentera la distinction entre data Warehouse et Bases de production. A l’échelle de notre représentation ci-dessus, les bases de productions et le Data Warehouse jouent ce rôle de filtre; le Data Warehouse affine le filtrage.




Figure 22 : positionnement du Data Warehouse.

La taille du Data warehouse est globalement fonction de la taille des organisations.Sur l’échelle des tailles des organisations, les américains ont se sont servis de rapprochement avec les activités logistiques pour baptiser les collections de données décisionnelles ; ainsi l’entrepôt pour les grands volumes d’informations stockées, le “ Magasin ” pour des volumes plus faibles à la taille de magasin ou de services d’entreprise. Enfin pour les plus petites unités, le vocabulaire n’a pas été fixé, nous pourrions peut-être choisir la “ Palette de données ” au sens de Palette de conditionnement en logistique.

Faut-il affecter des volumes de données à chacune des tailles d’entrepôt de données ?Ce que l’on peut dire :

l’unité de stockage est le Giga Octets. Cette unité est relative au stockage de données alaphanumériques. ( nous excluons

l’image, le son ,.. ) Plutôt que de fixer des limites, nous donnons des ordres de grandeur au travers de 3

exemples : Mag Info gère la carte Cofinoga et dispose de 30 Téra-Octets en ligne soit

3.10^5 Go Une PME de fabrication de lingerie féminine destinée aux grandes surfaces :

CA 300 MF et dispose de 4 Go. Une base de documentation relative à ces contrats d’un consultant est de

l’ordre de quelques Mo soit 0,01 Go environ.




Tableau 7 : Positionnement du Data Warehouse

2.4.2.2 - AUTRES OUTILS DÉCISIONNELS

Tous les autres outils d’aide à la décision exploitent des données du SGBD. Si l’organisation n’a pas de data warehouse, alors l’outil d’aide à la décision qu’elle utilise , intègre une fonction SGBD avec les qualités du data warehouse qui seront exposées dans le chapitre suivant.

2.4.2.3 - TABLEUR ET MODÈLES

Comme nous l’avions dit, la base du SGBD est constituée de tables de “ bonnes données ”.Aussi, dans un transfert du SGBD vers le Tableur, c’est d’abord une opération miroir qui se passe : il y a transfert d’une population d’individus.

Ainsi un premier ensemble de modèles qui pourront s’appliquer sur le tableur sont les modèles d’analyse de population ( classification, évaluation, ..... ).

Le second ensemble de modèles sont les modèles à base de fonctions mathématiques ( financières, recherche opérationnelle, etc... ).




2.4.2.4 - POSITIONNEMENT DE L’ANALYSE MULTIDIMENSIONNELLE

L’Analyse multidimensionnelle est un hyper tableur capable de projeter sur le plan de l’écran ou de la feuille de papier un plan intéressant choisi par l’utilisateur parmi les plans de l’hypercube.

Ce tableur permet de nombreux niveaux d’agrégation par dimension. Cet outil permet de quantifier.

Un chapitre est consacré à l’analyse multidimensionnelle et aux règles OLAP. Ces règles OLAP caractérisent le système décisionnel multidimensionnel et énoncent des recommandations sur le modèle de SGBD. C’est pourquoi nous avons fait référence dans la figure ci-dessous au SGBD.

Figure 23 : positionnement de l’Analyse Multidimensionnelle




2.4.2.5 - POSITIONNEMENT DU DATA MINING

Comme les outils précédant, le data mining, “ Mine de Données à exploiter ” va travailler à partir de données extraites du Data Warehouse et les ranger dans un tableur.

Le Data Mining travaillera de préférence sur des tableurs de “ Populations ” et permettra d’appliquer un ensemble de méthodes pour répondre aux tâches de Classification, Estimation, Prédiction, etc; tâches et fonctionnalités qui seront développées au chapitre Data Mining.

Cet outil permet de rechercher les causes des résultats donnés par l ’analyse multidimensionnelle, de vérifier des hypothèses, et de découvrir des corrélations entre les données.

Le positionnement de cet outil d’aide à la décision se fait en 2 temps :

1. par rapport au tableur : il permet l’emploi de toutes les méthodes et modèles réservées aux analyses de population et l’emploi de tous les autres modèles mathématiques.

2. par rapport au Système Expert : Il peut alimenter un système expert des connaissances émergentes.

Selon les éditeurs de logiciels, cet outil peut avoir un comportement superposable au fonctionnement d’un système Expert. Il permet de pratiquer le chaînage avant, arrière, de tracer l’arbre des décisions, etc....




Figure 24 : positionnement du Data Mining

2.4.2.6 - POSITIONNEMENT DU SYSTÈME EXPERT

Le Système Expert travaille sur une base de connaissance. A ce titre, il peut se trouver enrichi des résultats de l’analyse multidimensionnelle, du Data Mining et des tableaux de Bord.

2.4.2.7 - POSITIONNEMENT DU TABLEAU DE BORD

Comme son nom l’indique, c’est un tableur. A ce titre, il peut se trouver en sortie du SGBD ( data warehouse ) ou en sortie d’une autre outil d’aide à la décision. Sa finalité organisationnelle est de suivre un “ Indicateur ”.

2.4.2.8 - POSITIONNEMENT DES E.I.S (EXECUTIVE INFORMATION SYSTEM)

Destinés au comité de Direction, ces EIS ou tableaux de Bord ont intégré au cours de leur évolution des accès à de nombreuses bases pour permettre des indicateurs de synthèse, l’analyse multidimensionnelle et bien sûr la fonction de tableaux de Bord.




2.4.3 - CONCLUSION

pour conclure cette problématique, nous terminons par quelques questions d’un dirigeant :

Suis-je dans le vrai ? Mes choix sont-ils bons ? Comment prendre du recul par rapport à un quotidien qui m’absorbe totalement ? Que deviendra mon entreprise dans les 2 ans qui viennent ?

Au delà d’une bonne expérience des modèles, des analyses et des arsenaux d’informatique décisionnelle, il y a toujours une prise de risque; en général, il faut prendre un risque par Jour !!!

Nous avons positionné Data Warehouse et Data Mining dans le système décisionnel de l’organisation, les chapitres suivants vont présenter plus en détail leurs caractéristiques, leurs apports respectifs dans l’aide à la décision, et leur mise en œuvre.




3 - LE DATA WAREHOUSE

3.1 - PRÉSENTATION

Le concept de Data Warehouse a été formalisé pour la première fois en 1990.

L’idée de constituer une base de données orientée sujet, intégrée, contenant des informations datées, non volatiles et exclusivement destinées aux processus d’aide à la décision fut dans un premier temps accueillie avec une certaine perplexité. Beaucoup n’y voyaient que l'habillage d’un concept déjà ancien : l’infocentre.

Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte organisationnel de plus en plus complexe et mouvant.

Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper. L’anticipation ne peut être efficace qu’en s’appuyant sur de l’information pertinente. Cette information est à la portée de toute entreprise qui dispose d’un capital de données gérées par ses systèmes opérationnels et qui peut en acquérir d’autres auprès de fournisseurs externes.

Mais actuellement, les données sont surabondantes, non organisées dans une perspective décisionnelle et éparpillées dans de multiples systèmes hétérogènes.

Pourtant, les données représentent une mine d’informations. Il devient fondamental de rassembler et d’homogénéiser les données afin de permettre d’analyser les indicateurs pertinents pour faciliter les prises de décisions.

Pour répondre à ces besoins, le nouveau rôle de l’informatique est de définir et d’intégrer une architecture qui serve de fondation aux applications décisionnelles : le Data Warehouse.

Le nouveau rôle de l’informatique est de définir et d’intégrer une architecture qui serve de fondation aux applications décisionnelles : le Data

Warehouse.




3.2 - POURQUOI UN DATA WAREHOUSE

3.2.1 - LA PROBLÉMATIQUE DES ENTREPRISES

L’entreprise construit un système décisionnel pour améliorer sa performance. Elle doit décider et anticiper en fonction de l’information disponible et capitaliser sur ses expériences.

Depuis plusieurs dizaines d’années, une importante masse d’informations est stockée sous forme informatique dans les entreprises. Les systèmes d’information sont destinés à garder la trace d’événements de manière fiable et intègre. Ils automatisent de plus en plus les processus opérationnels.

Parallèlement, les entreprises réalisent la valeur du capital d’information dont elles disposent. Au delà de ce que l’informatique leur apporte en terme fonctionnel, elles prennent conscience de ce qu’elle pourrait apporter en terme de contenu informationnel. Considérer le système d’information sous cet angle en tant que levier pour accroître leur compétitivité et leur réactivité n’est pas nouveau. Par contre, étant donné l’environnement concurrentiel actuel, cela devient une question de survie.

L’informatique a un rôle à jouer, en permettant à l’entreprise de devenir plus entreprenante et d’avoir une meilleur connaissance de ses clients, de sa compétitivité ou de son environnement.

Il est intéressant de calculer les retours sur investissement rendus publics. Ils se calculent rarement en terme de baisse de coûts, mais en terme de gains. Par exemple, ils permettent un meilleur suivi des ventes, une meilleure compréhension des habitudes d’achats des clients, d’une adaptation des produits à une clientèle mieux ciblée.

A ce titre, le Data Warehouse doit être rapproché de tous les concepts visant à établir une synergie entre le système d’information et sa stratégie.




3.2.2 - LA RÉALITÉ DES SYSTÈMES D’INFORMATIONS

A première vue, les systèmes opérationnels seraient des mines d’or informationnelles. En fait, il n’en est rien. Les données contenues dans ces systèmes sont :

Eparpillées : il existe souvent de multiples systèmes, conçus pour être efficace pour les fonctions sur lesquelles ils sont spécialisés.

Peu structurées pour l’analyse : la plupart des systèmes informatiques actuels ont pour objet de conserver en mémoire l’information, et sont structurés dans ce but.

Focalisées pour améliorer le quotidien : toutes les améliorations technologiques se sont focalisées pour améliorer cette capacité en terme de volume, qualité, rapidité d’accès. Il manque très souvent la capacité à nous donner les moyens de tirer parti de cette mémoire pour prendre des décisions.

Utilisées pour des fonctions critiques : la majorité des systèmes existants est conçue dans le but unique de nous servir avec des temps de réponse corrects.

Le Tableau 8 présente les différences entre les données opérationnelles et décisionnelles.

Données opérationnelles Données décisionnellesOrientées application, détaillées, précises au moment de l’accès

Orientée activité (thème, sujet), condensées, représentes des données historiques

Mise à jour interactive possible de la part des utilisateurs

Pas de mise à jour interactive de la part des utilisateurs

Accédées de façon unitaires par une personne à la fois

Utilisées par l’ensemble des analystes, gérées par sous-ensemble

Cohérence atomique Cohérence globaleHaute disponibilité en continu Exigence différente, haute disponibilité

ponctuelleUniques (pas de redondance en théorie) Peuvent être redondantesStructure statique, contenu variable Structure flexiblePetite quantité de données utilisées par un traitement

Grande quantité de données utilisée par les traitements

Réalisation des opérations au jour le jour Cycle de vie différentForte probabilité d’accès Faible probabilité d’accèsUtilisées de façon répétitive Utilisée de façon aléatoire

Tableau 8 : différences entre données du système de production et données décisionnelles




S’il existe effectivement des informations importantes, il n’en est pas moins nécessaire de construire une structure pour les héberger, les organiser et les restituer à des fins d’analyse. Cette structure est le Data Warehouse ou “ entrepôt de données ”. Ce n’est pas une usine à produire l’information , mais plutôt un moyen de la mettre à disposition des utilisateurs de manière efficace et organisée.

La mise en œuvre du Data Warehouse est un processus complexe. L’objectif à atteindre est de recomposer les données disponibles pour en donner :

une vision intégrée et transversale aux différentes fonctions de l’entreprise, une vision métier au travers de différents axes d’analyse, une vision agrégée ou détaillée suivant le besoin des utilisateurs.

Le Data Warehouse permet la mise en place d’un outil décisionnel s’appuyant sur les informations pertinentes pour l’entreprise, centrées sur le métier utilisateur.

3.2.3 - LES OBJECTIFS

Toutes les données qu’elles proviennent du système de production de l’entreprise ou qu’elles soient achetées vont devoir être organisées, coordonnées, intégrées et stockées, pour donner à l’utilisateur une vue intégrée et orientée métier.

IBM

HP

BULL

IDENTIFIER

STOCKAGE

Systèmes hétérogènesde production

Systèmes externes

EXTRACTIONPREPARATIONCHARGEMENT

ACCES,VISUALISATION

POINTFOCAL

Tableau 9 : le data warehouse, point focal de l'informatique décisionnelle

Source : EDS-Prométhéus




Cette figure illustre l’objectif d’un Data Warehouse, sorte de point focal stockant en un endroit unique toute l’information utile provenant des systèmes de production et des sources externes.Avant d’être chargée dans le Data Warehouse, l’information doit être extraite, nettoyée et préparée. Puis, elle est intégrée et mise en forme de manière compréhensible par être comprise par l’utilisateur.

3.3 - DÉFINITION

De nombreuses définitions ont été proposées, soit académiques, soit par des éditeurs d’outils, de bases de données ou par des constructeurs, cherchant à orienter ces définitions dans un sens mettant en valeur leur produit.

La définition la plus appropriée est :

Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la

décision.

Orientées sujet

Le Data Warehouse est organisé autour des sujets majeurs de l’entreprise, contrairement aux données des systèmes de production. Ceux-ci sont généralement organisés par processus fonctionnels. Les données sont structurées par thème. L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.

Cette orientation sujet va également permettre de développer son système décisionnel via une approche par itérations successives, sujet après sujet. L’intégration dans une structure unique est indispensable car les informations communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, une structure supplémentaire appelée Data Mart (magasin de données) peut être créée pour supporter l’orientation sujet.




Données intégrées

Un Data Warehouse est un projet d’entreprise. Par exemple dans la distribution, le même indicateur de chiffre d’affaires intéressera autant les forces de vente que le département financier ou les acheteurs. Pour y parvenir, les données doivent êtres intégrées.Avant d’être intégrées dans le Data Warehouse, les données doivent êtres mises en forme et unifiées afin d’avoir un état cohérent. Par exemple, la consolidation de l’ensemble des informations concernant un client donné est nécessaire pour donner une vue homogène de ce client.Une donnée doit avoir une description et un codage unique.Cette phase d’intégration est très complexe et représente 60 à 90 % de la charge totale d’un projet.

Données historisées

Dans un système de production ; la donnée est mise à jour à chaque nouvelle transaction. Dans un Data Warehouse, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps.

Données non volatiles

La non volatilité des données est en quelque sorte une conséquence de l’historisation. Une même requête effectuée à quelques mois d’intervalle en précisant la date de référence de l’information recherchée donnera le même résultat.

Le Tableau 10 ci-après présente les principales différences entre le système de production et le data warehouse :

Critère Système de production Data WarehouseNiveau de détail des informations utilisateurs

Très détaillé Synthétique, parfois détaillé

Utilisateurs Une ou quelques fonctions de l’entreprise

Plusieurs fonctions de l’entreprise

Données figées Non – évolution en temps réel Oui – archivageHistorique Non OuiOpérations sur les données Ajout/mise à jour/ consultation Consultation uniquement

Tableau 10 : différences entre système de production et data warehouse




3.4 - LES CONCEPTS DE BASE

3.4.1 - LA STRUCTURE

Un Data Warehouse se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique.

Mét

a D

onné

es

Données fortement agrégées

Données agrégées

Données détaillées

Données détaillées historisées

Niveau desynthèse

Niveau d'historique

Tableau 11 : structure d'un data warehouse


Les données détaillées

Elles reflètent les événements les plus récents. Les intégrations régulières des données issues des systèmes de production vont habituellement être réalisées à ce niveau.Les volumes à traiter sont plus importants que ceux gérés en transactionnel.Attention : le niveau de détail géré dans le Data Warehouse n’est pas forcément identique au niveau de détail géré dans les systèmes opérationnels. La donnée insérée dans le Data Warehouse peut être déjà une agrégation ou une simplification d’informations tirées du système de production. Exemple : l’étude du panier de la ménagère nécessite de stocker le niveau de finesse du ticket de caisse.




Les données agrégées

Elles correspondent à des éléments d’analyse représentatifs des besoins utilisateurs. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système décisionnel, et doivent être facilement accessibles et compréhensibles. La facilité d’accès est apportée par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données suivant une logique intuitive, avec des performances optimales. (Certains SGBD du marché sont conçus pour faciliter la mise en place des agrégations et la navigation au sein de celles-ci).La définition complète de l’information doit être mise à la disposition de l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information est composée du contenu présenté (moyenne des ventes, …) et de l’unité (par mois, par produit,…).

Les méta-données

Elles regroupent l’ensemble des informations concernant le Data Warehouse et les processus associés. Elles constituent une véritable aide en ligne permettant de connaître l’information contenue dans le Data Warehouse. Elles sont idéalement intégrées dans un référentiel.

Les principales informations sont destinées :

A l’utilisateur (sémantique, localisation).

Aux équipes responsables des processus de transformation des données du système de production vers le Data Warehouse (localisation dans les systèmes de production, description des règles, processus de transformation).

Aux équipes responsables des processus de création des données agrégées à partie des données détaillées.

Aux équipes d’administration de la base de données ( structure de la base implémentant le Data Warehouse).

Aux équipes de production (procédures de changement, historique de mise à jour,…)




Les données historisées

Un des objectifs du Data Warehouse est de conserver en ligne les données historisées. Chaque nouvelle insertion de données provenant du système de production ne détruit pas les anciennes valeurs, mais créee un nouvelle occurrence de la donnée. Le support de stockage dépend du volume des données, de la fréquence d’accès, du type d’accès. Les supports les plus couramment utilisés sont les disques, les disques optiques numérique, les cassettes.

La logique d’accès aux données la plus utilisée est la suivante : les utilisateurs commencent à attaquer les données par le niveau le plus agrégé, puis approfondissent leur recherche vers les données les plus détaillées (Drill Drown).L’accès des données se fait également directement par les données détaillées et historisées, ce qui conduit à des brassages de données lourds, demandant des machines très puissantes.

Le Data Warehouse est une réussite dans une entreprise lorsque le nombre d’utilisateur accédant aux données de détail augmente.

3.4.2 - LES ARCHITECTURES

Pour implémenter un Data Warehouse, trois types d’architectures sont possibles :

L’architecture réelle, L’architecture virtuelle, L’architecture remote.

3.4.2.1 - L’ARCHITECTURE RÉELLE

Elle est généralement retenue pour les systèmes décisionnels.Le stockage des données est réalisé dans un SGBD séparé du système de production. Le SGBD est alimenté par des extractions périodiques.Avant le chargement, les données subissent d’importants processus d’intégration, de nettoyage, de transformation.L’avantage est de disposer de données préparées pour les besoins de la décision et répondant aux objectifs du Data Warehouse.Les inconvénients sont le coût de stockage supplémentaire et le manque d’accès en temps réel.




3.4.2.2 - L’ARCHITECTURE VIRTUELLE

Cette architecture n’est pratiquement pas utilisée pour le Data Warehouse.Les données résident dans le système de production. Elles sont rendues visibles par des produits middleware ou par des passerelles.Il en résulte deux avantages : pas de coût de stockage supplémentaire et l’accès se fait en temps réel.L’inconvénient est que les données ne sont pas préparées.

3.4.2.3 - L’ARCHITECTURE REMOTE

C’est une combinaison de l’architecture réelle et de l’architecture virtuelle. Elle est rarement utilisée.L’objectif est d’implémenter physiquement les niveaux agrégés afin d’en faciliter l’accès et de garder le niveau de détail dans le système de production en y donnant l’accès par le biais de middleware ou de passerelle.

3.4.2.4 - SYNTHÈSE

Les différents éléments d'appréciation sont repris dans le tableau récapitulatif ci-dessous :

Architectureréelle

Architecturevirtuelle

Architectureremote

UtilisationRetenue pour les systèmes décisionnels

Rarement utilisée Rarement utilisée

Stockage

SGBD séparé du système de production, alimenté par des extractions périodiques

Données résidant dans le système de production

Combinaison des architectures réelle et virtuelle

Avantages

Données préparées pour les besoins de la décision

Pas de coût de stockage supplémentaire, accès en temps réel

Inconvénients

Coût de stockage supplémentaire, manque d’accès temps réel

Données non préparées

Tableau 12 : tableau de synthèse des architectures de data warehouse




3.4.3 - INFOCENTRE ET DATA WAREHOUSE

Certaines caractéristiques sont identiques. Mais il existe de nombreux éléments permettant de différencier les deux notions.

L’infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles, organisées pour le support d’un processus de décision ponctuel.Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles, historisées, organisées pour le support d’un processus d’aide à la décision.

Dans un infocentre, chaque nouvelle valeur remplace l’ancienne valeur. Il est donc impossible de retrouver une valeur calculée dans une session préalable aux dernières alimentations. La non volatilité est une caractéristique essentielle du Data Warehouse.De même, l’historisation des données dans un infocentre, il n’y a pas de gestion d’historique des valeurs.

L’infocentre sert à prendre des décisions opérationnelles basées sur des valeurs courantes. Au niveau d’un Data Warehouse, l’utilisateur travaille sur les historiques pour des prises de décisions à long terme, des positionnements stratégiques et pour analyser des tendances.

Dans un infocentre, l’intégration des données est plus ou moins poussée. Le processus d’alimentation est simple.

Le finalité d’un infocentre est de permettre aux utilisateurs d’accéder à leur données dans leurs propres termes.




Infocentre Data Warehouse

Collection de données Collection de données

Orientées sujet Orientées sujet

Intégrées Intégrées

Volatiles Non volatiles

Actuelles Historisées

Organisées pour le support d’un processus de décision ponctuelle

Organisées pour le support d’un processus d’aide à la décision

Outil Architecture

Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse

La mise en évidence des différences est exprimée par les questions suivantes :

Quels infocentres sont motivés par des objectifs business et sont au service de la stratégie de l’entreprise ?

Quels infocentres permettent de connaître la concurrence, d’anticiper les besoins ?

Quelles entreprises mesurent le retour sur investissement ?

L’infocentre est un outil alors que le Data Warehouse est une architecture.




4 - LA CONSTRUCTION DU DATA WAREHOUSE

L’objectif à atteindre est de recomposer les données disponibles pour en obtenir une vision intégrée et transversale aux différentes fonctions de l’entreprise, une vision métier au travers des différents axes d’analyse et une vision agrégée ou détaillée, adaptée à son besoin.

La transformation des données en connaissance est un processus complexe.

IDENTIFIER

STOCKAGESTOCKAGE

ACQUISITIONACQUISITION

ACCESACCES

Infrastructure opérationnelleInfrastructure opérationnelle

Infrastructure techniqueInfrastructure technique

Application NApplication 3Application 2Application 1

Tableau 14 : cadre général d’un Data Warehouse


Le cadre général d’un Data Warehouse comporte trois domaines principaux :

les applications,

les composants fonctionnels du Data Warehouse (acquisition, stockage, accès),

les infrastructures (technique et opérationnelle).




4.1 - LES APPLICATIONS

Un Data Warehouse se fait en plusieurs itérations. Chaque sujet traité est décomposé en un ensemble d’initiatives (projet décisionnel entrant en jeu dans la construction d’un Data Warehouse dans une démarche itérative).

Les applications doivent rester maîtrisables et fournir des résultats tangibles dans un délai de moins de six mois, qui correspond au délai moyen de réalisation d’applications.Le périmètre de chaque application doit être clairement défini (acteurs concernés, fréquences et périodicité des analyses, ...).

4.2 - LES COMPOSANTS FONCTIONNELS

Trois composants caractérisent un Data Warehouse :

l’acquisition, le stockage, l’accès.

4.2.1 - L’ACQUISITION

Elle se compose de trois phases : l’extraction, la préparation et le chargement.

L’extraction : collecter les données utiles dans le système de production.

La préparation : plusieurs technologies sont utilisables :

les passerelles, fournies par les éditeurs de base de données, les utilitaires de réplication, utilisables si les systèmes de production et

décisionnel sont homogènes, les outils spécifiques d’extraction (prix élevé).

La préparation inclus la mise en correspondance des formats de données, le nettoyage, la transformation et l’agrégation.

Le chargement : il constitue la dernière phase d’alimentation. Il est indispensable de maîtriser la structure du SGBD (tables et index) pour optimiser au mieux le processus.




4.2.2 - LE STOCKAGE

Le composant de base est le SGBD. Il doit être spécifiquement adapté aux caractéristiques de l’accès décisionnel.Du fait de l’importance de l’historique, la structuration physique des données est également très importante.Le SGBD apporte la transparence à l’évolution matérielle, l’indépendance, que ce soit au niveau des types et du nombre de processeurs, des disques ou des mémoires, ainsi que la transparence à l’évolution des systèmes d’exploitation.

4.2.3 - L’ACCÈS

Définir une architecture globale servant de support aux accès décisionnels impose des choix technologiques non structurants. Il faudra mettre en place une infrastructure commune à toutes les applications décisionnelles, tout en laissant aux utilisateurs l’opportunité d’utiliser les solutions d’accès les mieux adaptées à leur problématique. (Les outils du marché sont les requêteurs, les outils d’analyse multidimensionnelle, les EIS, le Data Mining, Les SIG).

Entrepôt de données

Interroger Requêtes ad-hoc (QUERY)

Simuler, prédire, extrapoler Statistiques Réseaux de neurones...

Visualisation avancée Outils de visualisation avancés Système d'information géographique

Analyse "simple" (opérationnels)

Piloter EIS Agent intégré aux outils

"Data mining" (équipe R&D)

Segmenter, corrèlerArbres de décision,Découverte de règles,Statistiques...

POINTSDE

VUES

Analyser,Naviguer Les bases OLAP Les outils ROLAP

Tableau 15 : data warehouse - points de vue pour les utilisateurs


4.3 - LES INFRASTRUCTURES




Il y a deux niveaux d’infrastructures :

l’infrastructure technique : l’ensemble des composants matériels et logiciels ( à associer aux composants fonctionnels : alimentation, stockage et accès).

l’infrastructure opérationnelle : l’ensemble des procédures et des services pour administrer les données, gérer les utilisateurs et exploiter le système.

Pour la construction d’un Data Warehouse, de manière générale, il faut :

1. Bien connaître les métiers utilisateurs

Impliquer les utilisateurs dans les projets,

Faire participer l’utilisateur à la définition et à l’évolution des méta-données,

Former l’utilisateur pour l’aider à comprendre la logique du Data Warehouse,

Avoir un chef de projet orienté utilisateur.

2. Assurer une véritable conduite de projet

Le chef de projet fédère l’ensemble des besoins. Il organise et planifie les différentes phases de déploiement en fonction de la culture de l’entreprise.(La principale source d’échec serait humaine et non technique).Seules les entreprises expérimentées peuvent faire l’économie d’un prototype.

3. Commencer petit et voir grand

Il faut commencer petit, qu’il s’agisse d’un prototype ou d’un Data Mart.

4. Gérer l’évolutivité

alimentation et administration. Ce sont les points critiques du processus de construction du Data Warehouse.




5 - LA CONCEPTION DU DATA WAREHOUSE

Quatre caractéristiques ont des effets déterminants sur la démarche de conception d’un Data Warehouse :

Les évolutions technologiques : un système d’information peut se construire par intégration d’un certain nombre de composants, chacun pouvant être choisi par rapport à son contexte d’utilisation. L’entreprise défini son architecture en fonction de ses besoins.

La stratégie de l’entreprise : le Data Warehouse est très proche de la stratégie de l’entreprise. L’objectif du Data Warehouse se définit en terme métier. Il faut donc impliquer les utilisateurs ayant le plus de connaissances dans leur entreprise ou dans leur métier.

L’amélioration continue : un Data Warehouse doit évoluer en fonction des demandes utilisateurs ou des nouveaux objectifs de l’entreprise.

La maturité de l’entreprise : certaines entreprises ont déjà un système décisionnel. D’autres n’ont aucun acquis.

Dans tous les cas, il n’existe pas de cadre figé pour la conception d’un Data Warehouse. Chaque entreprise doit adapter le projet à son contexte, en ne perdant pas les objectifs de vue. Cet objectif est de mettre en place un système d’information cohérent et intégré, le système devant être décomposer en applications, chacune s’intégrant dans le Data Warehouse.

Il est possible de proposer trois phases pour la conception :

Définir le pourquoi du Data Warehouse et les objectifs à atteindre (impliquer les utilisateurs).

Définir l’infrastructure technique et organisationnelle du Data Warehouse.

Mettre en œuvre les applications.




5.1 - DÉCOUVRIR ET DÉFINIR LES INITIATIVES

Cette phase consiste en l’étude stratégique du Data Warehouse et la définition du plan d’action.

5.1.1 - L’ÉTUDE STRATÉGIQUE

Pendant l’étude stratégique, il faut :

Informer et motiver les personnes concernées dans l’entreprise. Impliquer les managers, les équipes opérationnelles, les équipes informatiques :

phase d’identification et de compréhension des enjeux métier/entreprise. Identifier les projets Data Warehouse.

L’étude stratégique permet d’identifier la stratégie de l’entreprise, son organisation, les processus qu’elle met en œuvre, la culture de l’entreprise.Le but est de déterminer les domaines pour lesquels la mise en place d’un Data Warehouse peut être le plus bénéfique.A la fin de cette étude, des sous-projets ou initiatives vont être dégagés.Les acteurs consultés doivent être des spécialistes métiers, convaincus de la nécessité et de l’importance du Data Warehouse.

5.1.2 - LE PLAN D’ACTION

Pour mettre en place le plan d’action, il faut : Vérifier la faisabilité de chaque projet (s’assurer de l’existence et de la qualité des

données, des possibilités techniques, des possibilités organisationnelles). Estimer les ressources pour chaque projet, les besoins. Séquencer et planifier les projets.

Il est possible de commencer petit et voir grand : limiter l’objectif à un domaine précis (Data Mart) ou faire un prototype. Ceci permet d’avoir un retour sur investissement rapide et de prouver le bien fonder du concept.

Il faut déterminer la faisabilité de chaque projet envisagé et déterminer les moyens nécessaires (techniques, humains, organisationnels) à leur réalisation.Leur coût et leur durée de mise en œuvre sera estimé, ainsi que les bénéfices attendus et leur terme.




Les projets envisagés (initiatives) doivent avoir une mise en œuvre courte ( environ six mois) et doivent être bien délimités.Il faut aussi évaluer le capital informatique, c’est-à-dire analyser les systèmes de production sur lesquels le Date Warehouse doit s’appuyer, ce qui ne peut pas être fait sans voir l’évaluation des initiatives.

Plusieurs décisions sont à prendre en ce qui concerne les données dont a besoin l’entreprise :

Si les données existent dans les systèmes de production, les initiatives sont envisageables.

Si les données n’existent pas dans l’entreprise, ni à l’extérieur (achat de fichiers), il faut revoir ou abandonner les initiatives.

Si les données n’existent pas dans l’entreprise, ni à l’extérieur, mais sont stratégiques pour l’entreprise, il faut reporter.

Si les données existent à l’extérieur, il faut prendre la décision d’achat.

Les estimations ne doivent pas être détaillées et doivent concerner le plus grand nombre possible d’initiatives. Ce sera sur cette base que la politique technologique du Data Warehouse sera déterminée.

5.2 - L’INFRASTRUCTURE

Il s’agit de déterminer l’infrastructure technologique et organisationnelle nécessaire à la mise en place du Data Warehouse et à la conduite du changement.

5.2.1 - L’INFRASTRUCTURE TECHNIQUE

Des choix technologiques en phase avec la politique de l’entreprise doivent être faits à plusieurs niveaux :

Les fournisseurs : faut-il prendre un seul fournisseur (ce qui facilite la politique d’intégration et en réduit les coûts de mise en œuvre) ou assembler les meilleurs offres du marché (ce qui apporte une flexibilité, une adaptation à chaque projet, mais coûte beaucoup en intégration).

Les outils : faut-il construire, acheter ou faire avec l’existant. Comment sera utilisé le Data Warehouse, par qui, comment sera structuré

l’organisation qui l’exploitera. Faut-il une architecture centralisé (Data Warehouse), distribuée (plusieurs Data

Mart), ou une architecture répliquée (un Data Warehouse et plusieurs Data Mart). La structure de stockage, sera-t-elle relationnelle, multidimensionnelle, hybride

(Data Warehouse en relationnel, Data Mart en multidimensionnel).




Choisir le matériel : selon les volumes envisagés, les utilisateurs concernés, l’architecture visée, la flexibilité attendue.

Organiser l’administration des systèmes et la gestion de la sécurité.

Il faut vérifier que les solutions choisies fonctionnent entre elles. (Ne pas se fier aux plaquettes commerciales en ce qui concerne la portabilité).

5.2.2 - L’INFRASTRUCTURE ORGANISATIONNELLE

Parallèlement aux choix technologiques, il faut :

Déterminer la logistique et l’organisation nécessaires à la concrétisation des initiatives.

Répartir les tâches entre les équipes de développement et les équipes d’exploitation : déterminer l’alimentation du Data Warehouse, l’administration.

Déterminer les flux d’information entre le Data Warehouse et les utilisateurs.

5.3 - LA FORMATION

Selon l’expérience de l’entreprise en matière de décisionnel et des technologies utilisées, un plan de formation sera nécessaire.

Il sera impératif que les membres participants au projet soient favorables au changement.

5.4 - LA MISE EN ŒUVRE DES APPLICATIONS

La mise en œuvre est réalisée pour chaque initiative. La démarche proposée est une démarche en cinq étapes :

la spécification, la conception, la mise en œuvre et l’intégration, le déploiement et la mise en place des accompagnements, les mesures.

Ces étapes correspondent à celles de mise en place d’un projet informatique.




Pendant l’étape de spécification, les différentes étapes des initiatives sont définies et planifiées de manière plus détaillées.Il est recommandé de faire attention aux coûts cachés que peuvent entraîner les technologies informatiques.L’étape de mesure permet de faire le bilan de la réalisation et de capitaliser les réussites et échecs rencontrés pendant le développement de l’application.

Deux visions du Data Warehouse cohabitent dans l’approche précédente :

Une vision entreprise : chaque projet défini dans la première phase (initiative) est construit de manière indépendante et répond à un objectif métier délimité, tout en s’intégrant dans le Data Warehouse.

Une vision projet : les projets identifiés deviennent des applications. Donc le processus est itératif.

Il n’existe pas de démarche complète et universelle pour la mise en œuvre d’un data Warehouse. Toute approche doit être adaptée à l’entreprise.




6 - L’ADMINISTRATION DES DONNÉES

Comme tout autre système informatique, un Data Warehouse s’administre.Dès la phase de conception de l’architecture, il faut penser à l’administration des données : c’est une des fonctions les plus importantes du Data Warehouse.Cette fonction est d’autant plus importante que le Data Warehouse évolue au fur et à mesure de son utilisation.

La mise en place d’un Data Warehouse doit s’accompagner de celle d’un référentiel de données, permettant de décrire, stocker et diffuser les méta-données associées.Cette mise en place passe par l’organisation d’une fonction d’administration des données à plusieurs niveaux, par la définition de normes et de procédure d’administration des référentiels.

6.1 - LES MÉTADONNÉES

Elles représentent toutes les informations nécessaires à l’accès, à la compréhension et à l’exploitation des données du Data Warehouse.

Type d’information Signification

Sémantique Que signifie la donnéeOrigine D’où vient-elle, où, par qui est-elle créée ou mise à jourRègle de calcul Règle de calcul, de gestionRègle d’agrégation Périmètre de consolidationStockage, format Où, comment est-elle stockée, sous quel format

UtilisationProgrammes informatiques qui l’utilisent,Machines : comment et sur lesquelles, à disposition,Temps de conservation

Tableau 16 : définition d’une méta-donnée




La donnée est forcément liée à d’autres objets du système d’information. Il est donc nécessaire de représenter, décrire et stocker les interactions avec d’autres données.

Types de lien Signification

Domaines, sujets Chaque donnée va être indexée par sujet ou domaine

Structure organisationnelle,structure géographique

Une donnée peut avoir des sens légèrement différents selon la personne qui la manipule

Concepts génériques Exemple : notion de produit se déclinant en lignes de produits, services,...

Applications, programmes

Donnée manipulée par une ou plusieurs applications ou programmes

Tables, colonnes Donnée située dans une ou plusieurs colonnes, tables et bases de données

Sites, machines Localisation physique de la donnée

Tableau 17 : interactions des données

Généralement, pour représenter les méta-données, on utilise un symbolisme courant en informatique. Par exemple les modèles de données MERISE : modèle conceptuel de données et modèle logique de données.

6.2 - LE RÉFÉRENTIEL DU DATA WAREHOUSE

Le référentiel du Data Warehouse est l’ensemble des outils nécessaires à la mise en œuvre de la fonction d’administration de données.

Les objectifs de l’administration de données du Data Warehouse sont :

Assurer la cohésion du système :

Respecter la cohérence et la fiabilité des informations. Unifier la représentation des données. Respecter la cohérence des concepts. Vérifier la non redondance des informations.




Simplifier techniquement les systèmes d’information :

Diminuer le nombre de fichiers. Unifier la saisie et le stockage des informations. Organiser les mises à jour et la diffusion des informations.

Un référentiel de données pour le Data Warehouse est un référentiel de données dans lequel sont décrits l’organisation et la localisation des données, ainsi que les règles de consolidation des données agrégées et historisées.Il est conçu de manière à collecter l’ensemble des modèles de données nécessaires à la construction et à l’exploitation du Data Warehouse.

La construction du référentiel est un projet qu’il est nécessaire de prévoir en parallèle à celui du data Warehouse.

6.3 - LA MISE EN ŒUVRE

Il n’existe pas une seule manière de le faire. La problématique doit être considérée sous deux aspects : organisationnel et technique.Acheter une solution clé en main est très risquée : les fonctionnalités de l’outil conditionnent alors l’organisation du projet.Quelque soit l’outil choisi, il faut pouvoir le faire évoluer afin de s’adapter à de nouveaux besoins.

6.3.1 - SÉCURITÉ

Le Data Warehouse a pour vocation de laisser à l’utilisateur une totale autonomie en ce qui concerne la recherche et l’analyse des données. Cette liberté doit cependant être souvent restreinte, notamment pour des raisons de sécurité. L’outil doit donc permettre d’adapter l’environnement de travail à l’utilisateur qui s’y connecte selon sa fonction et donc ses droits. Afin de mener à bien cette politique de sécurité, les notions d’utilisateur et de groupe d’utilisateur sont indispensables. Cette notion doit néanmoins être dissociée de la notion d’utilisateur du serveur de données. Il est en effet préférable que l’utilisateur se connecte directement à l’outil d’aide à la décision et accède de manière transparente au serveur de données sans en connaître le nom d’utilisateur et le mot de passe. Il n’y a ainsi pas de risque que l’utilisateur se connecte au serveur par d’autres biais. Ce risque est d’autant plus important que l’utilisateur trouve le plus souvent sur son poste de travail les moyens de se connecter à un serveur de données. Il peut par exemple se connecter à partir d’Excel à un serveur de données, via le driver ODBC.Plus les autorisations pourront être définies à un niveau fin , plus l’environnement de travail pourra être facilement adapté à chacun des profils d’utilisateur. Au delà du catalogue dans sa globalité, l’outil doit donc permettre de définir des droits sur chacun de ses éléments en




restreignant le nombre de tables ou de colonnes disponibles ou, par un critère de recherche, le nombre de lignes accessibles.Au delà des droits concernant l’accès aux données, la possibilité d’affecter des privilèges sur les requêtes et rapports prédéfinis est un facteur essentiel dans la définition d’une stratégie de diffusion.

6.3.2 - GESTION DES PERFORMANCES

La possibilité de limiter les accès aux ressources permet à l’administrateur de mieux contrôler les requêtes émises par l’utilisateur. Ce besoin est surtout essentiel pour les outils d’infocentre, qui peuvent offrir à l’utilisateur un espace de liberté et d’autonomie important. En effet contrairement aux outils basés sur un modèle multidimensionnel, les utilisateurs accèdent aux informations non selon un schéma prédéfini mais selon leurs besoins. Ils génèrent ainsi les requêtes qu’ils veulent et n’accèdent pas toujours à un serveur optimisé en conséquence.

Ce contrôle des ressources peut prendre plusieurs formes :

limitation du temps d’exécution ; cette fonctionnalité ne sera néanmoins pas géré de manière optimale par l’outil qui, à moins d’avoir déjà effectué une requête identique, n’a pas moyen de connaître à priori le temps qu’elle prendra. Certains serveurs (Ingres et Oracle notamment) offrent cette fonctionnalité. L’idéal est donc d’avoir un outil capable de demander au serveur le temps que va mettre une requête et d’agir ensuite en conséquence (par exemple, refuser la demande selon l’utilisateur). Sinon, l’outil peut permettre l’abandon de requêtes trop longues.

limitation du nombre de lignes récupérées ; l’outil peut soit permettre de ramener les lignes par paquets, soit ne rapatrier qu’un certain nombre d’enregistrements, soit abandonner une requête ramenant un volume trop important de données. L’outil, en cas de dépassement des limites, peut soit prévenir l’utilisateur et lui demander si il souhaite continuer, soit abandonner la demande.

Le contrôle du corps des requêtes permet de limiter considérablement le nombre de demandes coûteuses. Ce contrôle peut s’exercer sur différents paramètres :

le nombre de tables interrogées ;

les jointures, l’administrateur peut notamment interdire tout produit cartésien. Il peut de plus être intéressant d’imposer d’utiliser que les colonnes indexées ou d’interdire un nombre trop important de théta-jointures, ...

Ce besoin de contrôler les performances est dû à l’autonomie laissée aux utilisateurs par les outils d’infocentre. En effet, l’administrateur n’a que très peu de maîtrise sur ce que vont faire les utilisateurs et le modèle de données ne peut être dès le départ optimisé pour un type d’utilisation particulier. Des fonctions d’audit permettent de remédier à cela en donnant à l’utilisateur une vision des demandes les plus et les moins fréquemment utilisées. Il peut C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 93



alors paramétrer et optimiser son environnement (serveur, client) en conséquence. L’outil doit donc offrir la possibilité de journaliser le texte des requêtes, leur durée d’exécution, le nom de l’utilisateur les ayant envoyées.

6.3.3 - BATCHS

La possibilité d’effectuer des requêtes en batch est une fonctionnalité essentielle dans un contexte de Data Warehouse où une requête peut avoir besoin de manipuler un volume important de données. Un scheduler, planificateur, peut alors permettre d’envoyer une requête à un instant donné ou à intervalles réguliers. Imposer des plages horaires aux utilisateurs pour ces requêtes coûteuses est alors également une nécessité. L’administrateur peut gérer les priorités d’après les requêtes ou les utilisateurs. Le scheduler doit permettre non seulement d’envoyer une requête mais une série de requêtes. Un mécanisme d’alertes peut alors avertir l’utilisateur si des valeurs sont exceptionnelles. On passe alors d’une logique pull (l’utilisateur part à la recherche de l’information pertinente) à une logique push (l’information vient vers l’utilisateur quand elle est jugée pertinente). Outre les requêtes définies avec l’outil d’aide à la décision, le scheduler peut également permettre de lancer des requêtes d’administration à un instant donné, pendant des plages horaires peu occupées.




7 - LE DATA MART

Avec un Data Warehouse, il y a des risques d’échec. Rien n’invite l’utilisateur à se servir d’un Data Warehouse. Le succès d’un Data Warehouse dépend donc uniquement de son effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la problématique informatique et de se détourner de l’utilisateur. Le Data Mart minimise la complexité informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.

7.1 - DÉFINITION

Le Data Mart est une base de données moins coûteuse que le Data Warehouse, et plus légère puisque destinée à quelques utilisateurs d’un département. Il séduit plus que le Data Warehouse les candidats au décisionnel.C’est une petite structure très ciblée et pilotée par les besoins utilisateurs. Il a la même vocation que le Data Warehouse (fournir une architecture décisionnelle), mais vise une problématique précise avec un nombre d’utilisateurs plus restreint. En général, c’est une petite base de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée par un nombre assez restreint de sources de données. Son coût ne dépasse pas deux à trois millions de francs.Mais pour réussir, il y a quelques précautions à prendre, gage de son évolutivité vers le Data Warehouse.

Data Warehouse Data Mart

Cible utilisateur Toute l’entreprise DépartementImplication du service informatique

Elevée Faible ou moyen

Base de données d’entreprise

SQL type serveur SQL milieu de gamme, bases multidimensionnelles

Modèles de données A l’échelle de l’entreprise DépartementChamp applicatif Multi sujets, neutre Quelques sujets, spécifiqueSources de données Multiples Quelques unesStockage Base de données Plusieurs bases distribuéesTaille Centaine de GO et plus Une à 2 dizaines de GOTemps de mise en place

9 à 18 mois pour les 3 étapes 6 à 12 mois (installation en plusieurs étapes)

Coût > 6 millions de francs 500.000 à 3 millions de francs

Matériel Unix NT, petit serveur Unix

Tableau 18 : finalités des data marts et data warehouse




7.2 - MISE EN PLACE

Construire un ou plusieurs Data Marts départementaux au lieu d’un Data Warehouse central permet de valider rapidement le concept d’informatique décisionnelle.

Mais construire des Data Marts n’est pas sans risques :

En effet, dans les entreprises, des Data Marts isolés peuvent proliférer. Ces entreprises risquent de retomber dans le piège d’une architecture composée de multiples systèmes décisionnels incohérents, contenant des informations redondantes. Cela coûte plus cher et c’est plus complexe à gérer qu’un Data Warehouse centralisé. Les entreprises américaines, plus en avance que les entreprises européennes, en ont fait les frais.

Les Data Marts résolvent les problèmes de performance des gros Data Warehouse. Mais ils font régresser vers le vieux problème des îlots isolés. Les entreprises vont devoir affronter des problèmes techniques complexes et coûteux pour remettre en cohérence les ensembles.

Fédérer des Data Marts ou les faire évoluer vers une structure centralisée n’est pas facile.

On peut se poser la question s’il est préférable de bâtir un gros et unique Data Warehouse ou bien de concevoir un réservoir plus modeste, nourri par les données d’un seul département.

Il est intéressant de commencer par un Data Mart, à condition de respecter certaines règles :

Impliquer les utilisateurs. Ne pas construire de multiples Data Marts isolés. Bannir les redondances.




Les Data Marts sont petits

Les Data Marts sont moins complexes et plus facile à déployer que les Data WarehouseLes Data Marts peuvent évoluer facilement vers un Data WarehouseLes différents Data Marts indépendants peuvent être dynamiquement coupler pour se métamorphoser en Data WarehouseLes Data Marts ne se résument qu’à une seule information métier (exemple : ventes)Les Data Marts sont plus flexibles que les Data Warehouse

Les Data Marts sont un nouveau concept.

Tableau 19 : les sept mythes du data mart

(source : Gartner Groupe)

Donc le Data Mart peut préparer au Data Warehouse. Mais il faut penser grand, avenir, et adopter des technologies capables d’évoluer.




8 - LE CONCEPT OLAP

8.1 - PRÉSENTATION

Les outils OLAP (On Line Analytical Process) reposent sur une base de données multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de données.La plupart des solutions OLAP reposent sur un même principe : restructurer et stocker dans un format multidimensionnel les données issues de fichiers plats ou de bases relationnelles. Ce format multidimensionnel, connu également sous le nom d'hypercube, organise les données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes propres à leur métier.Ce type d'analyse multidimensionnelle nécessite à la fois l'accès à un grand volume de données et des moyens adaptés pour les analyser selon différents points de vue. Ceci inclut la capacité à discerner des relations nouvelles ou non prévues entre les variables, la capacité à identifier les paramètres nécessaires à manier un volume important de données pour créer un nombre illimité de dimensions et pour spécifier des expressions et conditions inter-dimensions. Ces dimensions représentent les chemins de consolidation.

OLAP concerne de ce fait au moins autant le monde des serveurs, voire des structures de stockage, que celui des outils.

8.2 - LES 12 RÈGLES OLAP

Afin de formaliser le concept OLAP, fin 1993, à la demande de Arbor Software, Edgar F. Codd publie un article intitulé "Providing OLAP to User Analysts" aux Etats Unis, dans lequel il définit 12 règles que tout système de pilotage multidimensionnel devrait respecter.. "Ce qu’il y a d’agréable avec ces outils OLAP", explique Eric Klusman, de Cantor Fitzgerald LP, "c’est que je suis en mesure de distribuer les données aux utilisateurs sans les obliger à apprendre des complexes formules de programmation, d’interrogation ou même à ce qu’ils aient à programmer leurs tableurs". D’une façon générale, tous affirment que l’on peut interfacer de nombreux outils d’utilisateurs avec des bases de données multidimensionnelles sans qu’il soit nécessaire de consentir de lourds efforts de formation ou des interventions importantes du service informatique.




Vue multidimensionnelle

L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par région ou par période. Ces modèles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).

Transparence du serveur OLAP à différents types de logiciels

Cette transparence se traduit pour l'utilisateur par un complément à ses outils habituels garantissant ainsi sa productivité et sa compétence. Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les fonctionnalités du système central.Par ailleurs, l'utilisateur ne doit pas être concerné par l'intégration des données dans OLAP provenant d'un environnement homogène ou hétérogène.

Accessibilité à de nombreuses sources de données

Le système OLAP doit donner accès aux données nécessaires aux analyses demandées. Les outils OLAP doivent avoir leur propre schéma logique de stockage des données physiques hétérogènes, doivent accéder aux données et réaliser n'importe quelle conversion afin de présenter à l'utilisateur une vue simple et cohérente. Ils doivent aussi savoir de quel type de systèmes proviennent les données.

Performance du système de Reporting

L'augmentation du nombre de dimensions ou du volume de la base de données ne doit pas entraîner de dégradation visible par l'utilisateur.

Architecture Client/Serveur

La plupart des données pour OLAP sont stockées sur des gros systèmes et sont accessibles via des PC. Il est donc nécessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur.

Dimensions Génériques

Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique à une dimension doit être aussi capable de s'appliquer à une autre dimension.




Gestion dynamique des matrices creuses

Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse spécifique créé pour optimiser la gestion des matrices creuses. En effet, dans une analyse à la fois sur les produits et les régions, tous les produits ne sont pas vendus dans toutes les régions.

Support multi-utilisateurs

Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.

Support multi-utilisateurs

Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.

Calculs à travers les dimensions

Les opérations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour définir un calcul hiérarchique.

Manipulation intuitive des données

Toute manipulation doit être accomplie via une action directe sur les cellules du modèle sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur.

Souplesse et facilité de constitution des rapports

La création des rapports dans les outils OLAP doit permettre aux utilisateurs de présenter comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation du modèle.

Nombre illimité de niveaux d'agrégation et de dimensions

Tout outil OLAP doit gérer au moins 15 à 20 dimensions.




D'après EF CODD & Associates, les SGBD Relationnels n'ont jamais été conçus pour fournir les puissantes fonctions de synthèse, d'analyse et de consolidation communément appelées analyse multidimensionnelle des données. Ces types de fonctions ont toujours été prévus pour être fournis par des outils séparés, orientés utilisateurs et complémentaires des SGBD Relationnels. Les tables vont être transformées en un hypercube de données. Les données vont pouvoir être visualisées sous différents angles grâce aux vues multidimensionnelles.

OLAP, parce qu'il associe des mécanismes de navigation aux données, permet d'effectuer des analyses de manière interactive, à l'opposé du requêteur pour qui chaque requête est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prédéfini, limitant dès lors l'autonomie potentielle de l'utilisateur. De ce fait requêtes et outils OLAP doivent être considérés comme complémentaires plutôt que concurrents.

Requêtes et outils OLAP doivent être considérés comme complémentaires plutôt que concurrents.

8.2.1 - TYPOLOGIE DES REGLES O.L.A.P. Reprenant la structure du système décisionnel, nous rappelons qu’un système d’analyse multidimensionnelle peut se décomposer en 2 Siad élémentaires, un SGBD, un Tableur. Ainsi, nous présentons ces 12 règles en les classant selon les éléments du système décisionnel auxquels elles se rapportent. ( Cf Figure Ci-dessous).

Tableau 20 : Ventilation des Règles de Codd.

Ces règles s’énoncent ainsi :

Système & Architecture




L’architecture est Client / ServeurL’accès possible à plusieurs utilisateurs simultanémentLa performance demeure stable quelque soit le volume de donnéesLe système est transparent pour l’utilisateurLe système gère dynamiquement les Matrices Creuses

SGBD_SIAD_2Vue Conceptuelle Multidimensionnelle des donnéesAccessibilité à toutes les données utiles à la décision

Tableur_SIAD_1Nombre Illimité de Dimensions et Nombre illimité de niveaux d’agrégationToutes les dimensions sont équivalentes en structure et en calculIl n’y a pas d’opérations restrictives sur les dimensions

Interface UtilisateurSouplesse de Création de RapportsManipulation intuitive des données

8.2.2 - COMMENTAIRES Codd fixe la méthode de SGBD; celle-ci est multidimensionnelle. Cet aspect est

développé dans le paragraphe suivant au travers des méthodes M_OLAP et R_OLAP.

“ Accessibilité à toutes les données utiles à la décision ” entraîne la possibilités d’accéder à plusieurs bases de données internes ou externes à l’entreprise.

Conséquence : Codd recommande l’architecture Client-Serveur. Aucun tableur n’offre un nombre infini de dimensions et de niveaux d’agrégation.

15 à 20 dimensions font partie des performances actuelles. Enfin, nous pourrions regrouper les règles orientées “ Utilisateur ” :

Système & ArchitectureL’accès possible à plusieurs utilisateurs simultanémentLa performance demeure stable quelque soit le volume de donnéesLe système est transparent pour l’utilisateur

SGBD_SIAD_2Accessibilité à toutes les données utiles à la décision

Interface UtilisateurSouplesse de Création de RapportsManipulation intuitive des données







9 - ANALYSE MULTIDIMENTIONNELLE

Les serveurs OLAP ont été conçus pour s'intégrer dans un environnement client/serveur afin d'en retirer les possibilités offertes. Les utilisateurs disposant de postes de travail intelligents accèdent à un serveur de base de données multidimensionnelle. Celui-ci contient un hypercube prédéfini dans lequel doit être stockée la globalité des données. Ce qui nécessite de s'appuyer sur une information pré-packagée et fortement structurée. Il permettra ainsi d'analyser la répartition d'un indicateur comme le " chiffre d'affaire" en fonction des axes ou dimensions " clients ", " produit ", " temps". En outre, des hiérarchies seront définies pour chaque axe d'analyse (par exemple, l'année, puis la saison, le mois et la semaine, pour l'axe temps). Une fois cette structure multidimensionnelle établie, l'outil OLAP propose des méthodes de navigation dans les données, comme le "drill-down" pour aller vers les informations détaillées dans une hiérarchie, le "slice and dice" pour changer d'axe d'analyse.

Temps

Produit

Client

12000

80006000

80004000

7000

1000

2000

3000

8000

1000

Tableau 21 : représentation sous forme de cube




9.1 - LE MODÈLE

9.1.1 - LES DIMENSIONS

Un axe d’analyse essentiel est la dimension temps. Les tables contiennent des rangées (tuples, enregistrements). Chaque rangée est constituée de colonnes (champs). Dans une base de données standard, le premier champ de chaque enregistrement est la clé primaire, l'unique identifiant de l'enregistrement. Par contre, le modèle de données multidimensionnel est un tableau à n dimensions (hypercube). Chaque dimension possède une hiérarchieassociée de niveaux de consolidation. Chaque position dans un tableau multidimensionnel, correspondant à une intersection de toutes les dimensions est appelée une cellule.

Ces dimensions peuvent être affinées, décomposées en hiérarchies, afin de permettre à l’utilisateur d’examiner ses indicateurs à différents niveaux de détail, de " descendre " dans les données, allant du niveau global au niveau le plus fin. Par exemple, une date pourra être décomposée en <année, mois, semaine, jour>. On aura alors une vision pyramidale des données, la base de la pyramide représentant le niveau le plus détaillé et le haut le niveau le plus global.

Indicateursnumériques

Dimensions d'analyse

Période

Produit

Hiérarchied'une

dimension

Année

Mois

Semaine

Jour

Tableau 22 : représentation pyramidale

L’utilisateur peut avoir besoin de personnaliser le modèle défini par l’administrateur en incorporant par exemple ses propres attributs dans les dimensions ou en modifiant certaines des hiérarchies.




9.1.2 - LES VARIABLES

Les variables, qui sont aussi appelées métriques, dans un tableau multidimensionnel correspondent aux colonnes d'une table relationnelle. Les valeurs à l'intérieur d'une colonne correspondent aux valeurs pour cette variable dans un tableau multidimensionnel.

Par rapport à l’axe temps, nous pouvons distinguer deux types de variables à analyser :

des variables de flux, dont les variations sont enregistrées dans la base de données. Pour déterminer leur montant pendant une certaine période, il suffit de cumuler les différentes variations ayant eu lieu dans cette période. Par exemple, pour obtenir le chiffre d'affaire du mois de Mai 1998, il suffit de faire la somme des chiffres d'affaire de chaque jour du mois.

des variables d’état, indiquant le contenu d’une variable à un instant t. Le cumul des valeurs prises dans une période donnée n’indique généralement plus la valeur de cette variable pour cette période. Par exemple pour une variable indiquant l’état du stock au début de chacun des trimestres, l’entreprise peut considérer que l’état du stock pour l’année est égal à son état au 1er trimestre. Les valeurs des 4 trimestres n’ont donc pas à être cumulées pour obtenir le stock annuel. L’administrateur ou l’utilisateur doit pouvoir indiquer à l’outil si une variable est une variable d’état et quelle valeur elle devra prendre pour un attribut donné.

Les métriques de base sont l’association d’une colonne de fait et d’une fonction d’agrégation. Il est indispensable que l’utilisateur puisse aller au-delà et utiliser des métriques complexes, dérivées de ces éléments de base en définissant des métriques composées d’autres métriques, filtrées ou calculées par rapport à une dimension particulière. Une variable sera élue indicateur selon la stratégie choisie. Par exemple pour analyser les ventes on choisira comme indicateur la variable CA (chiffre d’affaires).

L’utilisateur formulera alors ses requêtes en précisant les indicateurs à analyser (le chiffre d’affaires), les dimensions sur lesquelles ces analyseurs doivent être projetées (le produit et le client) et la population à observer (le mois de Mars

1998).




9.2 - NAVIGATION DANS LES DONNÉES

9.2.1 - DRILL-DOWN, DRILL-UP

Le drill-down / up désigne la faculté d’aller du niveau global vers le niveau détaillé, et inversement.

Ce mécanisme est totalement basé sur la notion de hiérarchie.

Chacun des axes d’analyse se décompose en attributs reliés entre eux par des relations père / fils. Une dimension doit normalement pouvoir comporter plusieurs hiérarchies. Par exemple, la dimension " produits " peut contenir une hiérarchie " Marque-Article " et une hiérarchie " Secteur-Segment-Article ". Le mécanisme de drill-down se fera ainsi de la marque vers l’article et du secteur vers le segment puis vers l’article. La mise en œuvre de cette fonctionnalité n’est cependant pas toujours aussi simple. En effet, une dimension peut contenir des hiérarchies partant d’un même attribut pour aller vers un attribut différent. Par exemple, l’axe " Clients " peut contenir la hiérarchie " Client-Individu " et la hiérarchie " Client-Société-Filiale ". L’outil doit alors permettre soit de redescendre de Client vers à la fois Individu et Société puis de redescendre au niveau Filiale pour les clients de type Société, soit plus simplement, permettre à l’utilisateur de choisir de redescendre vers le niveau Individu ou vers le niveau Société.

Marque

Article

Segment

Secteur

Individu

Filiale

Client

Société

Tableau 23 : exemple de hiérarchies multiples

9.2.2 - SLICE AND DICE

Le " Slice and dice " désigne la possibilité de faire pivoter dynamiquement les axes du tableau d’analyse croisée. Il est possible ainsi de passer d’un tableau présentant les ventes par magasin en lignes et jour en colonnes par un tableau similaire présentant les ventes par magasin en colonnes et jour en ligne.




9.2.3 - DATA SURFING

Le data surfing est la possibilité laissée à l’utilisateur de circuler librement, de manière intuitive et ergonomique dans un modèle dimensionnel, au delà d’un " simple " drill-down ou slice and dice. L’utilisateur peut alors modifier dynamiquement ses axes d’analyse ou appliquer un nouveau filtre à ses données.

Ces mécanismes s’appliquent sur le modèle défini soit par l’administrateur, soit par l’utilisateur.

Ce modèle doit être assez complexe pour adresser l’ensemble des demandes de l’utilisateur et assez souple pour que l’utilisateur puisse le personnaliser à son goût, en créant de nouveaux attributs ou de nouveaux axes d’analyse ou en définissant de nouvelles métriques calculées.

9.3 - PROBLEME DES MATRICES CREUSES

Dans un cube idéal, toutes les cellules ont une valeur, on parle alors de cube dense. Ceci est cependant rarement le cas. Si certaines valeurs sont absentes, on parlera de cellules creuses, d’éparpillement (sparcity). Ceci se rencontre notamment dans les cas suivants :

des enregistrements n’appartenant qu’à une seule dimension. des dimensions qui n’ont pas de valeur pour chaque occurrence. Plus on a de

dimensions, plus le risque d’éparpillement des données est grand. des dimensions comportant des valeurs exclusives. Par exemple, la dimension

“ sexe ” est crée, chaque enregistrement sera soit homme, soit femme, ce qui engendrera un fort taux de cellules creuses lors de l’analyse du CA par client et par sexe. Autre exemple, dans un magasin on ne vend pas chaque jour tous les articles. Le cube comportera alors un nombre important de cellules creuses.

L’ajout de colonnes pré-calculées fera aussi croître de manière significative la taille de la base de données. Dans un contexte de données stockées sous un format d’hypercube, il est donc important de choisir ses dimensions avec attention, d’en restreindre le nombre en définissant le plus possible de dimensions composées. Une autre alternative est de diviser un hypercube en de petits cubes.

Le stockage des données sous une forme relationnelle permet d’éluder ces problèmes de place et de cellules creuses.




10 - MODELISATION

Modéliser est une tâche délicate car elle met en jeu des populations différentes. Les administrateurs de données et les utilisateurs "métiers" doivent créer un modèle global et cohérent pour l'entreprise.

Les données du Data Warehouse doivent être orientées " sujet ", facilement compréhensibles et utilisables par les utilisateurs.

Le modèle doit donc être adapté à leur démarche de recherche et d’analyse. Les modèles relationnels normalisés ne sont alors pas toujours l’idéal. En effet, ils correspondent généralement plus à une vision " technique " et informaticienne des données qu’à une vision utilisateur. Ils peuvent répondre aux requêtes ensemblistes (liste des commandes d’un client) ou détaillées (adresse et numéro de téléphone d’un client) mais adressent très peu la notion d’analyse qui est essentielle dans le monde décisionnel. Ce concept est généralement lié à une vision multidimensionnelle des données. L’utilisateur peut ainsi analyser des informations selon diverses perspectives, par rapport à différents axes (par exemple les ventes par rapport aux dimensions temps, régions et clients). La dénormalisation du modèle des données, la redondance d’informations sont totalement envisageables dans un contexte de Data Warehouse car la non volatilité des données permet de ne pas se préoccuper, lors de l’utilisation du Data Warehouse, des problèmes d’intégrité des données ou de transaction. Afin de répondre à ce type de besoin tout en conservant la technologie des SGBD relationnels, il sera souvent nécessaire de modéliser les données de manière particulière, en distinguant les différents axes et les indicateurs à analyser. On parlera alors de modèle en étoile (star) ou en flocon (snowflake).Le serveur de données devra donc permettre la gestion de gros volumes d’informations et supporter les machines parallèles. Afin d’offrir à l’utilisateur une performance optimale, il sera indispensable d’agréger physiquement les données (par exemple par rapport au temps), et souvent nécessaire de partitionner ces données.

Cinq axes permettent de qualifier un modèle décisionnel :

Lisibilité du point de vue de l'utilisateur final. Performances de chargement Performances d'exécution Administration, c'est à dire faire vivre le Data Warehouse Evolutivité, que tous les autres projets décisionnels s'intègrent facilement

Le choix entre modèle dimensionnel (étoile ou flocon) et le modèle relationnel (normalisé ou non) dépend du type du besoin décisionnel à construire.




10.1 - MODÉLISATION RELATIONNELLE

10.1.1 - MODÈLE DE DONNÉES NORMALISÉ

Ce modèle est très classique , il est formalisé par des méthodes comme MERISE. Il est très complet car on y trouve beaucoup de données détaillées, ce qui laisse beaucoup d’autonomie à l’utilisateur. Par contre aucune information intéressante dans un contexte décisionnel n’existe directement.Les outils d’infocentre ou de " query " accèdent pour la plupart à un modèle de données relationnel quelconque. L’analyse multidimensionnelle de ces données pourra alors se faire directement à partir d’un résultat de requête SQL. Les possibilités d’analyse sont alors assez sommaires (par ex., définition d’un tableau d’analyse croisée). La seconde technique consiste à générer et à manipuler, à partir du résultat d’une requête SQL, un hypercube, le plus souvent stocké en local. Cette manipulation pourra être faite soit par l’outil de query lui même, soit par un outil complémentaire dédié à ce type d’analyse. L’hypercube généré ne permettra alors d’analyser qu’une partie des données de l’entreprise, celles correspondant au contexte de la requête. Lorsque le modèle comprend un grand nombre de tables, les performances deviennent alors très mauvaises et les requêtes complexes à formuler par l’utilisateur.

10.1.2 - MODÈLE DE DONNÉES DÉNORMALISÉ

On prend le modèle normalisé et le simplifie afin qu’il réponde mieux aux exigences du décisionnel. Cette dénormalisation n’est pas réalisée en s’appuyant sur une technique précise mais plutôt en s’intéressant aux besoins des utilisateurs. On va ainsi créer des redondances d’informations et des informations agrégées qui diminueront le nombre de tables. De ce fait, on améliorera les temps de réponse et on facilitera l’accès aux informations par les utilisateurs car le modèle lui apparaîtra comme plus lisible.




10.2 - MODÉLISATION DIMENSIONNE LLE

La modélisation dimensionnelle dérive des concepts OLAP. Les produits utilisent une structure de données multidimensionnelle. Elle permet l’utilisation de bases de données relationnelles ou multidimensionnelles. L’objectif majeur d’un système décisionnel est l’analyse de la performance. On mesure cette performance au travers des indicateurs que l’on a retenu. Ces indicateurs vont donc être la base de la modélisation dimensionnelle et être regroupés dans une table dite table des faits.

10.2.1 - MODÉLISER EN ÉTOILE

Dans un modèle en étoile, tous les faits sont définis dans une simple table relationnelle. Cette table des faits va être reliée par clés primaires à d’autres tables correspondant aux dimensions. Dans l'exemple ci-après il s'agit des PRODUITS, BRANCHE, REGION et TEMPS. En fait, le modèle en étoile essaie de superposer une structure multidimensionnelle au dessus d'un modèle relationnel normalisé à deux dimensions.Le modèle en étoile simplifie le modèle logique normalisé en organisant les données de manière optimale pour les traitements d'analyse.

10.2.2 - MODÉLISER EN FLOCON

La modélisation en flocon est une modélisation en étoile pour laquelle on éclate les tables de dimensions en sous-tables selon la hiérarchie de cette dimension. Dans notre exemple, on éclatera PRODUITS, BRANCHE, REGION et TEMPS .

Dans les deux types de modèles décrits ci-dessus, on s’aperçoit que les points forts sont la lisibilité du modèle par l’utilisateur et la performance d’exécution.

Mais par contre on peut leur reprocher leur manque de complétude et leur orientation rapidement très métier avec le risque d’évolution du modèle très

problématique.




PRODUITS TABLE de FAITS REGION

Couleur Bureaux de ventes

Taille PRODUIT Administration

Emballage REGION

BRANCHE

TEMPS

BRANCHE CA TEMPS

Ventes au détail Marge Semaines

Ventes en gros Unité Mois

Importation Trimestres

Exportation Année Fiscale

Tableau 24 : exemple de modèle en étoile

Concrètement, la table des faits est énorme en nombre de lignes mais le volume de chaque ligne est limité. Les tables de dimensions sont elles beaucoup plus réduites. On accède aux tables des dimensions par une sélection. Par exemple le CA pour les produits électroménagers pour l’année 97 pour la région Nord. On y récupère les identifiants qui seront les uniques points d’entrées à la table des faits pour y trouver le CA correspondant.Une fois le modèle défini, la faculté de naviguer dans les données est un apport important des outils OLAP (MOLAP, ROLAP).




11 - STOCKAGE DES DONNEES

Ces besoins en terme d’analyse multidimensionnelle peuvent influer d’une part sur le modèle physique, d’autre part sur la vision que les utilisateurs ont des données. Les données peuvent être stockées soit sous forme multidimensionnelle, soit sous forme relationnelle.Les bases multidimensionnelles sont conçues pour optimiser l'analyse d'indicateurs (CA) par rapport aux dimensions qui leur sont associées (temps, produit, région). Elles sont de moins en moins exigeantes en terme de volume de stockage (technique de compression). Les bases relationnelles sont conçues à l'origine pour le décisionnel. Elles sont plus ouvertes et s'adaptent à de nombreuses plates formes.

11.1 - LE STOCKAGE DES DONNÉES EXTERNES

Les données qui ne sont pas générées par les systèmes informatiques de l’entreprise sont appelées des données externes et sont introduites sans formatage préalable. Elles ne sont donc pas forcément structurées. Typiquement, les données externes qui sont dans l’entrepôt de données arrivent dans l’entreprise par l’intermédiaire d’un poste client. Elles sont saisies manuellement dans un tableur, ce qui laisse peu de chances d’identifier d’ou viennent les données ainsi que leurs contenus. D’autres types de données ont fait leur apparition, il s’agit du son et de l’image qui sont, sans compression, particulièrement volumineux.

L’entrepôt de données est le lieu idéal pour stocker des données externes et non structurées. Si ces données ne sont pas stockées dans un endroit bien défini, on ne peut plus savoir d’où viennent les données et on laisse la porte ouverte aux éventuelles redondances.

Les données externes peuvent être stockées au sein même de l’entrepôt de données. Toutefois, pour diminuer le coût de stockage de ces données, on préférera les stocker séparément, sur un support économique. A la détection des données externes, on choisira de rediriger le stockage de ces données vers des périphériques d’archivage dédiés.

Le composant de base support du stockage est le SGBD. Outre le stockage, le SGBD doit être spécifiquement adapté aux caractéristiques de l’accès décisionnel. Ces technologies sont principalement liées à la parallélisation des requêtes et à diverses optimisations proposées pour accélérer les sélections et les regroupements ensemblistes.




11.2 - OPTIMISATION PHYSIQUE

Du fait de l’importance de l’historique dans un Data Warehouse, la structuration physique des données est également importante. Parmi les optimisations proposées par les éditeurs, on notera les index bitmaps (Sybase , Oracle), ou la génération assistée des agrégations (HP, Informix, Oracle, etc.) ainsi que le partitionnement des tables.

11.2.1 - AGREGATION DE TABLES

Les requêtes faisant appel à des données agrégées forment 80 % des demandes effectuées dans un système décisionnel. La construction de tables agrégées permet d'améliorer très nettement les temps de réponse de ces requêtes. Par exemple, on crée une table des ventes mensuelles représentant la somme des ventes journalières par magasin et cela sur chacun des mois.

Tableau 25 : exemple de tables agrégées

Cette technique d'optimisation trouve ses limites lorsque les bases des données atteignent un volume important. Autre inconvénient, l'administration est complexe.




11.2.2 - PARTITIONNEMENT DE TABLES

Un partitionnement physique des tables en plus petites unités selon le critère temps apporte des performances stables dans le temps, des facilités pour les reprises, les indexations, les restructurations et l’archivage. Notre table des ventes sera éclatée en 12 tables, soit une par mois.

Tableau 26 : exemple de tables partitionnées

Cette technique n'est pas simple à administrer.




11.3 - LES MÉTA-DONNÉES

Les méta-données sont des données sur les données. Les méta-données représentent la totalité des informations concernant le Data Warehouse et les processus associés. Elles sont intégrées dans un référentiel. La méta-donnée va également servir de mémoire pour les données externes en recueillant les informations suivantes : l’identifiant du document, sa date d’entrée dans l’entrepôt de données, la description du document, l’origine du document, la date d’origine du document, les mots indexés du document , la date d’épuration, la place physique du document, sa longueur...Dans le cadre d’outils OLAP, les méta-données sont, pour l’essentiel, la structure multidimensionnelle elle-même. Pour un outil d’aide à la décision, elles ont pour vocation de présenter à l’utilisateur des éléments qui lui sont familiers et qu’il pourra donc analyser facilement, de manière intuitive.

Dans le cas d’outil Rolap, les méta-données ont pour but de transformer le modèle de stockage relationnel en une vision utilisateur multidimensionnelle.

Le mode de stockage privilégié pour les méta-données est le serveur relationnel. Elles sont ainsi stockées une seule fois et accessibles par l’ensemble des utilisateurs. La mise à jour de l’environnement client peut alors s’effectuer de deux manières : soit en rapatriant à chaque connexion le contenu des méta-données, soit en ramenant en local les méta-données et en les mettant à jour de manière automatique lorsqu’un changement est survenu. Cette deuxième solution est plus performante, un nouveau catalogue n’étant ramené qu’une fois sur le poste local.




12 - LES DIFFERENTS OUTILS OLAP

OLAP sera l'outil à privilégier pour les données quantitatives si leur structuration a priori est naturelle (cas rencontré fréquemment pour les applications financières ou commerciales), alors que le requêteur sera idéal pour les données qualitatives et pour toute analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré fréquemment pour le marketing ou la gestion du personnel). Si les besoins sont à combiner, il faudra choisir entre la richesse fonctionnelle apportée par plusieurs outils interfacés ou l’homogénéité des outils intégrés.

Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de données multidimensionnelle. Les outils ROLAP (Relational OLAP) d'autre part, qui représente leur équivalent sur une base de données relationnelle.

12.1 - LES OUTILS MOLAP

MOLAP est conçue exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimisé par rapport aux chemins d'accès prédéfinis. Ainsi, toute valeur d'indicateur associée à l'axe temps sera pré-calculée au chargement pour toutes ses valeurs hebdomadaires, mensuelles, etc.

Data Warehouse Moteur MOLAP Aide à la décision

Données Traitements Présentation

RapportsMulti-Dimensionnel

Stockage desdonnées détaillées (et

agrégées)

Tableau 27 : architecture d’un produit Molap (EDS)

MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus les principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite fréquemment évoquée pour MOLAP étant de quelques giga octets.




MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la mise à jour des données pour la simulation. Cependant, ces différences s'expliquent par une plus grande maturité en faveur de MOLAP, concept qui date de près de vingt ans. MOLAP est incompatible avec d'autres modes d'accès aux données. Si MOLAP doit cohabiter avec d'autres techniques d'accès aux données (par requêteur, par data mining, etc.), deux bases de données doivent cohabiter. En effet, MOLAP repose sur un moteur spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de requête standard SQL, il faut utiliser une API spécifique.Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui le représentent d'investir sur de telles évolutions.

12.2 - LES OUTILS ROLAP

Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui représente les données dans un format multidimensionnel. Ces produits diminuent sensiblement le coût lié à la mise en œuvre d'un serveur de base de données multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL. Pour cela, ces outils s’appuient pour la plupart sur une modélisation particulière des données, distinguant les axes d’analyse et les faits à observer. On parlera notamment de modèle en étoile et de modèle en flocon ou encore des techniques de définition physique d'agrégations. Ceci oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener mais est un gage de performance et de cohérence lors de l’utilisation de ce type de produits. Cette contrainte exige un travail important des équipes informatiques et donc enlève beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour l'analyse multidimensionnelle.

Data Warehouse Moteur ROLAP Aide à la décision

Données Traitements Présentation

RapportsMulti-Dimensionnel

Génération de plansd'exécution SQLafin d'obtenir des

fonctionnalités OLAP.

Stockage desdonnées détaillées (et

agrégées) etdes méta-données

Tableau 28 : architecture d’un produit Rolap (EDS)




Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les données ou pour les calculs complexes. Avec ROLAP, il est déconseillé d'accéder en direct à des bases de données de production pour faire des analyses sérieuses, pour des raisons de performances. ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est plus lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains agrégats.Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000, pallient cependant à cette faiblesse avec des outils d'administration aptes à conseiller pour une politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros volumes.En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions objets, etc.).

EDITEUR PRODUIT

MOLAPARBOR SOFTWARE

ORACLEDIMENSIONAL INSIGHT

ESSBASEEXPRESS

CROSS TARGET

ROLAPINFORMIX

MICROSTRATEGYPLATINUM TECHNOLOGY

METACUBEDSS AGENT

INFOBEACON

Tableau 29 : principaux outils MOLAP et ROLAP




13 - L'ALIMENTATION DU DATA WAREHOUSE

Les données du Data Warehouse sont, pour la plupart, issues des différentes sources de données opérationnelles de l’entreprise. Des solutions logicielles sont alors nécessaires à leur intégration et à leur homogénéisation. Celles-ci peuvent aller de l’écriture de batchs à l’utilisation de logiciels spécialisés dans l’extraction et la transformation d’informations (ETI, Prism, Carleton, ...). Ces outils ont pour objet de s’assurer de la cohérence des données du Data Warehouse et d’homogénéiser les différents formats trouvés dans les bases de données opérationnelles. Les solutions de réplication sont souvent citées comme pouvant répondre à ce besoin. Très liées à un éditeur et à une technologie, elles ne sont en fait adaptées qu’à un très petit nombre de cas, où les données sont issues de sources homogènes et n’ont pas besoin d’être transformées.

Alimenter le Data Warehouse est la difficulté technique majeure et la plus coûteuse.

13.1 - LES PHASES DE L'ALIMENTATION

Les phases de l'alimentation du Data Warehouse sont les suivantes :

Découvrir quelles sont les données à faire migrer. L’acquisition des données se déroule en trois phases : l’extraction, la transformation

et le chargement.

Don

née

s d

e p

rod

uct

ion

Extraction, TransformationLogiciels spécialisésBatch

Modélisation, Chargement, Stockage, OptimisationSGBDArchitecture parallèleAccélérateurs de requêtesAdaptation modèles spécifiques

Outils clientsAide à la décision(interrogation, analyse)Data Mining (extraction de connaissances)

Tableau 30 : les besoins et les outils du Data Warehouse (EDS)




13.2 - LA DECOUVERTE DES DONNÉES

La découverte des données consiste les localiser dans le système opérationnel et à prendre les plus judicieuses.

Un mauvais choix des données a extraire va complexifier les phases suivantes de l'alimentation

13.3 - L'EXTRACTION DES DONNÉES.

L’extraction des données consiste à collecter les données utiles dans le système de production. Pour rafraîchir la base décisionnelle, il faut identifier les données ayant évolué afin d’extraire le minimum de données, puis planifier ces extractions afin d’éviter les saturations du système de production.

Le processus d'alimentation doit automatiquement et périodiquement rafraîchir les données et de préférence uniquement celles qui ont été modifiées afin

d'optimiser les performances.

On réalisera des extractions différentielles en marquant les données (date dans un fichier LOG). Cette fonctionnalité devient importante lorsque le volume de données devient important. L’intégrité des données est indispensable et nécessite la synchronisation des différents processus d’extraction. Les problèmes liés à cette nécessaire synchronisation peuvent être complexes, soit fonctionnellement, soit techniquement dans des environnements très hétérogènes. Un autre problème est de traiter les données externes. Il faut maintenir une surveillance du système d’information pour pouvoir les identifier et s’assurer que ce sont les bonnes données qui sont recensées. De plus, la forme des données externes, qui est souvent totalement anarchique accentue la difficulté. Pour être utiles, ces données nécessitent un reformatage pour pouvoir les incorporer dans une forme exploitable pour l’entreprise.Enfin le troisième problème vient de l’apparition imprévisible de ces données qui les rend difficiles à capter. En conséquence, l'outil d'extraction doit attaquer toutes sortes de sources de données sans être perturbé et s’adapter aux futures. Pour extraire les données sources, il y a plusieurs technologies utilisables :

des passerelles, fournies principalement par les éditeurs de bases de données. Ces passerelles sont généralement insuffisantes car elles sont mal adaptées aux processus de transformation complexes ;

des utilitaires de réplication, utilisables si les systèmes de production et décisionnel sont homogènes et si la transformation à appliquer aux données est légère ;

des outils spécifiques d’extraction. Ces outils sont certainement la solution opérationnelle au problème de l’extraction, mais leur prix relativement élevé est un frein à leur utilisation dans les premières applications.







13.4 - LA TRANSFORMATION DES DONNÉES

Le nettoyage des données est une discipline sur laquelle de nombreux éditeurs travaillent actuellement. Outre la qualité des données qu’ils permettent d’auditer et éventuellement d’améliorer, les outils de nettoyage permettent de supprimer les doublons dans les fichiers. Il s'agit à ce stade d'appliquer des filtres prédéfinis sur les données afin d'attribuer des valeurs cohérentes aux variables mal ou non renseignées ou encore d'harmoniser les formats (date : jj/mm/aaaa). On peut également avoir à convertir les données d'un format EBCDIC vers ASCII. Dernier exemple, des données du système opérationnel doivent être agrégées ou calculées avant leur chargement dans la base décisionnelle. Il faut également pouvoir associer des champs sources avec des champs cibles. Il existe plusieurs niveaux de complexité pour ces associations (cardinalités 1-1, 1-N, N-1 , N-N), comme par exemple :

le transfert du "nom du client" vers un champ cible la décomposition d'une "adresse" vers les champs "numéro", "rue", "ville" ou

l'inverse.

Certains outils peuvent également réaliser des analyses lexicales des champs sources. Ils seront donc capables de comprendre que les champs suivants signifient la même chose : "Boulvd", "Bd" ,"Boulevard".

En complément, on trouve des outils d'audit et d'analyse pour assurer le suivi du processus afin notamment de contrôler les rejets.

13.5 - LE CHARGEMENT DES DONNÉES

Le chargement est la dernière phase de l’alimentation du Data Warehouse. C’est une phase délicate notamment lorsque les volumes sont importants. Pour obtenir de bonnes performances en chargement, il est impératif de maîtriser les structures du SGBD (tables et index) associées aux données chargées afin d’optimiser au mieux ces processus. Les techniques de parallélisation optimisent les chargements lourds. Pour les mettre en œuvre, des utilitaires particuliers existent chez la majorité des éditeurs de bases de données.

La synchronisation des chargements de la source vers la cible est un problème majeur.




Pour réaliser ce transfert des données, on peut utiliser le transfert de fichiers ou le transfert de bases à bases.

Le transfert de fichiers consiste à créer au moment de l'extraction des données, un ensemble de fichiers qui seront transférés sur le système cible afin d'alimenter la base décisionnelle. La transformation des données s'effectuera alors soit à la constitution des fichiers, soit à leur arrivée sur la cible.Le transfert de base à base est plus complexe, en effet chaque donnée est extraite de la base source, nettoyée si nécessaire, et transférée sur la base cible.

Des logiciels contrôlent souvent les phases d'extraction, de transport et de chargement. Ils créent un enchaînement automatisé et gèrent les mises à jour mais ils sont rarement capables de s'occuper également du nettoyage des données

Il faut donc souvent combiner les outils pour alimenter un Data Warehouse.

EDITEUR PRODUIT

EXTRACT SUITEPASSPORTWAREHOUSE MANAGERVALITY TECHNOLOGIE

ETICARLETONPRISM SOLUTIONSINTEGRITY DATA REENGINEERING

Tableau 31 : principaux outils d’extraction et de nettoyage




14 - QUELQUES CHIFFRES

14.1 - LE MARCHÉ DU DATA WAREHOUSE

IDC estime que les investissements en Europe destinés à la mise en œuvre de Data Warehouse étaient de 2,4 milliards de dollars en 1995. Ces coûts intègrent les budgets internes, mais aussi l’achat d’équipements, de logiciels, ou de services.

Le tableau suivant illustre la répartition du revenu concernant le marché du Data Warehouse telle qu’elle est identifiée par le Gartner Group. Ces chiffres sont exprimés en millions de dollars. Comme on peut le constater ce marché est en progression annuelle de plus de 35 %. C’est donc un très gros marché pour tous les acteurs d’un point de vue financier, mais également par son positionnement orienté valeur ajoutée.

1994 1999 Progression annuelleTotal 1 568 6 969 34,7 %Extraction de données 65 210 26,4 %Administration 10 450 114,1 %SGBDR 288 1 100 30,7 %Matériel 1 075 3 950 29,7 %Services 130 1 250 57,3 %

Tableau 32 : répartition du revenu du marché du Data Warehouse Données en millions de francs (source Gartner Group)

Les chiffres suivants présentent les résultats d’une étude réalisée en 1996 par le Data Warehousing Institute. Au niveau des déploiements, ces chiffres sont impressionnants : plus de 40 % des sociétés ont débuté la mise en place de leur Data Warehouse et plus de 30 % ont prévu de le faire dans les 3 ans. Au niveau des volumes de données, la majorité des systèmes en place ne dépassent pas 100 gigaoctets, mais peu sont de taille inférieure à 5 gigaoctets.

Le marché mondial du data warehouse représentait 300 millions de dollars en 1995. Il devrait atteindre 800 millions de dollars en 2000 (source Meta Group)

Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997 (source IDC)




14.2 - LE RETOUR SUR INVESTISSEMENTS

Les grands cabinets d’analyse se sont penchés sur les réalisations les plus significatives dans le domaine du Data Warehousing, en particulier sous l’angle économique. Ainsi, IDC a analysé l’apport d’un Data Warehouse dans les entreprises. 62 organisations américaines et européennes ont été interrogées. Voici une synthèse des résultats :

Retour sur investissement sur 3 ans : la moyenne est de 401 %, la médiane de 167 %. 90 % des entreprises consultées ont remarqué un retour sur investissement supérieur à 40 %. Pour 13 % des entreprises, le retour sur investissement a dépassé 1000 %.

L’équilibre sur investissement (en anglais payback) est atteint en moyenne en 2,31 ans, la médiane étant de 1,67 ans. L’investissement moyen est de 2,2 millions de dollars.

Malgré ces chiffres éloquents, il est difficile de décrire de manière générique et qualitative les bénéfices d’un Data Warehouse : très liés à la stratégie de l’entreprise, ceux-ci dépendent nécessairement de son secteur d’activité. Par exemple, une étude menée par AT&T Teradata indique que dans la grande distribution, les principales zones d’opportunité sont :

une augmentation des ventes au travers d’un marketing mieux ciblé ; une amélioration des taux de rotation des stocks ; la réduction des stocks de produits devenus obsolètes ; la réduction des manques à gagner liés aux rabais, remises et ristournes ; la diminution des coûts des produits des fournisseurs, liés à une meilleure

négociation des prix des produits.




15 - INTRODUCTION AU DATA MINING

15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE

L’accroissement de la concurrence, l’individualisation des consommateurs - la “démassification” - et la brièveté du cycle de vie des produits obligent les entreprises à non plus simplement réagir au marché mais à l’anticiper. Elles doivent également cibler au mieux leur clientèle afin de répondre à ses attentes. La connaissance de son métier, des schémas de comportement de ses clients, de ses fournisseurs est essentielle à la survie de l’entreprise, car elle lui permet d’anticiper sur l’avenir.Aujourd’hui, les entreprises ont à leur disposition une masse de données importante. En effet, les faibles coûts des machines en terme de stockage et de puissance ont encouragé les sociétés à accumuler toujours plus d’informations. Cependant, alors que la quantité de données à traiter augmente énormément - l'institut EDS estime que la quantité de données collectées dans le monde double tous les 20 mois - le volume d’informations fournies aux utilisateurs n’augmente lui que très peu. Ces réservoirs de connaissance doivent être explorés afin d’en comprendre le sens et de déceler les relations entre données, des modèles expliquant leur comportement.Dans cette optique, la constitution d’un Data Warehouse, regroupant, sous une forme homogène, toutes les données de l’entreprise sur une longue période, offre des perspectives nouvelles aux utilisateurs, notamment en terme d’extraction de connaissances grâce aux outils de Data Mining.

15.2 - PRESENTATION DU DATA MINING

Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Il permet d’augmenter la valeur des données contenues dans le Data Warehouse. Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.

Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinentes, intéressantes et utiles à l’entreprise. Ces utilisateurs n’ont donc pas obligatoirement un bagage statistique important, du moins est-ce l’objectif




visé. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules mathématiques et termes techniques utilisés, soit permettre de construire une application “clé en main”, rendant à l’utilisateur transparentes toutes les techniques utilisées.

On pourrait définir le DATA MINING comme une démarche ayant pour objet de découvrir des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de données.On devrait ajouter que la pertinence et l'intérêt du data mining sont conditionnés par les enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités ("améliorer la performance commerciale", "mieux cibler les prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...).

Le succès du concept de DATA WAREHOUSE et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre data mining.

Cette offre tend à se démocratiser, en cherchant à rendre accessible au plus grand nombre, les divers outils du data mining. Pour cela, elle adopte de plus en plus un caractère "moderne" et "convivial", parfois "boîte noire" pour ne pas dire "boîte magique".

Pour qui connaît depuis longtemps les outils de statistique et d'analyse de données, ce phénomène peut paraître curieux. On sait depuis longtemps procéder à des classifications automatiques, construire et exploiter des modèles performants, rechercher des corrélations entre variables... On connaît même dans bien des cas l'incertitude attachée aux prévisions réalisées, ce qui permet de relativiser ou pondérer les prises de décisions correspondantes (ce dernier point est aussi essentiel que de déterminer les décisions elles-mêmes...).

On peut cependant faire aux méthodes "traditionnelles" le reproche de ne pas avoir été vulgarisées. Le jargon qu'elles utilisent, les outils mathématiques (mal connus du grand public) sur lesquels elles s'appuient, les hypothèses préalables et validations requises pour une mise en œuvre rigoureuse... sont autant de freins à un usage répandu de ces méthodes.

Si des outils plus "récents", comme les réseaux de neurones ou les arbres de décisions, connaissent un certain succès, ils le doivent à leurs performances (dans certains domaines), mais probablement aussi à leurs qualités de convivialité, liées à une terminologie souvent plus accessible, à leur présentation résolument "pratique" et à l'occultation des mécanismes et algorithmes internes qui les régissent.




Pour autant, les problèmes de mise en œuvre, de compréhension des phénomènes et de validation des résultats subsistent. Ils sont même dans une certaine mesure amplifiés par la simplicité apparente de ces outils, qui n'incite pas toujours à la rigueur.

Une synthèse positive et optimiste des différents outils et courants pourrait consister à améliorer la convivialité des méthodes traditionnelles et à proposer un cadre méthodologique rendant plus fiable et rigoureuse l'utilisation des outils plus récents.

15.3 - DEFINITION

Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances.

Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances.

L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.

15.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE

La recherche opérationnelle n'est pas assimilée aux techniques de Data mining. Son objectif est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est pas le cas du Data mining :

son champ d'application est plus large (voir pages 135 à 139), on ne recherche pas la meilleure solution prouvée mais à faire le mieux possible, enfin un outil de Data mining appliqué à un même ensemble de données ne donne

pas toujours les mêmes résultats, contrairement à la recherche opérationnelle.




15.5 - STATISTIQUES ET DATA MINING

On pourrait croire que les techniques de data mining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :

pour faire une analyse préalable, pour estimer ou alimenter les valeurs manquantes, pendant le processus pour évaluer la qualité des estimations, après le processus pour mesurer les actions entreprises et faire un bilan.

Par ailleurs, certaines techniques statistiques récentes (travaux de BENZECRI, analyse en composantes principales, analyse factorielle des correspondances, …) peuvent être apparentées aux techniques de data mining.

Statistiques et data mining sont tout à fait complémentaires.

16 - LA RECHERCHE DE CONNAISSANCES

16.1 - LES STATISTIQUES

Les statistiques sont à la base de tout raisonnement sur les données. Elles permettent de synthétiser un grand nombre de valeurs pour une variable grâce à un nombre très réduit d’informations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs : un pour mesurer la tendance centrale, un pour mesurer la dispersion.

16.1.1 - INDICATEURS DE TENDANCE CENTRALE

C’est en général le premier critère d'évaluation d'une série statistique. Le plus couramment

utilisé est la moyenne arithmétique :

1N

×∑i=1

n

(xi ni ) (N représente l’effectif total, x i le centre

de la classe ou sa valeur, ni l’effectif de la classe), mais on lui associe ou préfère parfois le mode (valeur la plus fréquemment trouvée) ou la médiane (valeur du représentant de la moitié de l’effectif). La médiane présente l’avantage de ne pas être sensible aux valeurs exceptionnelles (contrairement à la moyenne).

16.1.2 - INDICATEURS DE DISPERSION

Les indicateurs de tendance centrale donnent une première indication de la population à étudier mais il est intéressant de savoir comment se répartissent les individus autour de cette moyenne. En effet, si deux élèves obtiennent les notes suivantes :Elève A : 9 - 10 - 10 - 10 - 10 - 11 Elève B : 0 - 0 - 0 - 20 - 20 - 20C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 130

s2

=∑( x i−x )2

n



Ces deux élèves auront 10 de moyenne mais on voit nettement que l’élève A obtient des notes autour de la moyenne alors que l’élève B en est très éloigné. Pour exprimer ceci, les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion :

l'amplitude, ou dimension, ou étendue de la distribution : Valeur sup - Valeur inf

l'écart absolu moyen des valeurs à la moyenne de la distribution : la distance interquartile ou interdécile de la distribution : écart entre l’individu représentant 25 % (ou 10 %) et celui représentant 75 % (ou 90%) de la population.

L’écart type (s ) défini ainsi : (la majorité des individus est entre moyenne - 2 et moyenne + 2 ).

Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en évidence les valeurs exceptionnelles et donner une première synthèse des

données.




16.1.3 - RELATIONS ENTRE VARIABLES

Très vite, les besoins des décideurs ont amené les statisticiens à rechercher des liens entre plusieurs variables ou plusieurs populations. Ils ont donc créé de nouveaux indicateurs comme le khi2, la covariance ou le coefficient de corrélation. La corrélation entre les variables ne recouvre pas que la causalité; elle peut s’expliquer de plusieurs manières :

La causalité : on observe qu’une variation de A entraîne une variation de B. Il existe un vrai lien entre A et B.

Le hasard : une variation de A entraîne une variation de B mais celle-ci est uniquement due au hasard.

La réponse commune : une variation de C entraîne une variation de A et B.

La confusion : la variation de A et C entraîne la variation de B.

Tableau 33 : explications d'un fort taux de corrélation.

Lorsque le coefficient de corrélation est significatif, il y a souvent confusion entre ces différentes possibilités, surtout entre causalité et hasard.

D’autres techniques : régressions simples ou multiples (linéaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergéométrique, de Poisson, ...) permettent de modéliser les séries, et facilitent les estimations. Elles ne seront pas développées dans cet ouvrage.

Ces techniques statistiques permettent de savoir s’il existe une relation entre plusieurs variables, de faire des prévisions ou estimations.

Le but de ce type d’analyse est souvent de rechercher des liens de causalité

La recherche de connaissances par l’utilisation de méthodes statistiques est souvent limitée car on ne peut étudier simultanément que quelques variables (une à deux). Les problèmes sont en général plus complexes et mettent en œuvre plusieurs dizaines de variables. Pour répondre à ces besoins, il a fallu créer de nouveaux algorithmes, parfois issus de la recherche opérationnelle, alliant la recherche intelligente et les statistiques.




16.2 - LES SCHEMAS D’INFERENCE

Les outils de data mining ne sont pas destinés à un informaticien ou un statisticien mais à l’utilisateur ou au décisionnaire. Seul ce dernier saura analyser avec pertinence les informations retournées par le système. Pour mieux comprendre le fonctionnement de ces processus, voici les principales techniques de raisonnement mises en œuvre.

La recherche de connaissances et d’informations repose sur les schémas d’inférence formalisés par C. S. PIERCE en 1903. Ce dernier a distingué trois types de raisonnements : l’abduction, la déduction et l’induction.

16.2.1 - L’ABDUCTION

Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un exemple :

Toutes les voitures ont 4 rouesLa Peugeot 106 a 4 roues

La Peugeot 106 est une voiture

Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant être très vigilant avec ce type de raisonnement car il peut produire des résultats aberrants ou triviaux :

Toutes les voitures ont un moteur, l’Airbus 320 a un moteur l’Airbus 320 est une voiture.

Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4 roues) suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un moteur, un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc... pour diminuer considérablement le risque d’erreurs.

Tous les possesseurs de la carte jeune ont moins de 25 ans.

Cette information est certes vraie mais risque de ne présenter aucun intérêt.




16.2.2 - LA DEDUCTION

C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est qu’il ne laisse pas de place au doute. Exemple :

La Peugeot 106 est une voitureToutes les voitures ont 4 roues

La Peugeot 106 a 4 roues

16.2.3 - L’INDUCTION

C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer des conclusions à partir d’une série de faits. Exemples :

Exemple 1 Exemple 2La Clio a 4 rouesLa Peugeot 106 a 4 rouesLa Laguna a 4 rouesLa Corsa a 4 roues

La Clio a 4 rouesLa Peugeot 106 a 4 rouesLa Laguna a 4 rouesLa Corsa a 4 rouesUn patin à roulettes a 4 roues

Toutes les voitures ont 4 roues (100 %) Les voitures ont 4 roues (80 %)

Tableau 34 : exemples d'induction.

La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte est forte.

La recherche d’informations se fait généralement par des mécanismes d’induction.

La déduction est plutôt utilisée pour vérifier la cohérence des informations.




17 - LES TACHES DU DATA MINING

Contrairement aux idées reçues, le data mining n’est pas le remède miracle capable de résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans leur formalisation, dans l’une des tâches suivantes :

Classification, Estimation, Prédiction, Groupement par similitudes, Segmentation (ou clusterisation), Description, Optimisation.

Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble raisonnable de les définir.

17.1 - LA CLASSIFICATION

La classification se fait naturellement depuis déjà bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espèces animales, minérales ou végétales).

“ La classification consiste à examiner des caractéristiques d’un élément nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. ” [BERRY97]

Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat de la classification viendra alimenter un champ supplémentaire.

La classification permet de créer des classes d’individus (terme à prendre dans son acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert / bleu, ...

Les techniques les plus appropriées à la classification sont :

les arbres de décision, le raisonnement basé sur la mémoire, éventuellement l’analyse des liens.




17.2 - L’ESTIMATION

Contrairement à la classification, le résultat d’une estimation permet d’obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc ...). Il sera ensuite possible de définir des tranches de revenus pour classifier les individus. Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing, combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes.

La technique la plus appropriée à l’estimation est :

les réseaux de neurones.

17.3 - LA PREDICTION

La prédiction ressemble à la classification et à l’estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la qualité de la prédiction est d’attendre !

Les techniques les plus appropriées à la prédiction sont :

L’analyse du panier de la ménagère Le raisonnement basé sur la mémoire Les arbres de décision les réseaux de neurones

17.4 - LE REGROUPEMENT PAR SIMILITUDES

Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement ensembles.

La technique la plus appropriée au regroupement par similitudes est :

L’analyse du panier de la ménagère




17.5 - L’ANALYSE DES CLUSTERS

L’analyse des clusters consiste à segmenter une population hétérogène en sous-populations homogènes. Contrairement à la classification, les sous populations ne sont pas préétablies.

La technique la plus appropriée à la clusterisation est :

L’analyse des clusters

17.6 - LA DESCRIPTION

C’est souvent l’une des premières tâches demandées à un outil de data mining. On lui demande de décrire les données d’une base complexe. Cela engendre souvent une exploitation supplémentaire en vue de fournir des explications.

La technique la plus appropriée à la description est :

L’analyse du panier de la ménagère

17.7 - L’OPTIMISATION

Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du data mining.

La technique la plus appropriée à l’optimisation est :

Les réseaux de neurones




17.8 - ILLUSTRATION DES TACHES DU DATA MINING

Prenons une base de données simple de suivi des militaires, du point de vue carrière et affectations, établie selon le modèle suivant :

Figure 17 : modèle informatique de la base de données militaires

Nous retrouvons les fichiers militaires, affectations, garnisons, et carrières. Sur cet exemple, voyons comment utiliser chaque tâche du data mining. Nous supposons que le travail de préparation des données est fait.

La classification

Déterminer le grade en fonction du sexe, de l'âge, l'ancienneté, le salaire et les affectations.Déterminer le sexe en fonction de l'âge, l'ancienneté, le salaire et les affectations.

L’estimation

L'estimation se fait sur des variables continues :

Estimer l'âge en fonction du grade, sexe, ancienneté et affectationsEstimer le salaire en fonction de l'âge, sexe, ancienneté et affectations

La prédiction

Dans cet exemple, nous pouvons prédire par exemple quelle sera la prochaine affectation d'un militaire.




Le regroupement par similitudes

En utilisant cette technique, nous pouvons déterminer des règles de type : le militaire qui est sergent entre 25 et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilité de n %).

La segmentation (ou clusterisation)

Nous pouvons essayer de segmenter les militaires en fonction de leurs parcours (suivi de la carrière) et affectations.

La description

Dans cet exemple, la description se fera surtout autour des indicateurs statistiques traditionnels : âge moyen, pourcentage de femmes, salaire moyen

L’optimisation

L'exemple qui suit est fictif :Compte tenu des effectifs nécessaires dans chaque grade pour chaque garnison et connaissant les contraintes: on ne peut revenir dans une garnison qu'au moins 5 ans après en être sorti, un militaire doit changer d'affectation au moins tous les 3 ans, … comment affecter au mieux les militaires l'année prochaine ?

17.9 - SYNTHESE

Les sept tâches du data mining sont :

La classification,L’estimation,La prédiction,

Le regroupement par similitudes,La segmentation (ou clusterisation),

La description,L’optimisation.




18 - LE CERCLE VERTUEUX

On ne met pas en œuvre une technique de data mining pour faire une simple exploration. Il faut l'inscrire dans un contexte plus global, appelé le cercle vertueux. Celui-ci est composé de quatre étapes :

Identifier le domaine d'étude Préparer les données Agir sur la base de données Evaluer les actions

La première étape consiste à identifier le domaine d'étude. Il faut répondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on définit un objectif général. Lorsque le domaine est délimité, il faut recenser les données relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, même si ce n'est pas recommandé. La troisième étape consiste à mettre en œuvre une ou plusieurs techniques de data mining pour une première analyse. Après évaluation et étude des résultats, des actions sont mises en œuvre. La dernière étape consistera à évaluer ces actions, et par-là même la performance du data mining, voire le retour sur investissements. L'achèvement du premier cycle débouche souvent sur l'expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape …

Tableau 35 : le cercle vertueux du data mining




19 - METHODOLOGIE DE DATA MINING

Le data mining s’inscrit dans une approche plus large de recherche en 4 étapes :

Poser et formaliser le problème (ou l’étude) le data mining mise en œuvre de solutions ou d’actions évaluation

Pour mener à bien une action de data mining, il existe deux possibilités méthodologiques : le test d’hypothèse et/ou la découverte de connaissances (dirigée ou non).

19.1 - LE TEST D’HYPOTHESES

Il s'agit d'une approche descendante : cette technique consiste à émettre des hypothèses, soit issues d’une analyse préalable de type statistique, soit en fonction de l’expérience ou l’imagination de chacun. Chaque hypothèse doit être validée par les données existantes, éventuellement par des études menées en parallèle.

19.1.1 - PROCESSUS DU TEST D'HYPOTHESE

La méthode du test d'hypothèse se déroule ainsi :

Générer de bonnes idées Déterminer quelles données permettront de tester ces idées Localiser les données Préparer les données pour l'analyse Construire des modèles informatiques Evaluer les modèles informatiques

19.1.1.1 - GÉNÉRER DE BONNES IDÉES

C'est le travail de base du processus. Il est souhaitable de réunir les différents représentants des secteurs de l'entreprise, ce qui permet à chacun de réagir aux idées des autres en fonction de son niveau d'expertise. Généralement les problèmes ne sont vus que du seul point de vue d'un indicateur qui représente souvent un objectif à atteindre. On demandera par exemple à un commercial d'atteindre un certain volume de vente ou de chiffre d'affaires mais plus rarement de répondre à des questions comme "quelle est la durée de vie active des clients ?" ou "quelle est la dépense globale des clients au cours de leur relation avec l'entreprise et comment évolue-t-elle ?", etc... Le travail en groupes doit permettre à l'entreprise de se poser de nouvelles questions pour générer de bonnes idées.




19.1.1.2 - DÉTERMINER LES DONNÉES POUR TESTER LES IDÉES

Lorsque les hypothèses sont posées, il faut déterminer quelles données vont permettre de valider ou d'invalider ces hypothèses. Par exemple, une banque souhaitait savoir les motifs de clôture des comptes. Une réunion de brainstorming a permis de déterminer des causes possibles de clôture de compte, non liées à la politique de la banque (ce qui exclut les clients mécontents après une hausse de tarifs, ...) :

Cause Symptôme

Le client est mort. Les transactions cessent.

Le client a déménagé dans une ville où la banque n'a pas d'agence.

Utilisation accrue des distributeurs automatiques et localisation différente de ces distributeurs.

Le client s'est marié; le conjoint restant fidèle à son ancienne banque ils y ont maintenant un compte joint.

Réduction du solde et du nombre des transactions, demande de changement de nom (si c'est une cliente).

Le client a changé de travail et n'est plus payé par virement.

Arrêt des versements mensuels.

Le client a changé de travail et il existe une agence d'une autre banque très proche de son bureau.

La plupart des transactions au distributeur automatique se passent à un autre endroit, qui appartient à une banque différente.

Tableau 36 : causes possibles de clôture d'un compte bancaire.

A partir de cette analyse, il est devenu aisé de déterminer les données utiles pour permettre de valider chacune des hypothèses.

19.1.1.3 - LOCALISER LES DONNÉES

Les techniques de data mining sont consommatrices de gros volumes de données. Idéalement, celles-ci se trouvent toutes présentes dans l'entreprise. Ceci est rarement le cas car il est fréquent d'avoir recours à des données externes : indices socio-démographiques, enquêtes de consommation, indicateurs économiques, etc... De plus, les données présentes dans l'entreprise sont souvent disséminées dans les divers systèmes existants : applications bureautique, données issues de la production, données provenant de systèmes de mesure ou autres systèmes électroniques, ...




19.1.1.4 - PRÉPARER LES DONNÉES POUR L'ANALYSE

Les données brutes sont rarement directement exploitables pour une opération de data mining. Elles sont souvent issues de systèmes dont la vocation est la production et nécessitent des adaptations, voire des transformations : codages, calculs, création de données combinées calculées. Plusieurs problèmes se posent :

Définir le bon niveau de résumé, Les architectures informatiques incompatibles, Le codage incohérent des données, Les données textuelles, Les valeurs manquantes.

19.1.1.4.1 - 19.1.1.4.1 - Définir le bon niveau de résuméDéfinir le bon niveau de résumé

Quel est le bon niveau de détail ? Il faut définir le bon niveau de détail en fonction du problème posé. Les données non résumées risquent d'être trop fines et occuper un espace disque important. Le risque est alors grand pour que l'on utilise une fonction de regroupement (fonction GROUP BY en SQL) pour faciliter l'exploitation. Dans ce cas, il est préférable de résumer dès le départ les données mais le risque est de trop résumer et de manquer dès le départ une notion qui pourrait être importante pour l'analyse.

Le codage permet également de résumer un ou plusieurs champs. Par exemple, sur une étude démographique, il est intéressant de codifier l'adresse pour faire ressortir le département (ce qui permet de codifier la région), la zone d'habitation (urbaine, périurbaine, campagne, …), etc…

19.1.1.4.2 - 19.1.1.4.2 - Les architectures informatiques incompatiblesLes architectures informatiques incompatibles

Les ordinateurs ne possèdent pas tous le même système d'exploitation ni système de codage (EBCDIC, ASCII, …).De même, les formats de données numériques peuvent être différents d'un système à l'autre. Il sera souvent préférable d'importer les données dans un système unique (le data warehouse), ce qui évite ce type de problème. Sinon, il faut prévoir des outils pour faire le transcodage.

19.1.1.4.3 - 19.1.1.4.3 - Le codage incohérent des donnéesLe codage incohérent des données

Ce type de problème se trouve accentué lorsque les données proviennent de sources multiples. Il faudra toujours, surtout si les données sont hétérogènes, s'assurer qu'un même code est interprété de la même manière. Dans le cas contraire, il faut homogénéiser les codages soit en créant un nouveau codage, soit en utilisant l'un de ceux utilisés comme référence.




19.1.1.4.4 - 19.1.1.4.4 - Les données textuellesLes données textuelles

Les données textuelles (champs au format texte) posent beaucoup de problèmes et sont souvent non utilisées. Il est très difficile d'extraire d'un champ texte une donnée, sauf ci le champ correspond à un codage connu ou s'il est très contraint (code postal, numéro de sécurité sociale ou de plaque d'immatriculation de véhicule,…). La méthode de codage la plus simple et la plus utilisée consiste à créer un tableau de transcodage avec un champ contenant une valeur possible et le résultat codé. On pourra ainsi transformer les différentes orthographes possibles d'une commune (avec toutes les formes d'abréviations imaginables) pour ressortir le code postal ou rechercher dans un texte d'adresse les mots : Angleterre, Ecosse, Irlande, Pays de galles, … et y associer un code pays. Il faut noter cependant que depuis quelques mois apparaissent des outils de text mining qui facilitent ces tâches.

19.1.1.4.5 - 19.1.1.4.5 - Les valeurs manquantesLes valeurs manquantes

Ce type de problème est fréquent et bien connu des enquêteurs et statisticiens : que faire des valeurs manquantes ? Il existe quatre possibilités :

supprimer la colonne, ne pas prendre en compte la ligne, codifier la donnée pour la signaler manquante, évaluer cette valeur.

Les deux premières solutions sont à éviter car elles nous privent de données qui pourraient être très importantes.Repérer les données manquantes est une possibilité intéressante car ces absences peuvent être significatives d'une population ou d'un comportement.Habituellement la dernière solution est retenue. De nombreuses techniques statistiques et de data mining permettent de faire des estimations fiables.Quoi qu'il en soit, les valeurs manquantes méritent une attention particulière, surtout si elles sont nombreuses. Dans ce dernier cas, les estimations ne seront pas fiables et les résultats de l'analyse par les techniques de data mining seront faussées !

19.1.1.5 - CONSTRUIRE DES MODÈLES INFORMATIQUES

Si l'on adopte la démarche du test d'hypothèses, on commence avec un modèle mental. Il va falloir formaliser le problème en vue de le transformer en modèles informatiques. Une hypothèse comme "les familles avec des enfants en âge de fréquenter l'enseignement supérieur répondent plus favorablement à tel type d'offre" doit être traduit dans un modèle informatique avant d'être testée sur des données réelles.




19.1.1.6 - EVALUER LES MODÈLES INFORMATIQUES

C'est la dernière étape : il s'agit d'appliquer le modèle informatique aux données réelles pour voir comment les hypothèses se vérifient. Même si nous posons une question qui paraît demander la réponse oui ou non comme "est-ce que les femmes répondent mieux à telle offre commerciale ?", les résultats devront être évalués et interprétés : comment quantifier la différence ? Est-elle significative ? Si oui, faut-il concevoir deux offres différentes ? Les hommes représentent-ils une part importante pour ce marché ?L'exploitation correcte des résultats de l'exploitation des données demande en même temps des connaissances analytiques et spécifiques au domaine. Si personne ne possède toutes ces connaissances à la fois, il faudra une coopération entre les divers spécialistes.

19.1.2 - SYNTHESE

Pour mettre en œuvre une méthode de data mining dans le cadre du test d'hypothèse, la méthodologie est la suivante :

Générer de bonnes idéesDéterminer quelles données permettront de tester ces idées

Localiser les donnéesPréparer les données pour l'analyse.

Construire des modèles informatiquesEvaluer les modèles informatiques




19.2 - LA DECOUVERTE DE CONNAISSANCES

Il s'agit d'une approche ascendante : cette technique consiste à partir des données pour tenter d'en extraire une information pertinente et inconnue. La découverte de connaissances est l’approche du data mining la plus significative et la plus souvent mise en avant. Les logiciels de data mining vont utiliser les techniques statistiques et de raisonnement examinées précédemment, en y associant d’autres techniques (présentées plus loin). On distinguera la découverte de connaissances dirigée et non dirigée.

La découverte de connaissances non dirigée sert à reconnaître les relations exprimées par les données tandis que la découverte dirigée permet d'expliquer

ces relations une fois qu'elles ont été trouvées.

19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE

Cette technique est également appelée apprentissage sans supervision. Historiquement, c’était la vocation des logiciels de data mining. On fournit au logiciel une base de données et celui-ci recherche des structures significatives et retourne un ensemble de connaissances. Celles-ci sont généralement exprimées sous forme de règles, du type :

Si achat de riz ET de vin blanc, alors achat de poisson

A chaque règle est associé un indicateur de confiance (ici : nombre de personnes ayant acheté riz, vin blanc et poisson divisé par le nombre de personnes ayant acheté riz et vin blanc) qui permet de quantifier la fiabilité de la règle. Une valeur de 0.84 signifie que 84 % des gens qui ont acheté du riz et du vin blanc ont acheté du poisson.

Ce critère n’est pas suffisant car il faut en outre que l’effectif soit significatif. En effet, si une règle ne concerne qu’un ou deux individus même avec 100 % de confiance, elle devra être rejetée car non suffisamment significative.Les règles d’association peuvent également se dérouler dans le temps : telle action à un instant t entraînera tel résultat à un autre instant. Il faut alors posséder suffisamment de données historisées pour avoir une bonne fiabilité des résultats. La technique qui consiste à prévoir le comportement d’une variable dans le temps en fonction du passé s’appelle le “ forecasting ”.




19.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE

La découverte de connaissances non dirigée se déroule en suivant les étapes suivantes :

Identifier les sources de données disponibles Préparer les données pour l'analyse Construire et instruire le programme informatique Evaluer le modèle informatique Appliquer le modèle informatique à de nouvelles données Identifier les cibles potentielles pour la découverte de connaissances dirigée Générer de nouvelles hypothèses à tester

19.2.1.1.1 - 19.2.1.1.1 - Identifier les sources de données disponiblesIdentifier les sources de données disponibles

Les processus de découvertes de connaissances sont basés sur le fait que la connaissance ou la réponse aux questions que l'on se pose se trouve dans les données. Par conséquent, la qualité des données est la première exigence de ce type d'analyse.

L'idéal est de travailler à partir des données archivées dans l'entreprise. Mais celles-ci sont prévues généralement pour la production, avec des formats adaptés aux meilleurs temps de réponse, voire même conservés sur des bandes magnétiques.

Il va donc falloir identifier les données, les localiser, identifier les formats et codages, … Un travail organisationnel et logistique important est nécessaire pour disposer des données sous une forme utile en vue de la découverte de connaissances.

19.2.1.1.2 - 19.2.1.1.2 - Préparer les données pour l'analysePréparer les données pour l'analyse

Après le travail de repérage et d'identification décrit dans l'étape précédente, il faut préparer les données pour l'analyse. Cette étape est de loin la plus importante car la qualité des résultats obtenus est très fortement liée à la qualité de cette préparation.

On distinguera plusieurs étapes dans cette préparation :

regrouper les données et les transformer distribuer les données




19.2.1.1.2.1 - 19.2.1.1.2.1 - Regrouper les données et les transformerRegrouper les données et les transformer

C'est la première étape qui consiste à regrouper, rapatrier, transcoder, transformer les données. Il faut faire face aux incompatibilités entre les différents systèmes informatiques de l'entreprise, importer les données externes, regrouper l'ensemble dans un format propice à l'exploitation par une application de data mining.

Parfois, on souhaitera agréger les données ou les regrouper.

Enfin, il est souvent utile de rajouter des champs supplémentaires, issus de résultats de calculs ou transformations depuis des champs existants. Ceci est particulièrement vrai si l'on cherche des relations entre champs ou pour suivre des évolutions dans le temps. A titre d'exemple, on pourrait citer :

Index d'obésité = taille ² / poids Ecart de solde = solde précédent - solde actuel Densité = population / surface Taux de transport = nombre de passagers * nombre de kilomètres

Ces travaux sont prévus voire automatisés dans le cadre de la mise en œuvre d'un data warehouse.

19.2.1.1.2.2 - 19.2.1.1.2.2 - Distribuer les donnéesDistribuer les données

Une fois les données obtenues, il va falloir les distribuer en trois parties :

Ensemble d'apprentissageEnsemble de test

Ensemble d'évaluation

Ces trois ensembles devront être distincts (n'avoir aucun enregistrement en commun).

L'ensemble d'apprentissage est utilisé pour construire le modèle initial. C'est depuis cet ensemble que le système va calculer ses différents paramètres.

Une fois les paramètres calculés, il faut vérifier comment ils se comportent sur l'ensemble de test. Celui-ci va permettre d'ajuster les valeurs trouvées à l'étape précédente et les rendre moins sensibles à l'ensemble d'apprentissage.

Enfin, les paramètres seront testés sur l'ensemble d'évaluation. Si les résultats obtenus sont proches de ceux attendus, on pourra alors valider le système. Dans le cas contraire, il faudra analyser les raisons de cette différence. Pour mesurer la validité des résultats obtenus, on utilisera les outils statistiques traditionnels (le khi2 par exemple).




Comment construire ces ensembles ?

Il n'existe pas de réponse simple à cette question. Dans certains cas, on utilisera les méthodes statistiques d'échantillonnage pour constituer ces ensembles. Cependant, surtout si l'on se trouve dans un contexte de data warehouse, il est préférable de prendre de grands volumes (au moins 10 000 enregistrements) pour être sûr que statistiquement l'ensemble est représentatif (loi de la probabilité forte des grands nombres).

Il faut cependant respecter quelques règles :

Dans une analyse statistique traditionnelle, il est fréquent de choisir les variables à analyser pour tenter par exemple de déterminer la corrélation de l'une par rapport à une autre. De même, on supprime souvent certains champs trop complexes ou insuffisamment alimentés (valeurs absentes). Dans une approche de data mining, il est préférable de soumettre l'ensemble des données et laisser l'outil déterminer lui-même les données utiles car les champs absents ou complexes peuvent déboucher sur des connaissances importantes !

Enfin, il faut être vigilant dans la constitution des ensembles. Il faut se rappeler en permanence que leur but n'est pas d'être représentatifs de la population d'origine mais qu'il s'agit d'un ensemble d'apprentissage. C'est à partir de ces données que le système va se créer ses règles et paramètres. Il est donc souvent utile de surdimensionner certains ensembles utiles à l'apprentissage. Par exemple, une entreprise pourrait s'intéresser aux clients susceptibles de répondre favorablement à une offre commerciale. Supposons que dans les données historiques de l'entreprise seul 1 % des clients aient répondu favorablement à cette offre. Il sera souhaitable d'augmenter significativement (au moins 10 %) cette population pour que le logiciel d'exploitation puisse identifier facilement cette population et reconnaître parmi les nouveaux clients ceux qui sont susceptibles d'être intéressés par cette offre. On procédera de la même manière pour mettre en évidence toute population présentant un profil intéressant pour l'entreprise : recherche de bons ou mauvais clients, de fraudeurs, etc…

19.2.1.1.3 - 19.2.1.1.3 - Construire et instruire le programme informatiqueConstruire et instruire le programme informatique

Dans cette étape se réalisent les premières opérations d'analyse de données (terme à considérer dans son acception statistique). Il s'agit de rechercher la ou les techniques à mettre en œuvre et réaliser / mettre en œuvre le programme.




19.2.1.1.4 - 19.2.1.1.4 - Evaluer le modèle informatiqueEvaluer le modèle informatique

La plus grande difficulté est de déterminer le volume d'apprentissage optimal. Pour ce faire, il faut tester les données connues et inconnues. Si les données connues sont trop importantes, on risque de trouver des paramètres d'estimation très précis sur cette population mais qui donneront des valeurs très médiocres sur une population inconnue. Le résultat sera similaire si le volume d'apprentissage est trop faible. Il faut donc trouver un compromis, comme illustré sur la figure qui suit.

Graphique 2 : déterminer le volume optimal d'apprentissage

19.2.1.1.5 - 19.2.1.1.5 - Appliquer le modèle informatique à de nouvelles donnéesAppliquer le modèle informatique à de nouvelles données

Lorsque le modèle ou l'apprentissage est effectué, il faut l'appliquer à de nouvelles données. Cette étape permet au système d'appliquer ses connaissances a ces données.

19.2.1.1.6 - 19.2.1.1.6 - Identifier les cibles potentielles pour la découverte de connaissances dirigéeIdentifier les cibles potentielles pour la découverte de connaissances dirigée

Dans la suite logique de l'étape précédente, l'utilisateur va exploiter les conclusions et connaissances. Cela débouche sur de nouvelles interrogations qui se traduisent généralement par une approche de découverte de connaissances dirigée.




19.2.1.1.7 - 19.2.1.1.7 - Générer de nouvelles hypothèses à testerGénérer de nouvelles hypothèses à tester

C'est la dernière étape : les nouvelles connaissances générées aux étapes précédentes permettent de générer de nouvelles hypothèse, qu'il faut retravailler. Nous entrons ici dans le cadre du test d'hypothèses.

19.2.1.2 - SYNTHESE

Dans un processus de découverte de connaissances non dirigée, il faut :

Identifier les sources de données préclasséesPréparer les données pour l'analyse

Construire et instruire le programme informatiqueEvaluer le modèle informatique

Appliquer le modèle informatique à de nouvelles donnéesIdentifier les cibles potentielles pour la découverte de connaissances dirigée

Générer de nouvelles hypothèses à tester




19.2.2 - LA DECOUVERTE DE CONNAISSANCES DIRIGEE

C'est le type d'analyse le plus utilisé. La découverte de connaissances dirigée consiste à expliquer un (ou plusieurs) champ en fonctions d’un ou plusieurs autres. Le champ cible est spécifié par l’utilisateur. La connaissance extraite peut être une fonction du temps : un événement du passé explique une valeur actuelle.

19.2.2.1 - METHODOLOGIE

Au niveau méthodologique, le principe est le même que pour la découverte de connaissances non dirigée. La seule différence est que dans le cas précédent, les connaissances générées débouchent soit vers un test d'hypothèse, soit vers un processus de découverte de connaissances dirigées. Pour mémoire (voir explications au chapitre précédent), voici les étapes à réaliser :

Identifier les sources de données préclassées

Préparer les données pour l'analyse

Construire et instruire le programme informatique

Evaluer le modèle informatique

19.2.2.2 - SYNTHESE

Dans un processus de découverte de connaissances dirigée, il faut :

Identifier les sources de données préclasséesPréparer les données pour l'analyse

Construire et instruire le programme informatiqueEvaluer le modèle informatique




20 - L'EVALUATION

On a souvent tendance à négliger ou sous estimer les problèmes d'évaluation. L'entreprise qui entreprend une démarche de data mining, surtout si elle est associée à la mise en œuvre d'un data warehouse, engage des dépenses très importantes et attend par conséquent un retour d'investissement.

Pour assurer la rentabilité finale d'un projet, il va falloir en mesurer l'efficacité tout au long du processus. Chaque modèle, chaque règle doit être évalué, validé.

Une technique d'évaluation consiste à établir le rapport du résultat obtenu sur une population ciblée (depuis un outil de data mining) par celui qui aurait été obtenu sur la population totale. Ce rapport s'appelle taux de support ou taux de surconcentration. En fait, il mesure l'amélioration. Mais ce rapport doit être pris avec précaution car il ne tient pas compte de l'effectif de chaque classe : si l'on obtient un taux très élevé sur une population de trois ou quatre individus statistique, la règle perd tout son attrait alors qu'une autre règle avec un taux très faible peut avoir un impact bien plus important.

De nombreuses techniques de data mining possèdent leurs propres règles d'évaluation. A celles-ci, nous pouvons ajouter les outils statistiques traditionnels : calculs de moyennes, écarts types, Khi2, ratios de gestion, etc… mais le problème de l'évaluation est plus complexe qu'il ne semble. Pour illustrer ces propos, voici quelques exemples :

Si une règle permet d'espérer un gain de clientèle de 5% et un gain de bénéfice de 1% mais qu'un autre règle permet un gain de clientèle de 1% avec un gain de bénéfice de 2%, laquelle sera la meilleure ?

Si nous rajoutons les coûts liés à la mise en œuvre des solutions trouvées, quelle est la meilleure solution ?

Il n'y a pas de réponse à priori pour ces problèmes stratégiques.

La manière la plus sage de raisonner en terme de data mining est de définir précisément au préalable l'objectif de l'analyse. L'évaluation en sera d'autant plus aisée. Un objectif est précis, chiffré et situé dans le temps. On saura si l'objectif est atteint que si ce dernier est posé. Ceci paraît évident mais l'expérience montre que c'est loin d'être toujours le cas ! Idéalement, les outils ou critères de l'évaluation finale sont définis en même temps que l'objectif.

L'évaluation doit être présente tout au long de la démarche de data mining !




21 - PRESENTATION RAPIDE DES TECHNIQUES

21.1 - ANALYSE DU PANIER DE LA MENAGERE

L'analyse du panier de la ménagère est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de découverte de connaissances non dirigée (de type analyse de clusters) qui génère des règles et supporte l'analyse des séries temporelles (si les transactions ne sont pas anonymes). Les règles générées sont simples, faciles à comprendre et assorties d'une probabilité, ce qui en fait un outil agréable et directement exploitable par l'utilisateur métier. Exemple :

Le client qui achète de la peinture achète un pinceauLe client qui achète un téléviseur achète un magnétoscope sous 5 ans.

21.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE

Le raisonnement basé sur la mémoire (RBM) est une technique de prédiction et de classification utilisée dans le cadre de la découverte de connaissances dirigée. Elle peut être également utilisée pour l'estimation. Pour chaque nouvelle instance présentée, le système recherche le(s) voisin(s) le(s) plus proche(s) et procède ainsi à l'affectation ou estimation. L'avantage du RBM est qu'il est facile à mettre en œuvre, très stable (les nouvelles données n'entraînent pas de refaire fonctionner un système de calcul) et supporte tout type de données.

21.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS

La détection automatique de clusters est une technique de découverte de connaissances non dirigée (ou apprentissage sans supervision). Elle consiste à regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe représente un cluster. C'est une excellente technique pour démarrer un projet d'analyse ou de data mining. Les groupes de similitudes permettront de mieux comprendre les données et d'imaginer comment les utiliser au mieux.




21.4 - L'ANALYSE DES LIENS

L'analyse des liens est une technique de description qui s'inspire et repose sur la théorie des graphes. Elle consiste à relier des entités entre elles (clients, entreprises, …) par des liens. A chaque lien est affecté un poids, défini par l'analyse, qui quantifie la force de cette relation. Cette technique peut être utilisée pour la prédiction ou la classification mais généralement une simple observation du graphe permet de mener à bien l'analyse.

21.5 - LES ARBRES DE DECISION

Les arbres de décision sont utilisés dans le cadre de la découverte de connaissances dirigée. Ce sont des outils très puissants principalement utilisés pour la classification, la description ou l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable, le système recherche le critère le plus déterminant et découpe la population en sous populations possédant la même entité de ce critère. Chaque sous population est ensuite analysée comme la population initiale. Le modèle rendu est facile à comprendre et les règles trouvées sont très explicites. Ce système est donc très apprécié.

21.6 - LES RESEAUX DE NEURONES

Les réseaux de neurones représentent la technique de data mining la plus utilisée. Pour certains utilisateurs, elle en est même synonyme. C'est une transposition simplifiée des neurones du cerveau humain. Dans leur variante la plus courante, les réseaux de neurones apprennent sur une population d'origine puis sont capables d'exprimer des résultats sur des données inconnues. Ils sont utilisés dans la prédiction et la classification dans le cadre de découverte de connaissances dirigée. Certaines variantes permettent l'exploration des séries temporelles et des analyses non dirigées (réseaux de Kohonen). Le champ d'application est très vaste et l'offre logicielle importante.Cependant, on leur reproche souvent d'être une "boite noire" : il est difficile de savoir comment les résultats sont produits, ce qui rend les explications délicates, même si les résultats sont bons.




21.7 - LES ALGORITHMES GENETIQUES

Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils permettent de résoudre des problèmes divers, notamment d'optimisation, d'affectation ou de prédiction. Leur fonctionnement s'apparente à celui du génome humain. Le principe de fonctionnement est le suivant : les données sont converties en chaînes binaires (comme les chaînes d'ADN - acide désoxyribo nucléique-). Celles-ci se combinent par sélection, croisement ou mutation et donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du résultat, les chaînes les plus faibles cèdent leur place aux plus fortes. Cette technique est particulièrement intéressante pour résoudre des problèmes d'affectation ou des problèmes sur lesquels on peut poser une fonction d'évaluation car elle peut trouver des solutions optimisées parfois inexistantes dans les données d'origine.

21.8 - LES AGENTS INTELLIGENTS OU KNOWBOT

Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont les plus récentes versions s'intègrent tout à fait dans le processus de data mining. Certains iront jusqu'à les considérer comme des outils de data mining. Certains d'entre eux, les plus élaborés, sont capables de suivre et mémoriser les mouvements, visites et achats sur Internet et permettent d'élaborer des profils d'utilisateurs pour leur faire des offres commerciales "un à un (one to one) ". L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en concurrence automatiquement gérés par ces agents.

21.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL)

Pour terminer ce tour d'horizon, nous évoquerons ici le TAEL (traitement analytique en ligne) car bien que ne faisant pas partie du data mining, il s'agit d'outils d'analyse de données souvent utiles en préalable au data mining. Le TAEL est une manière de présenter aux utilisateurs les données relationnelles afin de faciliter la compréhension des données et des formes importantes qu'elles recèlent. Ces outils s'appuient sur OLAP, ROLAP, et MOLAP.




22 - ANALYSE DU PANIER DE LA MENAGERE

22.1 - PRESENTATION

Appelée également recherche d'associations, l'analyse du panier de la ménagère (APM) est un processus de découverte de connaissances non dirigée. Cette technique permet, comme l'indique son nom, d'étudier quels articles ont tendance à être achetés ensembles et lesquels seront le mieux adaptés pour mettre en œuvre des techniques commerciales. Bien qu'elle soit issue du secteur de la distribution, on peut néanmoins appliquer cette technique dès lors que plusieurs actions sont effectuées par un même individu. Le système génère des règles d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans le temps : "Si action1 ou condition à l'instant t1 alors action2 à l'instant t2". Enfin elles sont assorties d'une métrique de confiance. Exemples de règles :

Si achat de riz et de vin blanc, alors achat de poisson (84%)Si maladie X et traitement Y alors guérison (97%)Si maladie X et traitement Y alors guérison dans Z années (97%)Si achat de téléviseur alors achat de magnétoscope dans les 5 ans (45%)Si condition1 et condition2 alors fraudeur (62%)Si présence et travail alors réussite à l'examen (99,9%)

22.2 - UTILISATION

L'analyse du panier de la ménagère est utilisée pour découvrir des règles d'association et son but principal est donc descriptif. Dans la mesure ou les résultats peuvent être situés dans le temps, cette technique peut être considérée comme prédictive. On utilise souvent cette technique comme point de départ d'une analyse car les règles exprimées sont claires et explicites pour l'utilisateur métier. Lorsqu'une règle est identifiée comme intéressante à exploiter, on se tourne alors vers un processus de test d'hypothèses ou de découverte dirigée pour mieux explorer les données, mais en faisant appel à d'autres techniques.




22.3 - FONCTIONNEMENT

22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES

Pour mieux comprendre le fonctionnement de cette technique, prenons un exemple. Dans un supermarché, plusieurs clients font des achats. Ceux ci sont retranscrits sur des tickets de caisse. A partir de ces tickets nous obtenons une liste d'articles achetés par client, dont on dresse une liste récapitulative. Enfin on établit le tableau des cooccurrences, construit en mettant chaque article en ligne et en colonne puis en indiquant à l'intersection le nombre de clients ayant acheté les deux en même temps :

CLIENT ARTICLES ACHETES1 Jus d'orange, eau minérale2 Lait, jus d'orange, nettoyant vitres3 Jus d'orange, détergent4 Jus d'orange, détergent, eau minérale5 Nettoyant vitres, eau minérale

Tableau 37 : liste des achats par client pour l'analyse du panier de la ménagère.

Jus d'orangeNettoyant

vitresLait

Eau minérale

Détergent

Jus d'orange 4 1 1 2 1Nettoyant vitres 1 2 1 1 0Lait 1 1 1 0 0Eau minérale 2 1 0 3 1Détergent 1 0 0 1 2

Tableau 38 : tableau des cooccurrences

Il est possible de créer un tableau non plus à deux dimensions mais à n. On indiquera alors le nombre d'occurrences pour chaque n-upplet. Mais au-delà de deux, on perd en lisibilité et C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 158

Jus d'orangeEau

Total : xxx Frs

LaitJus d'orangeNettoyant vitresTotal : xxx Frs

Jus d'orangeDétergent

Total : xxx Frs



surtout le tableau croît de manière exponentielle (un tableau de dimension n pour p articles

nécessite d'alimenter np cellules), ce qui génère beaucoup de matrices creuses. Nous

déconseillons ces tableaux, d'autant que l'intérêt pour l'exploitation est limité.

22.3.2 - LIRE ET INTERPRÉTER LE TABLEAU

Jus d'orange

Nettoyant vitres

LaitEau

minéraleDétergent

Jus d'orange 4 1 1 2 1Nettoyant vitres 1 2 1 1 0Lait 1 1 1 0 0Eau minérale 2 1 0 3 1Détergent 1 0 0 1 2

Tableau 39 : rappel du tableau des cooccurrences

Dès que le tableau des cooccurrences est établi, une première lecture simple permet d'obtenir les premiers renseignements :

Une lecture sur la diagonale (fond jaune) permet de connaître le nombre d'unités vendues de chaque article,

L'article le plus vendu est le jus d'oranges, Le jus d'oranges et l'eau minérale sont plus vendus ensembles que tout autre couple

d'articles, Le lait n'est jamais acheté en même temps que l'eau minérale ou le détergent, Le détergent n'est jamais acheté en même temps que le nettoyant vitres ou le

détergent.

22.4 - LES REGLES

22.4.1 - GÉNÉRER DES RÈGLES

La lecture du tableau (ou son traitement informatique) permet de générer les premières règles. Il suffit de chercher les valeurs les plus élevées, non situées sur la diagonale pour formuler les règles du type : si achat <produit en ligne>, alors achat <produit en colonne>. Dans notre exemple, on pourra dire :

Si un client achète du jus d'orange, alors il achètera de l'eau.

Mais ces règles ne signifient que peu de choses si on ne leur associe pas une métrique de probabilité ou d'espérance. Pour l'analyse du panier de la ménagère, cette métrique s'appelle le niveau de confiance. On utilise également les statistiques.




22.4.2 - TYPOLOGIE DES RÈGLES

L'analyse du panier de la ménagère génère trois types de règles : utiles, triviales, ou inexplicables.

22.4.2.1 - LA RÈGLE UTILE

La règle utile contient une information de qualité, exploitable. Elle est généralement facile à justifier et à comprendre. Si elle est retenue, elle débouche rapidement vers une action.

22.4.2.2 - LA RÈGLE TRIVIALE

La règle triviale ressemble aux Lapalissades. Elle souligne des évidences ou le résultat d'actions précédentes. Elles ont la particularité d'avoir des taux de confiance élevés. Ce sont des règles valides, avérées sur des volumes importants mais totalement inexploitables et inutiles. Exemples :

Si Titulaire de carte jeunes, alors moins de 25 ans (100%)Si achat1 alors achat2 (100 %)Si les articles concernés sont toujours vendus ensembles (en lot), cette règle est en fait une conséquence. On retrouve également dans cette catégorie le succès de certaines campagnes promotionnelles tout à fait intéressantes. Par exemple les opérations qui pour l'achat d'un article vous en offrent un second pour un franc de plus.

22.4.2.3 - LA RÈGLE INEXPLICABLE

Les règles inexplicables sont difficiles à exploiter directement. Par exemple : "si nouvelle quincaillerie alors achat abattants de toilettes". Les explications possibles sont nombreuses mais une enquête complémentaire est nécessaire à la compréhension de la règle : l'article est-il bien en vue lors de l'ouverture puis caché ensuite ? Le résultat est-il propre à certains magasins ? L'article est-il difficile à trouver ? …

L'analyse du panier de la ménagère fournit trois types de règles :


Utiles, Triviales, Inexplicables.



22.5 - METTRE EN ŒUVRE LA TECHNIQUE

22.5.1 - LA TAXINOMIE

Un supermarché gère environ 100 000 références différentes. Si l'on devait appliquer l'analyse sur tous les articles, cela représenterait un tableau des cooccurrences de 10 milliards (100 000²) de cellules à alimenter pour seulement des associations de deux articles ! Il faudrait donc des espaces disques importants (capacités en téra-octets) et des temps de traitements en conséquence. Tout cela n'est aujourd'hui pas très raisonnable et les coûts induits seraient importants. Pour palier à ce problème, on applique la taxinomie (on utilise également le terme de taxonomie) : cela consiste à regrouper les articles, à les généraliser sous un même terme générique, une même rubrique : les chocolats noirs, au lait, de différentes marques, aux noisettes, allégés, etc… seront tous regroupés sous le terme chocolat.

22.5.2 - LES ARTICLES VIRTUELS

Pour améliorer la performance du système, il est fréquent de rajouter des articles virtuels. Cela peut représenter des informations transversales pour regrouper les articles d'une autre manière que la taxinomie : produits allégés, produits issus de l'agriculture biologique ou une marque que l'on pourrait trouver dans plusieurs rubriques. On utilise également les articles virtuels pour donner des indications supplémentaires sur la transaction : donnée temporelle (jour de la semaine, heure, mois, saison, …), mode de paiement, météo, … et si possible des données sur le client (satisfaction, type d'habitat, catégorie socioprofessionnelle, âge, statut matrimonial, etc …). Ce type d'article fournit des règles du type : "si printemps et jardin alors achat de gants de jardinage".

22.5.3 - LES REGLES DE DISSOCIATION

Une règle de dissociation est analogue à une règle d'association mais elle fait apparaître la notion de "non". Supposons que dans une entreprise, cinq produits (A,B,C,D,E) soient proposés aux clients. Si un client prend les produits A,B et D, alors il générera la transaction {A,B,non C,D et non E}. Ce procédé génère des règles comme : "si achat du produit A et du produit C alors non achat du produit E". L'inconvénient majeur de cette technique est qu'il fournit des règles où tout est nié : "si non A et non B alors non C". Les connaissances générées sont alors peu exploitables et débouchent rarement sur des actions concrètes.




22.5.4 - LES SERIES TEMPORELLES

L'analyse du panier de la ménagère n'est pas le meilleur outil pour étudier les séries temporelles. L'objet est bien de faire de la description et non de la prévision.

La seule contrainte est de disposer dans les données d'une information de temps ainsi qu'une clé d'identification de l'objet (principalement le client). La difficulté va alors consister à transformer les données en transactions. Plusieurs possibilités sont offertes :

Ajouter à chaque article la notion de temps : avant, après, en même temps.Créer des fenêtres temporelles, c'est à dire regrouper toutes les transactions effectuées dans un même intervalle de temps par un même individu. Cette technique permet de dégager des profils, surtout si l'on y associe des articles virtuels.

22.6 - EVALUER LES RESULTATS

Comme nous l'avons indiqué dans le chapitre sur l'évaluation (voir page 153), l'évaluation doit être un souci permanent. Pour évaluer cette technique, plusieurs indicateurs complémentaires sont utilisés.

22.6.1 - LA FRÉQUENCE

A chaque règle, il faut associer une mesure de confiance ou de probabilité. On peut commencer par une mesure statistique simple de probabilité : la fréquence. La règle vue dans le paragraphe précédent est vraie pour deux clients sur cinq, soit 40% des clients.

22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE

Dans le domaine de l'analyse du panier de la ménagère, on utilise un autre indicateur : le niveau de confiance. C'est la mesure de la probabilité dans la sous population concernée par la condition de la règle. Pour la règle "si achat de jus d'orange, alors achat d'eau minérale", nous examinons la population ayant acheté du jus d'orange (ici 4 individus) et dénombrons le nombre de fois où la règle est respectée. La proportion obtenue (ici 2 sur 4, soit 50 %) s'appelle le niveau (ou le taux) de confiance. En fait, il s'agit de la fréquence sur une sous population. Le niveau de confiance permet de mesurer la force de l'association. Il faut cependant être prudent avec cet indicateur car il n'intègre pas la notion d'effectif. Nous avons dans notre exemple un taux de confiance de 100% pour les deux règles suivantes :

Si achat de lait, alors achat de nettoyant vitres Si achat de détergent, alors achat de jus d'orange

Ces règles portent sur des effectifs respectifs de 1 et 2 individus. Elles sont donc très relatives, malgré un très bon taux de confiance.




22.6.3 - LE NIVEAU DE SUPPORT

Le niveau de support correspond au nombre de fois où l'association est respectée, ramenée au nombre de fois où l'un des articles est présent. Par exemple, la règle "Achat de détergent entraîne achat de jus d'orange présente un taux de confiance de 100 %. L'association est présente 2 fois mais le jus d'orange ou le détergent est présent chez 4 clients. Cela nous fait un taux de support de 2/4=50%. Le niveau de support permet de mesurer la fréquence de l'association.

22.6.4 - LE TAUX D'AMÉLIORATION

Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat sans condition ? Nous avons la règle : "si achat d'eau minérale, alors achat de jus d'orange". Cette règle est vraie pour 2 clients sur les trois qui ont acheté de l'eau. Le taux de confiance pour l'achat du jus d'orange dans ces conditions est donc de 2/3, soit 66%. Or 4 clients sur 5 achètent du jus d'orange, soit 80% ! Cette règle ne sera donc pas intéressante à exploiter car elle rajoute une condition pour un taux moins bon.

Pour mesurer l'amélioration apportée par la règle, on va donc diviser le taux de confiance par la fréquence de l'événement, soit ici : 0.66 / 0.80 = 0.83 (ou 83 %)Si le résultat est supérieur à 1, cela signifie que la règle (ou plus précisément le respect de la condition) apporte une amélioration sur le résultat. Dans le cas contraire, il faut renoncer à l'exploiter.

Le taux d'amélioration permet de mesurer la pertinence de l'association.

22.7 - LES POINTS FORTS

Les points forts de l'analyse du panier de la ménagère sont :

Les résultats sont clairs et explicites, Elle est adaptée à l'exploitation non dirigée des données, Elle traite des données de taille variable, La technique et les calculs sont simples à comprendre.




22.8 - LES POINTS FAIBLES

Les points faibles de l'analyse du panier de la ménagère sont :

Le volume de calculs croît au carré ou au cube du volume de données, Elle prend mal en compte les articles rares. Il est difficile de déterminer le bon nombre d'articles, Les attributs des articles (détails et quantités) sont souvent ignorés,

22.9 - QUAND L'UTILISER ?

Cette technique s'applique aux problèmes d'exploitation des données non dirigée, contenant des articles bien définis, qui se regroupent entre eux de manière intéressante. On l'utilise souvent en tant qu'analyse préalable car elle génère des règles susceptibles de soulever des interrogations ou des idées, ce qui débouchera sur d'autres analyses plus fines : test d'hypothèse ou découverte de connaissance dirigée pour expliquer un phénomène révélé.Bien que capable de résoudre de nombreux type de problèmes, sa vocation reste la description et l'on a souvent recours à d'autres techniques en complément.

22.10 - SYNTHESE

L'analyse du panier de la ménagère est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de

découverte de connaissances non dirigée (de type analyse de clusters) qui génère des règles et supporte l'analyse des séries temporelles (si les transactions ne sont

pas anonymes). Les règles générées sont simples, faciles à comprendre et assorties d'une probabilité, ce qui en fait un outil agréable et directement

exploitable par l'utilisateur métier.




23 - LE RAISONNEMENT BASE SUR LA MEMOIRE

23.1 - PRESENTATION

C'est une technique de découverte de connaissances dirigée utilisée dans un but de classification et de prédiction. Appelée également raisonnement à base de cas (RBC), ou Case Based Reasoning (CBR) en anglais, le raisonnement basé sur la mémoire (RBM) est l'équivalence de l'expérience chez l'homme : en fonction d'elle, tout le monde peut prendre une décision. Lorsqu'un médecin pose un diagnostic et un traitement, il applique sa connaissance du patient et de symptômes similaires au cas présent. Son processus sera l'identification des cas similaires, puis l'application de l'information provenant de ces cas au problème actuel. Le RBM fonctionne sur le même principe : lorsque l'on présente un nouvel enregistrement, le RBM trouve les voisins les plus proches et positionne ce nouvel élément. Le RBM s'applique à tous les types de données.

23.2 - UTILISATION

Le RBM s'adapte bien aux bases de données relationnelles, qui sont les plus courantes dans le domaine de gestion. Sa mise en œuvre est simple, ce qui en fait un outil apprécié. On peut l'utiliser pour estimer des éléments manquants, détecter des fraudes, déterminer le meilleur traitement d'un malade, prédire si un client sera intéressé ou non par telle offre, ou pour classifier les réponses en texte libre. La police Américaine a utilisé cette méthode récemment pour identifier (efficacement dans le cas présent) un criminel. En fonction des indices, un criminel virtuel a été créé. Présenté par le RBM à une base de criminels connus, celui-ci s'est retrouvé positionné près du véritable criminel !





Pour illustrer le fonctionnement du RBM, prenons un exemple simple. Considérons les ventes de voitures Renault, ventilées en fonction de l'âge et du nombre d'enfants de l'acheteur (voir Tableau 40).

Véhicule Age Enfants Véhicule Age EnfantsClio 25 0 Clio 27 1Espace 32 4 Megane 30 2Clio 28 1 Laguna 39 0Megane 30 2 Safrane 55 0Safrane 50 1 Clio 24 1Laguna 35 2 Megane 33 2Espace 40 3 Laguna 38 2Clio 30 1 Clio 22 0Megane 34 2 Megane 35 1Safrane 52 2 Laguna 39 2Laguna 38 1 Safrane 54 1Espace 34 5

Tableau 40 : ventes de voitures en fonction de l'âge et du nombre d'enfants

Ce tableau correspond au graphique suivant :

Graphique 3 : vente de voitures en fonction du nombre d'enfants et de l'âge du client


0 1 2 3 4 520

25

30

35

40

45

50

55

60

Ventes de voitures Renault

Clio Espace Laguna Megane Safrane

Nombre d'enfants

Ag

e



La consultation du graphique montre des zones bien nettes et permettent de déterminer, pour un nouveau client dont on connaît l'âge et le nombre d'enfants, le modèle susceptible de l'intéresser. Sur le graphique suivant, nous avons placé trois nouveaux clients (représentés par les étoiles numérotées). La notion de distance est la distance métrique. Dans ce cas, nous conseillerons au client 1 une Espace, au client 2 une Clio, au client 3 une Safrane :

Graphique 4 : positionnement de trois nouveaux clients

Cet exemple est volontairement simpliste mais son unique objectif est pédagogique. Dans une étude réelle, le vendeur est suffisamment compétent pour connaître ces informations. De plus, les zones seraient moins nettement définies. Enfin, il faudrait rajouter toutes les déclinaisons possibles pour un même modèle.

23.4 - METTRE EN ŒUVRE LE RBM

La mise en œuvre de cette technique est relativement simple. Il suffit de déterminer une fonction de calcul de distance et une fonction de combinaison.

23.4.1 - LA FONCTION DE DISTANCE

La fonction de distance mesure l'éloignement du nouvel item avec ceux déjà connus dans la base. De nombreuses possibilités sont offertes mais la fonction distance doit respecter les règles suivantes :

Une distance est toujours une valeur positive La distance d'un point à lui-même est nulle (identité) La distance de A à B est égale à la distance de B à A (commutativité) Il est impossible de raccourcir la distance de A à B en passant par un point C

(inégalité triangulaire)


0 1 2 3 4 520

25

30

35

40

45

50

55

60

Ventes de voitures Renault

Clio Espace Laguna Megane Safrane

Nombre d'enfants

Ag

e

1

3

2



Pour les données numériques, les trois fonctions de distance les plus courantes entre une valeur A et une valeur B sont :

La valeur absolue de la différence : |A-B|Le carré de la différence : (A-B)²La valeur absolue normalisée : |A-B| / (différence maximale)

L'avantage de la valeur absolue normalisée est qu'elle se trouve toujours entre 0 et 1, ce qui supprime les problèmes d'échelles.

Cependant, l'utilisateur reste libre de créer sa propre fonction.

Pour les autres types de données, c'est à l'utilisateur de définir sa propre fonction de distance. Par exemple, pour comparer le sexe d'un individu, on pourra affecter la valeur 1 s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques (voir règle de l'identité). Pour une catégorie socioprofessionnelle, il suffit de créer une métrique. Pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, périurbaine, rurale) ou de la région. Il est toujours préférable de faire une codification dont le résultat se situera entre 0 et 1.

23.4.2 - LA FONCTION DE COMBINAISON

La fonction de combinaison consiste à combiner les n voisins les plus proches pour obtenir le résultat de la prédiction souhaitée. Sa mise en œuvre sera plus significative au travers de l'exemple qui suit.

23.5 - EXEMPLE

Pour notre exemple, considérons une liste de clients ayant déjà répondu à une offre commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus déterminants sont le sexe, l'âge et le salaire net du dernier semestre. Soit la liste suivante de clients identifiés :

Numéro Age Sexe Salaire AcheteurA 27 F 19000 NonB 51 M 66000 OuiC 52 M 105000 NonD 33 F 55000 OuiE 45 M 45000 Oui

Tableau 41 : réponse des clients à une offre en fonction de l'âge, du sexe et du salaire




Considérons maintenant un nouveau client : une femme de 45 ans ayant un revenu de 100000 Francs. Déterminons si cette cliente sera intéressée ou non par l'offre.

La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on ajoute la distance normalisée du salaire et de l'âge, ce qui donne les tableaux des distances suivants :

Client Age Sexe Salaire Distance totaleA 0.720 0 0.942 1.662B 0.240 1 0.395 1.635C 0.280 1 0.058 1.338D 0.480 0 0.523 1.003E 0.000 1 0.640 1.640

Tableau 42 : calcul des distances

Les voisins les plus proches sont donc, dans l'ordre : D C B E A

Utilisons maintenant la fonction de combinaison. Il va falloir déterminer le nombre de voisins retenus pour l'estimation de la réponse. Pour l'exemple, nous allons faire varier ce nombre de 1 à 5. Cela nous donne le tableau suivant :

Nombre de voisins retenus 1 2 3 4 5Numéro des voisins D DC DCB DCBE DCBEARéponses des voisins O O,N O,N,O O,N,O,O O,N,O,O,NDécompte des réponses Oui 1

Non 0Oui 1Non 1

Oui 2Non 1

Oui 3Non 1

Oui 3Non 2

Valeur retenue Oui ? Oui Oui OuiEvaluation 100 % 50 % 66 % 75 % 60 %

Tableau 43 : tableau de synthèse utilisant la fonction de combinaison

Il est préférable de prendre un nombre impair car la réponse ne peut prendre que 2 valeurs et on évite ainsi les réponses incertaines (cas de 2 voisins).

Si nous ne retenons que les trois voisins les plus proches, la réponse sera favorable avec une probabilité (ou plutôt une espérance) de 66%.

Il aurait été possible également de donner un poids à chaque contribution. Par exemple le premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisième un poids de 1. On peut également affecter des poids à chaque variable utilisée dans la fonction de distance.




23.6 - LES POINTS FORTS DU RBM

Les points forts du RBM sont :

Il produit des résultats explicites, Il s'applique à tout type de données, Il est capable de travailler sur de nombreux champs, Il est facile à mettre en œuvre et à comprendre.

23.7 - LES POINTS FAIBLES DU RBM

Les points faibles du RBM sont :

Il nécessite un grand volume de données pour être performant, Il est très dépendant des fonctions de distance et de combinaison.

23.8 - SYNTHESE

Le raisonnement basé sur la mémoire (RBM) est une technique de prédiction et de classification utilisée dans le cadre de la découverte de connaissances dirigée.

Elle peut être également utilisée pour l'estimation. Pour chaque nouvelle instance présentée, le système recherche les voisins les plus proches et procède ainsi à l'affectation ou estimation en les combinant entre eux. L'avantage du

RBM est qu'il est facile à comprendre, à mettre en œuvre, très stable (les nouvelles données n'entraînent pas de refaire fonctionner un système de calcul)

et supporte tout type de données. Les performances de cette technique sont assez bonnes.




24 - LA DETECTION AUTOMATIQUE DE CLUSTERS

24.1 - PRESENTATION

La détection automatique de clusters est une méthode de découverte de connaissances non dirigée (ou apprentissage sans supervision). Cette méthode ne nécessite aucun apprentissage, et son principe consiste à regrouper les éléments par similarités successives. Elle se décline en deux grandes catégories : la méthode des K-moyennes et les méthodes par agglomération.

24.2 - UTILISATION

L'objectif de cette technique est de procéder à une classification du type regroupement par similitude. Chaque groupe est appelé cluster. C'est une technique très puissante et son champ d'application est important. Une utilisation classique consiste à clusteriser une population puis, après étude de chaque cluster, faire une offre commerciale tout à fait adaptée à la population.


Pour utiliser une des méthodes de détection de clusters, il faut prévoir une fonction de distance qui mesure l'écart entre deux enregistrements (voir paragraphe 23.4.1 - page 167).

24.3.1 - METHODE DES K-MOYENNES

La méthode des K-moyennes permet de découper une population en K clusters. Ce nombre K est défini par l'utilisateur. Le principe de fonctionnement est assez simple :

On détermine un nombre K de clusters. Ensuite on positionne les K premiers points (appelés graines) au hasard (on utilise en général les K premiers enregistrements). Chaque enregistrement est affecté à la graine dont il est le plus proche (en utilisant la fonction de distance). A la fin de la première affectation, la valeur moyenne de chaque cluster est calculée et la graine prend cette nouvelle valeur. Le processus est répété jusqu'à stabilisation des clusters.




24.3.2 - METHODE PAR AGGLOMERATION

Cette technique va permettre de construire un arbre mais contrairement aux arbres de décision, nous partons des feuilles pour remonter jusqu'à la racine. Le principe est également simple : on mesure les distances de tous les éléments entre eux, puis on regroupe ceux qui sont les plus proches. On calcule le centroïde de chaque groupe et on recommence jusqu'à ce que tous les éléments soient reliés.

24.4 - MISE EN ŒUVRE

La grande difficulté de cette technique est de trouver une fonction de mesure de distance performante. Cela ne semble poser aucun problème à priori pour des variables numériques. Pourtant le nombre de possibilités est important : distance Euclidienne, mesure de l'angle, sommation, sommation normalisée, …pondéré, avec changement de repère, d'échelle, centré et réduit … La complexité devient plus importante pour des valeurs énumératives non ordonnées. Si aucune métrique n'est possible, il est courant de prendre une distance égale à 0 si les variables sont identiques et 1 dans le cas contraire. D'autres solutions consistent à prendre le nombre de mots communs dans un champs texte par exemple.

Une bonne fonction de distance donnera de bons résultats.

24.5 - EXEMPLES

Le même exemple et problème est utilisé pour illustrer les deux techniques. A des fins pédagogiques, celui-ci sera simple : classifier des individus selon leurs âges. Soit une liste aléatoire d'individus dont les âges sont les suivants :

27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57

24.5.1 - METHODE DES K-MOYENNES

Fixons K=3. Les 3 premières graines prennent les trois premières valeurs. Calculons la distance (ici distance = différence / (amplitude maximum) = différence / 37) entre chaque point et chaque graine, puis affectons au plus près. Cela nous donne le tableau suivant :

27 51 52 33 45 22 28 44 40 38 20 57Graine 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81Graine 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16Graine 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14

Minimum 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14Affectation 1 2 3 1 2 1 1 2 2 1 1 3

Tableau 44 : calcul des distances entre chaque graine et chaque point




Une première affectation nous donne :

Graine 1 (27) : 27 - 33 - 22 - 28 - 38 - 20Graine 2 (51) : 51 - 45 - 44 - 40Graine 3 (52) : 52 - 57

Pour le calcul des nouveaux centroïdes, prenons la moyenne arithmétique de chaque cluster, soit 28 pour la graine 1, 45 pour la graine 2 et 54.5 pour la graine 3. Ces valeurs représentent les positions des nouvelles graines. Recommençons le processus de calcul de distance par rapport à ces nouvelles valeurs. Cela donne le tableau suivant :

27 51 52 33 45 22 28 44 40 38 20 57Graine 28 0.03 0.62 0.65 0.14 0.46 0.16 0 0.43 0.32 0.27 0.22 0.78Graine 45 0.49 0.16 0.19 0.32 0 0.62 0.46 0.03 0.14 0.19 0.68 0.32Graine 54.5 0.74 0.09 0.07 0.58 0.26 0.88 0.72 0.28 0.39 0.45 0.93 0.07Minimum 0.03 0.09 0.07 0.14 0 0.16 0 0.03 0.14 0.19 0.22 0.07Affectation 1 3 3 1 2 1 1 2 2 2 1 3

Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centroïdes)

L'affectation donne donc la répartition suivante :

Graine 1 (28) : 27 - 33 - 22 - 28 - 20 Moyenne = 26Graine 2 (45) : 45 - 44 - 40 - 38 Moyenne = 41.75Graine 3 (54.5) : 51 - 52 - 57 Moyenne = 53.33

En réitérant le processus, nous voyons qu'il ne modifie plus les affectations. Les clusters sont donc finalisés :

Cluster 1: 27 - 33 - 22 - 28 - 20 Jeunes majeurs - Centroïde = 26Cluster 2: 45 - 44 - 40 - 38 Quadragénaires - Centroïde = 41.75Cluster 3: 51 - 52 - 57 Quinquagénaires - Centroïde = 53.33




24.5.2 - METHODE PAR AGGLOMERATION

Nous prenons toujours la même population. Classifions les âges suivants :

27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57

Pour la méthode par agglomération, il faut faire la demie matrice (car la fonction distance est commutative) des distances des éléments deux à deux :

27 51 52 33 45 22 28 44 40 38 20 5727 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.8151 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.1652 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.1433 0.16 0.49 0.51 0.00 0.32 0.30 0.14 0.30 0.19 0.14 0.35 0.6545 0.49 0.16 0.19 0.32 0.00 0.62 0.46 0.03 0.14 0.19 0.68 0.3222 0.14 0.78 0.81 0.30 0.62 0.00 0.16 0.59 0.49 0.43 0.05 0.9528 0.03 0.62 0.65 0.14 0.46 0.16 0.00 0.43 0.32 0.27 0.22 0.7844 0.46 0.19 0.22 0.30 0.03 0.59 0.43 0.00 0.11 0.16 0.65 0.3540 0.35 0.30 0.32 0.19 0.14 0.49 0.32 0.11 0.00 0.05 0.54 0.4638 0.30 0.35 0.38 0.14 0.19 0.43 0.27 0.16 0.05 0.00 0.49 0.5120 0.19 0.84 0.86 0.35 0.68 0.05 0.22 0.65 0.54 0.49 0.00 1.0057 0.81 0.16 0.14 0.65 0.32 0.95 0.78 0.35 0.46 0.51 1.00 0.00

Tableau 46 : tableau des distances entre chaque point

Positionnons un seuil à 10% (0.1) à chaque itération. Ainsi, nous aurons au maximum 10 étages. Ce seuil est fixé aléatoirement en fonction du niveau de regroupement souhaité par l'utilisateur. L'ensemble des valeurs est ordonné en ordre croissant. Pour la première itération, nous ne prenons que les valeurs ayant un seuil inférieur à 10%, soit :

0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22)

51 52 27 28 44 45 38 40 20 22 33 57

Tableau 47 : premières agglomérations

chaque cluster ainsi formé est représenté par son centroïde (ici nous prendrons la moyenne), ce qui nous donne la nouvelle série suivante :

27.5 - 51.5 - 33 - 44.5 - 21 - 39 - 57




Nous recommençons le processus avec cette nouvelle série et le seuil de 20% (0.20).

27.5 51.5 33 44.5 21 39 5727.5 0.00 0.67 0.15 0.47 0.18 0.32 0.8251.5 0.67 0.00 0.51 0.19 0.85 0.35 0.1533 0.15 0.51 0.00 0.32 0.33 0.17 0.67

44.5 0.47 0.19 0.32 0.00 0.65 0.15 0.3521 0.18 0.85 0.33 0.65 0.00 0.50 1.0039 0.32 0.35 0.17 0.15 0.50 0.00 0.5057 0.82 0.15 0.67 0.35 1.00 0.50 0.00

Tableau 48 : calcul des distances avec les nouvelles valeurs

Avec un seuil de 20%, nous regroupons les valeurs suivantes (dans l'ordre) :

0.15 (33-27.5), 0.15 (57-51.5), 0.15 (39-44.5)), 0.17 (33-39), 0.18 (21-27.5), 0.19 (44.5-51.5)

Les liens 33-39 et 44.5-51.5 sont pris en compte au niveau 3 car il relie des groupes déjà reliés par des prédécesseurs. Cela nous donne le graphe suivant :

20 22 27 28 33 38 40 44 45 51 52 57

Tableau 49 : deuxième et troisième niveau d'agrégation.

Une autre solution aurait pu consister à grouper les éléments entre eux en prenant dans l'ordre croissant les distances. Cela donnerait le graphe suivant :

20 22 27 28 33 38 40 44 45 51 52 57

Tableau 50 : fin de la construction de l'arbre.

Dans l'exemple présent, cela donne sensiblement le même graphe mais il peut être très différent.




24.6 - EVALUER

Lorsque les clusters sont déterminés, par la méthode des K-moyennes, il faut évaluer la qualité de chaque cluster. L'intérêt de la technique est de regrouper des populations statistiques avec le plus grand degré de similarité. Une solution possible consiste à étudier la variance de la distance de cette population. Un cluster solide sera constitué d'une population significative et d'une variance faible.

D'autres évaluations sont à faire :

Si la population d'un cluster est trop faible, il pourrait être valable de grouper ce cluster avec un autre.

Si un cluster est trop dominant, il sera préférable de scinder la population en deux (dans et hors cluster) et de relancer le processus pour chaque sous groupe.


Les points forts de cette technique sont :

Les résultats sont clairs, La technique est plutôt facile à mettre en œuvre La méthode des K-moyennes n'est pas grosse consommatrice de ressources Son application est facile


Les points faibles de cette technique sont :

Il est difficile de trouver une bonne fonction de distance Certains clusters résultants peuvent être difficiles à expliquer

24.9 - SYNTHESE

La détection automatique de clusters est une technique de découverte de connaissances non dirigée (ou apprentissage sans supervision). Elle consiste à regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe représente un cluster. C'est une excellente technique pour démarrer un projet d'analyse ou de data mining. Les groupes de similitudes permettront de mieux

comprendre les données et d'imaginer comment les utiliser au mieux.




25 - LES ALGORITHMES GENETIQUES

25.1 - PRESENTATION

Les algorithmes génétiques représentent une technique dont la vocation principale est l'optimisation, mais on peut également les utiliser pour des prédictions ou classifications. Leur champ d'application est très large. C'est une technique récente : les premiers travaux datent de la fin des années 50 où biologistes et informaticiens ont coopéré pour modéliser les mécanismes génétiques sur ordinateurs. Mais c'est surtout au début des années 60 que John Holland développa ses travaux de recherche sur ce thème. Le terme d'algorithme génétique, quant à lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts étaient mal perçus car à cette époque régnait la recherche opérationnelle capable de trouver, par définition, la meilleure solution, tandis que les algorithmes génétiques se basent sur un processus aléatoire dont l'objectif est de trouver une meilleure solution que celle en cours.

Actuellement peu de produits commerciaux proposent ces algorithmes. En fait ils sont intégrés de manière transparente pour optimiser l'apprentissage des réseaux de neurones.

25.2 - UTILISATION

Les algorithmes génétiques trouvent de nombreux domaines d'applications. Ils sont utilisés dans l'industrie pour optimiser ou contrôler les processus (pression d'un cylindre, température d'un four, etc…), dans le domaines spatiaux (choix des meilleures implantations d'un distributeur automatique de billets de banque), dans le domaine marketing (choix des meilleurs candidats à une offre) mais on les trouve surtout dans le data mining où ils vont optimiser les performances des systèmes : modifier les paramètres d'une régression, optimiser les poids des liaisons d'un réseau neuronal, isoler les variables qui permettent le mieux d'interpréter le comportement des clients dans un arbre de décision.


25.3.1 - NOTIONS DE GENETIQUE

Les algorithmes génétiques sont basés sur les principes de Darwin dans ce domaine. Les chromosomes (à la base des théories sur l'hérédité et l'évolution) sont formés de brins d'ADN (acide désoxyribonucléique). Ceux-ci sont porteurs d'informations sur toutes les caractéristiques des individus (couleur des yeux, forme des lèvres, maladies héréditaires, tares, …). Lors du processus de reproduction, les gènes se combinent entre eux et les gènes les plus faibles ou les moins biens adaptés tendent à disparaître. Ceci rend les nouveaux




individus plus aptes à évoluer dans leur environnement. Il arrive également que certains gènes se combinent mal et aboutissent à des anomalies génétiques.

25.3.2 - LES ALGORITHMES GENETIQUES

Les algorithmes génétiques s'inspirent du processus naturel décrit ci-dessus (voir § 25.3.1 -). Le fichier de départ doit être codé par des 0 et des 1. Un nombre n de chromosomes est fixé par le système. Ce nombre ne bougera plus. Pour initialiser le processus, on peut prendre les n premiers enregistrements. Chaque chromosome est évalué par une fonction adéquate. Cela donnera naissance à une nouvelle génération proportionnelle au résultat de l'évaluation. Divers processus (mutation, croisement, …) seront mis en œuvre. Le système choisira de manière aléatoire n nouveaux chromosomes parmi les descendants, ce qui réinitialise le processus. Compte tenu de la méthode de calcul des descendants, les sujets potentiellement les mieux adaptés ont plus de chances d'être choisis.

25.4 - MISE EN ŒUVRE DES ALGORITHMES GENETIQUES

25.4.1 - PREPARATION DES DONNEES

Pour pouvoir fonctionner correctement, les données doivent être codées sous forme d'une séquence de 0 et de 1. Les données numériques sont codées en binaires tandis que les autres variables sont codifiées sur un ou plusieurs codes élémentaires. Par exemple sexe peut être codé 1 pour les femmes et 0 pour les garçons; nombre annuel de commandes peut être 00 pour aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus, …

25.4.2 - FONCTION D'EVALUATION

Il faut définir une fonction d'évaluation pour mesurer l'aptitude d'un enregistrement. C'est la partie la plus délicate, comme nous l'avons déjà souligné au paragraphe 24.4 - page 172 . Il faut trouver une fonction adéquate au problème posé et chaque cas est un cas particulier. Il existe cependant deux techniques couramment utilisées. La première consiste à faire l'évaluation compte tenu de cas analogues existants dans l'historique. La seconde consiste à créer une fonction spécifique qui va retirer des points lorsque les contraintes ne sont pas respectées.




25.4.3 - GENERATION DES DESCENDANTS

Un chromosome représente un enregistrement codé en binaire. Il faut initialiser le processus avec un nombre n fixe de chromosomes. Ce nombre ne changera pas. Chaque chromosome est soumis à la fonction d'évaluation, pour mesurer sa justesse (fitness en anglais). Les chromosomes les plus adaptés reçoivent une descendance plus importante. L'ensemble des descendants représente un cercle composé de n secteurs. Exemple :

Soient 4 chromosomes qui, soumis à la fonction d'évaluation, obtiennent les résultats respectifs suivants :

Chromosome Evaluation % Angle en radians111100110 12 35.3 % 2.218100101000 4 11.7 % 0.739011001001 15 44.1 % 2.772001110110 3 8.8 % 0.554TOTAL 0 100 % 2 PI

Tableau 51 : évaluation des chromosomes

Graphique 5 : répartition des descendants sur un cercle


11110011035%

10010100012%

01100100144%

0001110119%



25.4.4 - PROCESSUS DE SELECTION

L'effectif de la population est constant pour éviter une extinction ou un trop grand développement. Par conséquent le nombre de descendants est toujours ramené à celui des parents. Le processus de sélection est aléatoire. Chaque descendant prend une surface d'un secteur du cercle proportionnel à son aptitude (résultat de la fonction d'évaluation). L'angle représenté par chaque chromosome vaut donc 2xPIxfréquence (voir Tableau 51 page 179). Sur le principe de la roue de la fortune, on procède au tirage aléatoire dans le cercle. Cette valeur représentera le chromosome retenu. On veillera à éviter qu'une valeur ne domine pas trop les autres, surtout pas trop vite car il faut conserver un minimum de diversité. En procédant ainsi, les chromosomes les plus adaptés reçoivent une descendance plus importante. Cette croissance des meilleures solutions sous la contrainte de la pression sélective (selective pressure) conduit à une disparition progressive des solutions les moins adaptées (ceci contribue à confirmer les théories de Darwin).

Graphique 6 : processus de sélection des descendants


11110011035%

10010100012%

01100100144%

0001110119%

Valeur retenue

La roue tourne



25.4.5 - MANIPULATIONS GENETIQUES

Lorsque les descendants sont définis, on peut procéder à des manipulations sur ceux-ci. Il existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou l'inversion.

25.4.5.1 - HYBRIDATION L'hybridation ou croisement (cross-over en anglais) consiste à permuter deux chromosomes à partir d'un point choisi de manière aléatoire.

Tableau 52 : hybridation de deux chromosomes

25.4.5.2 - MUTATION

La mutation consiste à changer la parité d'un des éléments pris au hasard :

Tableau 53 : mutation d'un chromosome

25.4.5.3 - INVERSION

L'inversion consiste à intervertir deux caractères consécutifs :

Tableau 54 : inversion dans un chromosome

50% à 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes performances, le taux d'hybridation est souvent élevé (80% du taux de manipulation).




25.4.6 - FIN DU PROCESSUS

Après les manipulations, le système choisit de manière aléatoire parmi tous les descendants le nombre fixe de chromosomes (généralement faible, de l'ordre des unités). Le processus recommence jusqu'à trouver une solution acceptable.

25.4.7 - SYNOPTIQUE

Tableau 55 : synoptique du processus de mise en œuvre des algorithmes génétiques


Solution acceptable ?

Fin du processus

OUI

NON

- 1 -Génération des

descendants

- 2 -Sélection (choix

pseudo-aléatoire) d'une nouvelle génération de

n chromosomes

- 3 - Manipulations

génétiques (hybridation, inversion,

mutation)

Evaluation des chromosomes

Choix des n premiers

chromosomes



25.5 - EXEMPLE

Pour illustrer cette technique, nous allons prendre un exemple simple. Nous cherchons à maximiser une valeur numérique codée sur 8 caractères (de 00000000 à 11111111). Notre fonction d'évaluation vaut f(x)=-x²+256x. Initialisons la procédure avec les 4 chromosomes suivants, choisis au hasard : 00110011, 11001111, 00000111, 10101010 (soit 51, 207, 7 et 170)L'évaluation de ces valeurs donne respectivement : 10455 - 10143 - 1743 - 14620L'estimation moyenne est de 9240,25. La meilleure estimation correspond au point 170 (soit en binaire 10101010). Calculons les descendants. La répartition sera la suivante :

Chromosome Valeur décimale Aptitude Fréquence Nombre de descendants00110011 51 10455 0,28 111001111 207 10143 0,27 100000111 7 1743 0,05 010101010 170 14620 0,40 2

Total 0 1 4

Nous voyons que le chromosome le moins bien adapté disparaît. La génération des descendants vaut : 00110011, 11001111, 10101010,10101010. Procédons maintenant aux manipulations génétiques : croisons les descendants 2 et 3 à partir du quatrième caractère et opérons une mutation sur le troisième caractère 4ème descendant et une inversion sur les deuxième et troisième caractère du 1er descendant. Cela nous donne la génération suivante : 01010011,11001010,10101111,10001010. Evaluons cette nouvelle génération :

Chromosome Valeur décimale Aptitude Fréquence Nombre de descendants01010011 83 14359 0,26 111001010 202 10908 0,20 110101111 175 14175 0,25 110001010 138 16284 0,29 1

Total 55726 1 4

Nous constatons que la solution globale est meilleure (meilleur total) et que la solution 10001010 représentée par le 4ème descendant est la meilleure jusqu'à présent.

En réitérant ce processus, nous constaterions que les solutions convergent vers la meilleure valeur assez rapidement.





Les points forts des algorithmes génétiques sont :

Les résultats sont explicites et facile à analyser Ils peuvent traiter une large gamme de types de données Ils s'adaptent bien aux problèmes d'optimisation Ils sont performants pour optimiser les réseaux de neurones


Les points faibles des algorithmes génétiques sont :

Le codage binaire peut être complexe à réaliser L'optimilaté, voire l'optimisation n'est pas garantie Les produits commerciaux sont rares

25.8 - SYNTHESE

Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils permettent de résoudre des problèmes divers, notamment

d'optimisation, d'affectation ou de prédiction. Leur fonctionnement s'apparente à celui du génome humain. Le principe de fonctionnement est le suivant : les

données sont converties en chaînes binaires (comme les chaînes d'ADN - acide désoxyribo nucléique-). Celles-ci se combinent par sélection, croisement ou

mutation et donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du résultat, les chaînes les plus faibles cèdent leur place aux plus fortes. Cette technique est particulièrement intéressante pour résoudre des problèmes

d'affectation ou des problèmes sur lesquels on peut poser une fonction d'évaluation car elle peut trouver des solutions optimisées parfois inexistantes

dans les données d'origine.




26 - LES AGENTS INTELLIGENTS OU KNOWBOT

26.1 - PRESENTATION

Le terme de Knowbot est un condensé de Knowledge (connaissance) et Robot. Ce terme a été traduit en français par "agent intelligent". Un agent est une entité physique ou abstraite capable d'agir sur elle-même et sur son environnement. Il dispose d'une représentation partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un objectif individuel et son comportement est la conséquence de ses observations, de ses compétences, et des interactions qu'il peut avoir avec d'autres agents et son environnement. Un agent possède un objectif personnel qui le distingue fortement des programmes informatiques traditionnels très collectivistes. C'est une entité logicielle qui présente les caractéristiques suivantes; il est :

Gérable (il prend ses instructions d'un homme ou d'un agent) Autonome (il préserve ses intérêts propres) Persistent (il sait ne rien faire sur de longues périodes) Fiable (il répond aux besoins de l'utilisateur) Prévoyant (il sait anticiper les besoins) Actif (il peut prendre des initiatives) Communicant (il interagit pour résoudre les problèmes ou conflits) Adaptatif (il sait changer d'environnement)

26.2 - UTILISATION

L'explosion d'Internet a considérablement accru les volumes d'informations accessibles. Pour s'en convaincre, il suffit de lancer une recherche sur un mot clé pour trouver quelques dizaines de milliers de sites en rapport. Une telle quantité de données représente plus un handicap qu'un avantage. Les agents intelligents ont trouvé dans ce domaine un secteur tout à fait adapté à leurs fonctionnalités. Au service de l'utilisateur, ils sont capables de générer et d'exécuter un plan de recherche, de résoudre les problèmes dans l'exécution de ce plan et par interaction avec l'utilisateur, d'améliorer leurs comportements.

Ces types d'agents ne relèvent pas du data mining puisqu'ils ne font que reproduire un processus manuel. Cependant, avec le développement du commerce électronique sur le Web, de nouveaux agents "commerciaux" (les conseillers électroniques), sont mis en place et on peut tout à fait assimiler leurs fonctions aux tâches du data mining.




26.3 - LES CONSEILLERS ELECTRONIQUES

L'ouverture du commerce électronique (sur le Web) offre une nouvelle perspective pour les agents intelligents. Ils peuvent exécuter les deux facettes d'une négociation : il existe des agents vendeurs et des agents négociateurs.

26.3.1 - LES AGENTS NEGOCIATEURS

Un agent négociateur parcourt une liste de vendeurs potentiels. Il diffuse une demande de tarifs sur les sites visités. Par la même occasion, il fixe un délai à sa demande. Il gère les réponses et se charge des relances. Enfin, il établit un rapport pour le demandeur. L'utilisateur sélectionne le vendeur et l'agent se charge de l'envoi du bon de commande.

26.3.2 - LES AGENTS VENDEURS

Un agent vendeur apprend à connaître un client en examinant ses achats et en complétant ses connaissances par des questions complémentaires. La proposition de certaines offres et la réponse du client permettent à l'agent de construire un profil précis de l'acheteur. L'agent est doué d'une capacité d'apprentissage qui lui permet de connaître de mieux en mieux le client potentiel. Dès lors, et grâce aux outils de data mining (le raisonnement basé sur la mémoire par exemple - voir page 165 -), il est capable de faire des offres commerciales de type "un à un".

26.4 - KNOWBOT ET DATA MINING

Etant donné qu'il existe plusieurs définitions pour le data mining, il est difficile de dire si le Knowbot en fait partie ou non. Mais même si certains puristes ne l'intègrent pas, il s'inscrit dans la périphérie. L'utilisation la plus fréquente du data mining est le domaine commercial en vue de faire des offres individualisées aux clients potentiels. Il ne fait aucun doute que ce type d'agent s'inscrit pleinement dans ce cadre.




26.5 - EXEMPLE

Actuellement des expériences sont en place aux Etats-Unis. Sur abonnement, un utilisateur initialise le processus en remplissant un questionnaire sur ce qu'il aime et déteste. Par la suite, tous les achats électroniques sont enregistrés et remontés vers la société détentrice du système. Dans le même temps, par analogie de goûts et comportements, le système fait des propositions individualisées au client. Ce type de service est consultable par exemple sur http://www.firefly.com ou http://www.hotmail.com. Début 1998, la société Microsoft a racheté la société hotmail (qui propose ce type de services) et dispose ainsi de 9 millions d'abonnés. En mai 1998, la société firefly à été rachetée également par Microsoft. Ce dernier envisage d'intégrer ce principe dans les versions futures de son navigateur (Internet Explorer). L'intérêt de Microsoft pour ces technologies montre bien son enjeu stratégique et commercial.

26.6 - SYNTHESE

Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont les plus récentes versions s'intègrent tout à fait dans le processus de data

mining. Certains iront jusqu'à les considérer comme des outils de data mining. Certains d'entre eux, les plus élaborés, sont capables de suivre et mémoriser les mouvements, visites et achats sur Internet et permettent d'élaborer des profils d'utilisateurs pour leur faire des offres commerciales "un à un (one to one) ".

L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en concurrence automatiquement gérés par ces agents.

Cette évolution (tout comme celle du data mining) nous amènent à nous poser des questions d'éthique et de respect de la vie privée.


http://www.hotmail.com/

http://www.firefly.com/



27 - LES RESEAUX BAYESIENS

27.1 - PRÉSENTATION

Les réseaux Bayésiens ont pour objectif la découverte des relations. Ils permettent en effet la compréhension de certaines relations.Leur fonctionnement est basé sur la théorie des graphes.

27.1.1 - RAPPEL SUR LA THÉORIE DES GRAPHES

Un graphe est composé :

De nœuds ou sommets qui représentent les objets, D’arêtes qui relient les objets, De chemins qui sont une suite ordonnée de nœuds reliés par des arêtes.

1 23

4 5

Figure 25 : un graphe

Un graphe peut être connexe, totalement connexe, pondéré et/ou orienté.

Graphe connexe : il existe un chemin entre chaque nœud.

1 2

3

4

Figure 26 : graphe connexe




Graphe totalement connexe : il existe une arête entre chaque paire de nœuds.

1 2 3

4

Figure 27 : graphe totalement connexe

Graphe pondéré : chaque arête possède un poids.

1 2 3

4

5 2

4

Figure 28 : graphe pondéré

Graphe orienté : une arête est représentative d’un sens.

1 2 3

4

Figure 29 : graphe orienté


Un réseau Bayésien est un graphe orienté dans lequel les nœuds représentent les variables et dans lequel les arêtes symbolisent les dépendances entre les variables. Il mesure la probabilité d’apparition d’un événement connaissant le résultat observé sur d’autres variables.




27.3 - MISE EN PLACE

La mise en place d’un réseau Bayésien passe par les étapes suivantes :

Préparation des variables, Sélection des variables, Identification des dépendances, Matrice des probabilités.

27.3.1 - PRÉPARATION DES VARIABLES

Cette étape consiste à distinguer les variables discrètes et continues, puis à définir des intervalles pour les variables continues.

27.3.2 - SÉLECTION DES VARIABLES

C’est la détermination des variables d’entrée et de sortie, sachant qu’une variable de sortie ne peut pas être une entrée pour une autre variable. La sélection s’effectue par un classement d’après la mesure d’entropie dont la formule est la suivante

H(X) = P(x)logP(X)

avec X une variable et P(X) sa probabilité d’apparition.

27.3.3 - IDENTIFICATION DES DÉPENDANCES

Cela consiste à mesurer la dépendance entre les nœuds puis à les classer par ordre décroissant.

La mesure de la dépendance entre deux variables s’effectue en calculant un facteur de dépendance

I(X/Y) = H(X) – H(X/Y)

Ce facteur permet de déterminer l’incidence de la variable Y sur la variable X, si ce résultat est nul, cela signifie que les variables sont indépendantes.La difficulté reste à déterminer quel seuil est significatif.




27.3.4 - MATRICE DES PROBABILITÉS

C’est le comptage des occurrences entre les nœuds afin d’établir les probabilités.


Bonne résolution, Bonne visibilité, Bonne découverte de relation.

27.4.1 - BONNE RÉSOLUTION

Cette technique permet une très bonne résolution des problèmes basés sur les liens. Elle peut être utilisée dans les domaines du transport, des télécommunications, …

27.4.2 - BONNE VISIBILITÉ

De par son coté graphique, elle donne une bonne visualisation des résultats et met en évidence les relations entre les différents éléments.

27.4.3 - BONNE DÉCOUVERTE DE RELATIONS

Une fois les liens analysés, de nouveaux critères de décision peuvent être mis en place.


Mauvaise adaptation, Peu d’outils, Mauvaise performance.

27.5.1 - MAUVAISE ADAPTATION

L’un des principaux inconvénients de cette technique est la difficulté d’adaptation à de nombreux types de données.




27.5.2 - PEU D’OUTILS

De plus, il existe à l’heure actuelle peu d’outils sur le marché.

27.5.3 - MAUVAISE PERFORMANCE

Cette technique engendre de nombreuses lectures et de nombreux calculs, dus aux multiples combinaisons possibles ce qui la rend très consommatrice de puissance machine.

En conclusion, les réseaux Bayésiens ne sont pas bien adaptés à la prédiction ou la classification des données, mais les relations découvertes sont un bon

point d’entrée pour d’autres techniques, telles les réseaux de neurones ou les arbres de décisions.




28 - LES ARBRES DE DECISIONS


Les arbres de décisions ont pour objectif la classification et la prédiction.

Leur fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en langage courant.


Un arbre de décision est composé :

D’un nœud racine par lequel entre les enregistrements, De questions, De réponses qui conditionnent la question suivante, De nœuds feuilles qui correspondent à un classement.

1

2 3

45

Noeud racine

Noeud fils

Noeuds feuilles

Noeud feuille

Figure 30 : structure d'un arbre de décision

Le jeu de questions et réponses est itératif jusqu’à ce que l’enregistrement arrive à un nœud feuille.

Afin de déterminer quelle variable doit être affectée à chaque nœud, la technique applique un algorithme sur chacun des paramètres et conserve le plus représentatif d’un découpage

Il existe trois algorithmes de calcul CART, C4.5 et CHAID.




28.2.1 - CART

Cet algorithme a été publié en 1984 par L.Briemen. Il est utilisé dans de nombreux outils du marché.

Processus

Trouver la première bifurcation, Développer l’arbre complet, Mesurer le taux d’erreur à chaque nœud, Calculer le taux d’erreur de l’arbre entier, Elaguer, Identifier les sous-arbres, Evaluer les sous-arbres, Evaluer le meilleur sous-arbre.

La première bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi pour déterminer le critère qui effectuera le meilleur partage entre les éléments, un indice de diversité est calculer, selon la formule suivante :

Max. de : diversité(avant division) – (diversité fils gauche + diversité fils droit)

Il existe différents modes de calcul pour l’indice de diversité :

- Min. (Probabilité(c1), Probabilité(c2)),- 2 Probabilité(c1)Probabilité(c2),- (Probabilité(c1)logProbabilité(c1))+ (Probabilité(c2)logProbabilité(c2))

Figure 31 : construction de l'arbre




Une fois la première bifurcation établie, nous avons donc le nœud racine qui se sépare en deux. L’étape suivante est donc de développer l’arbre complet en divisant de la même façon les nouveaux nœuds crées, et ainsi de suite tant que le résultat de la division a une valeur significative. Le dernier nœud étant le nœud feuille qui donne le classement final d’un enregistrement.

L’arbre résultant n’est pas obligatoirement le meilleur, la prochaine étape est de calculer le taux d’erreur pour chaque nœud. Si nous supposons que 11 enregistrements sur 15 sont classés correctement d’après l’ensemble d’apprentissage, la probabilité pour ce nœud est de 11/15 soit 0,7333. Le taux d’erreur attribué est de 1 – 0,7333 = 0,2667.

Le calcul du taux d’erreur de chaque nœud étant fait, il est possible de calculer le taux d’erreur de l’arbre entier soit :

t : taux d’erreur d’un nœud P : probabilité d’aller au nœudTaux d’erreur de l’arbre = (t * P)

Soit dans l’exemple, avec un taux d’erreur de (15/17) pour le nœud Masculin((11/15) * 0,80) + ((15/17) * 0,20) = 0,763

Le danger de l’arbre de décision, tel qu’il est constitué à l’issue du premier passage, est que certains nœuds feuilles ne contiennent pas suffisamment d’enregistrements pour être significatifs. Il faut élaguer, le plus complexe étant de trouver la bonne limite à appliquer.

Le choix des branches à supprimer, se fait par l’intermédiaire du taux d’erreur ajusté d’un arbre qui se calcule, sur chaque sous arbre possible, comme suit :

Soit le compte des feuilles Taux d’erreur ajusté = taux d’erreur + compte des feuilles

Un premier sous arbre est candidat lorsque son taux d’erreur ajusté devient plus petit ou égal au taux d’erreur ajusté de tout l’arbre. Toutes les branches, qui n’en font pas partie, sont élaguées, et le processus recommence ainsi de suite jusqu’au nœud racine.

Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous arbre va être exécuter avec un ensemble de test, celui qui aura le plus petit taux d’erreur sera considéré comme le meilleur.

Enfin pour contrôler l’efficacité du sous arbre sélectionné, un ensemble d’évaluation va lui être soumis. Son taux d’erreur obtenu donnera une estimation des performances de l’arbre.




28.2.2 - C4.5

Algorithme développé par J.Ross Quinlan. La version intérieure s’appelait ID3, et est encore utilisée dans quelques produits.Nous allons étudier ici les différences entre C4.5 et CART étant donné les nombreuses similitudes entre ces deux algorithmes.

28.2.2.1 - NOMBRE DE SORTIES D’UN NŒUD VARIABLE

Contrairement à CART qui génère des sorties binaires, C4.5 accepte plusieurs valeurs à l’issue d’un nœud.

28.2.2.2 - MÉTHODE DE DÉTERMINATION DE L’ORDRE DES BIFURCATIONS

Au lieu d’utiliser l’indice de diversité comme méthode d’affectation des bifurcations, C4.5 utilise le gain informationnel total.

28.2.2.3 - ELAGAGE

C4.5 n’utilise pas d’ensemble de test, il élague son arbre à partir des données d’apprentissage en considérant que le taux d’erreur réel sera sensiblement pire, ce qui le conduit parfois, lorsque les nœuds comportent peu d’enregistrements, à supprimer des sous-arbres complets.

28.2.2.4 - ENSEMBLE DE RÈGLES

C4.5 déduit de l’arbre de décision un ensemble de règles, qui facilite son interprétation. Exemple :

Regarde le match et son équipe gagne et sort avec des amis alors bièreRegarde le match et son équipe gagne et reste à domicile alors sodaRegarde le match et son équipe perd et sort avec des amis alors bièreRegarde le match et son équipe perd et reste à domicile alors lait

En étudiant ces règles, on se rend compte qu’il est possible de simplifier, car le fait que son équipe gagne ou perde n’influe pas sur le résultat qui est bière.Une des nouvelles règles est donc

Regarde le match et sort avec des amis alors bière.

C4.5 aboutit ainsi à un arbre simplifié.




28.2.3 - CHAID

Algorithme publié en 1975 par J.A. Hartigan. Il est utilisé dans les progiciels tels que SPSS et SAS.Comme pour CART et C4.5, nous allons étudier les différences entre CHAID et les deux algorithmes vus précédemment.

28.2.3.1 - DÉVELOPPEMENT DE L’ARBRE

Tout d’abord, CHAID utilise pour choisir les bifurcations le test du chi-2, que l’on ne détaillera pas ici.

Et enfin, contrairement aux autres il ne développe pas l’arbre complet, pour ensuite l’élaguer, mais tente dès le premier passage de limiter sa croissance.


Les différentes étapes de mise en place sont :

Préparation des données, Enrichissement des données, Création de l’arborescence, Validation de l’arborescence.

28.3.1 - PRÉPARATION DES DONNÉES

Il faut définir la nature, le format des variables et leur méthode de traitement. Ces variables peuvent être catégoriques non ordonnées (exemple : situation de famille) ou catégoriques ordonnées (exemple : tranches de revenus) ou encore continues.




28.3.2 - ENRICHISSEMENT DES DONNÉES

L’enrichissement des données englobe différentes techniques afin de faciliter la lecture des données pertinentes. Il est possible d'introduire une organisation en classes ou une typologie ou encore des variables combinées.

L’organisation en classe se réalise par l’introduction de taxonomie (exemple : catégorie socioprofessionnelle), c’est à dire un regroupement par type d’objet dont le niveau de détail le plus fin n’est pas significatif pour l’étude.

Il est aussi possible d’introduire une typologie d’après certaines caractéristiques des variables analysées (familles branchés, ).

Et enfin, la combinaison de variables élémentaires peut fournir de nouvelles informations (exemple : revenu moyen).

28.3.3 - CRÉATION ET VALIDATION DE L’ARBORESCENCE

Selon l’algorithme choisi (voir paragraphe précédent).


Simplicité d’utilisation, Bonne lisibilité, Bonne adaptation aux données.

28.4.1 - SIMPLICITÉ D’UTILISATION

L’utilisation des produits conçus sur la technique des arbres de décision est très simple car elle est très visuelle et très intuitive, ce qui la rend abordable pour les utilisateurs.

28.4.2 - BONNE LISIBILITÉ

La clarté du modèle résultant permet une validation rapide, contrairement à certaine technique où il est impossible d'expliquer le résultat.




28.4.3 - BONNE ADAPTATION

Les arbres de décisions permettent de manipuler des variables continues, discontinues, catégoriques et énumératives.


Mauvaise performance Coût d’apprentissage

28.5.1 - MAUVAISE PERFORMANCE

Les arbres de décisions deviennent peu performants lorsqu’il y a beaucoup de classes. En effet, ils risquent de devenir trop détaillés, ce qui leur fait perdre de leur lisibilité ou encore d’aboutir à de mauvais classements

28.5.2 - COÛT DE L’APPRENTISSAGE

Le fait de devoir calculer pour chaque nœud, le meilleur critère lors du premier passage puis ensuite lors de l’élagage alourdit les calculs.




29 - LES RESEAUX DE NEURONES


Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises pour activer les muscles.

Il existe deux types de réseaux :

à apprentissage supervisé où la réponse est connue à apprentissage non supervisé où le réseau ne connaît pas le résultat.

Nous nous intéresserons ici aux réseaux à apprentissage supervisé. Le réseau est construit à partir de cas connus (telles données en entrée doivent fournir tel résultat).


Les composants sont :

Le neurone formel, Une règle d’activation, Une organisation en couches, Une règle d’apprentissage.

29.2.1 - NEURONE FORMEL

Le neurone formel calcule la somme pondérée par son poids de chaque entrée transmise par le reste du réseau = (Xi * Wi)

X1

Xn

W1

Wn

Figure 32 : le neurone formel




29.2.2 - RÉGLE D’ACTIVATION

A chaque neurone formel du réseau est associé une règle d’activation avec une fréquence T et une fonction, généralement sigmoïde, qui a pour résultat d’activer ou non le neurone de sortie.

si (Xi * Wi) > seuil activation du neurone de sortie

X1

Xn

W1

Wn

Fonction Sortie

Figure 33 : activation du neurone

29.2.3 - ORGANISATION EN COUCHES

Afin de résoudre des problèmes de toute complexité, le réseau a une organisation en couches. La couche d’entrée transmet ses résultats à la couche supérieure qui, ayant de nouvelles données et de nouveaux poids retransmet ses données résultantes à la couche suivante et ainsi de suite jusqu’à la couche de sortie qui fournit le neurone de sortie. On appelle les couches intermédiaires les couches cachées.

X1

X2

Xn

W1

Wn

U1

Un

CoucheD'entrée

Couchescachés

Couchede sortie

Figure 34 : les différentes couches du réseau de neurone

29.2.4 - RÉGLE D’APPRENTISSAGE




La règle d’apprentissage permet au réseau d’évoluer dans le temps en tenant compte des expériences antérieures. Les poids des connexions sont modifiés en fonction des résultats précédents afin de trouver le meilleur modèle par rapport aux exemples donnés.


La construction d’un réseau de neurones est constituée des étapes suivantes :

Préparation des données, Détermination des paramètres, Phase d’apprentissage, Phase d’optimisation, Phase de test, Phase d’exploitation.

Nous ne détaillerons que les trois premières étapes, les étapes suivantes ne présentant pas de spécificité par rapport à une mise en place informatique classique.

29.3.1 - PRÉPARATION DES DONNÉES

La préparation des données consiste à déterminer les entrées et les sorties, constituer la base d’exemples, coder les entrées et enfin optimiser le jeu de données.

29.3.2 - DÉTERMINATION DES ENTRÉES ET DES SORTIES

Il n’y a pas de règles en la matière, tout dépend du problème à traiter et des informations disponibles.

29.3.3 - CONSTITUTION DE LA BASE D’EXEMPLES

Le choix des exemples conditionne, bien entendu les résultats. Le but étant d’expliquer un phénomène. Si une action est positive dans 90 % des cas, ce n’est pas pour autant qu’il faille prendre un échantillon contenant 90 % des cas positifs aussi. Mieux vaut équilibrer et faire 50 / 50 afin de forcer le réseau à comprendre les 10 % négatifs.




29.3.4 - CODAGE DES ENTRÉES

Le codage des entrées est l’association des variables aux neurones. Ainsi une valeur continue sera représentée par un neurone alors qu’une variable discrète prenant, par exemple, les valeurs travailleur actif ou non actif sera codée par deux neurones.

29.3.5 - OPTIMISATION DU JEU DE DONNÉES

Le jeu de données constitué à l’étape précédente, peut contenir soit beaucoup trop de variables, qui alourdirait le travail d’apprentissage, soit des valeurs aberrantes qui fausseraient les calculs. Il est donc important de retravailler cet échantillon.

29.3.6 - DÉTERMINATION DES PARAMÈTRES

Architecture : détermination du nombre de couches et du nombre de neurones de chaque couche.

Fonction de sommation : définition de la nature de l’opérateur qui combine les poids des Wi (somme, minimum, maximum, majorité, produit). La plus utilisée est la somme.

Fonction de transfert : détermination de la fonction à appliquer sur le résultat de la fonction de sommation (sigmoïde, linéaire, gaussienne). La plus utilisée est la sigmoïde.

Fonction de normalisation : transformation de la sortie soit pour la rendre compréhensible par l’utilisateur, soit pour la mettre dans des limites acceptables pour les couches cachées.

Fonction de compétition : détermination de la ou des sorties qui seront présentes à la couche suivante (la plus forte, les deux plus fortes, …).

Calcul de l’erreur : calcul de l’écart entre la sortie donnée et la sortie calculée (erreur moyenne, erreur absolue, erreur quadratique, sens de variation de l’erreur).




29.3.7 - PHASE D’APPRENTISSAGE

L’apprentissage consiste à descendre le réseau de façon itérative en ajustant les poids à chaque passage selon le calcul d’erreur jusqu’à ce qu’il n’y ait plus d’amélioration. Pour cela, un algorithme de rétropropagation de l’erreur est mis en œuvre.

Principe de l’algorithme de rétropropagation de l’erreur

- Initialiser la matrice des poids au hasard- Choisir un exemple en entrée- Propager le calcul de cette entrée à travers le réseau- Calculer la sortie de cette entrée- Mesurer l’erreur de prédiction par différence entre sortie réelle et sortie prévue- Calculer la contribution d’un neurone à l’erreur à partir de la sortie- Déterminer le signe de modification du poids- Corriger les poids des neurones pour diminuer l’erreur

Le processus recommence ainsi, à partir du choix de l’exemple en entrée, jusqu’à ce qu’un taux d’erreur minimal soit atteint.

Figure 35 : synoptique du réseau de neurones





Souplesse, Bonne résolution, Bonne adaptation aux données, Outils disponibles.

29.4.1 - SOUPLESSE

Les réseaux de neurones sont capables de traiter une gamme très étendue de problème. Leur résultat peut être une prédiction, une classification ou encore une analyse de clusters.

29.4.2 - BONNE RÉSOLUTION

Ils donnent de bons résultats, même dans des domaines complexes car ils sont beaucoup plus puissants que les statistiques ou les arbres de décisions.

29.4.3 - BONNE ADAPTATION

Une fois les données codées, ils traitent aussi bien des variables continues qu’énumératives.

29.4.4 - OUTILS DISPONIBLES

Il existe de nombreux produits sur le marché intégrant la technique des réseaux de neurones (4Thought, Saxon, Neural connection, Clementine, Intelligent Miner, SAS, etc.).


Codage des entrées, Lisibilité, Détermination de la taille, Non optimalité, Performance.




29.5.1 - CODAGE DES ENTRÉES

Toutes les entrées d’un réseau de neurones doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne des transformations, qui impliquent des traitements supplémentaires, et risque de fausser les résultats.

29.5.2 - LISIBILITÉ

Les réseaux de neurones ne fournissent pas l’explication de leur résultat. Ce qui peut être gênant si on cherche à comprendre un phénomène.

29.5.3 - DÉTERMINATION DE LA TAILLE

Afin que l’échantillon fournisse de bons résultats, sa taille doit être calculée en fonction du nombre d’entrées, du nombre de couches et du taux de connexion. Ce qui entraîne une augmentation du nombre d’exemples, qui ne sont pas toujours disponibles.

29.5.4 - NON OPTIMALITÉ

Le réseau proposé qui paraît optimal d’une façon globale, n’est pas toujours la meilleure solution. En effet, plusieurs optima locaux ne donnent pas toujours la solution optimale en totalité.

29.5.5 - PERFORMANCE

Le nombre de calculs à effectuer pour définir un réseau optimal peut être très consommateur de puissance, ce qui peut donner de mauvaises performances à cette technique.

Les réseaux de neurones ont pour objectif la classification et la prédiction.




30 - MISE EN PLACE

Ce chapitre présente une démarche pour mettre en place un projet de Data Mining.Nous prendrons, pour illustrer, l’exemple d’un courtier en assurances qui lance trois nouvelles gammes.

30.1 - POSER LE PROBLÈME

Avant d’engager une action, il faut d’abord bien définir le problème. Dans l’exemple présent, le directeur veut savoir qui sont ces clients actuels et à quels clients il peut proposer ses nouveaux produits.

30.2 - RECHERCHE DES DONNÉES

Pour répondre à ces deux interrogations, il est nécessaire de rechercher les informations qui donnent les caractéristiques des clients et les achats qu’ils ont effectués.

On peut retenir :

Pour les clients l’âge le sexe la situation de famille le nombre d’enfants la catégorie professionnelle les centres d’intérêts la commune la taille de la commune le type d’habitation

Pour les produits achetés le produit la date le montant le type de paiement

Le choix des données étant fait, il faut déterminer les différentes sources. Certaines proviennent du contrat (âge, sexe, produit, montant, etc.), d’autres de questionnaires (centres d’intérêts) ou de base de données nationales (taille de la commune).




30.3 - SÉLECTION DES DONNÉES

Certaines données, comme les centres d’intérêts, peuvent être difficile à récolter, tous les clients ne répondant pas aux questionnaires. Le taux de réponse peut être estimé à 40 %.Pour la sélection des données, on ne peut pas exclure les clients n’ayant pas répondu aux questionnaires car cela fausserait les chiffres de l’étude, par contre, il faut se fixer certaines règles pour limiter la taille de l’échantillon.

Ne pas prendre les clients qui n’ont pas effectué d’achats durant les trois dernières années.

Prendre un enregistrement sur trois pour les clients ayant un montant d’achat total supérieur à 20.000 FR.

Prendre un enregistrement sur dix pour les clients ayant un montant d’achat inférieur à 20.000 FR.

A l’issue de cette sélection, nous nous trouvons en présence d’un échantillon, où le poids des clients à fort potentiel a été augmenté, ce qui permettra de mieux analyser leur comportement.

30.4 - NETTOYAGE DES DONNÉES

Trois types de problèmes peuvent être rencontrés dans cet échantillon : les valeurs aberrantes, les valeurs manquantes et les valeurs nulles.

Les valeurs aberrantes sont détecter par les méthodes statistiques classiques. Les valeurs manquantes peuvent être remplacées par une moyenne nationale, exemple le nombre d’enfants.

30.5 - ACTIONS SUR LES VARIABLES

Pour que les données soient exploitables, il faut maintenant agir sur certaines variables, par des transformations monovariables ou multivariables.

Transformations monovariables :

Modification de l’unité de mesure pour avoir des valeurs comparables. Transformation des dates en durées, par exemple, ancienneté du client. Modification des données géographiques en coordonnées.




Transformations multivariables Ratios Fréquence Tendances

30.6 - RECHERCHE DU MODÈLE

Cette étape consiste à extraire les facteurs pertinents et les présenter sous forme synthétique. Dans notre exemple, les trois facteurs déterminants qui apparaissent sont l’âge, le nombre de contrats et le chiffre d’affaires. A partir de ces facteurs, les clients sont rangés dans neuf sous-classes.

C’est lors de cette phase que le ou les algorithmes de calcul seront choisit. Dans notre exemple, un réseau de neurone a été construit afin de prédire la classe d’appartenance des clients, puis cette information a été utilisé dans un arbre de décision pour une meilleure formalisation.

30.7 - EVALUATION DU RÉSULTAT

L’évaluation du résultat permet d’estimer la qualité du modèle, elle est généralement qualitative (facilité de compréhension du résultat) et quantitative (intervalle de confiance).

30.8 - INTÉGRATION DE LA CONNAISSANCE

L’intégration de la connaissance consiste à implanter le modèle ou ses résultats dans le système informatique de l’entreprise.

C’est de plus l’occasion, pour faire le bilan des étapes précédentes, qui ont pu faire apparaître certains points à améliorer, qualité des données, collecte des données…




31 - CHOISIR LE BON OUTIL

Selon le problème posé, il faut choisir la technique ou les techniques qui s’appliquent aux taches désirées.

Le tableau ci-dessous présente quelles techniques traitent quelles taches.

Classification

Estim

ation

Préd

iction

Regrou

pem

ent

par sim

ilitud

e

An

alyse des

clusters

Descrip

tion

Statistiques normales

Analyse du panier de la ménagère

Raisonnement basé sur la mémoire

Algorithmes génétiques

Détection de clusters

Analyse des liens

Arbres de décision

Réseaux de neurones

Tableau 56 : choisir le bon outil de data mining




31.1 - CARACTÉRISTIQUES INFORMATIQUES

Un outil de Data Mining doit :

Permettre des connexions aux bases de données afin de simplifier les manipulations de données.

Etre performant, c’est à dire la précision et la rapidité des modèles. Permettre des interfaces à des requêteurs ou à des outils OLAP, afin de visualiser les

données sans manipulations.

Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997 (source IDC)

31.2 - GAMMES DE PRIX ET DE PUISSANCE

Le tableau ci-dessous présente les produits existants sur le marché en fonction de quatre critères, les compétences requises, les techniques de modélisation, le matériel nécessaire et le prix.

Graphique 7 : marché des logiciels de data mining




31.3 - ADÉQUATION DE L’OUTIL

L’outil doit être adapté à

La quantité de données, La nature des données, Nombre de relations, La nature des relations.

31.4 - NIVEAU DE COMPÉTENCE

Le tableau ci-dessous classe les techniques par facilité de compréhension, facilité d’apprentissage, application, généralité, utilité et disponibilité.

Facilité de Compréhension

Facilité Apprentissage

Facilité Application

Généralité Utilité Disponibilité

Statistiques B B B B B A+

Analyse du panier de la ménagère

A A A+ D B B

Raisonnement basé sur la mémoire

A- B B A- A- C

Algorithmes génétiques

B- C- A- B+ C C

Détection des clusters

B+ B+ A- A- B- B

Réseaux bayésiens

A- C B D B C+

Arbres de décision

A+ B+ A+ A A B+

Réseaux de neurones

C- B- A- A A A

Tableau 57 : niveau de compétence selon les techniques de data mining




32 - DATA MINING ET ETHIQUE

Il serait difficile de terminer cet exposé sur le data mining sans parler des problèmes d'éthique.

En France, la loi du 24 Janvier 1978 oblige toute personne enregistrant des données sur les individus à en faire une déclaration préalable auprès de la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées.

Cette loi présente l'avantage de préserver l'intimité des individus, là où les techniques de data mining veulent aller dans le sens opposé !

Cependant, le développement d'Internet et son utilisation croissante à des fins commerciales (et non plus universitaires comme au début) risque de bouleverser les règles. Ce réseau est international et il semble difficile de mettre au point une législation commune dans les années à venir. De plus, ces techniques sont récentes et en France, la technique précède toujours le droit. Nous sommes donc loin de préserver l'intimité des individus dans le domaine législatif.

Quelques sociétés se constituent déjà des fichiers d'individus, en mémorisant leurs goûts, budgets, situations, etc… Elles adressent des listes non anonymes de 100 à 200 questions et, en échange de la réponse, proposent des remises sur des achats de produits courants. Elles mettent ensuite à disposition à la vente ces fichiers. Ceux qui les remplissent sont-ils conscients de l'utilisation qui en sera faite ? Quelle pourrait être l'utilisation politique de ces données ? Les clients sont classifiés par des techniques de data mining mais celles-ci ne sont pas fiables à 100 %, alors quelles seront les conséquences pour les individus mal classés ? Etant donnée l'omniprésence de l'informatique dans tous les domaines, quel est le niveau acceptable qu'une société commerciale ne doit pas franchir pour respecter la vie privée des individus ? Peut-on recueillir des informations privées à votre insu ?

Evidemment je laisse à chacun le soin de fournir ses propres réponses, mais il est probable que ces questions se poseront. Aux Etats-Unis, suite à plusieurs incidents, une entreprise trop entreprenante et investigatrice a été obligée de détruire une partie de ses fichiers sous la pression de diverses sociétés de défense des consommateurs.

La difficulté sera de trouver le compromis entre ces problèmes et la demande d'individualisation des utilisateurs.

La mise en œuvre du data mining posera sans aucun doute des problèmes d'éthique, difficiles à résoudre dans un contexte mondial.




33 - OUVERTURE À INTERNET

Internet, et son petit frère à l’échelle de l’entreprise intranet, deviennent aujourd’hui des éléments incontournables du système d’information. Le succès récent de cette technologie relativement ancienne est du à l’apparition du World Wide Web (WWW) en 1989, permettant à un utilisateur d’accéder au réseau Internet à travers un navigateur (browser). Ce dernier lui permet de visualiser les informations sous une forme ergonomique, sans avoir besoin de connaissances en informatique.

Les pages visualisées ne sont pas stockées sur le poste client mais sont envoyées, à la demande, par un serveur Web. Elles sont écrites en langage HTML (Hyper Text Markup Langage) et contiennent du texte formaté, des liens vers d’autres documents ou d’autres parties de la page présentée et des images.

33.1 - ACCÈS À DES PAGES STATIQUES

Affichage de rapports statiques. L’outil d’aide à la décision doit permettre de générer les rapports sous une forme HTML, afin de les visualiser depuis un navigateur et de les mettre à disposition des autres utilisateurs, par exemple sur un serveur d’entreprise, Intranet. Les pages définies sont alors des pages statiques, contenant à la fois la présentation et les données et non mises à jour dynamiquement. Afin de présenter aux utilisateurs des informations récentes, l’outil doit permettre de régénérer automatiquement les rapports à intervalles réguliers (par exemple tous les jours) ou après chaque chargement de données dans le Data Warehouse.

Automatisme du lien entre l’outil d’aide à la décision et le serveur Web. Le serveur Web devient ici un serveur d’entreprise, permettant simplement de stocker des documents et de les mettre à la disposition de toute personne possédant un navigateur Internet et ayant le droit d’accéder à ces pages. Pour que cette solution soit viable, il faut que l’outil soit capable de mettre automatiquement les pages HTML à disposition sur le serveur Web.

Même si elle apparaît sommaire, cette fonctionnalité peut être assez intéressante. Par exemple, dans le cadre d’une entreprise et d’un réseau intranet, les rapports élémentaires peuvent être mis à la disposition de l’ensemble des utilisateurs qui n’ont ainsi pas à maîtriser et à employer un outil d’aide à la décision pour accéder aux informations qui les intéressent.

Mais, au delà de ces fonctionnalités statiques, il est également nécessaire d’accéder directement aux données à travers le navigateur et de générer des pages HTML dynamiquement, à la demande de l’utilisateur.




33.2 - ACCÈS À DES PAGES DYNAMIQUES

Au delà de l’envoi de pages statiques, le serveur Web est aujourd’hui capable de créer dynamiquement des pages, à la demande de l’utilisateur. Ceci peut se faire à travers des scripts CGI (Common Gateway Interface). Ils vont alors se charger d’interroger la base de données. Des interfaces plus évoluées sont proposées par Netscape avec NSAPI et par Microsoft avec ISAPI. Elles sont plus performantes et, contrairement à CGI, ne nécessitent pas la création d’un processus séparé à chaque exécution de script. Par exemple, ISAPI fait appel à des DLLs et non à des exécutables. Plus performantes, elles sont cependant moins fiables car un problème survenant lors de l’exécution d’un script risque de provoquer l’arrêt du processus qui est alors également celui du serveur Web (on parle de démon HTTP).

D’autre part, le langage Javascript permet de joindre des programmes à des pages HTML, afin de soulager le serveur et d’exécuter certains programmes au niveau client. Il peut s’agir, par exemple, de programmes permettant de contrôler si l’utilisateur a bien renseigné tous les champs obligatoires dans un formulaire, avant de l’envoyer vers le serveur, afin d’éviter des aller et retours inutiles.

Enfin, le langage Java permet de créer de petites applications (appelées des applets) qui pourront être chargées directement sur le poste client et exécutées à partir du navigateur, il faut pour cela que ce dernier soit compatible Java.

Au delà du simple partage de rapports, la génération de pages dynamiques est une caractéristique indispensable. L’utilisateur doit pouvoir formuler ses requêtes et récupérer les résultats à travers son navigateur Internet.

D’autre part, il est nécessaire de lui laisser manipuler les données, par exemple dans le cas d’outils permettant d’effectuer de l’analyse multidimensionnelle, de naviguer dans les données.

Au delà d’applications “ clé en main ” mises à la disposition de l’utilisateur et lui permettant de manipuler les données dans le cadre qui lui a été imparti, ces outils devraient permettre à l’utilisateur de définir ses requêtes aussi librement qu’il le fait avec l’outil, de même pour la valorisation des résultats. Ceci permet alors de mettre à la disposition de l’ensemble des utilisateurs les données de l’entreprise, évite les coûts et les efforts d’installation et de mise à niveau des produits, l’application étant alors basée sur le serveur.




33.3 - LE WEB ET L'AIDE À LA DÉCISION

Selon le Data Warehouse Institute, 82% des accès à un Data Warehouse s'effectuent aujourd'hui en Client/Serveur "classique", 38% par un intranet et 8% via l'Internet. Ceci confirme que le mariage entre le Web et l'aide à la décision est non seulement souhaitable, car il permet d'élargir la cible des utilisateurs concernés avec une problématique de déploiement amoindrie, mais aussi opérationnel dès aujourd'hui, même si la puissance fonctionnelle et la qualité de service du Web sont plus faibles qu'en Client/Serveur. L'analyse de ces chiffres indique également la complémentarité du Client/Serveur et du Web, le premier étant a priori mieux adapté aux utilisations intensives et le second pour toute autre utilisation que le Client/Serveur ne peut satisfaire pour des raisons de coûts de déploiement ou d'insuffisante homogénéité de l'infrastructure.

Requêteurs et outils OLAP diffèrent dans leur capacité à s'intégrer au monde du Web. OLAP s'adapte naturellement au Web par la structure de navigation prédéfinie qu'il propose, principe conforme au concept hypertexte du Web. Malgré tout, les versions Web existant à ce jour représentent encore une légère régression fonctionnelle par rapport à leur version Client/serveur, mais ces différences s'amenuisent de jour en jour.

Côté requêteur, l'intégration au Web est plus complexe à réaliser : laissant beaucoup d'autonomie à l'utilisateur, ces outils disposent d'une interface cliente assez sophistiquée. HTML montre alors ses limites fonctionnelles du côté de

l'interface homme/machine et beaucoup d'éditeurs proposent de ce fait des versions bridées de leur outil, pour l'exécution de requêtes prédéfinies. Pour aller au delà, il est souhaitable de rapatrier sur le poste client une partie de l'outil, par des mécanismes comme Java, les plug-ins, ou encore Active X.

Certains éditeurs, à l'instar de Brio qui a choisi le plug-in, proposent ces architectures ou sont en passe de le faire. Mais, chacune d'entre elle n'est pas sans inconvénient, en terme de consommation de bande passante et d'absence d'offre opérationnelle côté Java et de problèmes de déploiement qui subsistent du fait de la recopie de code côté client pour les plug-ins ou Active X.




34 - CONCLUSION

34.1 - LES OUTILS D’AIDE À LA DÉCISION

Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de l’aide à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport au processus de prise de décision.

Ainsi, en conclusion, nous rassemblons les apports de ces techniques.

Le data warehouse permet au décideur de travailler dans un environnement informationnel, référencé, homogène, historisé. Cette technique l’affranchit des problèmes liés à l’hétérogénéité des systèmes informatiques, l’hétérogénéité des différentes définitions de données issues de l’historique de l’organisation.

L’Analyse multidimensionnelle permet d’extraire du data warehouse, une connaissance quantitative de l’activité de l’organisation selon les dimensions ou les aspects qui préoccupent le décideur à un instant donné. L’explication d’un résultat, à un niveau d’agrégation donné, s’explique par les résultats du niveau d’agrégation inférieur.

Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances : l’une, explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle, porteuse éventuellement de nouvelles possibilités d’action.

Le Tableau de Bord a été juste évoqué; il est à la frontière du Data*. Cet outil se retrouve dans tous les systèmes de Pilotage ( Opérationnel ou Décisionnel ). warehouse. Toutefois, appliquée sur un data warehouse, la fonction Indicateur du tableau de bord peut intégrer un éventail plus riche de variables ou être rapprochée d’un référentiel plus large dans le temps.

Aujourd’hui, ces techniques font l’actualité des presses spécialisées; spécialisée en informatique, bien sûr, mais aussi dans les rubriques “Informatiques” des presses spécifiques à chaque type d’activité. Les applications décisionnelles dans le Marketing nourrissent la majorité de ces articles de presse.

34.2 - LES PERSPECTIVES POUR L’ENTREPRISE

Reconsidérant l’entreprise dans son environnement ( cf schéma des Forces de M.Porter ci-dessous ), nous percevons les nouvelles possibilités

d’alimentation des systèmes décisionnels à partir des “ data warehouse ” de fournisseurs ou de clients de différents observatoires et groupements professionnels d’administrations

de rediffusion d’information




auprès de ces mêmes agents qui ont alimenté le DW de l’entreprise de connexion des data warehouse entre eux sous forme

d’un réseau de data warehouse répartis à la surface de la terre, disposant d’un seul dictionnaire de données et de méta-données. ( cas d’une multinationale ou par exemple un organisme de l’ONU).

de convergence d’un réseau de data warehouse répartis à la surface de la terre vers un data warehouse “ Central ”.

Nous pouvons penser que les perspectives d’échanges d’information ou de connexion entre les systèmes décisionnels au travers du WEB vont s’auto-générer : c’est à dire, “ entrer dans le processus d’interconnexion ” générera de nouvelles opportunités stratégiques ( alliances, rachat, réseau d’entreprises) qui, réalisées, amèneront de nouvelles architectures décisionnelles et permettront d’ouvrir d’autres perspectives.

34.3 - CONCLUSION

De ces possibilités, nous n’avons pas aujourd’hui suffisamment d’expériences connues , si toutefois, il en existe. Ainsi, à ce stade de la réflexion, nous passons le témoin de ce travail aux prochains auditeurs de valeur C en informatique décisionnelle. A eux, de rendre compte, d’analyser et d’expliquer ce dont ils seront témoins dans les perspectives WEB-Décisionnel que nous commençons à entrevoir à ce jour.




35 - GLOSSAIRE

Agent intelligent

(Knowbot)

Un agent est une entité logicielle capable d'agir sur elle-même et sur son environnement. Il dispose d'une représentation partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un objectif individuel et son comportement est la conséquence de ses observations, de ses compétences, et des interactions qu'il peut avoir avec d'autres agents et son environnement.

Alerteur Mécanisme se déclenchant automatiquement et envoyant des informations à une application (alerteurs des SGBD relationnels), ou une information visuelle à l’utilisateur (alerteurs dans les outils clients du Data Warehouse).

APIApplication Programming Interface

Interface de Programmation d'Applications. Interface permettant à un langage de programmation d'accéder à un service de manière programmée.

On parle de l'API de Windows ou de celle de SQL Server. L'API de Windows va aider les applications à gérer tous les éléments graphiques Windows (fenêtres, contrôles, menus).

Arbre de décision Technique visuelle permettant de diviser des données en groupes basés sur les valeurs des variables. Elle permet de déterminer les variables significatives pour une variable donnée.

Base de données distribuée

Base dont les données sont dispersées sciemment (distribuées) sur plusieurs serveurs liés par un réseau.

Une application cliente peut avoir besoin d'accéder aux données de X serveurs simultanément.

On dit aussi Base Répartie lorsque c'est le SGBD qui pilote les accès

Base de données locale Base de donnée située sur le poste client, contenant des données propres à l’utilisateur, voire des données partagées répliquées.

Batch Dans les outils de Data Mining ou d’infocentre, le batch permet d’explorer de grandes masses de données (requêtes lourdes) à des heures creuses, sans trop solliciter le poste de l’utilisateur, voire à planifier l’exécution des requêtes (module souvent appelé scheduler).

Catalogue Dans certains outils clients du Data Warehouse, c’est la structure permettant à l’utilisateur de travailler sur une vue logique et orientée métier des données qu’il souhaite visualiser.

Catégorie Valeur prise par une variable discrète.

Classification Deux types de classification existent :




soit classer des éléments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi d’apprentissage supervisé.

soit de regrouper les éléments ayant des comportements similaires dans des classes, inconnues au départ. On parlera alors de clustering, de segmentation ou d’apprentissage non supervisé.

Client Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de développement.

Clustering Cf. classification.

Continue(variable)

variable pouvant prendre un nombre illimité de valeurs (par exemple, un réel).

Data Mining Définition un peu floue car récupérée par beaucoup d’éditeurs d’outils d’aide à la décision. A l’origine, le data mining correspondait à toutes les technologies avancées susceptibles d’analyser l’information d’un Data Warehouse pour en tirer des tendances, pour segmenter l’informations, ou pour trouver des corrélations dans les données. Aujourd’hui, le terme a tendance à caractériser tous les outils d’aide à la décision, le " mineur " étant soit l’outil lui-même soit l’utilisateur.

Data Mining(outils de)

Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d’extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d’information présent dans les entreprises.

Data Surfing Possibilité donnée à l’utilisateur de naviguer de manière ergonomique et intuitive dans un modèle multidimensionnel.

Data Warehouse “ Entrepôt de données ”. Base de données spécifique au monde décisionnel et destinée principalement à analyser les leviers “ business ” potentiels.

D’après Bill Inmon, un Data Warehouse est intégré, orienté sujet et contient des données non volatiles et historisées

Data Warehousing Processus de mise en œuvre d’un projet de Data Warehouse.

DBAData Base Administrator

Personne garante de la cohérence des données, des performances du système, de sa sécurité... Pour les outils disposant d’un catalogue, c’est le DBA qui le mettra en œuvre.




DDEDynamic Data Exchange

Echange Dynamique de données. Protocole de Windows et d'OS/2 PM qui établi un lien permanent entre 2 applications. Par exemple, 'Copier' un tableau Excel, le 'Coller avec Liaison' dans un document Word; Le document sera remis à jour dès que le tableau évolue. Les 2 applications doivent être actives en même temps.

Il permet l'envoi de données et de commandes d'un logiciel demandeur (client) à un logiciel fournissant les services (serveur). Un applicatif client DDE pourra ainsi complètement piloter l'applicatif serveur.

Découverte de règles Les outils permettant de découvrir des règles vont partir d’une hypothèse et la tester au travers de requêtes et de statistiques puis la modifier en fonction des résultats. Ces systèmes vont scruter la base de données, forger des hypothèses et, si elles sont vérifiées, les remonter à l’utilisateur.

Dépendante (variable) Variable cible de l’analyse de Data Mining, notamment pour les arbres de décision.

Détection de déviations Des outils permettent de détecter sur un ensemble de données celles présentant des déviations par rapport à des normes et des indicateurs de référence décrits antérieurement.

Dimension Axe d’analyse associé aux indicateurs ; correspond le plus souvent aux sujets d’intérêts du Data Warehouse ; exemple : dimension temporelle, dimension client...

Discrète(variable)

Variable prenant ses valeurs (cf. catégorie) dans un ensemble limité.

DLL Dynamic Link Library

Bibliothèque de liens dynamiques. Sous Windows, bibliothèque de fonctions propres à une application. Elles peuvent être appelées par d'autres applications et sont chargées à la demande.

Données creuses Dans une structure multidimensionnelle, les données creuses sont des intersections de dimensions pour lesquels un fait ne s’est pas produit (exemple : pas de vente de produit X à la date T) ou n’est pas physiquement stocké (exemple : pas d’agrégations physique associée aux vente de produits par gammes et par mois).

Drag’n’drop 'Tirer et Laisser tomber'. Dans un environnement graphique, consiste à 'prendre' un objet en cliquant dessus en maintenant le bouton enfoncé, puis à le déplacer (Drag) avec la souris jusqu'à un autre endroit où, en relâchant le bouton, on dépose (Drop) l'objet transporté.




Drill across Mécanisme de navigation dans une structure multidimensionnelle. Il permet d’analyser une même métrique sur des axes d’analyse différents (ex : ventes par période, puis par produit).

Echantillon Ensemble de données tiré, aléatoirement ou non, du Data Warehouse et permettant d’effectuer des tests et des recherches sur des volumes restreints.

EIS Executive Information Systems

Executive Information System (littéralement, système d’information des cadres). Environnement de présentation de tableau de bord présentant de manière synthétique et graphiques les performances d’une activité (ex : santé d’une entreprise, bilan des ventes...).

Element Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des lignes représente un élément de la base de données, un individu.

Fait Donnée numérique servant de base à la définition des indicateurs dans un modèle multidimensionnel. Attention, ce terme est parfois utilisé dans la littérature pour décrire plus généralement tout indicateur.

Forecasting Technique consistant à prévoir le comportement d’une variable par rapport à ses attitudes passées.

Génétique(algorithme)

Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangées).Il est surtout utilisé pour optimiser les paramètres associés à des outils de prédiction ou de classification.

Groupware Logiciel permettant à un groupe de personnes de mener des actions communes ou synchronisées dans un cadre commun.

Le groupware est fondé sur cinq technologies de base.

- la gestion de documents multimédia

- le workflow

- le courrier électronique

- la gestion de conférences

- la planification des réunions.

GUI Graphical User Interface

Interface Graphique pour Utilisateur, ou IHM.

Windows, Presentation Manager, X/Motif en sont

Hétérogénéité Caractère d’un système global intégrant plusieurs types de machines C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 222



ou de SGBD. Dans un monde parfait, le système hétérogène, très souvent distribué, doit être transparent pour l’utilisateur afin d’intégrer automatiquement les systèmes existants d’une entreprise.

Hypercube Cube à n dimensions. Structure sur laquelle repose la plupart des outils multidimensionnels.

Indicateur Information permettant de mesurer la performance de telle ou telle activité de l’entreprise (ventes, gestion des stocks...). La plupart du temps, cette information est numérique (ex : chiffre d’affaires, quantité en stock...).

Induction Méthode consistant à tirer une conclusion d’une série de faits. Cette conclusion ne sera jamais sûre à 100 %.

Intégrité Ensemble de contraintes appliquées aux mises à jour d’une base de donnée permettant de garantir la cohérence des données. Ces contraintes peuvent être des listes de valeurs à respecter (non nullité et intégrité de domaine) ou bien des liens entre des tables (intégrité référentielle). Par exemple, une commande doit forcément référencer un client : le numéro de client inséré dans une ligne de la table commande doit exister dans la table client.

Jointure Rapprochement entre deux tables par comparaison de valeurs communes, sur la base d’un attribut commun.

Jointure externe Jointure préservant les lignes d’une première table, même si l’attribut de jointure n'apparaît pas dans la seconde. .

MDI Multiple Document Interface

Type d'interface où une fenêtre principale (Workplace), dans laquelle sont imbriquées, des fenêtres secondaires gère toutes les actions possibles. Les Gestionnaires de Programme et de Fichiers de Windows en sont des exemples connus.

Messagerie électronique (E-mail)

Structure de base assurant les fonctions de communication d'entreprise.

Interpersonnelle : communication entre utilisateurs

Interapplicative : entre applications

Applications groupware : entre groupes de travail

Méta-données “ Donnée décrivant une donnée ”.

Métabase Ensemble de tables systèmes utilisées par les SGBD pour stocker la description des objets utilisateurs (tables, vues, droits, procédures stockées, ...) d’une base




Métrique Indicateur. Parmi les indicateurs pertinents, certains distinguent les faits, stockés physiquement dans la base décisionnelle, des métriques, dérivées de ces faits.

Middleware Le logiciel du centre : infrastructure logicielle permettant de rendre l’architecture Client/Serveur la plus transparente possible.

Dans un contexte décisionnel, il est situé entre les outils d’aide à la décision et la base de données décisionnelle. Un bon middleware permet d’avoir indépendance entre ces deux types de composants

Modèle dimensionnel (ou multidimensionnel)

Technique de modélisation consistant à modéliser une base décisionnelle à partir de l’identification des faits à analyser et des dimensions d’analyses qui leur sont associées

Modèle en étoile Technique de modélisation dimensionnelle, consistant à créer physiquement ce modèle sur une base de données relationnelle. Ce modèle distingue physiquement les tables de faits des tables de dimensions

Modèle en flocon (ou snowflake)

Technique de modélisation dimensionnelle, dérivée de la modélisation en étoile. Dans ce modèle, les tables de dimensions y sont dénormalisées, c’est à dire dénuées de redondances.

Modèle relationnel Technique de modélisation consistant à modéliser une base de données en la décomposant en entité et en relations corrélant ces entités

MOLAP Multidimensional On Line Analytical Processing.

Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel en s’appuyant sur les bases de données multidimensionnelles

MPPMassively Parallel Processing

Architecture matérielle faisant collaborer plusieurs processeurs (plusieurs centaines) possédant chacun sa propre mémoire.

Multidimensionnel (SGBD)

Base de données dédiée au décisionnel, stockant les données sous la forme d’un tableau multidimensionnel. Ces SGBD sont une alternative aux SGBD relationnels. Voir aussi SIAD

Nearest Neighbor(ou Knn)

Méthode du plus proche voisin utilisée pour faire de la classification supervisée. Elle consiste à examiner les éléments, dont la classe est connue, proches de l’élément dont on veut déterminer la classe.

ODBC Open DataBase Connectivity

Interface d’accès aux SGBD (API + langage SQL) définie par Microsoft en 1992 et basée sur le standard CLI. Du fait de son succès auprès des utilisateurs et des éditeurs, ODBC est devenu un standard de fait. Il permet d’accéder à des SGBD d’éditeurs différents en




utilisant la même interface de programmation. Plusieurs niveaux (Level 1 et Level 2) existent dans l’API correspondant aux niveaux de fonctionnalités.

OLAPOn Line Analytical Processing

Caractérise l’architecture nécessaire à la mise en place d’un système d’information décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence exclusivement aux bases de données multidimensionnelles. En effet, le concept a été formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces règles indépendamment de la structure de stockage utilisée.

De plus en plus, le terme est souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects techniques.

OLE Object Linking and Embedding

Liaison et incorporation d'objets. Protocole Microsoft qui permet la création de document composites ou la communication programmée entre application (OLE Automation). Un document composite fait référence aux diverses applications qui ont permis de composer le document. Il est possible de visualiser alors des documents sans posséder le logiciel qui les a engendrés.

Optimiseur L'optimisation des questions est un aspect tout à fait central des systèmes relationnels; La requête SQL est transformée en une succession d'opérateurs relationnels (restriction, projection, jointure, union, ...); L’optimiseur est un composant logiciel chargé de choisir l'ordre dans lequel ces opérations vont être exécutées.

Passerelle 1. Matériel d’interconnexion de réseaux locaux employant des protocoles de haut niveau différents.

2. Logiciel de traduction situé sur un serveur et permettant à deux applications d’interfaces différentes de dialoguer.

Passthru (mode) Mode de communication particulier offert par certaines API qui permettent de passer le SQL directement au SGBD cible sans tenter de l’analyser. Ce mode permet au développeur d’applications d’utiliser les spécificités des SGBD.

Poste Client Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de développement.




RDARemote Data management

Modèle de Client/Serveur. La partie concernant la gestion des données est assurée par la composante serveur. La partie cliente prend en charge la présentation, mais aussi la totalité de la logique applicative. Dans ce modèle, l'utilisation d'un système de gestion de base de données relationnelle sécurisé, permettant de préserver la cohérence, la permanence et l'intégrité des bases de données, est nécessaire. L'inconvénient de ce modèle est principalement qu'il nécessite des flux élevés sur le réseau (ensemble de requêtes SQL et récupération de résultats de celles-ci). Par ailleurs, il impose de décentraliser une partie importante de l'application sur le poste client et par conséquent celui-ci devra être puissant.

Référentiel Structure de stockage des méta-données. Un référentiel fédère ces méta-données, contrairement aux catalogues, qui sont en général spécifiques à chaque outil. On distingue le " Data Warehouse Repository ", fédérant les méta-données de la base décisionnelle, de " l’Enterprise Repository ", qui inclue dans la théorie toutes les méta-données de l’entreprise, aussi bien transactionnelles que décisionnelles

Relation causale Relation de cause à effet entre des variables. Ainsi, la modification d’une variable A pourra entraîner la modification d’une variable B.

Requête C'est une demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci permet la gestion des données, le langage utilisé est le SQL. Dans une contexte d’infocentre, l'exécution des questions sur un serveur est le plus souvent interprété.

Requêteur Outil permettant à un utilisateur de générer des requêtes SQL et de les envoyer à un serveur de données relationnel.

Réseau Ensemble des moyens qui permettent à des ordinateurs de communiquer entre eux, quelle que soit leur localisation géographique. Dans le cas où le dialogue entre le client et le serveur concernerait l’accès aux données, l'information transitant sur le réseau est la requête SQL, destinée au SGBDR, qui retourne les tuples résultats.

Réseau neuronal Processus opaque permettant à partir de valeurs en entrée de découvrir une valeur en sortie.

Les réseaux neuronaux sont constitués de neurones, aussi appelés nœuds, et d’interconnexions entre ces nœuds, liens permettant d’envoyer des signaux de neurone à neurone. Un réseau de neurone a pour caractéristique de pouvoir apprendre et mettre à profit son expérience pour ajuster le modèle trouvé en fonction, par exemple, de l’arrivée de nouveaux éléments.




ROLAP

Relational On Line Analytical Processing

Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel en s’appuyant sur les technologies relationnelles.

Segmentation Cf. classification

Serveur Composant logiciel et/ou matériel assurant la disponibilité, la distribution, le service transactionnel de l'information. Il gère le partage, la sécurité et la cohérence de l'information.

Il offre ses services à des Clients avec lesquels il communique par le Réseau.

SGBDR Système de Gestion de Base de Données Relationnelle

On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien standardisé.

Les SGBDR (certains disent Serveur de bases de données) les plus avancés disposent de mécanismes de gestion des contraintes d'intégrité appelés les Triggers, et aussi de capacité de traitements liés aux données: les Procédures Stockées.

SIADSystème Interactif d’Aide à la Décision

Environnement permettant de stocker et de structurer l’information décisionnel. Ce terme est souvent utilisé pour identifier les bases de données multidimensionnelles. L’arrivée des concepts de Data Warehouse fait perdre de l’importance à ce terme, qui fait fortement référence à un type spécifique de technologie (et qui n’a pas d’équivalent en anglais).

SMPSymmetric Multi Processing

Architecture matérielle faisant collaborer plusieurs processeurs (quelques dizaines) sur une seule mémoire partagée.

SQL Structured Query Language

Langage de Requête Structuré. Le langage SQL est un standard défini par l'ANSI et l'ISO. Il est dérivé de l'algèbre relationnel et de SEQUEL (System R74). Il constitue aujourd'hui le plus petit commun dénominateur des langages du marché.

Statistiques Les techniques statistiques sont des techniques mathématiques permettant de recueillir et d’analyser des données.

Système distribué (ou réparti)(en anglais, distributed)

De façon générale, un système réparti (ou distribué) est un ensemble de machines qui peuvent échanger des informations par l’intermédiaire d’un réseau de communication. De plus, une architecture répartie (ou distribuée) se définit par un ensemble de stations de travail utilisables simultanément par des usagers.

Il n’existe qu’un seul terme anglais pour définir ce type de système : " distributed ".




TCP/IP Transmission Control Protocol/Internet Protocol: Protocole de communication permettant l’interconnexion de réseaux hétérogènes.

TCP/IP a été défini pour le compte de DOD (Department Of Defense) dans les années 1970. Il correspond aux couches paquets (3) et transport (4) de l'OSI. TCP/IP est devenu un standard de fait, supportés par les réseaux locaux (Lan Manager, Netware), permettant d’accéder aux machines Unix, et aux systèmes propriétaires.

TCP, service de transport orienté connexion, correspond aux niveaux 4 et 5 du modèle OSI. IP, assure l’interconnexion et correspond au niveau 3.

Théta-jointure Jointure complexe dont l’opérateur de comparaison n’est pas l’égalité.

Variable Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des colonne représente une variable, une propriété des éléments considérés.

Visualisation(outil de)

Outil permettant de visualiser de manière graphique les relations entre les données.




36 - INDEX

1

12 Règles d’OLAP....................................................................99

A

Abduction................................................................................133Accès.........................................................................................84Acquisition................................................................................83Acte économique.......................................................................53Activités....................................................................................56ADN........................................................................................177Agent intelligent......................................................................185Agent négociateur...................................................................186Agent vendeur.........................................................................186Agglomération.........................................................................172Agrégation.......................................................................107, 172Aide à la décision......................................................................40Algorithme de rétropropagation..............................................204Algorithmes génétiques...................................................156, 177Amplitude................................................................................131Analyse des clusters................................................................137Analyse des liens.....................................................................155Analyse du panier de la ménagère..................................154, 157Analyse préalable....................................................................130Arbre de décision....................................................................193Arbres de décision...........................................................135, 155Architecture...............................................................................78Articles virtuels.......................................................................161Axe..........................................................105, 106, 107, 108, 118

B

Base de compréhension.............................................................55Base de faits..............................................................................54Bilan........................................................................................130

C

C4.5.........................................................................................194CART......................................................................................194Case Based Reasoning............................................................165Causalité..................................................................................132CBR.........................................................................................165Cellule.....................................................................................106Cellules creuses.......................................................................109Cercle vertueux.......................................................................140CHAID....................................................................................194Chromosomes..........................................................................178Classification...........................................................................135Clusterisation...................................................................135, 137Clusters....................................................................................171CNIL.......................................................................................213Coefficient de corrélation........................................................132Combinaison...........................................................................168Conception................................................................................86Confusion................................................................................132Connaissances (Recherche).....................................................131Conseiller électronique............................................................186Construction..............................................................................82Contenu informatif....................................................................53Corrélation...............................................................................132

Couche cachée.........................................................................201Covariance...............................................................................132Croisement..............................................................................181Cross-over...............................................................................181

D

Data Mart..................................................................................96Data mining

accès décisionnel.................................................................84définition...........................................................................129méthodologie.....................................................................141présentation.......................................................................128statistiques.........................................................................130tâches.................................................................................135techniques..........................................................................154

Data Surfing............................................................................109Data Warehouse........................................................................11Décision.....................................................................................25Décision satisfaisante................................................................37Découverte de connaissances dirigée......................................152Découverte de connaissances non dirigée...............................146Déduction................................................................................134Descendants.............................................................................179Description......................................................................135, 137Détection automatique de clusters..........................................154Diagnostic externe.....................................................................56Diagnostic interne.....................................................................58Dimension.......................................100, 106, 107, 108, 109, 112Dissociation.............................................................................161Distance...................................................................................167Distance interdécile.................................................................131Distance interquartile..............................................................131Donnée................................................................................72, 88Donnée agrégée.........................................................................77Donnée détaillée........................................................................76Donnée historisée................................................................75, 78Données (préparer)..................................................................143Drill up and Down...........................................100, 105, 108, 109Droit........................................................................................213

E

Ecart absolu moyen.................................................................131Ecart type................................................................................131Echelle de préoccupation..........................................................27EIS.............................................................................................62Entreprise..................................................................................12Environnement..........................................................................21Espace de résolution..................................................................34Estimation.......................................................................135, 136Ethique............................................................................187, 213Etude stratégique.......................................................................87Evaluation...............................................................145, 153, 178Evaluer....................................................................150, 162, 176

F

Fitness.....................................................................................179Fonction de compétition..........................................................203Fonction de normalisation.......................................................203Fonction de sommation...........................................................203




Fonction de transfert...............................................................203Fréquence................................................................................162

G

Groupement par similitudes............................................135, 136

H

Hasard.....................................................................................132Heuristique................................................................................18Hiérarchie........................................................105, 106, 108, 112Holland....................................................................................177Hybridation.............................................................................181Hypercube.........................................99, 102, 105, 106, 109, 111

I

Indicateur.................................................................105, 107, 118Indicateurs

Dispersion.........................................................................131Tendance centrale..............................................................131

Induction.................................................................................134Inférence............................................................................46, 133Infocentre............................................................................70, 80Initiative..............................................................................83, 87Interactif....................................................................................40Internet....................................................................................185Inversion..................................................................................181

K

Khi 2........................................................................................132K-moyennes............................................................................171Knowbot..................................................................................185

M

Médiane...................................................................................131Métadonnée.........................................................................77, 91Méta-donnée....................................................................117, 119Méthodes traditionnelles.........................................................131Métrique..................................................................................107Modèle de donnée.....................................................................92Modèle en étoile..............................................110, 112, 113, 119Modèle en flocon.....................................................110, 112, 119Modèle normalisé....................................................110, 111, 112Modélisation..............................................................................33Modélisation dimensionnelle..................................................112Modélisation relationnelle.......................................................111MOLAP...................................................113, 118, 119, 120, 156Moyenne..................................................................................131Mutation..................................................................................181

N

Navigation.......................................................102, 105, 108, 120Neurone formel.......................................................................200Niveau de confiance................................................................162Niveau de support...................................................................163Niveaux de représentation.........................................................32

O

OLAP................................................99, 100, 112, 117, 118, 156Optimisation............................................................................135

Optimisation............................................................................137Outils.......................................................................................210Outils décisionnels....................................................................65

P

Paradigme STI...........................................................................18Plan d’action..............................................................................87Planification..............................................................................33Prédicats....................................................................................47Prédiction........................................................................135, 136Probabilité d’apparition...........................................................189Problématique...........................................................................12Problème...................................................................................16Processus de décision................................................................28

R

Raisonnement basé sur la mémoire.................................154, 165Rationalité limitée.....................................................................36Rationalité procédurale.............................................................37RBM................................................................................154, 165Recherche de connaissances...................................................131Recherche opérationnelle........................................................129Règle d’activation...................................................................201Règle d’apprentissage.............................................................202Règles......................................................................................159Regroupement par similitudes.................................................136Réponse commune..................................................................132Réseau Bayésien......................................................................188Réseau de neurones.................................................................200Réseaux de neurones...............................................................155ROLAP....................................................113, 118, 119, 120, 156

S

Segmentation...................................................................135, 137Sélection..................................................................................180Selective pressure....................................................................180Séries temporelles...................................................................162SGBD........................................................................................42SIAD.........................................................................................39Slice and Dice.................................................100, 105, 108, 109Snowflake................................................................................110Sparcity...................................................................................109Star..........................................................................................110Statistiques......................................................................130, 131STI.............................................................................................18Stockage....................................................................................84Stratégie.....................................................................................56Structure....................................................................................76Système décisionnel............................................................15, 50Système expert..........................................................................43Système opérationnel................................................................72

T

Table de faits...........................................................107, 112, 113Tableau de bord.........................................................................62Tableau des cooccurrences......................................................158Tableur......................................................................................41Tâches du data mining............................................................135TAEL.......................................................................................156Taux d'amélioration.................................................................163Taux de confiance...................................................................162Taux de support.......................................................................163Taxinomie...............................................................................161Techniques de data mining......................................................210




Test d'hypothèses....................................................................141Théorie des graphes.................................................................188Traitement analytique en ligne................................................156

V

Valeurs manquantes................................................................130Variable...................................................................................107




37 - TABLES

37.1 - TABLE DES FIGURES

Figure 1 : les Niveaux de préoccupation du décideur (selon Thomas Gilbert)......................14Figure 2 : comment traverser ?..............................................................................................16Figure 3 : le Système de Traitement de l’Information...........................................................19Figure 4 : structure du Système décisionnel (1).....................................................................21Figure 5 : structure du Système décisionnel (2).....................................................................22Figure 6 : structure du Système décisionnel (3).....................................................................24Figure 7 : échelle de Normalisation des décisions.................................................................26Figure 8 : niveaux de préoccupations et niveau d’agrégation................................................27Figure 9 : échelle de normalisation des décisions..................................................................29Figure 10 : structuration & normalisation.............................................................................30Figure 11 : fonctionnement d’un système expert...................................................................45Figure 12 : différentes formes-objets reliées entre elles dans un réseau sémantique.............46Figure 13 : le système décisionnel.........................................................................................50Figure 14 : structure de la machine........................................................................................51Figure 15 : échelles liées à l'échelle des niveaux de préoccupations (1)...............................52Figure 16 : échelles liées à l'échelle des niveaux de préoccupations (2)...............................52Figure 17 : modèle des données simplifié du contenu informatif de base du système

décisionnel.....................................................................................................................55Figure 18 : l'entreprise, les 5 Forces de Porter, l’environnement..........................................57Figure 19 : différenciation par la technologie et la baisse des coûts......................................58Figure 20 : approche centrée sur le prix................................................................................59Figure 21 : structure de la machine........................................................................................63Figure 22 : positionnement du Data Warehouse....................................................................64Figure 23 : positionnement de l’Analyse Multidimensionnelle.............................................66Figure 24 : positionnement du Data Mining..........................................................................68Figure 25 : un graphe...........................................................................................................188Figure 26 : graphe connexe..................................................................................................188Figure 27 : graphe totalement connexe................................................................................189Figure 28 : graphe pondéré..................................................................................................189Figure 29 : graphe orienté....................................................................................................189Figure 30 : structure d'un arbre de décision.........................................................................193Figure 31 : construction de l'arbre.......................................................................................194Figure 32 : le neurone formel..............................................................................................200Figure 33 : activation du neurone........................................................................................201Figure 34 : les différentes couches du réseau de neurone....................................................201Figure 35 : synoptique du réseau de neurones.....................................................................204

37.2 - TABLE DES GRAPHIQUES




Graphique 1 : graphe des décisions de niveau de préoccupation stratégique.......................60Graphique 2 : déterminer le volume optimal d'apprentissage.............................................150Graphique 3 : vente de voitures en fonction du nombre d'enfants et de l'âge du client......166Graphique 4 : positionnement de trois nouveaux clients....................................................167Graphique 5 : répartition des descendants sur un cercle.....................................................179Graphique 6 : processus de sélection des descendants.......................................................180Graphique 7 : marché des logiciels de data mining............................................................211

37.3 - TABLES DES TABLEAUX

Tableau 1 : les secteurs institutionnels..................................................................................12Tableau 2 : exemple de défi à relever par chaque type d’organisation..................................13Tableau 3 : tableau de décisions normalisées........................................................................27Tableau 4 : les niveaux de représentation..............................................................................32Tableau 5 : Modèle-Action-Equilibration..............................................................................33Tableau 6 : niveaux de Préoccupation et rationalité Limitée.................................................38Tableau 7 : positionnement du Data Warehouse...................................................................65Tableau 8 : différences entre données du système de production et données décisionnelles.72Tableau 9 : le data warehouse, point focal de l'informatique décisionnelle...........................73Tableau 10 : différences entre système de production et data warehouse.............................75Tableau 11 : structure d'un data warehouse...........................................................................76Tableau 12 : tableau de synthèse des architectures de data warehouse.................................79Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse...........................81Tableau 14 : cadre général d’un Data Warehouse.................................................................82Tableau 15 : data warehouse - points de vue pour les utilisateurs.........................................84Tableau 16 : définition d’une méta-donnée...........................................................................91Tableau 17 : interactions des données...................................................................................92Tableau 18 : finalités des data marts et data warehouse........................................................96Tableau 19 : les sept mythes du data mart.............................................................................98Tableau 20 : Ventilation des Règles de Codd......................................................................102Tableau 21 : représentation sous forme de cube..................................................................105Tableau 22 : représentation pyramidale...............................................................................106Tableau 23 : exemple de hiérarchies multiples....................................................................108Tableau 24 : exemple de modèle en étoile...........................................................................113Tableau 25 : exemple de tables agrégées.............................................................................115Tableau 26 : exemple de tables partitionnées......................................................................116Tableau 27 : architecture d’un produit Molap (EDS)..........................................................118Tableau 28 : architecture d’un produit Rolap (EDS)...........................................................119Tableau 29 : principaux outils MOLAP et ROLAP.............................................................120Tableau 30 : les besoins et les outils du Data Warehouse (EDS)........................................121Tableau 31 : principaux outils d’extraction et de nettoyage................................................124Tableau 32 : répartition du revenu du marché du Data Warehouse.....................................125Tableau 33 : explications d'un fort taux de corrélation........................................................132Tableau 34 : exemples d'induction......................................................................................134




Tableau 35 : le cercle vertueux du data mining...................................................................140Tableau 36 : causes possibles de clôture d'un compte bancaire...........................................142Tableau 37 : liste des achats par client pour l'analyse du panier de la ménagère.................158Tableau 38 : tableau des cooccurrences...............................................................................158Tableau 39 : rappel du tableau des cooccurrences...............................................................159Tableau 40 : ventes de voitures en fonction de l'âge et du nombre d'enfants......................166Tableau 41 : réponse des clients à une offre en fonction de l'âge, du sexe et du salaire......168Tableau 42 : calcul des distances.........................................................................................169Tableau 43 : tableau de synthèse utilisant la fonction de combinaison...............................169Tableau 44 : calcul des distances entre chaque graine et chaque point................................172Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centroïdes).173Tableau 46 : tableau des distances entre chaque point.........................................................174Tableau 47 : premières agglomérations...............................................................................174Tableau 48 : calcul des distances avec les nouvelles valeurs...............................................175Tableau 49 : deuxième et troisième niveau d'agrégation.....................................................175Tableau 50 : fin de la construction de l'arbre.......................................................................175Tableau 51 : évaluation des chromosomes..........................................................................179Tableau 52 : hybridation de deux chromosomes.................................................................181Tableau 53 : mutation d'un chromosome.............................................................................181Tableau 54 : inversion dans un chromosome.......................................................................181Tableau 55 : synoptique du processus de mise en œuvre des algorithmes génétiques........182Tableau 56 : choisir le bon outil de data mining..................................................................210Tableau 57 : niveau de compétence selon les techniques de data mining............................212




38 - BIBLIOGRAPHIE

Ouvrages de référence

Jean-Michel Franco et EDS-Institut Prométhéus - Eyrolles, 1996"Le Data Warehouse, le Data Mining"

Michael J.A. Berry et Gordon S. Linoff, - Masson, 1997"Data Mining:Techniques appliquées au marketing, à la vente et aux services clients"

René Lefébure et Gilles Venturi - Eyrolles, 1998"Le Data Mining"

Pierre Lévine et Jean-Charles Pomerol - Editions Hermès, 1990"Systèmes interactifs d’aide à la décision et systèmes experts"

Jean-Charles Pomerol, - Editions Hermès, 1988"Les systèmes experts"

Victor Sandoval - Editions Hermès, 1997"L’informatique décisionnelle"

Gérard Balantzian - Editions Masson, 1992"Les schémas directeurs stratégiques, Démarche pratique"

Olivier Cérutti et Bruno Gattino - Editions Afnor, 1993"Indicateurs et Tableaux de Bord"

Hervé Sérieyx - 1993, Editions Calmann-Lévy

"le Big bang des Organisations"

Anis Bouayad, Pierre-Yves Legris - Editions Dunod, 1996"Les Alliances Stratégiques"

Martin Forest, Groupe Canadien Innovation, “ Gérer le Savoir, le nouveau défi des organisations ”, Journée d’études du 8 Avril 1997, Maison des Professions de Lille.




Articles

IEEE Parall & Distributed Technology, "Parallelism speeds data mining", 1995

Inist CNRS, "Power Tools for Data Drilling", 1996

Cover story, "Data Marts : Low cost, High Appeal", 1996

Objectif, "BussinessMiner : le Data Mining pour tous", 1997

Le monde informatique Novembre 1996

Le monde informatique Février 1997

01 Informatique n° 1442 Février 1997 et n° 1499 du 22 Mai 1998

Décision Micro&Réseaux n°248 Mars 1996

Sciences & vie micro - Juin 1998

Enregistrement (sur cassette)

Formation "Le Data Mining" de Valoris technologies

Autres ouvrages

“ Building the Data Warehouse ” - William H. INMON - 2° Ed 1996 WILEY

“ Le Data Warehouse ” - Jean Michel FRANCO - 1997 Eyrolles

“ Le développement des applications CLIENT/SERVEUR ” William H. INMON - 1991 MASSON (QED)

“ Entrepôts de données ” - Ralph KIMBALL - 1996 Thomson Publishing (WILEY)

“ Data Mining - Techniques appliquées au marketing, à la vente et aux services clients ”Michael J.A. BERRY - Gordon LINOFF - 1996 MASSON (Wiley)

“ Le Client-Serveur ” Georges et Olivier Gardarin - Ed Eyrolles




Articles

Platinum Technology (http://www.platinum.com)

“ Managing the Data Warehouse throughout its lifecycle ”

“ Putting Metadata to work in the warehouse ”

The Olap Report (http://www.olapreport.com)

“ What is OLAP ? ”

Kenan Technologies (http://www.kenan.com)

“ Multidimensional DataBase Technology ”

D2K (http://www.d2k.com)

“ What is a Data Mart ? ” - W.H. Inmon

Informatiques Magazine

Avril 1996 N° 16 Naviguer dans le data warehouse

Mars 1997 N° 26 Data Mining : Comment explorer ses données

Juin 1997 N° 30 Aide à la décision - les meilleurs outils

Janv 1998 N° 40 Dossier Data Mart

Fév 1998 N° 41 Décisionnel : Progiciel ou sur-mesure ?

Le Monde Informatique du 6 Mars 1998 - Les concepts MOLAP et ROLAP

Divers

Support de cours DESS SIAD de la société OSIS

Plaquette commerciale de Business et Décision (CDROM, Articles de presse)

Salon des Eis à Paris

Salon des EIS à Lille




39 - SITES INTERNET

Les sites les plus riches :

Institut Prométhéus sur http://www.prometheus.eds.fr

The DataWarehousing Center sur http://pwp.starnetinc.com/larryg

http://www.kdnuggets.com (en Anglais) http://www.elseware.fr

Vous pouvez également consulter :

http://www.01-informatique.com/techno/fiches/F1396.htmhttp://www.ordinateur-individuel.com/dos_1455/dos1455-7.htmlhttp:// www.businessdecision.com/mining.htmhttp://www.grimmersoft.com http://www.mygale.org:80/05/jargonf/dtb/thm02.htm http://www.lmi.fr:80/lmi/736/736p11.html http://wwwperso.hol.fr:80/~nuvoloni/AD.HTM http://yphise.com/etudes/fr/jrnl28.htmhttp://www.grd-publications.com/tech/t_001.htmhttp://www.datamodeling.com/http://www.fr.ibm.com/france/pole/m3p_pr4.htmhttp://www.idg.fr/lmi/700/700p28.htmlhttp://www.cognos.com/international/fr/presse19.htmlhttp://institut.inforoute.cgs.fr/idecis.htmhttp://www.businessdecision.com/r2.htmhttp://www.lmi.fr/lmi/756/756p10.html

Vous retrouverez l'intégralité de ce dossier sur le site suivant :

http://home.nordnet.fr/~dnakache/valeurc


http://home.nordnet.fr/~dnakache/valeurc

http://www.elseware.fr/

http://www.kdnuggets.com/

http://pwp.starnetinc.com/larryg

http://www.prometheus.eds.fr/

Documents

Data Warehousing and Data Mining