58
Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données G. K. Y. Chan Q.Li L. Feng Bienvenu Marie - Chapelle Cédric

Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Embed Size (px)

DESCRIPTION

Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données. G. K. Y. Chan Q.Li L. Feng. Bienvenu Marie - Chapelle Cédric. Introduction. Présentation d’un algorithme de réduction des coûts d’exécution des requêtes sur un entrepôt de données - PowerPoint PPT Presentation

Citation preview

Page 1: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

G. K. Y. Chan Q.Li L. Feng

Bienvenu Marie - Chapelle Cédric

Page 2: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Introduction Présentation d’un algorithme

de réduction des coûts d’exécution des requêtes sur un entrepôt de données

1) Définition d’un modèle de coût2) Conception de l’algorithme qui

déterminera les vues à matérialiser

Page 3: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Introduction (2) Étude d’un cas concret : la

société R, extraction d’une partie de la base pour former l’entrepôt de données

- Table de fait : Facture INV (Co_no, Inv_no, Inv_date, P_no, Qty, Amt)- Table de dimensions :Société et ProduitCO (Co_no, Co_name, R_no)PD (P_no, P_name, Mfr_no, Type_no, Cat_no)

Page 4: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du datawarehouse (1) Différents schémas Application à la société ‘R’:

éléments nécessaires Stockage des informations

fréquemment utilisées dans des vues récapitulatives

Architecture du système et caractéristiques

Page 5: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Différents schémas pour les systèmes de Datawarehousing Schéma en étoile

Schéma en constellation

Schéma en flocon

Page 6: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Schéma en étoile

Page 7: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Schéma en constellation

Page 8: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Schéma en flocon

Page 9: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du datawarehouse (2) Différents schémas Application à la société ‘R’:

éléments nécessaires Stockage des informations

fréquemment utilisées dans des vues récapitulatives

Conception du système et caractéristiques

Page 10: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Application à la société ‘R’: éléments nécessaires (1) Conception du Diagramme Entité-

Association du système de facturation

Page 11: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Application à la société ‘R’: éléments nécessaires (2) Nécessité d’estimer la fréquence

de chaque requête et donc la fréquence d’accès à la vue associée

Page 12: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du datawarehouse (3) Différents schémas Application à la société ‘R’:

éléments nécessaires Stockage des informations

fréquemment utilisées dans des vues récapitulatives

Architecture du système et caractéristiques

Page 13: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Stockage dans des vues récapitulatives Stocker dans des vues les clés et

certains attributs des dimensions fréquemment utilisés par les requêtes

+ : réduit le nombre de jointures entre table de fait et tables de dimensions

- : occupe de l’espace disque supplémentairePb : Trouver l’ensemble optimal de clés et

attributs de dimension à stocker dans les vues (notions de bénéfice et d’efficacité )

Page 14: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coûts d’ajout de différentes informations à la table de fait

Page 15: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du datawarehouse (4) Différents schémas Application à la société ‘R’:

éléments nécessaires Stockage des informations

fréquemment utilisées dans des vues récapitulatives

Conception du système et caractéristiques

Page 16: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du système et caractéristiques (1) Schéma hybride de la société ‘R’

Nécessité de calculer les tailles des tables de dimension normalisées

Page 17: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données
Page 18: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conception du système et caractéristiques (2) Schéma hybride de la société ‘R’

Nécessité de calculer les tailles des tables de dimension normalisées

Page 19: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Taille des tables normalisées

Page 20: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Sélection des vues à matérialiser Modèle de coût

Adaptation d’un algorithme optimal de sélection des vues à matérialiser

Analyse du coût

Page 21: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Modèle de coût

coût total =

coût de requête +

coût de maintenance des vues matérialisées

+ coût de stockage

Page 22: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût de requête Hypothèse : ni index , ni clé de hashage

sur les vues => balayage séquentiel

),,...,()()( 1 idndfigiq VVVCVCqC

...))(*)()(()( 11 iddi VSVSVSVS

))(*)()((... didndn VSVSVS

r

i

iqqiqr qCfCTotal1

)(*)(

Page 23: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût de maintenance (1) Hiérarchisation des vues : notion

de descendance

Calcul du coût

Page 24: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données
Page 25: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût de maintenance (2) Hiérarchisation des vues : notion

de descendance

Calcul du coût

Page 26: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Calcul de coût

),,...,()()( 1 aidndjaigim VVVCVCVC

...))(*)()(()( 11 aiddai VSVSVSVS

))(*)()((... aidndn VSVSVS

r

i

imuim VCfCTotal1

)(*)(

Hypothèse : fui = 1 ; Toutes les vues sur les ventes sont actualisées régulièrement

Page 27: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût de stockage (1) Dépendance de la capacité du disque dur

Calcul du coût

Page 28: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût de stockage (2) Dépendance de la capacité du disque dur Calcul du coût

)(*)( iistore VSUVC

Hypothèse : U=1, d’où

)()( iistore VSVC

Page 29: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Indice d’efficacité de matérialisation

Bénéfice net

Efficacité de matérialisation

Page 30: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Bénéfice net Bénéfice net : net(Bi)

= bénéfice Bi- coût maintenance- coût stockage

ai : ancêtre de i, ni : descendante de im : nombre de descendants de i

m

n

initainitniqi VVCVVCVfB1

)]()([*)(

Page 31: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Indice d’efficacité de matérialisation

Bénéfice net

Efficacité de matérialisation

Page 32: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Efficacité de matérialisation bénéfice net par unité de stockage

de la vue matérialisée

)()/( iii VSBNet

Page 33: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coût total Calcul du coût total des requêtes

apres matérialisation d’une vue

Coût total = Coût total – Bénéfice + Coût de stockage + coût de maintenace

Page 34: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Algorithme Déterminer les chemins optimaux pour

les requêtes et la maintenance des vues Calculer le bénéfice net et le coefficient

d’efficacité de chaque vue Classer les vues par ordre décroissant

d’efficacité Déterminer le coût total minimum Sélectionner l’ensemble optimal de

vues à matérialiser

Page 35: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Chemins optimaux (1)

Page 36: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Chemins optimaux (2)

INV

Co-P-Day

R-P-Day

R-P-Month P-Sale-Day

P-Sale-Month

Page 37: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Algorithme Déterminer les chemins optimaux pour

les requêtes et la maintenance des vues Calculer le bénéfice net et le coefficient

d’efficacité de chaque vue Classer les vues par ordre décroissant

d’efficacité Déterminer le coût total minimum Sélectionner l’ensemble optimal de

vues à matérialiser

Page 38: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Algorithme Déterminer les chemins optimaux pour

les requêtes et la maintenance des vues Calculer le bénéfice net et le coefficient

d’efficacité de chaque vue Classer les vues par ordre décroissant

d’efficacité Déterminer le coût total minimum Sélectionner l’ensemble optimal de

vues à matérialiser

Page 39: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Classer les vues par ordre décroissant d’efficacité

Page 40: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Algorithme Déterminer les chemins optimaux pour

les requêtes et la maintenance des vues Calculer le bénéfice net et le coefficient

d’efficacité de chaque vue Classer les vues par ordre décroissant

d’efficacité Déterminer le coût total minimum Sélectionner l’ensemble optimal de

vues à matérialiser

Page 41: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Déterminer le coût total minimum

);( qalltotal CTotalC do );;1(for iTii

);( then )0)(( if itotaltotali BNetCCBNet break; else

totaltotal CCMin )(

Page 42: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Algorithme Déterminer les chemins optimaux pour

les requêtes et la maintenance des vues Calculer le bénéfice net et le coefficient

d’efficacité de chaque vue Classer les vues par ordre décroissant

d’efficacité Déterminer le coût total minimum Sélectionner l’ensemble optimal de

vues à matérialiser

Page 43: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Sélectionner l’ensemble optimal de vues à matérialiser

then))()(&(&)))()(( if totalitotali CMinBNetCSVSLS

;L);( qalltotal CTotalC

do );;1(for iTii set ewsummary vi thefrom select LTVi

ess;effectiven storagehighest with the

;iVLL break; else

endfor;;return L

Page 44: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple CO_P_Day (1) Select

INV.Co_No,Co_Name,INV.P_No,Type_No,Cat_No,MFR_No,R_No,INV_DT,SUM(AMT)AMT,SUM(QTY)QTY

From INV, CO, PDWhere Inv.Co_No=Co.Co_No and

INV.P_No=PD.P_No

Page 45: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (2) Coût de stockage

D’après le coût d’ajout de différentes informations : {CO_P}UX = 240B

Page 46: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Coûts d’ajout de différentes informations à la table de fait

Page 47: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (3) Coût de la requête :Coût de selection + Coût des

jointures

240+(12+12*240)+(6+6*240)=4578 B

Page 48: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Taille des tables normalisées

Page 49: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (4) Coût de maintenanceCoût de requête de l’ancêtre + Coût

de jointure de l’ancêtreAncêtre de Co_P_Day : INV114 + (12+12*114) + (6+6*114) = 2184 B

Page 50: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (5) Bénéfice Net

Bénéfice - Coût de stockage - Coût de maintenance

97694.88 - 240 - 2184 = 95270.88 B

Page 51: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (6) Efficacité

Bénéfice Net / Coût de stockage

95270.88 / 240 = 396.96

Page 52: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Exemple Co_P_Day (7) Coût total

Total (C) – Bénéfice Net

126270 – 95270.88 = 30999.12 B

Page 53: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Analyse du coût (1)

Page 54: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Analyse du coût (2)

Page 55: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Directives (1) Pour la conception d’un schéma de

datawarehouse Pour la sélection des vues à

matérialiser

Page 56: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Pour la conception du schéma Minimiser la taille des attributs les plus

utilisés Normaliser les grosses tables de dimensions Dé-normaliser celles contenant peu

d’enregistrements Partitionner horizontalement la table des

faits Stocker clés étrangères et attributs

fréquemment accédés dans les vues

Page 57: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Directives (2) Pour la conception d’un schéma de

datawarehouse Pour la sélection des vues à

matérialiser

Page 58: Conception optimisée de Vues Matérialisées dans un Environnement réel d’Entreposage de données

Conclusion Méthodes de conception efficace à partir

des données de la Cie R Schéma hybride (avec concepts de

modélisation multidimensionnelle) Modèle de coût Algorithme de sélection des vues Trois stratégies comparées Envisagé : autres méthodes de

maintenance des vues