Upload
hamien
View
215
Download
1
Embed Size (px)
Citation preview
Mthode de construction dentrept de donnes temporalis pour un systme
informationnel de sant
par
Christina Khnaisser
Mmoire prsent au Dpartement dinformatique
en vue de lobtention du grade de matre s sciences (M.Sc.)
FACULT DES SCIENCES
UNIVERSIT DE SHERBROOKE
Sherbrooke, Qubec, Canada, fvrier 2016
ii
Le 15 fvrier 2016
le jury a accept le mmoire de Madame Christina Khnaisser dans sa version finale.
Membres du jury
Professeur Luc Lavoie Directeur de recherche
Dpartement dinformatique
Professeur Jean-Francois thierCoDirecteur de recherche
Dpartement de mdecine interne
Hassan Diab Coordonnateur recherche et dveloppement
Membre externe Centre intgr universitaire de sant et des services sociaux de lEstrie
Centre hospitalier de lUniversit de Sherbrooke
Professeur Marc Frappier Prsident-rapporteur
Dpartement dinformatique
iii
Sommaire
Des systmes informationnels de sant (SIS) ont t mis en place au cours des 20 dernires
annes pour soutenir les processus de soins, les tches administratives et les activits de
recherche ainsi que pour assurer la gestion raisonne des tablissements de sant. Un entrept
de donnes (ED) doit tre cr partir de nombreuses sources de donnes htrognes afin de
rendre les donnes exploitables dune faon uniforme au sein des SIS. La temporalisation de
cet entrept est rapidement devenue un enjeu crucial afin de garder les traces de lvolution
des donnes et damliorer la prise de dcision clinique. Lentrept de donnes temporalis
(EDT) requiert lapplication de rgles systmatiques afin de garantir lintgrit et la qualit
des donnes. Gnrer le schma temporel dun EDT est une tche complexe. Plusieurs
questions se posent ds lors, dont celles-ci : (a) Quel modle temporel est le mieux adapt
lautomatisation de la construction dun EDT (plus particulirement dans le domaine de la
sant)? (b) Quelles proprits peut-on garantir formellement, suite cette construction?
Dune part, le volume du schma de donnes ncessite dimportantes ressources humaines et
financires, et dautre part, plusieurs modles temporels existent, mais ils ne sont pas
formaliss ou non gnraux. Les concepteurs sen remettent donc le plus souvent des rgles
de pratiques varies, floues, incompltes et non valides. Dans ce travail, un cadre de
rfrence permettant de formaliser, de gnraliser et doprationnaliser des modles
temporels est dfini. Deux modles : BCDM et TRM sont prsents selon le cadre de
rfrence avec leurs contraintes dintgrit, leurs algorithmes de construction et une liste des
prolongements requis. Il en rsulte quil est dsormais possible de saffranchir des rgles de
pratique imprcises et de temporaliser un entrept en se fondant sur une mthode rigoureuse
aux proprits dmontrables bases sur des critres fondamentaux (thorie relationnelle), des
critres de conception reconnus et explicites (normalisation).
iv
Remerciements
Mes remerciements les plus profonds sadressent particulirement mes directeurs Luc
Lavoie et Jean-Franois thier ainsi qu Hassan Diab, reprsentant du CIUSSS-CHUS pour
leurs conseils et leur soutien financier et acadmique. Grce vous, ce projet fut une
exprience trs enrichissante ainsi quune ouverture vers le monde de la recherche. Ce projet
ma permis galement de contribuer tant lavancement de la science qu son utilisation au
sein de ma socit daccueil laquelle je suis redevable. Finalement, je remercie mes parents
pour leur soutien et leurs encouragements constants.
v
Table des matires
Sommaire ............................................................................................................. ii!
Remerciements ................................................................................................... iv!
Table des matires ............................................................................................... v!
Liste des abrviations ....................................................................................... xiii!
Liste des tableaux .............................................................................................. xv!
Liste des figures ................................................................................................ xvi!
Introduction ......................................................................................................... 1!Contexte ................................................................................................................................. 1!
Problmatique ........................................................................................................................ 1!
Objectifs ................................................................................................................................. 3!
Mthodologie ......................................................................................................................... 3!
Rsultats ................................................................................................................................. 4!
Structure du mmoire ............................................................................................................. 5!
Chapitre 1 Systme informationnel de sant ....................................................... 6!1.1! Mise en contexte ........................................................................................................... 6!
1.1.1! Besoins ................................................................................................................... 7!
1.1.2! But recherch ......................................................................................................... 8!
1.1.3! Dfis ....................................................................................................................... 9!
1.2! Problmatiques de construction dun EDC ................................................................. 10!
1.2.1! Modlisation dentrept de donnes cliniques ..................................................... 10!
1.2.2! Modlisation dentrept de donnes temporel ..................................................... 13!
vi
1.2.3! Raisonnement temporel ....................................................................................... 15!
1.2.4! Intgration des sources de donnes ...................................................................... 16!
1.3! Vision .......................................................................................................................... 19!
1.3.1! Les caractristiques des agents ............................................................................ 20!
1.3.2! Les composants .................................................................................................... 21!
1.4! Synthse ...................................................................................................................... 22!
1.4.1! Problme cibl ..................................................................................................... 23!
1.4.2! Autres problmatiques ......................................................................................... 23!
Chapitre 2 Temporalisation dun entrept de donnes ...................................... 25!2.1! Exemple de temporalisation d'une relation ................................................................. 25!
2.1.1! Scnario A ............................................................................................................ 26!
2.1.2! Scnario B ............................................................................................................ 28!
2.1.3! Scnario C ............................................................................................................ 30!
2.1.4! Synthse des exemples ......................................................................................... 32!
2.2! Problme cibl ............................................................................................................ 33!
2.2.1! Prsentation .......................................................................................................... 33!
2.2.2! Hypothses ........................................................................................................... 34!
2.2.3! Description du processus ..................................................................................... 34!
2.2.4! Description des sous-processus ............................................................................ 35!
2.3! Problmatiques de temporalisation ............................................................................. 38!
2.4! Rsultats attendus ........................................................................................................ 39!
Chapitre 3 Mthode de construction dun entrept de donnes temporalis ..... 41!3.1! Mthode ...................................................................................................................... 41!
3.1.1! Dfinition des exigences et critres ..................................................................... 42!
3.1.2! Dfinition dun cadre de rfrence ...................................................................... 42!
3.1.3! Dfinition dun processus de rfrence ................................................................ 42!
3.1.4! Reformulation des modles temporels ................................................................. 43!
3.1.5! Comparaison des modles temporels ................................................................... 43!
3.1.6! Considrations relatives aux SIS ......................................................................... 43!
vii
3.2! Liste des exigences ..................................................................................................... 43!
3.3! Prsentation du processus de rfrence ....................................................................... 45!
3.3.1! Hypothses ........................................................................................................... 46!
3.3.2! Description des sous-processus ............................................................................ 47!
Chapitre 4 Concepts temporels .......................................................................... 50!4.1! Modlisation et reprsentation du temps .................................................................... 50!
4.1.1! Le point ................................................................................................................ 52!
4.1.2! Traitement de la volatilit et de lindtermination ............................................... 52!
4.2! Lintervalle .................................................................................................................. 54!
4.2.1! Les oprateurs ...................................................................................................... 55!
4.2.2! Problmatique particulire des attributs de type intervalle .................................. 58!
4.3! Les rfrentiels temporels ........................................................................................... 61!
4.3.1! Rfrentiel du domaine ........................................................................................ 62!
4.3.2! Rfrentiel de transaction .................................................................................... 62!
4.3.3! Rfrentiel de validation ...................................................................................... 63!
Chapitre 5 Cadre de rfrence ........................................................................... 65!5.1! Catgorisation temporelle des attributs ....................................................................... 65!
5.2! Catgorisation temporelle des relations ...................................................................... 67!
5.2.1! Relation de validation (R!VT) ............................................................................. 67!
5.2.2! Relation de transaction (R!TT) ............................................................................ 68!
5.2.3! Relation bitemporelle (R!BT) .............................................................................. 69!
5.2.4! Relation non temporelle (R!NT) .......................................................................... 70!
5.2.5! Synthse de la notation ........................................................................................ 71!
5.3! Exigences relatives aux schmas ................................................................................ 71!
5.3.1! Exigences relatives au schma initial .................................................................. 72!
5.3.2! Exigences relatives au schma final .................................................................... 73!
5.4! Partitions temporelles .................................................................................................. 73!
5.4.1! Dcomposition ..................................................................................................... 74!
5.4.2! Description dtaille des parties .......................................................................... 76!
viii
5.4.3! Synthse de la notation ........................................................................................ 79!
Chapitre 6 Rsultats ........................................................................................... 80!6.1! Cadre de rfrence ...................................................................................................... 80!
6.1.1! Schma dentrept de donnes temporalis ......................................................... 81!
6.1.2! Rfrentiels, priodes et oprateurs ..................................................................... 81!
6.1.3! Catgories, partitions et parties ............................................................................ 82!
6.1.4! Normalisation ....................................................................................................... 83!
6.2! Modle temporel TRM ............................................................................................... 83!
6.2.1! Particularits ........................................................................................................ 83!
6.2.2! Avantages ............................................................................................................. 86!
6.2.3! Limitations ........................................................................................................... 87!
6.2.4! Prolongements ...................................................................................................... 87!
6.3! Modle temporel BCDM ............................................................................................ 88!
6.3.1! Particularits ........................................................................................................ 88!
6.3.2! Avantages ............................................................................................................. 90!
6.3.3! Limitations ........................................................................................................... 91!
6.3.4! Prolongements ...................................................................................................... 91!
6.4! Comparaison ............................................................................................................... 92!
6.4.1! Structure et smantique ........................................................................................ 93!
6.4.2! Satisfaction des exigences .................................................................................... 96!
6.4.3! Synthse ............................................................................................................... 98!
6.4.4! Prolongements ...................................................................................................... 99!
6.5! Considrations relatives aux SIS ................................................................................ 99!
Conclusion ....................................................................................................... 101!Contributions ..................................................................................................................... 101!
Critique du travail .............................................................................................................. 102!
Travaux futurs .................................................................................................................... 103!
Annexe A Concepts relationnels ..................................................................... 105!
ix
A.1! Modle de base ......................................................................................................... 105!
A.1.1! Variable de relation ............................................................................................... 105!
A.1.2! Attribut .................................................................................................................. 106!
A.1.3! Entte .................................................................................................................... 106!
A.1.4! Tuple ..................................................................................................................... 107!
A.1.5! Oprateurs relationnels ......................................................................................... 107!
A.1.6! Contrainte .............................................................................................................. 109!
A.1.7! Assertion ............................................................................................................... 110!
A.1.8! Vues ...................................................................................................................... 110!
A.1.9! Schma .................................................................................................................. 111!
A.2! Base de donnes ....................................................................................................... 111!
A.3! Normalisation ........................................................................................................... 112!
A.3.1! Dpendances ......................................................................................................... 112!
A.3.2! Formes normales ................................................................................................... 113!
A.3.3! Schma normalis ................................................................................................. 114!
Annexe B Modle TRM .................................................................................. 115!B.1! Concepts de base ...................................................................................................... 115!
B.1.1! Le temps et sa reprsentation ................................................................................ 116!
B.1.2! Extension aux oprateurs relationnels ................................................................... 116!
B.1.2.1! Opration PACK et UNPACK ........................................................................... 116!
B.1.2.2! Opration USING ............................................................................................... 119!
B.2! Modalits de structuration dun schma temporalis ............................................... 123!
B.2.1! Temporalisation et partitions canoniques .............................................................. 123!
B.2.1.1! Partition unitemporelle de validation ................................................................. 123!
B.2.1.2! Partition bitemporelle ......................................................................................... 123!
B.2.1.3! Partition unitemporelle de transaction ................................................................ 124!
B.2.1.4! Synthse ............................................................................................................. 125!
B.2.2! Modlisations issues de la partition canonique ..................................................... 126!
B.3! Rgles unitemporelles de transaction ....................................................................... 128!
x
B.3.1! Exigences .............................................................................................................. 128!
B.3.2! Mise en oeuvre des exigences ............................................................................... 128!
B.3.2.1! Rgles dunicit .................................................................................................. 128!
B.3.2.2! Assertions rfrentielles ..................................................................................... 129!
B.3.2.3! Synthse ............................................................................................................. 129!
B.4! Rgles unitemporelles de validation ........................................................................ 129!
B.4.1! Exigences .............................................................................................................. 129!
B.4.2! Mise en oeuvre des exigences ............................................................................... 131!
B.4.2.1! Rgles dunicit .................................................................................................. 131!
B.4.2.2! Exigences 1 et 2 .................................................................................................. 131!
B.4.2.3! Exigences 3 et 6 .................................................................................................. 131!
B.4.2.4! Exigences 4 et 5 .................................................................................................. 132!
B.4.2.5! Exigence 9 .......................................................................................................... 133!
B.4.3! Synthse ................................................................................................................ 133!
B.5! Rgles bitemporelles ................................................................................................ 135!
B.5.1! Exigences .............................................................................................................. 136!
B.5.2! Mise en uvre des exigences ................................................................................ 136!
B.5.3! Synthse ................................................................................................................ 136!
B.6! Assertions rfrentielles temporellement mixtes ..................................................... 138!
B.7! Algorithme de construction dun schma bitemporel .............................................. 139!
B.8! Exemple de construction dun schma bitemporel .................................................. 140!
B.8.1! Exemple cod en TD ............................................................................................. 143!
B.8.2! Exemple cod en Discipulus ................................................................................. 144!
B.8.3! Code engendr en Discipulus ................................................................................ 145!
B.9! Modalits de modification ........................................................................................ 153!
B.9.1! Modifications unitemporelles semi-fermes ......................................................... 153!
B.9.1.1! Insertion .............................................................................................................. 153!
B.9.1.2! Suppression ........................................................................................................ 155!
B.9.1.3! Mise jour .......................................................................................................... 155!
xi
B.9.2! Modifications unitemporelles fermes .................................................................. 156!
B.9.2.1! Insertion .............................................................................................................. 157!
B.9.2.2! Suppression ........................................................................................................ 157!
B.9.2.3! Mise jour .......................................................................................................... 157!
Annexe C Modle BCDM ............................................................................... 159!C.1! Concepts de base ...................................................................................................... 159!
C.1.1! Le temps et sa reprsentation ................................................................................ 160!
C.1.2! Extension aux oprateurs relationnels ................................................................... 160!
C.1.2.1! Oprateurs de Allen ............................................................................................ 160!
C.1.2.2! Oprateur COALESCE ...................................................................................... 161!
C.2! Modalits de structuration dun schma temporalis ............................................... 161!
C.2.1! Temporalisation et partitions ................................................................................. 161!
C.2.1.1! Partition bitemporelle ......................................................................................... 162!
C.2.1.2! Partition unitemporelle de transaction ................................................................ 162!
C.2.1.3! Synthse ............................................................................................................. 163!
C.2.2! Modlisations issues de la partition canonique ..................................................... 164!
C.3! Prservation de lintgrit temporelle ...................................................................... 166!
C.3.1! Unicit ................................................................................................................... 166!
C.3.2! Rfrentialit ......................................................................................................... 167!
C.3.3! Inclusion temporelle .............................................................................................. 168!
C.3.4! Exigences .............................................................................................................. 168!
C.4! Rgles unitemporelles de transaction ....................................................................... 169!
C.4.1! Mise en uvre des exigences ................................................................................ 169!
C.4.1.1! Rgles dunicit .................................................................................................. 169!
C.4.1.2! Rgles rfrentielles ........................................................................................... 170!
C.4.2! Synthse ................................................................................................................ 171!
C.5! Rgles bitemporelles ................................................................................................ 171!
C.5.1! Mise en oeuvre des exigences ............................................................................... 171!
C.5.1.1! Rgles dunicit .................................................................................................. 172!
xii
C.5.1.2! Rgles rfrentielles ........................................................................................... 173!
C.5.1.3! Rgles dinclusion temporelles .......................................................................... 174!
C.5.2! Synthse ................................................................................................................ 175!
C.6! Assertions rfrentielles temporellement mixtes ..................................................... 177!
C.7! Rgles complmentaires ........................................................................................... 179!
C.8! Algorithme de construction dun schma bitemporel .............................................. 179!
C.9! Exemple de construction dun schma bitemporel .................................................. 180!
C.9.1! Exemple cod en SQL ........................................................................................... 183!
C.9.2! Exemple cod en TSQL ........................................................................................ 186!
C.9.3! Exemple cod en Discipulus ................................................................................. 187!
C.9.4! Code engendr en Discipulus ................................................................................ 188!
C.10! Modalits de modification ...................................................................................... 200!
C.10.1! Rgles de modifications bitemporelles ............................................................... 200!
C.10.1.1! Insertion ............................................................................................................ 201!
C.10.1.2! Suppression ...................................................................................................... 204!
C.10.1.3! Mise jour ........................................................................................................ 207!
C.10.2! Rgles de modification unitemporelle de transaction ......................................... 212!
C.10.2.1! Insertion ............................................................................................................ 212!
C.10.2.2! Suppression ...................................................................................................... 212!
C.10.2.3! Mise jour ........................................................................................................ 212!
C.10.3! Synthse .............................................................................................................. 213!
Annexe D Traitement des cls multiples ......................................................... 215!
Bibliographie ................................................................................................... 217!
Glossaire .......................................................................................................... 224!
xiii
Liste des abrviations
BCDM Bitemporal Conceptual Data Model.
BD Base de donnes.
CHUS Centre hospitalier de luniversit de Sherbrooke.
CIUSSS Centre intgr universitaire de sant et des services sociaux.
CIUSSSE-CHUS Centre intgr universitaire de sant et des services sociaux de lEstrie
Centre hospitalier de luniversit de Sherbrooke.
DCI Dossier clinique informatis.
DICOM Digital Imaging and Communications in Medicine.
DM Dossier mdical lectronique.
e-PIIRAMIDE Portail informationnel intgr pour la recherche et lanalyse
multidimensionnelle et intelligente des donnes en Estrie.
ED Entrept de donnes.
EDC Entrept de donnes cliniques.
EDCT Entrept de donnes cliniques temporalis.
EDT Entrept de donnes temporalis.
EHR Electronic Health Record
ETL Extract-Transformation-Load.
FN Forme normale.
HL7 Health Level Seven.
PJ Projection-Jointure.
UMLS Unified Medical Language System.
RU Restriction-Union.
SED Schma dentrept de donne.
SEDT Schma dentrept de donnes temporalis.
xiv
SGBD Systme de gestion de bases de donnes.
SGBDR Systme de gestion de bases de donnes relationnelles.
SIS Systme informationnel de sant.
SNOMED Systematized Nomenclature of Medicine.
LOINC Logical Observation Identifiers Names and Codes.
SQL Structured query language.
TRM Temporal Relational Model.
UML Unified modeling language.
xv
Liste des tableaux
Tableau 1 Comparaison entre un ED conventionnel et un ED clinique. .............................. 11!
Tableau 2 Notation dintervalle ............................................................................................ 54!
Tableau 3 Notation de base des intervalles ........................................................................... 55!
Tableau 4 Oprateurs lmentaires de comparaison dAllen [Allen 1983] .......................... 57!
Tableau 5 Combinaisons doprateurs lmentaires ............................................................. 58!
Tableau 6 Notation des catgories dattributs temporels ...................................................... 66!
Tableau 7 Notation des catgories temporelles de relation .................................................. 71!
Tableau 8 Notation des catgories temporelles des parties .................................................. 79!
Tableau 9 Comparaison synthtique de BCDM et TRM ...................................................... 92!
Tableau 10 Catgories de priodes utilises par TRM. ...................................................... 116!
Tableau 11 quivalence des catgories des parties entre TRM et le cadre de rfrence. ... 125!
Tableau 12 Modlisation des catgories de priodes du modle BCDM ........................... 160!
Tableau 13 Oprateurs temporels selon les oprateurs lmentaires de Allen ................... 161!
Tableau 14 quivalence des parties entre BCDM et le cadre de rfrence. ....................... 163!
xvi
Liste des figures
Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al. 2012] ......................... 17!
Figure 2 Vision du systme de construction dun EDCT ..................................................... 20!
Figure 3 Diagramme de contexte TEMPUS ......................................................................... 35!
Figure 4 Diagramme de flux de donnes TEMPUS ............................................................. 36!
Figure 5 Structure dun modle relationnel .......................................................................... 37!
Figure 6 Diagramme de contexte de solution TEMPUS ...................................................... 46!
Figure 7 Diagramme de flux de donnes de solution TEMPUS ........................................... 48!
Figure 8 Concepts temporels de base .................................................................................... 51!
Figure 9 Illustration des oprateurs lmentaires, tir de [Snodgrass 1995:2] ..................... 56!
Figure 10 Exemple de relation de validation ....................................................................... 68!
Figure 11 Exemple de relation de transaction ....................................................................... 69!
Figure 12 Exemple de relation bitemporelle ......................................................................... 70!
Figure 13 Exemple de relation non temporelle ..................................................................... 71!
Figure 14 Exemple de temporalisation ................................................................................. 75!
Figure 15 Temporalisation dune relation selon TRM ......................................................... 85!
Figure 16 Temporalisation dune relation selon BCDM ...................................................... 89!
Figure 17 - Les partitions TRM et BCDM ............................................................................... 94!
Figure 19 tapes dexcution dune requte utilisant loprateur USING ......................... 122!
Figure 20 Les parties dun schma temporalis selon TRM. ............................................. 126!
Figure 21 Drivation des partitions selon TRM ................................................................. 127!
Figure 22 Modlisation unitemporelle de validation selon TRM ....................................... 135!
Figure 23 Vues unitemporelles de validation selon TRM .................................................. 135!
Figure 24 Modlisation bitemporelle selon TRM ............................................................... 137!
Figure 25 Vues bitemporelles selon TRM .......................................................................... 138!
xvii
Figure 26 tapes de construction dun schma bitemporel TRM ....................................... 140!
Figure 27 Schma initial temporaliser ............................................................................. 141!
Figure 28 Schma initial annot ......................................................................................... 141!
Figure 29 Schma bitemporaliser ..................................................................................... 141!
Figure 30 Schma unitemporel de validation selon le modle TRM .................................. 142!
Figure 31 Les parties dun schma temporalis selon BCDM ........................................... 164!
Figure 32 Drivation des partitions selon BCDM .............................................................. 165!
Figure 33 Modlisation bitemporelle selon BCDM ............................................................ 176!
Figure 34 Vues bitemporelles selon BCDM ....................................................................... 177!
Figure 35 tapes de construction d'un schma bitemporel selon BCDM ........................... 180!
Figure 36 Schma initial temporaliser ............................................................................. 181!
Figure 37 Schma initial annot ......................................................................................... 181!
Figure 38 Schma bitemporaliser ..................................................................................... 182!
Figure 39 Schma bitemporel selon BCDM ....................................................................... 182!
Figure 40 Les cas dinsertion bitemporelle [Snodgrass 1995 p.321] .................................. 202!
Figure 41 Les cas de suppression bitemporelle [Snodgrass 1995 p.215] ........................... 205!
Figure 42 Les cas de mise jour bitemporelle (Snodgrass 1995 p.220] ............................ 209!
Figure 43 Schma bitemporel selon BCDM (avec les rgles de modifications) ................ 214!
1
Introduction
Contexte
Dans le secteur de la sant, les processus de soins, les dispositifs mdicaux, lactualisation
des dossiers cliniques et sociaux, la recherche, etc. gnrent un trs grand volume de donnes
chaque jour. Les systmes informationnels de sant (SIS) mis en place pour en assurer la
gestion raisonne sont dsormais indispensables dun point de vue oprationnel. Les
tablissements de sant dsirent en outre partager de faon exploitable lensemble de ces
donnes aux fins danalyses et dtudes (administratives, cliniques, de recherche, etc.). En
particulier, le CIUSSS de lEstrie-CHUS a exprim des besoins spcifiques relatifs la
construction dun entrept de donnes cliniques (EDC) [CIUSSS 2014]. Vu le grand nombre
de sources htrognes et complexes et les caractristiques spcifiques des donnes cliniques
[Shin et al. 2014], les tablissements font face plusieurs dfis lors de la construction dun
entrept de donnes (ED). La problmatique qui suit en dgage les principaux.
Problmatique
Les SIS tendent de plus en plus vers des systmes temporels [Combi and Shahar 1997].
Laccs un entrept de donnes cliniques temporalis (EDCT) devient ds lors une
ncessit pour rendre les donnes exploitables aux fins danalyse et de support la prise de
dcision. Dune part, aucun consensus nest tabli sur une mthode intgre de construction
dun EDCT [Khnaisser et al. 2015]. Dautre part, les mthodes existantes possdent des
limites nuisant linteroprabilit temporelle et lexploitation de donnes :
absence dindication du modle temporel et de la smantique temporelle utilise les
modles fonds sont rarement utiliss et la smantique est fortement lie au contexte
et au processus qui engendre les donnes;
2
faible automatisation de la construction de lEDCT la modlisation et lintgration
sont ralises en grande partie manuellement;
complexit de lexpressivit des requtes temporelles les limites de SQL et des
outils dexploitation des donnes offrent des fonctionnalits temporelles limites;
ngligence du processus dvolution de lEDCT lvolution demeure un dfi et
requiert des ressources importantes.
La temporalisation des donnes est un aspect trs important pour diverses tudes cliniques et
la recherche en sant. Dune part, linterprtation des donnes cliniques est fortement lie au
temps, mais les donnes sont souvent incompltement temporalises et les sources de
donnes sont trs rarement structures de faon en assurer lintgrit et en faciliter
lanalyse temporelle. Dautre part, vu lhtrognit et le grand nombre de sources de
donnes, les mthodes classiques de construction dED sont difficiles, voire impossibles,
mettre en place, car elles sont fondes sur des rgles de pratique parfois floues, souvent
incompltes et gnralement non automatisables. Afin de faciliter linteroprabilit
temporelle1 et lexploitation des donnes2, le schma doit respecter des rgles de
modlisation rigoureuse et systmatique pour garantir lintgrit des donnes et permettre
lutilisation de strotypes de requtes (plutt que de ncessiter une analyse au cas par cas,
comme cest lusage prsentement). Une mthode semi-automatise de construction dun
EDCT adquate est ncessaire pour assurer une meilleure traabilit et une meilleure
exploitation (une meilleure expressivit des requtes et dtection des patrons temporels)
[Adlassnig et al. 2006]. Dans le prsent projet, nous traitons de la seule problmatique de la
temporalisation dun ED en EDT. Son application aux EDC pour produire des EDCT
sensuit, dans la mesure o les EDC sont dcrits partir du mme formalisme et de la mme
base thorique que les ED.
1 Garantir une smantique temporelle uniforme. 2 Simplification des requtes et amlioration des performances.
3
Objectifs
Lobjectif est dlaborer une mthode semi-automatise de construction dun EDT dans le but
de faciliter le travail des concepteurs dentrepts de donnes. Lobjectif spcifique au
mmoire est de :
tudier et comparer deux modles temporels pour identifier les rgles de modlisation
dans une perspective dautomatisation de la temporalisation,
prsenter les fonctionnalits de base pour le dveloppement dun atelier de
construction dun EDT.
Mthodologie
Deux modles temporels ont t tudis : BCDM [Snodgrass 2000] et TRM [Date et al.
2014a] afin den identifier les critres de modlisation et les rgles applicables dans une
perspective dune gnration automatise dun schma dEDT. Ltude est effectue en
plusieurs tapes :
dfinition des problmatiques de construction dun EDT;
tablissement dun cadre de rfrence gnral et commun aux diffrents concepts de
temporalisation;
prsentation des modles TRM et BCDM : identification des particularits des
modles, gnralisation des rgles temporelles, dfinition de lalgorithme de
modlisation dun schma temporel;
comparaison des modles temporels en regard des exigences et des concepts de
rfrences;
dfinition dune liste dexigences dune mthode semi-automatise de construction
dun EDT.
4
Rsultats
Grce cette tude, il a t possible de gnraliser, formaliser et doprationnaliser les deux
modles temporels BCDM et TRM. Il en dcoule : un cadre de rfrence des modles
temporels, une dfinition dune mthode semi-automatise de construction dun EDT, des
algorithmes de construction dun EDT, une comparaison des deux modles, ainsi que des
observations et des recommandations quant la faisabilit, lexpressivit des deux modles
temporels.
Le cadre de rfrence permet de dcrire les deux modles avec une mme syntaxe et une
mme smantique. Il emprunte largement aux bases tablies par Date, Darwen et Lorentzos
dans [Date et al. 2014a] fondes mme la thorie relationnelle et la logique des intervalles,
aux oprateurs PACK et UNPACK et leur encapsulation dans loprateur USING. Le
modle TRM prsente une sparation claire entre ltat courant et les tats historiques, ce qui
rend envisageable son utilisation comme base de donnes dexploitation (non temporalise).
Les grandes lignes de son automatisation taient dj documentes dans [Codd 1990], nous
les avons compltes. Le modle BCDM, originellement dcrit par des rgles de pratiques
(minimisant limpact de doublons et des attributs annulables) et des rgles particulires
(construites partir dun canevas gnral, mais adaptes aux exigences du domaine
dapplication), est dsormais exprimable en terme du cadre de rfrence, est donc
automatisable. Suite ltude des problmatiques dans le domaine clinique, le cadre de
rfrence et les deux modles ncessiteront des extensions pour mieux gnrer lincertitude
temporelle, le pass indtermin et la tritemporalit.
De plus, une mthode de construction dun EDT est adquate si elle satisfait les huit
exigences suivantes [Khnaisser et al. 2015] : (1) intgrit des donnes (2) modle temporel
fond (3) expressivit des requtes (4) intgration htrogne des donnes (5) intgration de
lvolution des connaissances (6) intgration de lvolution de la structure (7) traabilit et
(8) automatisation de la construction. Un modle temporel dfini sur la base du cadre de
5
rfrence permet de satisfaire partiellement six des huit exigences pour une mthode de
construction dEDC.
Structure du mmoire
Outre lintroduction et la conclusion, le mmoire est organis en six chapitres et quatre
annexes. Afin de mieux comprendre le rle et les contraintes applicables aux EDCT, le
Chapitre 1 prsente un survol non exhaustif de la problmatique des systmes
informationnels de sant et ltat de lart actuel recens par la littrature. Le Chapitre 2
prsente en profondeur le problme trait dans ce mmoire : la temporalisation des ED. Le
Chapitre 3 prsente une mthode semi-automatise de construction dEDT et la liste des
exigences. Les Chapitre 4 et Chapitre 5 prsentent respectivement les concepts temporels
fondamentaux et les extensions temporelles formant le cadre de rfrence propos. Enfin, le
Chapitre 6 synthtise et compare les deux modles temporels TRM et BCDM. En
complment, lAnnexe A dcrit les concepts relationnels classiques sur lesquels le cadre de
rfrence est fond. Les annexes Annexe B et Annexe C dcrivent respectivement le modle
TRM et le modle BCDM sur la base du cadre de rfrence ainsi que leurs algorithmes de
construction et dalimentation initiale. LAnnexe D montre comment traiter les cls
multiples.
6
Chapitre 1
Systme informationnel de sant
Today, if you have a well-designed database management system, you have the keys to the kingdom of data processing and decision support. [Codd 1990]
Un systme informationnel de sant est ncessaire pour tout tablissement de sant afin
damliorer les services, les diagnostics et le traitement des maladies; dassurer une
continuit des soins dun tablissement lautre et dalimenter en donnes de qualit les
centres de recherche clinique. Pour atteindre ces objectifs, les donnes du systme
informationnel provenant de plusieurs sources doivent tre intgres dans un EDC permettant
lutilisation secondaire de donnes.
Le chapitre prsente le contexte et les problmatiques relies au dveloppement dun systme
informationnel de sant et, incidemment, des EDCT. Il commence par une prsentation des
besoins, de but recherch et des dfis de construction dun systme informationnel. Ensuite,
la section 1.2 survole les problmatiques relies. La section 1.3 dcrit la vision du systme
envisag. En synthse, la section 1.4 prsente le problme cibl par ce travail.
1.1 Mise en contexte
Une masse de donnes de sant est cre chaque jour (chaque minute) par les systmes de
gestion de dossiers cliniques informatiss (DCI), les systmes de gestion de dossiers
mdicaux lectroniques (DM), les dispositifs mdicaux, la recherche, etc. Ces donnes
peuvent tre rutilises dans des activits de recherche, de formation, de gestion, de mesure
de qualit, de mdecine prventive, etc. Cest ce que nous dcrivons comme lutilisation
secondaire de donnes.
7
Historiquement, toute la documentation tait sur papier ce qui limite le partage des donnes,
la qualit de linformation et son analyse. Avec linformatisation des tablissements de sant,
le volume, la diversit et la complexit des donnes ont normment augment. De nouvelles
demandes dutilisation sont apparues, dont lintgration et lutilisation secondaire de donnes
provenant de plusieurs tablissements.
1.1.1 Besoins
Latteinte des objectifs de ralisation et de concrtisation des valeurs ajoutes partir des
donnes cliniques informatises dpend de lamlioration de la faon dont les utilisateurs
interagissent et exploitent les donnes [Landrigan et al. 2010]. Dans un premier temps, les
donnes doivent tre structures et intgres dune faon exploitable. Ensuite, des outils de
rtroaction, de prvention, de dcouverte de connaissances, danalyse, de forage et daide la
dcision doivent tre mis en place afin de relever les dfis pour atteindre les objectifs. Un
systme informationnel de sant (SIS) est indispensable pour permettre aux mdecins,
intervenants, cliniciens, chercheurs, gestionnaires et autres participants dans un continuum
de soins et services de prendre des dcisions claires, de concrtiser des actions, dagir
dune faon proactive et davoir des connaissances approfondies sur lvolution de ltat de
sant des patients lchelle dune population ou dun individu.
La mise disposition de moyens informatiss entre tous les tablissements de sant est
ncessaire afin damliorer les services de sant, les diagnostics et les traitements et
dalimenter en donnes de qualit les centres de recherche clinique [Safran et al. 2007]. Plus
spcifiquement, les tablissements de sant visent :
amliorer la qualit des soins et services ainsi que lanalyse des rsultats pour
sassurer que les patients reoivent les soins appropris et que les tablissements de
sant soient en mesure de mieux suivre la progression de ltat de sant de leurs
patients;
8
amliorer la mdecine prventive et la mdecine personnalise pour contribuer
laborer des plans de soins et services plus adapts au contexte et au profil des
patients;
faciliter la cration, la circulation et le partage des informations entre les
tablissements. Ceci favorise un meilleur suivi de la trajectoire du patient travers
les diffrents tablissements, la dcouverte de nouvelle mthode de traitement, etc. ;
amliorer la planification financire ainsi que diffrentes fonctions stratgiques,
tactiques et oprationnelles.
1.1.2 But recherch
Les SIS sont survenus pour rpondre aux besoins grandissants de lutilisation secondaire de
donnes. Notons que cette volution naturelle est survenue avec un dcalage denviron 20 ans
sur les systmes intgrs de gestion et de production couramment utiliss dans dautres types
dorganisation (transport, nergie, manufacturier...) [Carter 2001a]. Un SIS est constitu dun
ensemble doutils pour mieux rpondre aux besoins en matire de cration, daccs, de
circulation et de partage de donnes cliniques pour lutilisation secondaire dans le respect des
lois et des rglements. Il doit offrir :
aux diffrents intervenants du rseau de la sant (cliniciens, agents administratifs,
infirmiers, analyste informatique, gestionnaire de donnes, etc.) un accs uniforme
aux diffrentes sources3 de donnes dans le respect du cadre lgal;
des outils danalyse, dextraction et de visualisation des donnes avance pour
driver des connaissances dune faon autonome (sans assistance technique) et
uniforme (indpendante de la structure des sources) selon leur profil;
des outils de collaboration, de partage des ressources et de transfert des
connaissances en matire dutilisation secondaire de donnes entre les professionnels
uvrant dans les tablissements et les centres de sant.
3 Nous entendons par source, toutes les bases de donnes relies aux systmes des tablissements de sant : cabinets de
mdecin de famille, hpitaux (pharmacie, radiologie, laboratoires, facturation, etc.), cliniques, CLSC, RAMQ, etc.
9
La mise en place dun SIS est importante dans le cas des rseaux rgionaux de sant forms
de plusieurs tablissements (par exemple [Dewitt and Hampton 2005] et [Hu et al. 2011:4]).
En particulier, le centre intgr universitaire de sant et des services sociaux de lEstrie -
Centre hospitalier de luniversit de Sherbrooke (CIUSSSE-CHUS) a exprim des besoins
spcifiques relatifs au dveloppement de-PIIRAMIDE4, un systme informationnel rgional
de sant pour lEstrie [CIUSSS 2014].
1.1.3 Dfis
Les donnes dintrt pour lutilisation secondaire sont fragmentes dans plusieurs sources de
donnes. Lextraction et la gestion5 de ces donnes sont difficiles vu le grand nombre de
sources htrognes, le grand volume de donnes, les besoins et les connaissances diversifis,
etc. Lapproche la plus souvent prconise pour intgrer toutes les donnes est la mise en
place dun EDC [Pedersen et al. 1998].
Les utilisateurs sont des experts du domaine dsirant accder aux donnes en fonction de
modles de connaissances. Nanmoins, les donnes sont stockes dans diffrentes sources qui
sont structures (htrognit structurelle) et encodes (htrognit terminologique) de
faons diffrentes. Dune part, les experts du domaine doivent pouvoir exprimer leurs
requtes selon un modle de connaissances unifi qui reprsente bien leur domaine (sans
avoir besoin de connaitre la structure des sources de donnes) [Ethier et al. 2013]. Dautre
part, les gestionnaires de donnes doivent pouvoir crer, grer et maintenir les donnes avec
le moins de ressources possible tout en assurant leur fidlit, leur intgrit et la traabilit de
leur volution (indpendamment des modles qui les utilisent).
Cependant, vu la diversit et la grande quantit de sources, plusieurs questions se posent.
Comment modliser un tel entrept? Quelles donnes doit-on intgrer? Comment faire
lintgration? Comment assurer linteroprabilit smantique et syntaxique? Comment
assurer la traabilit des donnes et suivre leurs volutions dans le temps? Comment 4 Portail informationnel intgr pour la recherche et lanalyse multidimensionnelle et intelligente des donnes en Estrie 5 La gestion des donnes inclut entre autres : la modification des donnes, la dfinition et loptimisation de la structure, la
gestion du contrle daccs, etc.
10
interprter, analyser et prsenter les donnes? Comment valuer la qualit du schma de
donnes? Comment assurer la scurit de donnes et la protection des renseignements
personnels? etc. La section suivante dcrit les principales problmatiques associes la
construction dun EDC.
1.2 Problmatiques de construction dun EDC
Les donnes cliniques se caractrisent essentiellement par le temps, le contexte et la fonction
(pour plus de dtail, voir [Khnaisser et al. 2015; Lee et al. 2015]). Les informations cliniques
sont troitement lies au temps associ lactivit (ou au processus) et au contexte ayant
engendr les donnes. De plus, plusieurs tudes cliniques se basent sur lhistorique de
lvolution des donnes pour obtenir de meilleurs rsultats.
Les principales problmatiques associes la construction dun EDC sont : la modlisation
de lEDC, la reprsentation temporelle, le raisonnement temporel, et lintgration des sources
htrognes.
1.2.1 Modlisation dentrept de donnes cliniques
Les donnes relatives au patient sont gnres par plusieurs systmes (ou processus) et sont
rparties dans plusieurs sources. LEDC doit contenir les donnes intgres, ce qui implique,
le traitement des incohrences et le maillage de donnes6 (le problme de data linkage ).
Dune part, la dfinition des assertions est ncessaire afin de dtecter les incohrences et
prserver la qualit des donnes. Dautre part, il faut savoir en tout temps do vient chaque
donne, qui la cre, par quel processus ainsi que quand elle est modifie et par qui.
Autrement dit, la modlisation doit permettre de garder la trace de leur provenance et de leur
volution. Le processus de construction dun ED est complexe et fait intervenir plusieurs
ressources. Il inclut, principalement, les activits de reprsentation des exigences, la
reprsentation des sources, la modlisation du schma de lED, lintgration des donnes,
6 Cest--dire sassurer que les donnes pour un mme individu soient bien lies ensemble et napparaissent pas comme
duplicata.
11
lalimentation, la maintenance. Vu la grande quantit de concepts modliser et les
exigences dintgrit et de traabilit, la construction dun EDC requiert une mthode
automatise7 base sur un modle de donnes fond8, une temporalisation avance, un
modle de connaissance, un modle dintgration et de mise en correspondance, des
oprations dexploration (dagrgation) avances [Pedersen et al. 1998]. Le tableau ci-
dessous (une extension9 du tableau 3 de [Pedersen et al. 1998]) prsente les principales
diffrences entre un ED conventionnel10 et un ED clinique.
Tableau 1 Comparaison entre un ED conventionnel et un ED clinique.
Critres Conventionnel Clinique Modle de donnes Simple Complexe Temporalisation Minimale Avance Connaissances Simple Avance (+ encodage) Oprations avances No Oui Donnes complexes Non Oui Htrognit des types de donnes Faible lev Htrognit des terminologies Faible lev Rgles daffaires avances Peu Beaucoup (protocole) Forage de donnes Peu Beaucoup (recherche clinique) Nombre de sources Entre 1 et 10 >= 200 Nombre de relations Entre 50 et 100 >= 16 000 Frquence des changements structurels (par mois) 1 4
!"#"$%'(%')*+,-.*/,01!,
La nature des donnes cliniques impose de nouvelles exigences de construction [Khnaisser et
al. 2015]. La caractristique distinctive des EDC et lhtrognit de modlisation des
sources entrainent le plus souvent dautres proprits qui, sans tre ncessairement
distinctives de faon unique par rapport aux ED, contribuent dfinir les EDC comme un
champ dtudes en soit avec plusieurs caractristiques :
7 La modlisation, lintgration et lalimentation du schma doivent tre automatises. 8 Le schma de lED doit tre bas sur un modle thorique formellement prouv et indpendant des requtes que les
utilisateurs dsirent effectuer vu la grande frquence dvolution des types de demandes. 9 Les critres suivants sont ajouts : connaissances, oprations avances, htrognit des types de donnes, htrognit
des terminilogies, nombre de sources, nombre de relations, frquence des changements structurels (par mois). 10 Un ED utilis dans dautres domaines que celui de la sant.
12
la grande complexit des structures de donnes et des contraintes;
la grande envergure (nombre de relations, dattributs, de tuples);
la grande importance au modle de connaissance qui dtermine la smantique et
lencodage des donnes selon le contexte de provenance de la donne;
la ncessit dun modle temporel fond sur une thorie gnrale, donc indpendante
du domaine dapplication (pour la suite, nous abrgerons simplement par modle
temporel fond , voire modle fond lorsque le contexte le permettra);
la ncessit doprations dexploration (dagrgation) avances pour faciliter
lexpressivit des requtes;
la rpartition et la distribution des sources;
la redondance et lincohrence des donnes induites par limpossibilit de modifier
certaines sources.
2&%34-+,-+,$4/(%#*$%'4/,-.*/,01!,
En plus, la construction dun ED requiert des modles et des techniques diffrentes de celles
utilises pour les bases de donnes (autre que lentit-association) [Golfarelli et al. 1998].
Larticle [Khnaisser et al. 2015] recense et compare 40 mthodes de construction avec des
critres qualitatifs (approches de conception, degr dautomatisation des processus, type de
modle, dfinition dalgorithmes, etc.). Aucun consensus au sujet de la mthode idale nest
dfini. Chaque projet dveloppe son ED avec une mthode personnalise o la description est
souvent absente ou ambige [Cimino et al. 2014]. Dune part, la majorit des mthodes ne
sont pas testes avec des cas dtude denvergure11 ce qui rend difficile prouver leur
efficience et leur applicabilit au domaine de la sant. Dautre part, diffrents modles sont
utiliss incluant des modles ad hoc12 pour reprsenter soit les donnes, les connaissances ou
les exigences. Aucune mthode ne prsente un modle pour reprsenter uniformment les
donnes, les connaissances et les exigences.
11 Un cas dtude est considr denvergure par notre mthode danalyse sil intgre au moins 10 sources, 1 000 relations,
10 000 attributs et 100 millions de tuples. 12 Souvent, ils ne sont pas dfinis de faon tre rutilisables dans dautres projets.
13
Pour conclure, plusieurs problmatiques concernant la construction dun EDC demeurent non
rsolues, entre autres : absence de consensus sur une mthode et une technique de
modlisation standardise facilitant linteroprabilit, absence de modle de contrle daccs
aux donnes, absence de consensus sur la gestion de lvolution et les critres de mesure de la
qualit de la modlisation [Rizzi et al. 2006].
1.2.2 Modlisation dentrept de donnes temporel
La modlisation du temps est un sujet dintrt pour plusieurs domaines de recherche. Une
des caractristiques dun ED est de garder la trace de lvolution des donnes dans le temps.
Un grand nombre de systmes requiert la sauvegarde, la manipulation et la collecte de
donnes temporalises. Un ED (non temporel) contient les donnes courantes et celles du
pass (qui ne reprsentent plus ltat courant) sans aucune trace explicite de leurs volutions.
Par contre, un ED temporel sauvegarde les donnes courantes et les donnes du pass en
garantissant leur cohrence et la reconstitution (sans perte de donnes) des diffrentes tapes
de leurs volutions. Chaque donne temporalise est associe un ou plusieurs attributs
temporels et chaque contrainte est dfinie de telle sorte de garantir lintgrit temporelle des
donnes (lintgrit des donnes en fonction du temps associes). LEDC doit tre modlis
sur la base dun modle temporel fond tout en assurant une reprsentation et une smantique
temporelle unifie ainsi quune structuration solide et des oprateurs temporels facilitant
lexpressivit des requtes temporelles. Cest ce que nous dcrivons comme tant la
temporalisation.
5+(4'/(,-+,6",%+784#"6'("%'4/,-"/(,6+,-47"'/+,$6'/')*+,
Le temps est une proprit importante des donnes cliniques. Larticle [Khnaisser et al. 2015]
dcrit certaines caractristiques des donnes cliniques desquelles plusieurs besoins de
modlisation du temps en dcoulent :
BE.1 Garantir lintgrit et la qualit des donnes en fonction du temps.
BE.2 Garantir luniformit syntaxique et smantique des concepts temporels.
14
BE.3 Garder la trace de lvolution des donnes dans le temps.
BE.4 Simplifier laccs et la manipulation des donnes temporalises et lexpressivit des
requtes temporelles pour des tudes cliniques.
BE.5 Faciliter la modlisation et la modification dun schma EDT partir des sources dans
une perspective dautomatisation guide par le concepteur.
5#+9,&%"%,-+,6."#%,
La temporalisation dun schma et la manipulation (interrogation et modification) des
donnes temporalises sont complexes [Malinowski 2008]. Les problmes de contradiction,
de redondance, de circonlocution et de non-compacit prsents au Chapitre 4 en font partie.
Plusieurs modles et langages temporels ont t dfinis depuis 1970 dans le but de simplifier
la gestion du temps dans une base de donnes. Diffrentes raisons peuvent justifier la
prsence de nombreux modles, comme : lincompltude, le non-consensus, le manque de
gnralit, labsence de mise en uvre et doutils de temporalisation, etc. Ltude
[Ozsoyoglu and Snodgrass 1995] (la plus rcente) a recens 30 modles relationnels
temporels et 20 langages relationnels temporels.
Dune part, linclusion de quelques fonctionnalits temporelles dans les SGBD na
commenc qu la fin des annes 2010. Dautre part, le langage SQL na intgr des
fonctionnalits temporelles quen 2011. Jusquen 2012, et encore aujourdhui, trs peu de
produits offrent un certain support temporel de base (Oracle 11 g, Teradata 13, Postgres 9.4 et
DB2 10) [Kulkarni and Michels 2012]. Diffrentes causes peuvent justifier labsence de mise
en uvre : ambigit, htrognit des propositions, manque de gnricit des propositions,
absence de consensus dans la communaut, cout prohibitif du stockage induit, performances
dcevantes, etc.
Dautre part, rares sont les modles qui sont mis en uvre dans un cas rel et sont mis jour
par rapport ltat dart. La question de la temporalisation demeure ouverte, aucun standard
nest tabli. Le prsent travail sintresse deux modles temporels :
15
Le modle BCDM (Bitemporal Conceptual Data Model), bas sur SQL, a t
propos par [Jensen et al. 1993] et dvelopp dans [Snodgrass 2000].
Le modle TRM (Temporal Relational Model), un modle fond sur la thorie
relationnelle, est propos par [Lorentzos and Johnson 1988] et dvelopp dans [Date
et al. 2014b].
Le choix des deux modles est bas sur la qualit et la compltude de leur description, la
persistance de lintrt qui leur est port dans la littrature scientifique ainsi que la
compatibilit avec le modle relationnel et les SGBD existants.
1.2.3 Raisonnement temporel
Les recherches sur la reprsentation et le raisonnement temporel en mdecine ont commenc
vers la fin des annes 1980 [Adlassnig et al. 2006]. Les systmes informationnels de sant
tendent de plus en plus vers des systmes temporels pour amliorer la prise de dcisions
cliniques [Combi and Shahar 1997]. La prise de dcisions peut tre amliore grce la
dtection des corrlations entre diffrentes interventions et diffrents vnements cliniques et
la drivation dinformations adquates au bon moment. Lamlioration ncessite des donnes
temporalises et un modle temporel garantissant lintgrit temporelle entre donnes et la
durabilit de lvolution des donnes gnres par ces vnements.
Lassociation du temps aux vnements clinique facilite lanalyse temporelle et
linterprtation des donnes dans la majorit des dpartements (cardiologie, oncologie,
psychiatrie, soins intensifs, mdecine interne, etc.) et dans diffrentes tches mdicales
(diagnostics, administration thrapeutique, protocoles cliniques, administratifs, etc.) [Combi
et al. 2010]. Des techniques danalyse temporelles sont requises pour mieux tirer parti des
donnes temporalises et sont mme essentielles pour pouvoir dcrire les activits lies aux
pisodes de soins des patients qui stendent sur plusieurs mois voire des annes. Les deux
approches les plus connues en mdecine pour effectuer un raisonnement temporel sur des
donnes sont labstraction temporelle [Stacey and McGregor 2007] et les rseaux baysiens
temporels [Tawfik and Neufeld 1994]. Labstraction temporelle exemplifie par KBTA
[Shahar and Musen 1996] et PROTEMPA [Post and Harrison 2007] permet la dtection des
16
patrons temporels (squence, occurrence, tendance, etc.) partir de donnes temporalises.
Cette mthode facilite la prise de dcision [Post et al. 2013] en associant des tats cliniques
(stable, dgradation, amlioration, etc.) pour chaque patron temporel dtect [Post et al.
2013]. Les rseaux baysiens temporels sont utiliss dans plusieurs recherches pour leur
capacit de raisonnement en tenant compte des incertitudes temporelles des donnes
[Orphanou et al. 2014].
Plusieurs autres dfis en dcoulent (voir [Adlassnig et al. 2006] pour plus de dtails) : la
reprsentation de lincertitude, la reprsentation des protocoles cliniques, le raisonnement
selon les bonnes pratiques, lautomatisation de la gestion des flux de travail clinique (clinical
workflow), la prdiction de nouveaux comportements des maladies, lanalyse des phnotypes,
le suivie de lvolution de ltat du patient, linterrogation des donnes temporelles, etc.
1.2.4 Intgration des sources de donnes
Un grand intrt sest dvelopp pour lutilisation secondaire des donnes de sant provenant
de sources multiples afin de raliser des tudes cliniques lchelle dune population et
dvelopper la mdecine personnalise [Jensen et al. 2012]. Lintgration de plusieurs bases
de donnes est une activit cruciale et trs complexe [Chromiak and Stencel 2014]. Dune
part, la majorit des sources sont construites avec des systmes propritaires ferms et selon
une mthodologie propre et des modles personnaliss. Dautre part, les donnes peuvent tre
encodes diffremment (htrognes au niveau smantique) et peuvent avoir diffrentes
structures (htrognes au niveau structurel) [Ethier et al. 2013]. Une interoprabilit
syntaxique et smantique est requise pour faciliter le processus dintgration. Une
interoprabilit syntaxique permet de reprsenter des donnes de sant dune faon structure
et selon un format standardis. Une interoprabilit smantique permettant de comprendre et
traiter des donnes selon un modle de connaissance commun et une terminologie associe. Il
ne suffit pas de faire une unification des donnes des sources dans un mme ED en
sintressant seulement leur structure. Lintgration doit galement prendre en
considration la smantique et lassociation de celle-ci avec les donnes.
17
Le DCI contient un grand nombre de donnes ayant des structures complexes et une
smantique diffrentes selon le contexte (voir figure.1 de [Jensen et al. 2012]). Les
principaux utilisateurs sont les prestataires de soins (cliniciens, agents administratifs,
infirmiers, etc.) o chacun utilise une terminologie propre son dpartement. Les donnes
sont encodes selon diffrentes normes et classifications (SNOMED CT [IHTSDO 2015],
DICOM [NEMA 2015], LOINC [Regenstrief 2015] et RxNorm [NLM 2014], etc.) qui
dterminent le contexte do elles sont gnres (document clinique, image numrique,
laboratoire, prescription de mdicament, etc.). De plus, des donnes non encodes et sous
forme de texte libres sont galement frquemment utilises et difficiles interprter.
Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al. 2012]
Lintgration est complexe et demeure en grande partie manuelle malgr lavancement des
technologies cause de :
la fragmentation des donnes dans divers champs dont le choix nest pas uniforme et
varie dans le temps,
labsence de description fiable des sources de donnes (schma conceptuel) et des
donnes elles-mmes;
18
la complexit des donnes, reprsentes soit en texte libre, soit par numrisation
(sous forme dimage) dune source imprime (formulaire, note de travail,
ordonnance, etc.),
labsence de description formelle de la smantique des donnes;
lutilisation de diffrents encodages en fonction dun quelconque modle de
connaissance13 (donc uniquement interprtables en regard des codes et des
conventions propres aux consignataires et aux auteurs);
le cloisonnement des systmes entraine une redondance considrable de
linformation, redondance de laquelle dcoulent des incohrences;
la diversit des technologies dacquisition et lchange de donnes utilises et
labsence de mcanisme standardis de communication entre les systmes [Sahama
and Croll 2007];
Un premier pas pour rsoudre cette problmatique est lutilisation des normes (de messagerie
et de terminologie) et des standards internationaux comme HL7 [Health Level Seven 2015]
pour faciliter lchange, OpenEHR [OpenEHR 2015] pour dfinir un modle de donnes de
rfrence, ainsi que des terminologies standardises comme SNOMED CT et LOINC pour
coder linformation.
Lors de lintgration de plusieurs sources, une mise en correspondance est requise entre le
modle de connaissance (provenant des utilisateurs), un modle de donnes (provenant des
sources) et les terminologies. Plusieurs tudes proposent des solutions pour la mise en
correspondances entre les modles de connaissance et les terminologies [Rector et al. 2009]
et [thier et al. 2013], la mise en correspondance entre les terminologies [Noy et al. 2009] et
les modles de connaissances entrent eux [Martnez Costa et al. 2011]. Une solution plus
globale est prsente par Bodenreider [Bodenreider 2004] pour lintgration de modle de
connaissance partir des terminologies en utilisant UMLS [U.S. National Library of
Medicine 2014]. Rares sont les mthodes qui proposent des processus dintgration largement
13 Lencodage peut tre dtermin par ltablissement, une composante de ltablissement, le consignataire ou un systme
tiers.
19
automatis (6/40) ou partiellement automatis (3/40) [Khnaisser et al. 2015]. Malgr la
diversit des solutions proposes, lintgration demeure ad hoc. En plus, elle requiert des
connaissances du domaine pour interprter les donnes et leurs contextes vu la diversit des
pratiques cliniques [de Mul et al. 2012].
Lutilisation des ontologies est de plus en plus prconise pour faciliter lintgration. Elle
permet denrichir la smantique des donnes [Thenmozhi and Vivekanandan 2013] et rduire
leffort requis pour la mise en correspondance entre les connaissances et les donnes [Mate et
al. 2015] tant donn quelle exprime dune faon exploitable automatiquement diffrents
axiomes logiques permettant la description de concepts.
1.3 Vision
Plusieurs solutions indpendantes existent pour diffrentes problmatiques, mais aucune
mthode entirement intgre na t dfinie ce jour [Khnaisser et al. 2015]. Vu
lhtrognit et le grand nombre de sources de donnes, les mthodes classiques de
construction dEDCT sont difficiles mettre en place [Tria et al. 2013]. La construction
dEDCT est effectue typiquement ralise laide de plusieurs outils indpendants, ce qui
entraine une perte de traabilit et limite considrablement lvolution future de lEDCT. Le
systme envisag, baptis Vulcain, regroupe plusieurs ateliers partageant une mme
description des sources et de lentrept. Lunicit de la description permet de mettre en uvre
une mthode intgre de construction dEDCT. La multiplicit des ateliers permet de
proposer des outils et des interfaces spcialises et ergonomiques en fonction des diverses
tches. La mthode intgre permet de dfinir un EDCT partir dun modle de
connaissances commun; temporaliser le schma de lEDC; de reprsenter les sources de
donnes; de mettre en correspondance les sources et lEDCT, dalimenter lEDCT ainsi que
dexploiter et de maintenir lEDCT. Ci-dessous, la Figure 2 prsente une illustration de la
vision est prsente, suivie dune brve description du rle des principaux composants (leur
conception et les algorithmes utiliss tant nombreux et pouvant varier).
20
Figure 2 Vision du systme de construction dun EDCT
1.3.1 Les caractristiques des agents
La construction de lEDCT ncessite un groupe multidisciplinaire. Les principaux agents
sont :
Analyste dinformation (analyste informatique) (AI) : une personne ayant une
expertise en informatiques et une connaissance minimales des sources et du modle
de connaissances. Elle intervient essentiellement durant la construction pour la mise
en correspondance des schmas de donnes et le modle de connaissance.
Gestionnaire de donnes (GD) : une personne connaissant le contenu et la structure
des sources et de lentrept. Elle intervient durant la construction de lEDCT et la
reprsentation des sources de donnes. En plus, elle intervient durant lexploitation
pour optimiser lutilisation de lED et contrler les droits daccs.
AI
GD
Sources
C
B
A
PM
Modles de connaissances
MI_1MI_2
Donnes courantes
Donnes historiquesLgende
Processus de construction
Processus dexploitation
Modle de donnes
Modle de connaissances
Flux de donnes
Interagir systmePortail dinteraction adapt au profil de lexpert de domaine
Construire Gnration du schma
dentrept et des correspondeurs
connaissances-entrept et donnes-entreptTemporalisation
Interagir entreptPortail dinteraction adapt au profil du
gestionnaire de donnes
Mettre en correspondance
Gnration de correspondeurs entre les modles de donnes et le modle de connaissances
Importer modles de donnes
Importation de modles de donnes Description
Vrification et validation
Importer modles de connaissances
Importation de modles de connaissances
Unification Vrification et validation
Alimenter entreptImportation des donnes
des sources vers lentrept
21
Personnel mdical (PM) : une personne du domaine de la sant qui utilise le modle
de connaissances et les diffrents outils disposition pour extraire et analyser les
donnes de lEDCT.
1.3.2 Les composants
La vision repose sur deux phases de traitement bases sur un modle de donnes commun : la
construction et lexploitation. La construction regroupe les composants et les artfacts requis
lors de la construction de lEDCT par les analystes mtiers et les analystes informatiques.
Lexploitation regroupe les composants et les artfacts requis lors de lexploitation de
lEDCT par le personnel mdical et les gestionnaires de donnes. Le modle commun est la
reprsentation des structures utilises pour la construction et lexploitation de lEDCT. La
prsentation qui suit se limite une brve description du rle des principaux composants; leur
conception et les algorithmes requis tant nombreux et pouvant varier, une spcification
darchitecture logicielle et plusieurs spcifications de conception seront requises avant de
mettre oeuvre Vulcain. Le prsent mmoire na pas cet objectif.
Vulcain se compose des composants suivants :
Importer modle de donnes : un composant dont le rle est dimporter et dcrire
les schmas de donnes selon le modle commun. En plus, il doit tre capable de
dceler les erreurs et les incohrences selon un processus de vrification et de
validation appropri.
Importer modle de connaissances : composant dont le rle est dimporter des
modles de connaissances (exprim par une ontologie) et les dcrire selon le modle
commun. En plus, il doit tre capable de dceler les erreurs et les incohrences selon
un processus de vrification et de validation appropri.
Mettre en correspondance : un composant dont le rle est de mettre en
correspondance les schmas de donnes et le modle de connaissances. Un schma
unifi et un correspondeur connaissances-donnes sont gnrs. Le correspondeur
connaissances-donnes permet dassocier une connaissance une ou plusieurs
22
donnes de la source facilitant ainsi la construction du schma de lEDCT, le
traitement des requtes et de lalimentation.
Construire : composant dont le rle est de construire le schma temporalis de
lEDC. La construction se base sur le correspondeur connaissances-donnes,
lalgorithme de temporalisation et le type du SGBD cible pour construire le schma
de lEDCT. En plus du schma de lEDCT, un correspondeur connaissance-entrept
qui associe une connaissance une ou plusieurs donnes de lentrept.
Alimenter : composant dont le rle est dextraire les donnes des sources, de
jumeler et de transformer ces donnes pour les rendre compatibles avec le schma de
lEDCT. Lalimentation se base sur les schmas de donnes, le correspondeur
connaissance-entrept et les donnes des sources pour effectuer le jumelage et les
transformations adquates.
Interagir entrept : un composant dont le rle est de fournir une interface
personne-machine au gestionnaire de donnes pour maintenir et observer les
performances de lEDC. De plus, le composant a pour rle de dfinir et assurer le
respect des rgles daccs lentrept en plus de garder la trace de toutes les
modifications de structures, de donnes et des requtes utilisateurs pour optimiser
lEDCT.
Interagir systme : un composant dont le rle est de fournir une interface personne-
machine selon le profil du personnel mdical et des outils danalyse pour exploiter
lEDCT.
1.4 Synthse
La construction dun EDCT requiert une mthode automatise, un modle de donnes fond
sur la thorie relationnelle, une temporalisation avance, un modle de connaissance, un
modle dintgration et de mise en correspondance, des oprations dexploration avances
[Khnaisser et al. 2015]. LEDC doit tre modlis sur la base dun modle temporel fond
tout en assurant une reprsentation et une smantique temporelle unifie ainsi quune
23
structuration solide et des oprateurs temporels facilitant lexpressivit des requtes
temporelles.
Une nouvelle mthode de construction doit tre dveloppe en se basant sur un modle
unifiant les modles suivants :
Un modle de connaissance (ontologie) permet davoir une smantique uniforme et
non ambige des donnes. Lutilisation des ontologies est de plus en plus prconise
pour faciliter lintgration.
Un modle temporel permet davoir une reprsentation et une smantique temporelle
unifie. En plus de garantir la traabilit de lvolution des donnes.
1.4.1 Problme cibl
Dans un premier temps, lobjectif est de dfinir une mthode semi-automatise de
construction dun EDCT se limitant la construction dun schma dEDT partir d'un
schma d'ED. Limportation des sources et du modle de connaissance ainsi que la mise en
correspondances sont reportes aux phases ultrieures. Cette tude doit rpondre aux
questions suivantes :
Quel modle temporel rpond le mieux aux exigences dun EDT en tenant compte des
fonctionnalits des SGBDR actuels?
Comment automatiser la construction du schma de lEDT?
Deux modles temporels, BCDM et TRM sont tudis dans une perspective de
standardisation et de mise en uvre automatisable au sein dun ED afin datteindre les
besoins de temporalisation.
1.4.2 Autres problmatiques
Plusieurs autres problmatiques se posent concernant les techniques danalyse de donnes
(forage des donnes), la visualisation des donnes, le contrle daccs, lanonymisation, etc.
24
La rsolution de ces problmatiques sera grandement facilite avec la rsolution des
problmatiques nonces prcdemment.
:/"6;(+,-+(,-4//&+(,
Le forage de donnes est largement utilis pour diffrent type danalyse (lanalyse
rtrospective, lanalyse prospective, les prdications, etc.) et vise diffrents buts : cration de
nouvelles mthodes danalyse de phnotypes [Liao et al. 2015], dcouvrir de nouveaux
phnotypes [Deans et al. 2015], amliorer les diagnostics ou des traitements [Defossez et al.
2014].
25
Chapitre 2
Temporalisation dun entrept de donnes
One does not need to make an elaborate argument as to why it is important to model and reason with time, particularly in the context of medical information systems. Putting it
simply, there is one fundamental truth in life: the world is not static. Situations change. [Combi et al. 2010]
Plusieurs problmatiques sont relies la construction dun systme informationnel de sant :
la modlisation de lEDC, la temporalisation, le raisonnement temporel, lintgration des
sources htrognes, lanalyse des donnes, le contrle daccs, etc. Ce mmoire sattaque
uniquement la problmatique de temporalisation dun ED.
Le prsent chapitre dcrit le problme trait dans ce mmoire. Il dbute par une prsentation
intuitive du problme de temporalisation l'chelle d'une simple relation. La section 2
prsente ensuite le problme dans sa gnralit. La section 3 dcrit la mthode de
construction dEDT et les problmatiques de la temporalisation. Pour terminer, la section 4
prsente une liste des rsultats devant tre obtenus afin rsoudre le problme.
2.1 Exemple de temporalisation d'une relation
Les exemples qui suivent sont construits partir de la mise en situation suivante : La
direction gnrale dun hpital souhaite suivre loccupation des lits des diffrentes units.
Dans un premier temps, les informations requises sont lidentit du patient (nom, ville de
rsidence et date de naissance), lunit responsable de son hospitalisation et le numro de lit
quil occupe.
26
Trois scnarios sont prsents ci-dessous. Chacun reprsente une catgorie de modlisation.
La prsentation du scnario commence par la description de deux vnements : ladmission
(arriv dun patient lhpital) et le cong (le dpart d