OlfaMiningCOMMENT CARACTERISER L’IDENTITE D’UNE ODEUR ?
Moustafa Bensafi1, Guillaume Bosc2, Fabien De Marchi2, Mehdi Kaytoue2,Roland Kotto Kombi2, Marc Plantevit2
1Centre de Recherche en Neurosciences de Lyon, France 2 Universite de Lyon, LIRIS CNRS, France
Motivations
L’Olfaction : un processus complexe . . .
Capacite a percevoir des odeurs.
Existence de liens entre les proprietesphysicochimiques et les qualites olfactives desmolecules [1,2]. Q
ual
ités
Olf
acti
ves
Propriétés physicochimiques
. . . dont la comprehension a des enjeux en
Recherche fondamentale en neurosciences.Industrie (agroalimentaire, parfumerie, . . .).Sante (anosmie, . . .).
Comment caracteriser et decrire le lien existant entre les proprietes physicochimiques d’une molecule et ses qualites olfactives ?
Materiel et Methodes
Qualité olfactives - fruité - citronné - boisé - ... - vanillé
Propriétés physico-chimiques - Poids moléculaire - Volume - Nombre d'atomes C, ...
Substances odorantes
-A138Amolécules-A4885Apropriétés-A146Aqualités
Dravnieks-A263Amolécules-A4885Apropriétés-A30Aqualités
Boelens-A1689Amolécules-A1704Apropriétés-A74Aqualités
Arctender
Fouille de redescriptions (redescription mining [3])
Principe Chercher des descriptions ou requetes dans cha-cune des vues (proprietes et qualites) qui couvrent presque lesmemes substances odorantes.
Support (qL)
requête qL poids>5 ET NbAtC >
2 OU NbAtH < 3
Support (qR)
requête qRboisé OU citronné
Redescription (qL, qR): deux requetes definies sur deslangages a expressivite variee (∨ , ∧, ¬, ...)Precision : coefficient de Jaccard a maximiser
J (qL, qR) =|Support(qL) ∩ Support(qR)||Support(qL) ∪ Support(qR)|
Test statistique : avec pL =|supp(qL)||O| et pR =
|supp(qR)||O|
pval(qL, qR) =
|O|∑k=|supp(qL)∩supp(qR)|
(|O|k
)(pLpR)
k(1− pLpR)|O|−k
Algorithme : approche heuristique (beam-search)
Decouverte de sous-groupes (Subgroup discovery [4])
Principe Trouver et decrire des sous-groupes de moleculesodorantes statistiquement caracteristiques d’une (ou plusieurs)qualite(s) d’odeur.
...
Atlas
Support (sd)
Sous-groupe sdpoids>5 ET NbAtC > 2 ET NbAtH < 3
Sous-groupe : decrit par une conjonction de pairesattribut-valeur, supportee par un ensemble de moleculesDESCRIPTION-PHYSICO-CHIMIQUE −→ QUALITE D’ODEUR
Precision : quantifie la divergence entre la distribution desvaleurs de la projection du sous-groupe et du jeu entier surl’espace de modeles (divergence de Kullback-Leibler)Algorithme : approche heuristique (beam-search) due a lataille exponentielle de l’espace de recherche (comme pour lafouille de redescriptions)
Resultats
r1 = (VANILLE, [19.403 ≤ MV ≤ 19.5106] OU [1.267 ≤ VE2 X ≤ 1.292] ET [11.574 ≤ MP
≤ 14.625] ET [1.511 ≤ IC3 ≤ 3.461] OU [ 3.342 ≤ VR3 X ≤ 3.342] ET [10.0 ≤D/DTR11] ET [2.949 ≤ SPPOSLOG H2 ≤ 4.385])
Support : 18, Similarite : 0.7.
0.1
1
10
100
1000
10000
0.01 0.05 0.1 0.2 0.3 0.4 0.5 0
20
40
60
80
100
120Tps d'exécution (échelle log. (sec)) Nb Redescriptions
Jaccard %
Run Time
0
0.2
0.4
0.6
0.8
1
1 10 100 1000
Précision
|Support| (échelle log)
95% DES MOLECULES SATISFAISANT LA CONDITION SE07 > 5.86500 ET SV > 6.84200 ETXLOGP < 1.90000 ET X0SOL < 2.29750 ET VE1 L < 1.35400 ET VE2 X < 1.33100 ETIC3 < 3.78100 ET SV99 < 0.32250 SONT ASSOCIEES A LA VANILLE
Support : 20.
5000
10000
15000
20000
25000
30000
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
Temps d'exécution (sec)
Support relatif
0 20 40 60 80
100 120 140 160 180
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
Qualité moyenne
Support relatif
Conclusion & Perspectives
Prise en compte des representations 2D et 3D des molecules.Reduction des temps de calculs pour des langages expressifs (heuristiques, parallelisation, . . .).
[1] K. Kaeppler and F. Mueller. Odor classification: a review of factors in influencing perception-based odor arrangements. Chemical senses, 38(3):189-209, 2013.[2] C. Sezille and M. Bensafi. De la molecule au percept. Biofutur, (346):24-26, 2013.[3] E. Galbrun, P. Miettinen: From black and white to full color: extending redescription mining outside the Boolean world. Statistical Analysis and Data Mining 5(4): 284-303 (2012).[4] P. K. Novak, N. Lavrac, G. I. Webb: Supervised Descriptive Rule Discovery: A Unifying Survey of Contrast Set, Emerging Pattern and Subgroup Mining. Journal of Machine Learning Research 10: 377-403 (2009)
TRAVAIL REALISE DANS LE CADRE DU PROJET TRANSVERSE LIRIS OLFAMINING ET DU PROJET DEFISENS MI CNRS.