Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne »...

Preview:

Citation preview

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 1

Cours 5

Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS

UE Cognition bayésienne18/01/2012

http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 2

Plan des cours1. Introduction à la Programmation Bayésienne :

incomplétude, incertitude2. Programmation bayésienne : exemple détaillé,

Classes de modèles probabilistes3. Distributions usuelles, Programmation

bayésienne des robots4. Modélisation bayésienne de la perception et de

l’action5. Comparaison bayésienne de modèles6. Compléments : inférence, apprentissage,

principe d’entropie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 3

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 4

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 5

P Vrot Vtrans px0..px7 lm0..lm7 veille feu obj? eng tach_t -1 td_t -1 tempo tour dir prox dirG proxG vtrans_c dnv mnv mld per

πWatchman

⎝ ⎜ ⎜

⎠ ⎟ ⎟

=1Z

P Td Tach

td_t - 1 tempo tour πMoove

⎝ ⎜

⎠ ⎟

P Tach

Base

veille feu obj?

eng tach_t - 1

πTask

⎜ ⎜ ⎜

⎟ ⎟ ⎟

P Base px0...px7

lm0...lm7 πBase

⎝ ⎜

⎠ ⎟

⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Base∑

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Tach∑

P ThetaL DistL lm0..lm7 πFusion( )DistL∑

P H prox πHoming( )

P Vrot Vtrans H Td ThetaL

dir prox dirG proxG vtrans_c πWatchman

⎝ ⎜

⎠ ⎟

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

TdThetaL H

∑ .

• Inférence exacte – sommation, propagation

des incertitudes

• Inférence approximée– décisions intermédiaires

(tirage de points), propagation d’une partie des incertitudes

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 6

Modélisation de la

perception• Perception

– Un problème inverse (Poggio, 1984)

• Modèle bayésien– Inversion + hypothèse

d’indépendance conditionnelle–

S1

S2

Sn

V

S1S2Sn

V?

P S1S2K SnV | C( )

= P V | C( )P S1 |VC( )P S2 |VC( )K P Sn |VC( )

stimulus

sensations

perception

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 7

Humans integrate visual and haptic information in a

statistically optimal fashion

• Mécanisme d’integration visuo-haptique par fusion de gaussiennes

• Utilisé par les humains

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 8

Causal inference (Körding et al., 07; Sato et al., 07)

• Y a-t-il une source unique, ou deux sources distinctes ?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 9

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 10

Sources

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 11

Devinette n° 1

• Quel est le suivant ?– {1, 3, 5, 7, 9, 11, ?}– {1, 1, 2, 3, 5, 8, 13, ?}– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 12

Réponses

– {1, 3, 5, 7, 9, 11, ?} 42– {1, 1, 2, 3, 5, 8, 13, ?} 42– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?} 42

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 13

Devinette n° 2

• Combien de méthodes pour définir une relation mathématique ?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 14

• Combien de méthodes pour définir une relation mathématique ?

– Par fonction analytique f• E F• x | f(x)

– Par extension• Ensemble de points• (pas pratique pour un

ensemble infini)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 15

Quelle méthode pour la devinette ?

• Passage de points à une fonction

• Utilisation de la fonction pour prédire le point suivant

≅ Modélisation

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 16

Modélisation : méthode

• Définir une classe de modèles M

• Définir une mesure de « qualité »

• Sélectionner le modèle dans M qui maximise la mesure

mod

élis

ati

on data set

set of models set of parameters

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 17

Modélisation

• Méthode très générale !– Machine learning

• Réseau de neurone• Algorithmes

génétiques• Apprentissage

bayésien

– Curve fitting– Optimisation– Regression

mod

élis

ati

on data set

set of models set of parameters

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 18

Précaution

• Toute l’activité scientifique n’est pas que la modélisation

– Modèle vs. Théorie– Modèle vs. Expérience

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 19

Mesures de qualité de modèles• Falsifiability (réfutabilité, pas falsifiabilité !)

– Existe-t-il des observations incompatibles ?

• Explanatory adequacy– Make sense of the data but also of established findings

• Interpretability– Réifiabilité : les paramètres sont liés à d’autres processus

• Faithfulness– La qualité du modèle vient de sa structure, pas de propriétés

du calcul, ni de la simulation

• Goodness of fit• Complexity (or simplicity)• Generalizability

(Karl Popper, La connaissance objective, 1985)(Léna Soler, Introduction à l’épistémologie, 2000)

(Myung, 2003)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 20

Mesures de qualité de fit

• Residual• Pourcentage de la variance

– Percent variance accounted for PVAF

• Root mean square deviation RMSD= root mean square error RMSE

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 21

Mesures de qualité de fit

• Correlation coefficient R2

– aka• Pearson’s sample correlation coefficient• Simple correlation coefficient• Cross-correlation coefficient• Product-moment coefficient

• Formes multidimensionnelles– Matricielles– Multiple Correlation Coefficient R

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 22

Correlation coefficient

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 23

Correlation coefficient

• r = 0.816

• Explorer les données !

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 24

Fit vs complexity

• Fit to regularity– Intéressant à

modéliser

• Fit to experimental noise– Pas intéressant

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 25

Théorème

• Par n points passe un unique polynôme de degré n-1– n points (ou contraintes)– Polynôme degré n-1 a n paramètres

• f(x) = ax2 + bx + c

• Par deux points passe une unique droite• Par trois points passe une unique

parabole

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 26

Théorème• Par n points passe un unique polynôme

de degré n-1

• Idem– développement limité de Taylor– Transformée de Fourier– Somme de noyaux Gaussiens

avec assez de paramètres, on approxime tout

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 27

Fit vs complexity

overfitting

underfitting

« sweet spot »

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 28

Complexité d’un modèle = Nombre de paramètres + Forme

fonctionnelle

– M1 : y = sin(cos(ax))aexp(-bx)/xb

– M2 : y = axb

– M3 : y = ax + b

a=12b=1

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 29

Fonctionnelle de Tikhonov

• Mesure à minimiser– R(M, Δ) = GM(Δ) + λ H(M)

– GM(Δ) mesure de fit

– H(M) mesure de complexité • indépendante de Δ

– λ : poids relatif• Compromis à résoudre : complexity

regularization (central en machine learning)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 30

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 31

Generalizability

Fit sur les points observés

Fit sur les points pas encore observés

overfittingunderfitting « sweet spot »

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 32

Mesure de generalisation

– Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

– Mesure de divergence entre distribution de probabilité D

– D(f,g) > D(f,f)=0 si f ≠ g€

E D(M, MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 33

Mesure de generalisation

• Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

• MT est évidemment inconnu

E D(M,MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 34

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 35

Cross-validation (CV)

• Estimer la généralisation du modèle sans connaître le vrai modèle– Partitionner les données Δ– Identification de

paramètres sur la partie calibration

– Estimation de la capacité de généralisation sur la partie validation

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 36

Méthodes de CV• Split-sample, hold-out method• Split-half cross-validation

– Coupe en deux Δ = Δ1, Δ2

– Estime les paramètres sur Δ1

– Calcule l’erreur de prédiction sur Δ2 e1

– Intervertir Δ1, Δ2, recommencer e2

• Validation croisée

– Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 37

Méthodes de CV

• Leave-one-out cross-validation– Découper en n-1 données pour

l’identification, et 1 donnée pour l’erreur de prédiction

– Répéter n fois– Erreur de prédiction moyenne sur les

n étapes

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 38

Méthodes de CV

• K-fold cross-validation– K blocs de taille n/K– Données pour l’identification : K-1

blocs (taille n-n/K)– Données pour la prédiction : 1 bloc

(taille n/K)– Idem leave-n/K-out– Choix de K change le résultat

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 39

Méthode de CV

• Bootstrapping– Tirage avec replacement

subsamples au lieu de subsets des données

– .632+ bootstrap method• 63,2 % de Δ pour l’identification

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 40

Critique de la CV

• Large training set overfitting• Small training set underfitting• Trouver le bon découpage

– même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov

• Rien résolu (mais facile à coder)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 41

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 42

Mesures de distances entre distributions de

probabilités• Déf : Une métrique est une

fonction g non-négative telle que– Inégalité triangulaire g(x,y)+g(y,z) ≥

g(x,z)– Symétrique g(x,y) = g(y,x)– g(x,x) = 0– g(x,y) = 0 => x = y

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 43

Mesures de distances entre distributions de

probabilités• Kullback-Leibler

– Distance / divergence de Kullback-Leibler

– KL divergence– Information gain– Relative entropy

• Cross entropy• Mutual information

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 44

KL divergence

• Pas une mesure de distance– D(p,q) ≠ D(q,p)

• se symétrise Ds(p,q)=Ds(q,p)= (D(p,q)+D(q,p)) /2

– D(p,q) > 0 pour tout p,q

– D(p,q) = 0 ssi pk = qk pour tout k

D( p,q) = DKL ( p q) = pk log2

pk

qkk

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 45

Cross entropy

• Entropie H(p), cross-entropie H(p,q)

• Relation avec la KL divergence€

D( p,q) = H( p,q) = − pk logqk

k

DKL ( p q) = pk log2

pk

qkk

DKL ( p q) = H(p,q) − H(p)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 46

Mutual information

• mesurée en bits• I(X,Y) = I(Y,X)• I(X,Y) ≥ 0• €

I(X,Y ) = P(xy)log2

P(xy)

P(x)P(y)y∈Y

∑x∈X

I(X,Y ) = DKL (P(XY ) P(X)P(Y ))

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 47

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 48

Notation probabiliste• Soient

– Θ = {θ1, θ2, …} paramètres des modèles

– Δ = {δ1, δ2, …, δn} données expérimentales

– δi = {x, y} une donnée• x condition : var indépendante contrôlée VI• y observation pour cette condition : var dépendante

VD

• Un modèle– –

48

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 49

En modélisation probabiliste

• Plusieurs modèles– Espace de paramètres Θ = {θ1, θ2,

…}

– Classe des modèles M = {m1, m2, …}

– Un modèle : P(y | x [Θ = θ1] [M = m1])

• Méta-modèle, modèle hiérarchique–

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 50

Méta-modèle

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 51

Méta-modèle• Version simplifiée : une seule classe de

modèle

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 52

Mesure de comparaison des modèles

• Calculer la probabilité d’un modèle m1, au vu de données expérimentales Δ

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 53

• Si P() = uniforme–

• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)

• Si P() uniforme– Modèle = prior vraisemblance

• Modèle de maximum a posteriori (MAP)• Modèle bayésien

Posterior Prior Vraisemblance

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 54

Goodness of fit en probabilités

• Maximiser la vraisemblance •

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 55

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 56

Tel monsieur Jourdain…

• Un phénomène génère des couples di = x,y• Un modèle

– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures

• On observe D = {dx1, …, dxn}• Question

– Quels sont les paramètres a, b les plus probables ?

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 57

Tel monsieur Jourdain…

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 58

Tel monsieur Jourdain…

* = argmaxP Θ | D( )

= argmaxP Θ( )P D | Θ( )

= argmax P di | Θ( )i=1

n

= argmax log P di | Θ( )( )i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin(di − F(Θ))2

2σ i2

i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin (di − F(Θ))2

i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

p(di Θ) =1

2π σexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 59

Moindre carrés de l’erreur

• Comme – un Réseau de Neurones &

Backpropagation• (Mitchell 95, p167)

– Une régression linéaire– residual– …

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 60

Least square fitting sur Mathworldhttp://mathworld.wolfram.com

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 61

Pour aller plus loin…

• Inférence dans les cas non-linéaires

• Moindres carrés Bayésien

• Espace de modèles = {3x+2, 4x3-

2x2+4}

• Priors hiérarchiques– P( | )

• Rasoir d’Occam automatique…

P Θ( ) =1

2π σ Θ

exp −(Θ − μ Θ )2

2σ Θ2

⎝ ⎜

⎠ ⎟

* = arg max P Θ | D( )

= arg max P Θ( )P D | Θ( )

= arg max P Θ( ) P di | Θ( )i =1

n

= arg max log P Θ( )( ) + log P di | Θ( )( )i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

2σ Θ2 +

(di − F(Θ))2

2σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

σ Θ2 +

(di − F(Θ))2

σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 62

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 63

Odds, posterior odds, evidence

• Un modèle à 2 cas : – Une hypothèse H, et

P(H Δ) =P(H)P(Δ H)

P(Δ)

P(H Δ) =P(H )P(Δ H )

P(Δ)

P(H Δ)

P(H Δ)=

P(H)

P(H )

P(Δ H)

P(Δ H )

H

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 64

Odds, posterior odds, evidence

• Odds , log odds (stats)

• Posterior odds

• Odds en bijection avec p

O(H Δ) =P(H Δ)

P(H Δ)

O(H Δ) = O(H)P(Δ H)

P(Δ H )

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 65

• Evidence (en decibels db)

• Evidence en bijection avec p

Odds, posterior odds, evidence

e(H Δ) =10log10 O(H Δ)

e(H Δ) = e(H) +10log10

P(Δ H)

P(Δ H )

e(H Δ) = e(H) +10 log10

P(δ i H)

P(δi H )i

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 66

Odds, posterior odds, evidence

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 67

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 68

Identification de paramètres vs Sélection de modèles

• Identification de paramètres learning– –

• Sélection de modèle– –

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 69

Comparaison de modèles

• Basés sur la vraisemblance– AIC Akaike Information Criterion– BIC Bayesian Information Criterion– MDL Minimum Description Length

– BMS Bayesian Model Selection

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 70

AIC

• avec k le nombre de paramètres

• Modèle M qui minimise la mesure AIC• Fonctionnelle de Tikhonov

– AIC = lack of fit + complexity

• Dérive de l’approximation pour de larges ensembles de données de la KL divergence

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 71

BIC

• avec – k le nombre de paramètres– n le nombre de données

• Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 72

MDL

avec– k le nombre de paramètres– n le nombre de données– I(θ) la matrice d’information de Fisher

• Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions

– |.| le déterminant de la matrice

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 73

MDL

• Mesure de complexité qui prend en compte la forme fonctionnelle

• Provient de la théorie de l’information– Compression des données Δ par

modèle + déviation

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 74

BMS

• • Vraisemblance

• Vraisemblance marginale–

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 75

Bayesian model selection

• Attention– BMS Bayesian model selection– BMS Bootstrap model selection

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 76

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 77

« vraie » Bayesian model selection

• Prior sur M uniforme ou pas• Prior sur les paramètres θ

uniformes ou pas

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 78

Bayesian model selection •

• Intégrale sur l’espace des paramètres– MAP si on la fait– méthodes de Monte-Carlo (voire, méthode de

Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer

• Gibbs sampling• Metropolis-Hastings• Random walk methods

– Approximation du log vraisemblance autour de• BMSL Bayesian Model Selection Laplace approximation

ˆ θ

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 79

Bayes Factor

• Extension du odds

• Ratio de vraisemblances marginales si prior uniforme sur M– P(M1) = P(M2)€

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δ M1)

P(Δ M2)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 80

Bayesian Model Selection

– n’a pas la forme d’une fonctionnelle de Tikhonov

– et pourtant, mesure la complexité des M

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 81

BMS et mesure de complexité

• « Occam automatique » : intuition

• Si • et P(Δ | θ) concentré autour de

– Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δθ1M1)θ 1∫ P(θ1 M1)

P(Δθ2M2)θ 2

∫ P(θ2 M2)

1 ⊂Θ2

ˆ θ ∈ Θ1

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 82

Rasoir d’Occam automatique

MacKay, 03

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 83

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 84

Question ouverte 1 • Sélectionner un modèle, ok

• Boucle expérimentale – où prendre la prochaine

donnée expérimentale ?– Notion d’expérience cruciale

(discriminante)• Distinguer les modèles

Distinguabilité des modèles– Design optimization– Active learning (active

perception)– Optimal experimental

design– Bayesian model

distinguishability

mod

élis

ati

on data set

set of models set of parameters

?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 85

Question ouverte 2

• Deux problèmes inverses– Perception

• Phénomène = f -1 (stimuli)

– Modélisation• Modèle = f -1 (observations)

• Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ?

• Le cerveau est-il bayésien ?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 86

Question ouverte 3

• Pourquoi 42 ?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 87

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 88

Modélisation du contrôle

• Mouvements de pointage, volontaire, chez l’humain

• Etude des régularités– Lois du mouvement

• Isochronie, loi de Fitts, loi de la puissance 2/3

• Hypothèses sur les mécanismes – Modèles (neuro)cognitifs

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 89

Modèles de planification de mouvements

Planification de mouvement =Sélection d’une trajectoire selon un coût

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 90

Quelle grandeur manipulée par le système

de contrôle ?

+ free energy principle(Friston 10)+ inactivation principle(Berret 08)+ …

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 91

Minimum variance

• Bruit dépendant du signal (signal dependent noise SDN)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 92

Bayesian Decision Theory

• Modèle probabiliste + modèle de coût (reward, cost, loss function)

Prior

Posterior

Likelihood

Cost function

X

X

Bayes theorem Bayesian

decision theory

outputobservation i

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 93

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 94

• Modélisation bayésienne d’une boucle sensorimotrice : application à l’écriture

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 95

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 96

Importance des variables cachées

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 97

Modélisation d’une série temporelle

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 98

-1 7,00 0,290 6,00 0,251 11,00 0,46

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

P(y)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 99

Variable cachée V1 = {Bleu, Rouge}

V1=R V1=B

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 100

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

-1 2,00 0,140 4,00 0,291 8,00 0,57

P(y | [V1=R])

-1 5,00 0,500 2,00 0,201 3,00 0,30

P(y | [V1=B])

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 101

V2 = {Bleu, Rouge}t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

[V1

=R

][V

1=

B]

P(y | [V1=R] [V2=R])

P(y | [V1=R] [V2=B])

P(y | [V1=B] [V2=R])

P(y | [V1=B] [V2=B])

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 102

Digression : entropie

• Déf :

• Exemple :

[Shannon, 1948]

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 103

• Exemple 2 : P(X), X = {-1, 0, 1}

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 104

Variables cachées, connaissance et entropie

• Théorème :Les variables cachées apportent de l’information

P(y | [V1=B] [V2=B])P(y)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 105

Prédiction de la prochaine valeur ?

P(y)

P(y | [V1=B] [V2=B])t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 106

Pour 2007, [V1=B] et [V2=B]

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 107

Merci de votre attention !

Questions ?

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 108

Distinguabilité des modèles

• Modèle de distinguabilité– Extension du méta-modèle de fit– P(Δ Θ M)

= P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 109

Distinguabilité des modèles

Recommended