57
Inférence phylogénétique Observed sequence alignment (D) phylogenetic tree (T) Chick Cat Fish Snail Fly Hydra Polyp Human A E F D L Y K S S E F D L Y K S S E F D V Y K S A E F D L Y R S A E Y E L F R T A E F E V F R S S E F E V F R S S E F E V F R S ?

Inférence phylogénétique

Embed Size (px)

DESCRIPTION

Inférence phylogénétique. phylogenetic tree ( T ). Observed sequence alignment ( D ). Chick. A E F D L Y K S. S E F D L Y K S. Human. S E F D V Y K S. Cat. Fish. A E F D L Y R S. Snail. S E F E V F R S. A E Y E L F R T. Fly. Hydra. A E F E V F R S. S E F E V F R S. Polyp. ?. - PowerPoint PPT Presentation

Citation preview

Page 1: Inférence phylogénétique

Inférence phylogénétique

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R S

?

Page 2: Inférence phylogénétique

Principes généraux d'uneméthode d'inférence phylogénétique

Deux aspects indépendants à considérer :

1) Le critère: Se définir un score S(T,D) permettant de mesurer le 'fit' d'un arbre T, sachant les données D (séquences alignées)

2) La méthode de recherche: Choisir parmi tous les arbres possibles de celui ayant le meilleur score

Page 3: Inférence phylogénétique

Critère 1 : Maximum de parcimonie

Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R S

Page 4: Inférence phylogénétique

Critère 1 : Maximum de parcimonie

Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R S

E D

E

Page 5: Inférence phylogénétique

Critère 1 : Maximum de parcimonie

Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R S

Page 6: Inférence phylogénétique

Critère 1 : Maximum de parcimonie

Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R SV V L

V L L V

Une convergence : deux évolutions indépendantes vers LUne réversion : chez le chat, un retour à l'état ancestral (V)

Convergences et réversions : homoplasies

Page 7: Inférence phylogénétique

Critère 1 : Maximum de parcimonie

Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement

Observed sequence alignment (D)phylogenetic tree (T)

Chick

CatFishSnailFlyHydraPolyp

HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S

A E Y E L F R TA E F E V F R SS E F E V F R S

S E F E V F R SL

L V

L V

L V

Page 8: Inférence phylogénétique

Maximum de parcimonie

Deux étapes de minimisation :

1) Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement

2) Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Page 9: Inférence phylogénétique

Trouver l'arbre de Maximum de parcimonie

méthode naïve

• prendre chaque arbre l'un après l'autre

• pour chaque arbre, calculer le score de parcimonie

• conserver le (ou les) meilleurs arbres

Page 10: Inférence phylogénétique

Trouver l'arbre de Maximum de parcimonie

méthode naïve

• prendre chaque arbre l'un après l'autre

• pour chaque arbre, calculer le score de parcimonie

• conserver le (ou les) meilleurs arbres

• problème: combinatoire trop élevée

Page 11: Inférence phylogénétique

Agglomération progressive des espèces

Heuristiques de recherche de topologies

1. Insertion sur toutes les branches2. Calcul du nombre de changements3. Choix de l’arbre le plus

parcimonieuxNombre d’opérations : 3+5+7=15

(pour 105 arbres possibles)

Pour 10 espèces : 63 versus 2 millions

Page 12: Inférence phylogénétique

Ordre d’agglomération des espèces

A

BC

D

E

A

B C

D

E

A

B C

D

AB

CF

D

FE

C

B

D

F E

C

B

D

F E

C

DF

EA

1. Ajouter les espèces de manière aléatoire2. Répéter l’opération un grand nombre de

fois3. Choisir l’arbre le plus parcimonieux

Page 13: Inférence phylogénétique

Algorithme de réarrangements

Réarrangement local ou Nearest Neighbor Interchange (NNI)

YX

WZ

Subtree Pruning and Regrafting (SPR)

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6 4(n-3)(n-2) possibilités

WX

YZ

ZX

WY

2(n-3) possibilités

Page 14: Inférence phylogénétique

MINIMUM GLOBAL

MinimumLocal

MinimumsLocaux

LongueurDeL’arbre

RÉPLICATS D’ADDITION ALÉATOIRE DE SEQUENCES

SUCCÈSÉCHEC ÉCHEC

Branch SwappingBranch Swapping

Branch Swapping

http://bioinf.ncl.ac.uk/molsys/data/characters.ppt

Minimums locaux : les ilôts d’arbres optimaux

Page 15: Inférence phylogénétique

The branch and bound algorithm

Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

Page 16: Inférence phylogénétique

Utilisation de contraintes a priori

G7

G10G6G8

G4G2

G9

G3

G11

G1

G5

11 espèces : 24 106

45 espèces : 5 1064

Page 17: Inférence phylogénétique

Méthode de distances

1) Pour chaque paire d’espèces, calculer la distance évolutive (c’est-à-dire le nombre de différences)

2) Choix parmi tous les arbres possibles de celui correspondant à la matrice de distances

Le critère ici est l'adéquation entre l'arbre et la matrice de distance

Page 18: Inférence phylogénétique

Cas idéal

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0

Page 19: Inférence phylogénétique

Cas idéalAAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAUGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0

Page 20: Inférence phylogénétique

Arbre #11

2

3

4

a

b

e

d

c

Plus d’équations que de variables : en général,

pas de solutions

D(E1,E2) = a+b=3 (1)D(E1,E3) = a+e+c=5 (2)D(E1,E4) = a+e+d=7 (3)D(E2,E3) = b+e+c=6 (4)D(E2,E4) = b+e+d=8 (5)D(E3,E4) = c+d=6 (6)

(2)+(4)-(1) 2e+2c=5+6-3 e+c=4 (7)(2)–(7) a=5-4=1(1) b=3-1=2(4)+(5)–(6) 2b+2e=6+8-6 b+e=4 e=4-2=2(4) c=6-2-2=2(5) d=8-2-2=4

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0

Principe des méthodes de distance

1

2

3

4

1

2

2

4

2

Page 21: Inférence phylogénétique

Arbre #21

3

2

4

a

c

e

d

b

Plus d’équations que de variables : en général,

pas de solutions

D(E1,E2) = a+e+b=3 (1)D(E1,E3) = a+c=5 (2)D(E1,E4) = a+e+d=7 (3)D(E2,E3) = b+e+c=6 (4)D(E2,E4) = b+d=8 (5)D(E3,E4) = c+e+d=6 (6)

(2)+(4)-(1) 2c=5+6-3 c=4(2) a=5-4=1 a=1(3)+(4)-(5) a+c+2e=7+6-8=5 e=0(1) b=3-1=2 b=2(5) d=8-2=6 d=6(6) 4+0+6=6 10=6

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0

Principe des méthodes de distance

1

3

2

4

1

4

0

6

2

Page 22: Inférence phylogénétique

Une matrice de distances est dite additive (d’arbre) si et seulement il existe un arbre ayant des longueurs de branches parfaitement compatibles avec la matrice

Conditions des 4 points :Pour tout ensemble de 4 espèces i,j,k et l, deux des valeurs D(i,j)+D(k,l), D(i,k)+D(j,l) et D(i,l)+D(j,k) sont égales et supérieures à la troisième

Distances additives et ultramétriques

Une matrice de distances est dite ultramétrique si et seulement si, pour toutes feuilles i,j et k, max{d(i,j), d(i,k), d(j,k)} n’est pas unique

Horloge moléculaire i j k

d(i,j)

d(i,k) = d(j,k)

i j k

d(j,k)

d(i,j) = d(i,k)

j i k

d(i,k)

d(j,i) = d(j,k)

Page 23: Inférence phylogénétique

Une substitution multiple

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 4 (5) 5 (6) 0Espèce 4 7 8 6 0

Distances non additives

Substitutions multiples

entraînent une sous-estimation des distances

Page 24: Inférence phylogénétique

Moindres carrés

Appelons P une distance correspondant à un arbre phylogénétique T

les espèces i et j, P(i,j) = arètes sur le chemin connectant i et jSoit F la fonction qui mesure la qualité de l’ajustement (fit) de P à D

∑∑ −=i j

jiPjiDF ),(),( ( )∑∑ −=

i j jiD

jiPjiDF

),(

),(),( 2

1) On calcule les arètes de longueur inconnue (a, b, c, d et e, dans le cas précédent) en minimisant F par une méthode de moindre carré (least square method)

2) On choisit parmi tous les arbres possibles celui qui minimise F

ou

Comme en parcimonie, deux étapes d’ajustement/minimisation

Page 25: Inférence phylogénétique

Algorithme du Neighbor Joining (Saitou&Nei, 1987)

Calculer

Chercher i et j pour lesquels« Dij - ui - uj » est minimal

∑≠ −

=n

ji

ijj n

Du

2i

j

Calculer les voisinages :vi = (Dij + ui - uj) / 2vj = (Dij + uj - ui) / 2

i

j

vi vj

Calculer les distancesdu nouveau noeud (ij) à k :D(ij),k = (Dik + Djk - Dij) / 2

(ij)

Répéter jusqu’à ce qu’il ne reste que 3 espèces

Page 26: Inférence phylogénétique

Une substitution multiple

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 4 (5) 5 (6) 0Espèce 4 7 8 6 0

1

2

1.5

4.5

1.5E1

E2

E3

E4

Page 27: Inférence phylogénétique

Trois substitutions multiples

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA GAAGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAAA AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 3 (5) 1 (6) 0Espèce 4 7 7 (8) 6 0

1.8

5.2

0.7

0.4

0.6E1

E4

E2

E3

Nécessité de corriger les distances avant d’inférer l’arbre

Page 28: Inférence phylogénétique

Calcul de la distance évolutive

Distance évolutive = nombre de substitutions ayant eu lieu entre deux espèces (ou organismes)

Mutation : altération d’une molécule d’ADN

(mutation ponctuelle : si un seul nucléotide est modifié)

Substitution : modification de la séquence d’ADN

dans l’ensemble de la population

PRINCIPE : estimer à partir des différences observées entre deux séquences le nombre de substitutions qui se sont produites

Nécessité d’un modèle d’évolution des séquences

Page 29: Inférence phylogénétique

…A A C A G T A C…

time

G C

A G

C A

Evolution operates independentlyand identically at each position

Markov process - no memory - time-homogeneous - of rate …A A C A C T A C…

…A G C A A T A C…

A simple model: Jukes and Cantor

For each substitution, drawfinal state with equal probability (1/3)

Page 30: Inférence phylogénétique

Modèle de Jukes et Cantor (1969)

• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)

• Tous les sites ont la même probabilité de subir une substitutionSéquence S0

0

Séquence St

t

Soit la fréquence de substitutions par million d'années

Soit qt la fréquence des nucléotides identiques entre la séquence à l’instant t et la séquence à l’instant 0

On cherche à calculer qt+1 la fréquence des nucléotides identiques entre la séquence à l’instant t + 1 et la séquence

à l’instant 0

qt+1 =

(1-)*qt

sites qui restent constants

/3*(1-qt)

sites qui étaient différents

+

Page 31: Inférence phylogénétique

Modèle de Jukes et Cantor (1969)

• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)

• Tous les sites ont la même probabilité de subir une substitution 0

Séquence S2 : S2t

Séquence S1 : S0

2t

D : distance évolutive (nombre de substitutions)

Q : p-distance (nombre de différences observées)

⎟⎠

⎞⎜⎝

⎛ −−= qD3

41ln

4

3

Page 32: Inférence phylogénétique

Modèle de Jukes et Cantor (1969)

⎟⎠

⎞⎜⎝

⎛ −−= qD3

41ln

4

3

00.10.20.30.40.50.60.70.80.9

1

0 1 2 3 4 5 6

DJC (substitutions estimées)p-d

ista

nce (

diff

ére

nces o

bserv

ées)

0.75

Page 33: Inférence phylogénétique

Modèle de Kimura (1980)

• Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre.

• Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T).

Page 34: Inférence phylogénétique

Modèle de Kimura (1980)

1. Les substitutions sont séparées en deux catégories : transitions et transversions. A l’intérieur de ces deux catégories, les changements sont équiprobables (même probabilité de passer de A vers C que de A vers T)

2. Tous les sites ont la même probabilité de subir une substitution

• Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre.

• Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T).

P : fréquence de transitions observées entre 2 séquences

Q : fréquence de transversions observées entre 2 séquences

⎟⎟⎠

⎞⎜⎜⎝

⎛−

+⎟⎟⎠

⎞⎜⎜⎝

⎛−−

=QQP

D21

1ln

4

1

21

1ln

2

1

Page 35: Inférence phylogénétique

Modèle de Jukes et Cantor (1969)

⎟⎠

⎞⎜⎝

⎛ −−= qD3

41ln

4

3

00.10.20.30.40.50.60.70.80.9

1

0 1 2 3 4 5 6

DJC (substitutions estimées)p-d

ista

nce (

diff

ére

nces o

bserv

ées)

0.75

(2 nucléotides) 0.50

Page 36: Inférence phylogénétique

…A A C A G T A C…

time

G C

A G

C A

Evolution operates independentlyand identically at each position

Markov process - no memory - time-homogeneous - of rate …A A C A C T A C…

…A G C A A T A C…

A simple model Felsenstein 1981

00.01

0.020.03

0.040.050.06

0.070.08

0.090.1

A C G T F G H I K L M N P Q R S T V W Y

For each substitution, drawfinal state from frequency vector:

Page 37: Inférence phylogénétique

Modèle de Felsenstein (1981)

• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)

• Tous les sites ont la même probabilité de subir une substitution

• Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25

P : fréquence de différences observées entre 2 séquences

⎟⎠

⎞⎜⎝

⎛ −−=B

PBD 1ln

)(1 2222TGCAB ππππ +++−=

Page 38: Inférence phylogénétique

General Time Reversible (GTR) model

1. Chaque type de substitutions nucléotidiques a sa propre probabilité

2. Tous les sites ont la même probabilité de subir une substitution

3. Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25

Page 39: Inférence phylogénétique

0

50

100

150

200

250

300N

om

bre

de s

ubst

itu

tion

s p

ar

posi

tion

Alignement de cytochrome b

2065 séquences de cytochrome b de Vertebrés

Variabilité du taux de substitutions entre positions

Page 40: Inférence phylogénétique

0

50

100

150

200

250

300

No

mb

re d

e su

bst

itu

tio

ns

par

po

siti

on

Alignement de cytochrome b Observé

Ajusté (=0.54)

0

20

40

60

80

100

120

140

160

Variabilité du taux de substitutions entre positions

Page 41: Inférence phylogénétique

Modélisation par une distribution

: paramètre de forme

Page 42: Inférence phylogénétique

Nei et Gojobori (1986)⎥⎥⎦

⎢⎢⎣

⎡−⎟

⎠⎞

⎜⎝⎛ −=

134p

14

3K

1αα

Jin et Nei (1990)

K =α

42 1− 2P − Q( )

−1 α+ 1− 2Q( )

−1 α− 3[ ]

Tamura et Nei (1993)

, paramètre de la loi

p, P, P1, P2 et Q fréquences des différences, transitions,transitions A/G, transitions CXT et transversions, respectivement

f, fréquence des nucléotides (R=purines, Y=pyrimidines)

K = 2α

fAfG

fR1−

fR

2 fAfGP1 −

1

2 fRQ

⎝ ⎜

⎠ ⎟

− 1α

+fTfC

fY1−

fY

2 fTfCP2 −

1

2 fYQ

⎝ ⎜

⎠ ⎟

− 1α

+ fRfY −fAfGfY

fR−fTfCfR

fY

⎝ ⎜

⎠ ⎟ 1−

1

2 fYfRQ

⎝ ⎜

⎠ ⎟

− 1α

− fAfG − fTfC − fRfY

⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

Variabilité du taux de substitutions entre positions

Page 43: Inférence phylogénétique
Page 44: Inférence phylogénétique

Indice de Bremer : nombre de pas à ajouter à la longueur de l’arbre le plus parcimonieux pour casser la monophylie du clade considéré

Robustesse des phylogénies : l’indice de Bremer

Indice de Bremer (“Bremer Decay Index”) est égal à :

Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré n’est pas

monophylétique

Moins

Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré est monophylétique

Page 45: Inférence phylogénétique

Robustesse des phylogénies : le test du bootstrap

1) Tirage avec remise de n positions parmi n positions

2) Construire l’arbre phylogénétique

3) Répéter 1) et 2) un grand nombre de fois (1000)

4) Analyser tous les arbres obtenus (en particulier via un arbre consensus)

Page 46: Inférence phylogénétique

L’arbre de consensus majoritaire

1) On calcule la fréquence d’apparition des différents groupements d’espèces

E et F : 100%D, E et F : 93%A et B : 52%A et C : 48%C, E et F : 7%

2) Construire l’arbre consensus

B

AC D

E

F C

AD B

E

F B

AD C

E

FEtc.

B

A

C D

E

F52%

93%

100%

Page 47: Inférence phylogénétique

Robustesse des phylogénies : le test du jackknife

Jackknife : tirage sans remise de x% des positions originales

1

Le but du jackknife est de savoir si une petite fraction de l’alignement a un impact sur l’inférence

phylogénétique

10111101110101011011110

Page 48: Inférence phylogénétique

Problèmes

• Très couteux en temps calcul

• Seuil de significativité (70%, 95%)

Robustesse des phylogénies : le test du bootstrap

Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions

Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0

(à chaque tirage, un tiers des positions ne sont pas considérés)

Le but du bootstrap vise à mesurer si le signal phylogénétique en faveur d'un groupe donné est présent dans beaucoup de colonnes de l'alignement

Page 49: Inférence phylogénétique

Le principe de parcimonie

Interprétation probabiliste

chaque fois que deux espèces ont un caractère en commun,

deux interprétations sont possibles:

1- caractère hérité de l'ancêtre commun

2- convergence (acquisition indépendante)

Maximum de Parcimonie <=> 1 est plus probable que 2

Interpretation "Philosophique"

• rasoir d'Occam

• l'économie d'hypothèses est à la base de la science

Page 50: Inférence phylogénétique

Le principe de parcimoniemis en défaut

D'après l'interprétation probabiliste, toutes les fois où les

convergences sont plus probables que les caractères dérivés partagés,

le principe du Maximum de Parcimonie est inconsistant.

Page 51: Inférence phylogénétique

Attraction des longues branches

1

32

4

p

q q

1

4

23

Felsenstein, 1978

A C G T A C G T A C G T A C G T

A A A A A A A A A A A A A A A A

A A A A C C C C G G G G T T T T

A A A A A A A A A A A A A A A A

A A

A

2 et4 ont des branches très courtes:ont gardé l'état ancestral1 et 3 ont des branches très longues:présentent un état complètement aléatoire( ¼ A, ¼ C, ¼ G ¼ T)

Page 52: Inférence phylogénétique

Attraction des longues branches

1

32

4

1

4

23

Felsenstein, 1978

A C G T A C G T A C G T A C G T

A A A A A A A A A A A A A A A A

A A A A C C C C G G G G T T T T

A A A A A A A A A A A A A A A A

A A

A

Seuls ces trois états sont informatifs(tous les autres ont meme score de parcimoniesur les 3 arbres possibles)

1

23

4 1

34

2

Page 53: Inférence phylogénétique

Attraction des longues branchesLe maximum de parcimonie

favorise l'arbre fauxA

DB

C

p

q q p<q2

A

DB

C

A

D

BC

A

DBC

Felsenstein, 1978

Page 54: Inférence phylogénétique

Attraction des longues branches

A

DB

C

p

q q p<q2

A

DB

C

Si A est un groupe extérieur éloigné

A

D

BC

A

DBC

Felsenstein, 1978

Page 55: Inférence phylogénétique

Inconsistence de l’inférence phylogénétique

Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux

quand il y a de plus en plus de données

ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré

est correct

Page 56: Inférence phylogénétique

Echantillonnage taxonomique

C

AA

C

A

C

AA

C

A

A

AA

C

Ajouter des espèces à l’analyse permet de mieux détecter les substitutions

multiples

Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des

longues branches

(Hendy et Penny, 1989)

Page 57: Inférence phylogénétique

Biais de composition

Problème : les différentes espèces n’ont pas les mêmes compositions en bases

Deinococcus

G+C=49%

BacillusG+C=50%

ThermusG+C=73

%

AquifexG+C=76%

ARN ribosomique 16S

Distance Jukes et Cantor