39
Stage au LIRMM (Montpellier) Sous la direction d’Olivier Gascuel et de Denis Bertrand juin/août 2004 Propriétés topologiques des arbres de duplication http://philippe.gambette.free.fr/ LIRMM

Stage au LIRMM (Montpellier)

  • Upload
    paley

  • View
    32

  • Download
    0

Embed Size (px)

DESCRIPTION

Stage au LIRMM (Montpellier). Sous la direction d’Olivier Gascuel et de Denis Bertrand. juin/août 2004. Propriétés topologiques des arbres de duplication. http://philippe.gambette.free.fr/LIRMM. Plan.  Le processus de duplication en tandem. - PowerPoint PPT Presentation

Citation preview

Page 1: Stage au LIRMM (Montpellier)

Stage au LIRMM

(Montpellier)Sous la direction d’Olivier Gascuel et de Denis

Bertrandjuin/août 2004

Propriétés topologiques des

arbres de duplication

http://philippe.gambette.free.fr/LIRMM

Page 2: Stage au LIRMM (Montpellier)

Plan

Le processus de duplication en tandem

Sa modélisation : l’arbre de duplication, un arbre phylogénétique particulier

Suppression d’une feuille dans un arbre de duplication

Réarrangements topologiques dans un arbre de duplication

Conclusion sur les résultats trouvés

Page 3: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

chromatine condensée

Avant la méiose :

ADN du pèreADN de la mère

Page 4: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

Prophase I :

chromosome venant du père

chromosome venant de la mère

Page 5: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

Prophase I :

chromosome venant du père

chromosome venant de la mère

Page 6: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

Prophase I :

chromosome venant du père

chromosome venant de la mère

Page 7: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

Prophase I :

chromosome venant du père

chromosome venant de la mère

Page 8: Stage au LIRMM (Montpellier)

La recombinaison inégale

cytoplasme

noyau

Prophase I, recombinaison inégale :

chromosome venant du père

chromosome venant de la mère

Page 9: Stage au LIRMM (Montpellier)

L’histoire de duplication (duplication simple)

…CATTGAGCTATGATTG…CATTGACCTATGATTC

segment dupliqué en tandem

segment dupliqué en tandem

...CATTGATTG…CATTGAGCTATGACCTATGATTC

1 2

Page 10: Stage au LIRMM (Montpellier)

L’histoire de duplication (duplication multiple)

...CATTGAGTATGACCTATGATTC

...CATTGAGCTATGACCTATTGATAC

3 4

1 2

1

...CATTGATTC

...CATTGAGTATGACCTATGAGCTATGACCTATTGATAC

3 42

On a la séquence finale, on veut retrouver l’histoire des duplications.

Page 11: Stage au LIRMM (Montpellier)

Retrouver l’histoire de duplication

On a la séquence finale, on veut retrouver l’histoire des duplications :

CATTGAGTATGACCTATGAGCTATGACCTATTGATAC

CATTGAGTATGACCTATGAGCTATGACCTATTGATAC

1

1 : GAG TAT2 : GACCTAT3 : GAGCTAT4 : GACCTATT

2a1

3

4

2

2b

1’ 2’

2 3 41

a

2c

2- Aligner tous les motifs pour en réaliser un arbre phylogénétique afin d’en déduire un arbre de duplication qui modélise l’histoire de duplication.

1- Détecter les motifs répétés.

alignement multiple de séquences

construction de phylogénie

déduction de l’arbre de

duplication

travail du biologiste

Page 12: Stage au LIRMM (Montpellier)

Qu’est-ce qu’un arbre phylogénétique ?

c

singe homme

aabeille mouche

b

rat

d

L’abeille est génétiquementplus proche de la moucheque du singe.

On peut les construire grâce à des algorithmes gloutons optimisant les paramètres suivants :- distance- maximum de vraisemblance- parcimonie (minimiser le nombre de transformations élémentaires)

Il présente les relations de parenté entre être vivants.

Page 13: Stage au LIRMM (Montpellier)

Reconstruire un arbre phylogénétique (distance)

On connaît la matrice des distances entre tout couple de feuille (fi,fj).

En partant d’un arbre en étoile, on regroupe progressivement en des consensus les feuilles les plus proches pour construire l’arbre.

f1 f2 f3 f4 f5

f1 0 5 3 1 12

f2 5 0 7 5 5

f3 3 7 0 5 8

f4 1 5 5 0 12

f5 12 5 8 12 0

f1-4 f2 f3 f5

f1-4 0 5 4 12

f2 5 0 7 5

f3 4 7 0 8

f5 12 5 8 0

f2 f3,1,4 f5

f2 0 6 5

f3,1,4 6 0 10

f5 5 10 0

f1

f2

f3f3

f5

f1

f2

f3

f5

f4

f1,4

f1

f3

f2f5

f4

f1,4

f1,3,4

L’arbre obtenu n’est pas enraciné

Page 14: Stage au LIRMM (Montpellier)

L’arbre phylogénétique obtenu peut être amélioré par des réarrangements locaux :

- NNI (Nearest Neighbor Exchange, permettent d’explorer l’espace des phylogénies)

Reconstruire un arbre phylogénétique

NNI

- SPR (Subtree Pruning and Regrafting)

SPR

Peut-on faire de même pour les arbres de duplication ?

Page 15: Stage au LIRMM (Montpellier)

Qu’est-ce qu’un arbre de duplication ?

C’est un arbre phylogénétique dont les feuilles sont des gènes dupliqués en tandem.

Les feuilles sont donc ordonnées.

Tout arbre phylogénétique n’est donc pas un arbre de duplication.

On peut les déduire d’alignements multiples grâce à des méthodes similaires à celles sur les phylogénies.

On obtient des arbres de duplication enracinés ou non.

Les arbres de duplication ne permettent pas de modéliser les délétions.

Page 16: Stage au LIRMM (Montpellier)

La recombinaison inégale : duplication simple

segment dupliqué en tandem

…CATTGAGCTATGATTG...CATTGACCTATGATTC

segment dupliqué en tandem

...CATTGATTG…CATTGAGCTATGACCTATGATTC

1 2

a

21

arbre de duplicationenraciné (1-RDT)

Page 17: Stage au LIRMM (Montpellier)

La recombinaison inégale : duplication multiple

...CATTGAGCTATGACCTATGATTC

...CATTGAGCTATGACCTATGATAC

3 4

1 2

...CATTGATTC

...CATTGAGCTATGACCTATGAGCTATGACCTATGATAC

3 41 2

1’ 2’

2 3 41

a

arbre de duplicationenraciné (RDT)

arbre de duplicationnon enraciné (DT)

1

3

4

2

Page 18: Stage au LIRMM (Montpellier)

cg

1 2 3 4 5 6 7 8

b

a

d e

T

O=(1,2,3,4,5,6,7,8)

Soit T, un arbre, et O un ordre sur ses feuilles.

Définition d’un arbre de duplication (RDT)

1 2

gc

3 64 7

d

5 8

e

Si f1 et f2 sont deux feuilles de T, et n un nœud de T, alors (f1,n,f2) est une cerise de T.

C(T) est l’ensemble des cerises de T.

Si f1 et f2 sont adjacentes, on note f1f2.

événement deduplication simple

événement deduplication multiple

Page 19: Stage au LIRMM (Montpellier)

Définition d’un arbre de duplication (RDT)

(T’,O’) est un arbre de duplication enraciné (RDT) de racine si :

- (T’,O’) contient uniquement ou- il existe dans C(T) une série de cerises (gi,ui,di), (gi+1,ui+1,di+1), ... , (gk,uk,dk) avec ki et gigi+1...gkdidi+1...dk dans O, telle que

(T',O') soit un arbre de duplication de racine ,où T' est obtenu à partir de T en enlevant gi, gi+1,...,gk,di,di+1,...,dk,et O' est obtenu en remplaçant (gi, gi+1,..., gk,di,di+1,...,dk) par (ui,ui+1,...,uk) dans O.

O’=(1,2,c,d,e)

T’

g

1 2 c d e

b

a

c

3 64 7

d

5 8

e

O=(1,2,3,4,5,6,7,8)

T

g

1 2

b

a

agglomération de (c,d,e)

Page 20: Stage au LIRMM (Montpellier)

1-RDT : On garde un arbre de duplication après suppression

Suppression d’une feuille dans un 1-RDT

h i j

1 2 3 4 5 6 7

8 9 10 11

f

c d e

b

a

r

i j

1 2 5 6 7 8 9 10 11

f

c d e

b

a

r

h

c d e

j

1 2 i 7 8 9 10 11

f

b

a

r

h

c d e

1 2 i j 9 10 11

f

b

a

r

h

c d e

1 i j 9 10 11

b

a

r

f

1

b

a

r

c d e

a

1

r

b e

r

b e

suppression de la feuille 1

La feuille est dite supprimable.

Page 21: Stage au LIRMM (Montpellier)

1-RDT : On garde un arbre de duplication après suppression

Suppression d’une feuille dans un 1-RDT

r

b e

b

r

c d ec d e

i j 9 10 11

b

r

f

c d e

2 i j 9 10 11

f

b

r

h

c d e

j

2 i 7 8 9 10 11

f

b

r

h

i j

2 5 6 7 8 9 10 11

f

c d e

b

r

h

suppression de la feuille 1

r

h i j

2 3 4 5 6 7

8 9 10 11

f

c d e

b

L’arbre obtenu est l’arbre de départ dans lequel on a supprimé la feuille 1

La feuille est dite supprimable.

Page 22: Stage au LIRMM (Montpellier)

Suppression d’une feuille f dans un RDT

Cas 1 : f n'est pas issue de duplication multiple f est supprimable.

suppression de f

u c p

p’

4 5 61 2 3

a

u c

p’

4 5 62 3

a

6 cas se présentent :

Cas 2 : f est feuille centrale issue de duplication multiple f est supprimable.

suppression de f

b p a

u

4 5 61 2 3

p’

a b

u

4 5 61 2

p’

Page 23: Stage au LIRMM (Montpellier)

Suppression d’une feuille f dans un RDT

Cas 3 : f est feuille interne issue de duplication multiple f n’est pas supprimable.

suppression de f

p b u

p’

4 5 61 2 3

a

b u

p’

4 5 61 3

a

Cas 4 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable.

suppression de f

p u b

p’

4 5 61 2 3

a

u b

p’

4 5 61 2 3

a

Page 24: Stage au LIRMM (Montpellier)

Suppression d’une feuille f dans un RDT

Cas 5 : f est une feuille extrême issue de duplication multiple, et u est adjacent possible d'une feuille extrême issue de cette duplication, et p est supprimable f est supprimable.

suppression de f

p b u

p’

4 5 61 2 3

a

b

u

p’

4 5 61 2

a

Cas 6 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable.

suppression de f

p d

c p’

4 5 61 2 3

b

0

a

d

c p’

4 5 61 2

b

0

a

Page 25: Stage au LIRMM (Montpellier)

0

5

10

15

20

30

4 10 20 30 40 50 60

26,6

Suppression d’une feuille f d’un RDT

Proportion d'arbres qui perdent le caractère de duplication, en fonction du nombre de feuilles , ou de la feuille supprimée

nombre de feuilles

pourcentage d’arbres qui perdent leur caractère de duplication

40

0 50 100 150 200 250 300

35

30

20

15

45

26,6

feuille supprimée

pourcentage d’arbres qui perdent leur caractère de duplication

Page 26: Stage au LIRMM (Montpellier)

Suppression d’une feuille f d’un RDT

Proportion des feuilles dans chaque cas

Cas 2

Cas 1

Cas 3

Cas 4

Cas 6

Cas 5

100 feuilles100 feuilles100 feuilles

24 feuilles18 feuilles12 feuilles10 feuilles

8 feuilles

Le modèle est donc relativement robuste, avec 3/4 des arbres qui restent de duplication.On a besoin de vérifier les conditions de délétions sur le père pour seulement 8% des feuilles.

Page 27: Stage au LIRMM (Montpellier)

Ti ui

r si

T’k sisuppression

de r en tant que feuille

suppression du sous-arbre

T’ si

agglomérations

agglomérations

T ui

r si

Soit (T,O), un arbre de duplication enraciné.Soit r, la racine du sous-arbre à supprimer dans cet arbre.L'arbre (T',O') résultant de la suppression du sous-arbre de racine r dans (T,O) est un arbre de duplication une des trois conditions de délétion est vérifiée.

Suppression d’un sous-arbre dans un RDT

Page 28: Stage au LIRMM (Montpellier)

Les réarrangements topologiques

SPR (Subtree Pruning and Regrafting)

SPR(r,(x,y),(T,O))

Le SPR est valide si l’arbre résultant du SPR est un arbre de duplication.

Les SPR valides permettent d’explorer l’espace des RDT.

r

xy

yx

r

(T,O)

Page 29: Stage au LIRMM (Montpellier)

Soit (T,O) un arbre de duplication. L'arbre d'agglomération minimale pour r et (T,O) est l'arbre obtenu après un minimum d'agglomérations dans lequel r est feuille.

SPR sur un sous-arbre

Soient r, x et y des sommets de T, et (Ti,Oi), l'arbre d'agglomération minimale pour r et (T,O).

SPR(r,(x,y),(T,O)) est valide si et seulement si SPR(r,(x,y),(Ti,Oi)) est valide.

Il suffit de donc d’étudier les SPR sur les feuilles !

Page 30: Stage au LIRMM (Montpellier)

Une déception

Un SPR peut être valide bien que la feuille concernée ne soit pas supprimable...

f e

1 2 3 4 5 6 7

c d

a

b

SPR(2,(f,4),(T,O)) f

e

1 2 3 4 5 6 7

p

d

a

b

Page 31: Stage au LIRMM (Montpellier)

Divers SPR

SPR 1 T T’SPR1

x

f

y

x

f

y

p

TSPR1

x

f v

y p’

T’ x

f v

y p’

p

SPR1T’’ x

f v

y

p’ p

SPR 2

SPR3 u2 un u1

d1 d2 dng1 g2 f

x

y

T u2 un u1

d1 d2 dng1 g2 f

p

y

xT’SPR 3

Page 32: Stage au LIRMM (Montpellier)

Divers SPR

SPR 4

gn av y

SPR4 u2 un x

d2 dn af

T T’

f v

gn av y

u2 un p

d2 dn af f

v

x

SPR 5

afg2 av

SPR5 u2 un

u1

d2 dng1

x

y

T T’

vf

u2 un u1

av d2 dn

g1 g2

p

y

v af

f

x

Page 33: Stage au LIRMM (Montpellier)

Bilan quantitatif sur les SPR

Proportion des SPR dans chaque cas

SPR 2

SPR 1

SPR 4

SPR 5

SPR validesnon reconnus

SPR 3

SPR non valides

Page 34: Stage au LIRMM (Montpellier)

Conclusion

Les résultats sur les feuilles sont intéressants sur la proportion d’arbres corrects, mais doivent être complétés par des analyses biologiques d’arbres de duplication vérifiés, puisque les arbres de duplications observés contiennent moins de duplications multiples qu’en théorie.

Les conditions de suppression des feuilles sont plus complexes qu’espérées, l’obligation de vérifier les conditions sur les ancêtres notamment.

Les SPR identifiés ne couvrent pas une grande portion de l’espace des SPR, et sont trop compliqués pour être utiles.

Page 35: Stage au LIRMM (Montpellier)

Annexe : MontpellierLe Peyrou et le Château d’Eau

Page 36: Stage au LIRMM (Montpellier)

Annexe : MontpellierL’Arc de Triomphe à la sortie du Peyrou

Page 37: Stage au LIRMM (Montpellier)

Annexe : MontpellierImmeuble habité par Guyslain Naves dans sa jeunesse

L’aqueduc

Page 38: Stage au LIRMM (Montpellier)

Annexe : MontpellierLa Faculté de Médecine

Page 39: Stage au LIRMM (Montpellier)

Annexe : MontpellierLa Préfecture, face à un magasin Gibert