46
Démogénétique : quelques idées et exemples en génétique humaine Frédéric AUSTERLITZ Laboratoire ESE - Orsay

Démogénétique : quelques idées et exemples en … · entre paires de gènes (« mismatch distribution ») •Pour chaque paire de séquences, on compte le nombre de ... Processus

  • Upload
    builien

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Démogénétique : quelques idées etexemples en génétique humaine

Frédéric AUSTERLITZ

Laboratoire ESE - Orsay

Processus démographiques et génétique despopulations

• Pendant longtemps la démographie a étéconsidérée comme une « boite noire ».

• On calculait une taille efficace (Ne) puis onraisonnait comme si la population était unepopulation de taille constante Ne.

Un exemple : le crabe des cocotiers (Birgus latro)

L’histoire démographique influe sur la génétique.

Populations detaille constante

Populationsayant connuuneexpansionrécente

Birgus latro: arbre phylogénétique de l’ADN mitochondrial.Lavery et al. (1996) Mol. Biol. Evol.

Quelques travaux préliminaires

Nei et al. (1975) Evolution

• Goulot d’étranglement suivid’une croissance logistique

• N = 4 _106

• N0 = 2 ou 10• n = 10-8

Temps

Eff

ectif

ON0

N

Dérive et Coalescence

Tim

e of

coa

lesc

ence

(T)

La divergence entre les séquences reflèteleur temps de coalescence

ATACGTATC

ATACCTATC ATACCTATC AAACCTAACATTCGTATGATTAGTATG

T2ÆA2

T8ÆA8

G5ÆC5

A3ÆT3

C9ÆG9

C4ÆA4

Une mesure pratique : la distribution du nombre de différencesentre paires de gènes (« mismatch distribution »)

• Pour chaque paire de séquences, on compte le nombre dedifférences entre individus.

• On compte le nombre de paires séparées par unedifférences, deux différences…

ATACCTATC

ATACCTATC

AAACCTAAC

ATTCGTATG

ATTAGTATG

Échantillonde séquences

0%

10%

20%

30%

0 1 2 3 4 5 6

Nombre de différences

Fréq

uenc

e

Simulation en population de taille constante

Simulation d’arbres de coalescence et deprocessus de mutation

(population stationnaire)

Simulation en population en croissance

Simulation d’arbres de coalescence et deprocessus de mutation

(population en croissance)

Lavery et al. (1996) Mol. Biol. Evol. 13, 1106-1113.

La detection d’une expansion récenteExemple de Birgus latro

Population de taille constante

Population ayant connu uneexpansion récente

La population de Charlevoix-Saguenay LacSaint-Jean

La population de Charlevoix-Saguenay Lac Saint-Jean

• Évènement de fondation très récent (il y a environ 12 générations)

ƒNombre limité de fondateurs : 5 000 au 17ème siècle,originaires principalement de France.

• Expansion très rapide (taux de croissance d'environ 1.41)

ƒPopulation actuelle : 300 000 habitants.

• Population isolée.

• Deux forces opposées en action :

Corrélation de la taille efficace des familles : r = 0.18 - 0.34

Distribution la taille efficace des familles(nombre d’enfants par femmes qui se reproduisent dans la population)

DONNEES DEMOGRAPHIQUES

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Taille efficace des familles

prob

abili

té données réellesPoissongéometrique

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Taille efficace des familles

prob

abili

té données réellesPoissongéometrique

Many severe monogenic disorders

Disorder Carrier frequency in

SLSJ

Carrier frequency elsewhere

Freq. Of most common mutations

in SLSJ Spastic ataxia 1/21 Unknown form Tyrosinemia I 1/22 1/165 Norway,

Sweden 96%

Sensorimotor Polyneuropathy

1/23 Unknown form 100% (from haplotypes)

Pseudovitamin D deficient rickets

1/26 Very rare 100%

Cytochrome C Oxydase deficiency

1/31 Very rare

Cystinosis 1/39 1/200 Histidinemia histidase deficiency

1/32 1/50 to 1/150

Lipoprotein lipase deficiency

1/43 Very rare 100%

Pyruvate kinase deficiency

1/64 Rare 90%

FOn simule la population– en créant des généalogies d’individus pour des paramètres

socio-démographiques fixés

– puis on simule la transmission des gènes le long de cesgénéalogies.

Temps (t)

t=0

t=12

Taux de porteur initialp0=1/5000

Nc

5000

300000Taux de porteur final : p=Nc/300000

Méthode de simulation

Processus de branchement

FMéthode

– A chaque génération, le nombre d’enfantsutiles d’un couple est tiré selon une distributionde Poisson ou géométrique

– La moyenne de la distribution:at ( (1-c) l + c n )ƒ n = nombre moyen d’enfants utiles des deux

parentsƒl = taux d’accroissement de la population

ƒ c = lien culturel du nombre d’enfants d’unegénération à la suivanteƒat = un coefficient de correction

Nombre moyen de fondateur (± écart type) pour lesquelsun des gènes peut atteindre la gamme de fréquence

[0.035,0.05] sous diverses hypothèses démographiques

Loi démographique 0.001<p<0.01 0.01<p<0.1 p>0.1

Poisson (c =0, r = 0) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)

Poisson (c =0.5, r = 0.21) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)

Poisson (c =1, r = 0.36) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)

Géometrique (c = 0, r = 0) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)

Géometrique (c = 0.2, r = 0.12) 0.00 (± 0.42) 0.00 (± 0.00) 0.00 (± 0.00)

Géometrique (c = 0.4, r = 0.2) 0.61 (± 1.10) 0.52 (± 1.56) 0.06 (± 0.34)

Geométrique (c = 0.6, r = 0.27) 17.50 (± 20.02) 5.27 (± 6.85) 0.73 (± 2.05)

Géometrique (c = 0.8, r= 0.30) 42.41 (± 35.77) 20.86 (± 22.42) 2.05 (± 2.65)

Géometrique (c = 1, r = 0.32) 67.82 (± 45.68) 33.00 (± 20.80) 3.38 (± 3.48)

p = probabilité pour un fondateur de voir l'un de ses deux gènesatteindre la gamme de fréquence [0.035-0.05]

Et donc…

ƒLe taux observé de porteurs de maladies génétiques nepeut être expliqué que par la conjonction de la loigéométrique et de la corrélation inter-générations.

ƒLes résultats du processus de branchement sont cohérentsavec ceux sur les généalogies réelles.

Peut-on faire mieux grâce à la coalescence ?

Impact de la migration sur la coalescence

MIGRATE

IAMSMMSNPséquences nonrecombinantes

Populationsstationnaires,flux constants demigrants

qi=4Nemi

Ni mji = flux demigrants

m13

m31

1

2

3m32

m23

m12m21

Modèlesdemutation

Modèlesdémogra-phiques

Paramètresestimés

BATWING

Modèlesdemutation

Modèlesdémogra-phiques

Paramètresestimés

ISMSMMk-allèlesséquences non-recombinantes

Taille constante oucroissanceexponentielle,structuration sansmigrants

q (= 4 Ne m)T MRCAScénario descissions

T1

T2 T MR

CA

Coalescence et processus historique(exemple des Roms Vlax de Bulgarie)

Proposition d’un scénario démographique explicatif de la diversité génétique

actuelle des Roms vlax

Effet fondateur

Sens de migration des hommes

Sens de migration des femmes

19

ème

-20

ème

s : arrivée en Bulgarie

15 000 ans : ancêtre commun

le plus récent (Y)

14

ème

siècle : arrivée en Roumanie.

Esclavage.

Empire Perse

KalderasMonteniLom

17ème

siècle : 2ème

scission (Y & 8)

15ème

siècle : 1ère

scission (Y & 8)

Grèce

Arménie

10

ème

siècle : départ d’Inde

12

ème

siècle : Balkans

Source : A. Sibert (Étudiant en thèse)

Corrélation du succès reproducteur etcoalescence dans une population stationnaire.

Avec corrélation Sans corrélation

Mesure de la forme de l’arbre

• S = temps de coalescence totale

• D = Somme des branches terminales

• C = constante de normalisation

(Uyenoyama (1997) Genetics 147: 1389-1400)

D

SCRSD ¥=

1@SDR 1>

SDR

La corrélation rend l’arbre plus starlike

a

Mais la croissance de la population a le mêmeeffet

RSD

(Schierup et Hein (2000) Genetics 156: 879–891)

Déséquilibre de l’arbre

• Pour un nœud donné

• D = |ng-nd|ng = nombre de feuilles à gauchend = nombre de feuilles à droite

D = 0

D = 0D = 0

D = 2

D = 1

D = 0

Déséquilibre de l’arbre de coalescence

a=1.5

a=1.0

a=0.5

a=0.0

• Plus la corrélation est forte, plus l’arbre a dechance d’être déséquilibré.

• Cette propriété devrait permettre de détecter cetype de paramètres.

Degree of imbalance

Conclusions

• L’impact des processus démographiques sur ladiversité génétique n’est plus à démontrer.

• A l’inverse, il est possible d’inférer les processusdémographiques par la diversité génétique.

• La coalescence permet d’inférer des processus deplus en plus complexes.

• Les méthodes sont très demandeuses en donnéesgénétiques et en temps de calcul.

Perspectives

• Développer une véritable théorie de lacoalescence dans des modèles avecsélection ou transmission culturelle de lafertilité.

Niveau multilocus

F Haplotypes définis par plusieurs locus microsatellitesassocié à un gène de maladie

D12

S96

D12

S325

D12

S103

D12

S359

D12

S90

D12

S305

D12

S104

D12

S355

D12

S83

PDDR

F Taux de recombinaison (q) de 0.07.

(exemple: PDDR, taux de porteur au Saguenay - Lac saint-Jean : 1/26)

Haplotypes du PDDR

F dans notre échantillon de 37 individus porteurs de la mutationƒ 24 individus portent l’haplotype le plus fréquentƒ 11 haplotypes différents.

Association allélique• Haplotype de longueur q autour du gène de maladie D,

• Divers paramètres sont mesurés, notamment :– le nombre de porteurs de l'haplotype majoritaire (nf).– le nombre d 'haplotypes différents (nh).

D

D DDD

D DD D

D

D

...

t = 0

t = 1

t = 12D DDD

D

Estimation conjointe de l’âge d’une mutationet du taux de croissance

Age

de

la m

utat

ion

(g)

Apparition de lamutation

Populationen croissance(taux l)

Tem

ps

Nombre de porteurs du gène

Temps (t)t=0

t=gNc

Ni

Nf

• La probabilité Q(Nc) pour un allèle rare d’être enNc copies dans la population finale dépend de :– g: le nombre de générations depuis l’apparition de

l’allèle mutant.– l: le taux de croissance de la population.

– Formules de Thompson et Neel (1978)

Fréquence de l’haplotype non-recombinants

• Cette fréquence (pnr) dépend de– g: le nombre de générations depuis l’apparition du gène

de maladie,– l: le taux de croissance de la population,– q: le taux de recombinaison.

• Obtenu par exemple avec la formule de Luria-Delbrück.

D

D DDD

D DD D

D

D

...

t = 0

t = 1

t = gD DDD

D

Méthode d’estimation

• Nc et pnr dépendent– du taux de recombinaison (q)

– du taux de croissance (l)

– et de l’âge de la mutation (g).

• Connaissant q, Nc et pnr, on peut faire uneestimation conjointe de:– Taux de croissance minimum (l min) compatible avec

les données.

– De l’âge de la mutation (g).

Juifs ashkénazes

• Cohérent avec les données démographiques connues.

Disorders g

Gaucher disease 1.38(1.32, 1.50)

37.2(32.8, 44.1)

Bloom syndrome 1.50(1.40, 1.70)

25.9(22.1, 32.6)

Factor XI

deficiency type II1.06

(1.05, 1.09)165

(145, 194)

Factor XI deficiency type III

1.28(1.24, 1.38)

45.9(40.2, 54.9)

Idiopathic torsion dystonia

1.29(1.23, 1.43)

33.4(27.8, 42.2)

l

Familialdisautomia

1.47(1.39, 1.63)

29.5(27.0, 32.4)

Saguenay-Lac saint-Jean (Québec)

• Incompatible avec les données démographiquesconnues l @ 1.4, g @ 12.

• Cohérent avec le comportement démographiquespécifique de cette population (autocorrélation dela taille efficace de famille)

Disorders g

PDDR 3.09(2.51, 4.59)

8.02(6.74, 10.1)

ARSACS

3.88(3.06, 6.11)

6.86 (5.79, 8.61)

ACCPN 4.28(3.32, 6.96)

6.38 (5.38, 8.07)

l

Vlax (Bulgarie)

• Cohérent avec l’époque de fondation de lapopulation (14ème siècle).

• Taux de croissance assez élevé: peut-être unphénomène similaire à celui du Saguenay-LacSaint-Jean.

Disorders g

Galaktokinase deficiency

1.93(1.70, 2.46)

13.7 (11.4, 17.6)

CCFDN 1.57(1.43, 1.88)

18.7 (15.7, 23.0)

HMSNL 1.66(1.50, 2.01)

17.0 (14.5, 20.4)

l

Finlande

• Beaucoup de variance entre les gènes

• Probablement dû à de la subdivision et/ou à deseffets sélectifs.

Disorders g

PSOSL 1.03(1.02, 1.05)

199 (152, 275)

PME

1.24(1.19, 1.33)

45.9 (39.3, 55.9)

CCD

1.90(1.72, 2.30)

16.9 (14.7, 20.4)

l

DTD 1.07(1.06, 1.10)

125 (104, 160)

En bref…

• Méthode rapide permettant une étude comparativesur beaucoup de gènes.

• En général les résultats sont cohérents avec lesdonnées démographiques connues.

• Dans certains cas on a pu détecter des phénomènesdémographiques particuliers ou de la sélection.