Upload
builien
View
215
Download
0
Embed Size (px)
Citation preview
Démogénétique : quelques idées etexemples en génétique humaine
Frédéric AUSTERLITZ
Laboratoire ESE - Orsay
Processus démographiques et génétique despopulations
• Pendant longtemps la démographie a étéconsidérée comme une « boite noire ».
• On calculait une taille efficace (Ne) puis onraisonnait comme si la population était unepopulation de taille constante Ne.
L’histoire démographique influe sur la génétique.
Populations detaille constante
Populationsayant connuuneexpansionrécente
Birgus latro: arbre phylogénétique de l’ADN mitochondrial.Lavery et al. (1996) Mol. Biol. Evol.
Quelques travaux préliminaires
Nei et al. (1975) Evolution
• Goulot d’étranglement suivid’une croissance logistique
• N = 4 _106
• N0 = 2 ou 10• n = 10-8
Temps
Eff
ectif
ON0
N
La divergence entre les séquences reflèteleur temps de coalescence
ATACGTATC
ATACCTATC ATACCTATC AAACCTAACATTCGTATGATTAGTATG
T2ÆA2
T8ÆA8
G5ÆC5
A3ÆT3
C9ÆG9
C4ÆA4
Une mesure pratique : la distribution du nombre de différencesentre paires de gènes (« mismatch distribution »)
• Pour chaque paire de séquences, on compte le nombre dedifférences entre individus.
• On compte le nombre de paires séparées par unedifférences, deux différences…
ATACCTATC
ATACCTATC
AAACCTAAC
ATTCGTATG
ATTAGTATG
Échantillonde séquences
0%
10%
20%
30%
0 1 2 3 4 5 6
Nombre de différences
Fréq
uenc
e
Lavery et al. (1996) Mol. Biol. Evol. 13, 1106-1113.
La detection d’une expansion récenteExemple de Birgus latro
Population de taille constante
Population ayant connu uneexpansion récente
La population de Charlevoix-Saguenay Lac Saint-Jean
• Évènement de fondation très récent (il y a environ 12 générations)
ƒNombre limité de fondateurs : 5 000 au 17ème siècle,originaires principalement de France.
• Expansion très rapide (taux de croissance d'environ 1.41)
ƒPopulation actuelle : 300 000 habitants.
• Population isolée.
• Deux forces opposées en action :
Corrélation de la taille efficace des familles : r = 0.18 - 0.34
Distribution la taille efficace des familles(nombre d’enfants par femmes qui se reproduisent dans la population)
DONNEES DEMOGRAPHIQUES
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Taille efficace des familles
prob
abili
té données réellesPoissongéometrique
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Taille efficace des familles
prob
abili
té données réellesPoissongéometrique
Many severe monogenic disorders
Disorder Carrier frequency in
SLSJ
Carrier frequency elsewhere
Freq. Of most common mutations
in SLSJ Spastic ataxia 1/21 Unknown form Tyrosinemia I 1/22 1/165 Norway,
Sweden 96%
Sensorimotor Polyneuropathy
1/23 Unknown form 100% (from haplotypes)
Pseudovitamin D deficient rickets
1/26 Very rare 100%
Cytochrome C Oxydase deficiency
1/31 Very rare
Cystinosis 1/39 1/200 Histidinemia histidase deficiency
1/32 1/50 to 1/150
Lipoprotein lipase deficiency
1/43 Very rare 100%
Pyruvate kinase deficiency
1/64 Rare 90%
FOn simule la population– en créant des généalogies d’individus pour des paramètres
socio-démographiques fixés
– puis on simule la transmission des gènes le long de cesgénéalogies.
Temps (t)
t=0
t=12
Taux de porteur initialp0=1/5000
Nc
5000
300000Taux de porteur final : p=Nc/300000
Méthode de simulation
Processus de branchement
FMéthode
– A chaque génération, le nombre d’enfantsutiles d’un couple est tiré selon une distributionde Poisson ou géométrique
– La moyenne de la distribution:at ( (1-c) l + c n )ƒ n = nombre moyen d’enfants utiles des deux
parentsƒl = taux d’accroissement de la population
ƒ c = lien culturel du nombre d’enfants d’unegénération à la suivanteƒat = un coefficient de correction
Nombre moyen de fondateur (± écart type) pour lesquelsun des gènes peut atteindre la gamme de fréquence
[0.035,0.05] sous diverses hypothèses démographiques
Loi démographique 0.001<p<0.01 0.01<p<0.1 p>0.1
Poisson (c =0, r = 0) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)
Poisson (c =0.5, r = 0.21) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)
Poisson (c =1, r = 0.36) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)
Géometrique (c = 0, r = 0) 0.00 (± 0.00) 0.00 (± 0.00) 0.00 (± 0.00)
Géometrique (c = 0.2, r = 0.12) 0.00 (± 0.42) 0.00 (± 0.00) 0.00 (± 0.00)
Géometrique (c = 0.4, r = 0.2) 0.61 (± 1.10) 0.52 (± 1.56) 0.06 (± 0.34)
Geométrique (c = 0.6, r = 0.27) 17.50 (± 20.02) 5.27 (± 6.85) 0.73 (± 2.05)
Géometrique (c = 0.8, r= 0.30) 42.41 (± 35.77) 20.86 (± 22.42) 2.05 (± 2.65)
Géometrique (c = 1, r = 0.32) 67.82 (± 45.68) 33.00 (± 20.80) 3.38 (± 3.48)
p = probabilité pour un fondateur de voir l'un de ses deux gènesatteindre la gamme de fréquence [0.035-0.05]
Et donc…
ƒLe taux observé de porteurs de maladies génétiques nepeut être expliqué que par la conjonction de la loigéométrique et de la corrélation inter-générations.
ƒLes résultats du processus de branchement sont cohérentsavec ceux sur les généalogies réelles.
MIGRATE
IAMSMMSNPséquences nonrecombinantes
Populationsstationnaires,flux constants demigrants
qi=4Nemi
Ni mji = flux demigrants
m13
m31
1
2
3m32
m23
m12m21
Modèlesdemutation
Modèlesdémogra-phiques
Paramètresestimés
BATWING
Modèlesdemutation
Modèlesdémogra-phiques
Paramètresestimés
ISMSMMk-allèlesséquences non-recombinantes
Taille constante oucroissanceexponentielle,structuration sansmigrants
q (= 4 Ne m)T MRCAScénario descissions
T1
T2 T MR
CA
Coalescence et processus historique(exemple des Roms Vlax de Bulgarie)
Proposition d’un scénario démographique explicatif de la diversité génétique
actuelle des Roms vlax
Effet fondateur
Sens de migration des hommes
Sens de migration des femmes
19
ème
-20
ème
s : arrivée en Bulgarie
15 000 ans : ancêtre commun
le plus récent (Y)
14
ème
siècle : arrivée en Roumanie.
Esclavage.
Empire Perse
KalderasMonteniLom
17ème
siècle : 2ème
scission (Y & 8)
15ème
siècle : 1ère
scission (Y & 8)
Grèce
Arménie
10
ème
siècle : départ d’Inde
12
ème
siècle : Balkans
Source : A. Sibert (Étudiant en thèse)
Corrélation du succès reproducteur etcoalescence dans une population stationnaire.
Avec corrélation Sans corrélation
Mesure de la forme de l’arbre
• S = temps de coalescence totale
• D = Somme des branches terminales
• C = constante de normalisation
(Uyenoyama (1997) Genetics 147: 1389-1400)
D
SCRSD ¥=
1@SDR 1>
SDR
Mais la croissance de la population a le mêmeeffet
RSD
(Schierup et Hein (2000) Genetics 156: 879–891)
Déséquilibre de l’arbre
• Pour un nœud donné
• D = |ng-nd|ng = nombre de feuilles à gauchend = nombre de feuilles à droite
D = 0
D = 0D = 0
D = 2
D = 1
D = 0
Déséquilibre de l’arbre de coalescence
a=1.5
a=1.0
a=0.5
a=0.0
• Plus la corrélation est forte, plus l’arbre a dechance d’être déséquilibré.
• Cette propriété devrait permettre de détecter cetype de paramètres.
Degree of imbalance
Conclusions
• L’impact des processus démographiques sur ladiversité génétique n’est plus à démontrer.
• A l’inverse, il est possible d’inférer les processusdémographiques par la diversité génétique.
• La coalescence permet d’inférer des processus deplus en plus complexes.
• Les méthodes sont très demandeuses en donnéesgénétiques et en temps de calcul.
Perspectives
• Développer une véritable théorie de lacoalescence dans des modèles avecsélection ou transmission culturelle de lafertilité.
Niveau multilocus
F Haplotypes définis par plusieurs locus microsatellitesassocié à un gène de maladie
D12
S96
D12
S325
D12
S103
D12
S359
D12
S90
D12
S305
D12
S104
D12
S355
D12
S83
PDDR
F Taux de recombinaison (q) de 0.07.
(exemple: PDDR, taux de porteur au Saguenay - Lac saint-Jean : 1/26)
Haplotypes du PDDR
F dans notre échantillon de 37 individus porteurs de la mutationƒ 24 individus portent l’haplotype le plus fréquentƒ 11 haplotypes différents.
Association allélique• Haplotype de longueur q autour du gène de maladie D,
• Divers paramètres sont mesurés, notamment :– le nombre de porteurs de l'haplotype majoritaire (nf).– le nombre d 'haplotypes différents (nh).
D
D DDD
D DD D
D
D
...
t = 0
t = 1
t = 12D DDD
D
Estimation conjointe de l’âge d’une mutationet du taux de croissance
Age
de
la m
utat
ion
(g)
Apparition de lamutation
Populationen croissance(taux l)
Tem
ps
Nombre de porteurs du gène
Temps (t)t=0
t=gNc
Ni
Nf
• La probabilité Q(Nc) pour un allèle rare d’être enNc copies dans la population finale dépend de :– g: le nombre de générations depuis l’apparition de
l’allèle mutant.– l: le taux de croissance de la population.
– Formules de Thompson et Neel (1978)
Fréquence de l’haplotype non-recombinants
• Cette fréquence (pnr) dépend de– g: le nombre de générations depuis l’apparition du gène
de maladie,– l: le taux de croissance de la population,– q: le taux de recombinaison.
• Obtenu par exemple avec la formule de Luria-Delbrück.
D
D DDD
D DD D
D
D
...
t = 0
t = 1
t = gD DDD
D
Méthode d’estimation
• Nc et pnr dépendent– du taux de recombinaison (q)
– du taux de croissance (l)
– et de l’âge de la mutation (g).
• Connaissant q, Nc et pnr, on peut faire uneestimation conjointe de:– Taux de croissance minimum (l min) compatible avec
les données.
– De l’âge de la mutation (g).
Juifs ashkénazes
• Cohérent avec les données démographiques connues.
Disorders g
Gaucher disease 1.38(1.32, 1.50)
37.2(32.8, 44.1)
Bloom syndrome 1.50(1.40, 1.70)
25.9(22.1, 32.6)
Factor XI
deficiency type II1.06
(1.05, 1.09)165
(145, 194)
Factor XI deficiency type III
1.28(1.24, 1.38)
45.9(40.2, 54.9)
Idiopathic torsion dystonia
1.29(1.23, 1.43)
33.4(27.8, 42.2)
l
Familialdisautomia
1.47(1.39, 1.63)
29.5(27.0, 32.4)
Saguenay-Lac saint-Jean (Québec)
• Incompatible avec les données démographiquesconnues l @ 1.4, g @ 12.
• Cohérent avec le comportement démographiquespécifique de cette population (autocorrélation dela taille efficace de famille)
Disorders g
PDDR 3.09(2.51, 4.59)
8.02(6.74, 10.1)
ARSACS
3.88(3.06, 6.11)
6.86 (5.79, 8.61)
ACCPN 4.28(3.32, 6.96)
6.38 (5.38, 8.07)
l
Vlax (Bulgarie)
• Cohérent avec l’époque de fondation de lapopulation (14ème siècle).
• Taux de croissance assez élevé: peut-être unphénomène similaire à celui du Saguenay-LacSaint-Jean.
Disorders g
Galaktokinase deficiency
1.93(1.70, 2.46)
13.7 (11.4, 17.6)
CCFDN 1.57(1.43, 1.88)
18.7 (15.7, 23.0)
HMSNL 1.66(1.50, 2.01)
17.0 (14.5, 20.4)
l
Finlande
• Beaucoup de variance entre les gènes
• Probablement dû à de la subdivision et/ou à deseffets sélectifs.
Disorders g
PSOSL 1.03(1.02, 1.05)
199 (152, 275)
PME
1.24(1.19, 1.33)
45.9 (39.3, 55.9)
CCD
1.90(1.72, 2.30)
16.9 (14.7, 20.4)
l
DTD 1.07(1.06, 1.10)
125 (104, 160)