44
SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Embed Size (px)

Citation preview

Page 1: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Page 2: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage d’ADN• 2 méthodes publiées in 1977

– méthode chimique: Maxam, A.M. and Gilbert,W. (1977) A new method for sequencing DNA.Proc. Natl. Acad. Sci. USA, 74, 560-564.

– méthode biochimique: Sanger, F., Micklen, S.,and Coulson, A.R. (1977) DNA sequencing andchain terminating inhibitors. Proc. Natl. Acad.Sci. USA, 74, 5463-5467.

Page 3: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage de Maxam-Gilbert

Clivage chimique d’ADN marqué à son extrémité

1. Marquage radioactif des extrémités (5' or 3') ,

2. Dénaturation de l’ADN

3. Quatre réactions chimiques spécifiques, représentant 4 combinaisons possibles:

– G seulement: DMS, piperidine– A + G: DMS, acide formique, piperidine– C+T: Hydrazine, piperidine– C seulement: Hydrazine dans 1.5M NaCl, piperidine

Page 4: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage de Maxam-Gilbert

– le premier composé chimique casse la liaison glycosidique entre le ribose et la base, déplaçant la base.

– le traitement piperidine catalyse la coupure de la liaison phosphodiester d’où la base a été déplacée.

– les produits de réactions sont soumis à une électrophorèse sur un gel de polyacrylamide en condition dénaturante. Les fragments les plus petits se déplacent le plus facilement. La séquence est lue du bas du gel (5’) vers le haut du gel (3’).

Page 5: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)
Page 6: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)
Page 7: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage de Maxam-Gilbert

• le principal avantage de cette technique est qu’elle n’est pas dépendante des problèmes de synthèse d’ADN par une polymérase (terminaison précoce due à la séquence ou à la structure de l’ADN).

• le principal inconvénient est la toxicité des composés chimiques utilisés.

Page 8: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

• méthode biochimique

• aussi appelée séquençage par terminaison de chaîneou aux dideoxy.

• basée sur l’incorporation d’un dideoxynucléotide à l’extrémitéd’une molécule d’ADN en cours de synthèse.

Technique de séquençage de SANGER

Page 9: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Technique de séquençage de SANGER

1- hybridation du primer de séquençage sur la matrice simple brin à séquencer.

2- préparation des 4 mélanges réactionnels en parallèle.Chaque mélange contient chacun des 4 dNTP (un est marqué en α avecdu 32P, du 35S ou du 33P) et un des 4 ddNTP.

3- la réaction démarre lorsque la DNA polymérase est ajoutée au mélange(Klenow, T7, Taq)

Page 10: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Technique de séquençage de SANGER

4- la synthèse du brin d’ADN cesse par l’incorporation d’un ddNTP etla réaction est arrêtée par l’addition du tampon de charge du gelde séquençage contenant de la formamide.

5- chauffage des échantillons pour défaire les structures de l’ADN avantde charger sur le gel dénaturant de polyacrylamide/urée pré-chauffé.

6- les petits fragments migrent plus loin. L’extremité 5’ est en bas du gelet l’extrémité 3’ en haut.

7- la séquence lue est la séquence complémentaire de la matrice.

Page 11: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Technique de séquençage de SANGER

Page 12: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Technique de séquençage de SANGER

La séquence de la matrice estla séquence complémentaire dela séquence lue sur le gel.

Page 13: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)
Page 14: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage d’ADN automatisé

Version améliorée de la méthode de Sanger:

- marquage radioactif marquage fluorescent des ddNTP

- film autoradiographique détection par faisceau laser en cours d’électrophorèse

- polymérase de Klenow Taq polymérase

- quantité de matrice quantité plus faible que pour la méthode de Sanger classique car thermocyclage

Page 15: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage d’ADN automatisé

• procédure de séquençage basique en cycle- hybridation du primer sur la matrice sous forme simple brin- extension du primer lors d’une réaction limitante en

ddNTP fluorescent et en excès de dNTP (rapport 1/100).- dénaturation et redémarrage d’un nouveu cycle

• détection par émission de fluorescence après stimulation du colorant fluorescent; couleur et position sont enregistrée dans un fichier séquence.

• format de sortie du fichier: chromatogramme ou fichier de séquence

Page 16: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)
Page 17: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)
Page 18: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Le séquençage des génomes

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes

Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales

Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes

Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Page 19: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Le séquençage des génomes

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes

Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales

Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes

Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Page 20: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Les choix stratégiques

Approches utilisées pour le séquençage à grande échelle

Organismes séquencés

Deux approches :Multitude de laboratoires :

46 laboratoires pour B subtilis en 199734 laboratoires pour Xylella fastidiosa en 200035 laboratoires pour la levure en 1991

Genome Centers :Grande échelle de productionSéquenceurs automatiques

•Recherche fondamentale : E coli, B subtilis, S. pombe, A thaliana, drosophile, nématode, Neurospora crassa•Utilisation industrielle : Agrobacterium tumefaciens, Lactococcus lactis, Archébactéries (haute température, métabolismes particuliers)•Intérêt médical : procaryotes pathogènes

Page 22: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage du génome de la tomate

Page 23: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Stratégies de séquençage des génomes complets

méthode dite « bac-to-bac » ou « map-based »

méthode dite de « shotgun »

L’approche « bac-to-bac » passe parla création d’une carte physique brutede l’ensemble du génome avant le séquençage. La construction de la carte nécessite decouper les chromosomes en grandsfragments et de déterminer la positionrelative de ces fragments avant de lesséquencer.

La méthode de “shotgun” passedirectement par l’étape de séquençageSans création d’une carte physique(évidement ça paraît plus facile).

Page 24: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Stratégies de séquençage des génomes complets

Les étapes

1- plusieurs copies du génome sontcoupées au hasard en fragmentsd’environ 150 kpb.

2- chacun des fragments est inséré dansun BAC constituant ainsi la banque BAC.

1- plusieurs copies du génome sontcassées au hasard en fragments de2 kpb en faisant passer l’AND sous pression dans l’aiguille d’une seringue.Cette étape est renouvelée de façon àgénérer des fragments de 10 kpb.

2- chaque fragment de 2 ou 10 kpb estinséré dans un plasmide.

BAC to BAC SHOTGUN

Page 25: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

3- chaque fragment est marquéd’une empreinte qui va donné àchaque BAC une identificationUnique qui va permettre de déterminer l’ordre des fragmentsles uns par rapport aux autres.L’empreinte est obtenue en coupantchaque fragment du BAC parun enzyme et en séquençantl’extrémité du BAC afin de positionnerles BAC le long des chromosomes.

4- Chaque BAC est cassé au hasard enfragments d’environ 1, 5 kpb clonés dansdes phagemides.

3- chaque banque de plasmides de 2 ou10 kpb est séquencée. 500 pb del’extrémité de chaque fragment sontdécodées. Le séquençage de chacunedes extrémités est déterminant pourl’assemblage de l’ensembledes chromosomes.

4- des algorithmes assemblent lesmillions de fragments séquencés enun ensemble continu correspondantà chaque chromosome.

Page 26: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

5- chaque banque de phage est séquencée. 500 pb de l’extrémité de chaque fragmentsont séquencées.

6- ces séquences alimentent un programmeinformatique appelé PHRAP qui identifie lesséquences communes qui joignent 2fragments adjacents.

Page 27: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage du génome du riz

Page 28: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

séquence

génétique

physique

Comparaison des cartes du génomes d’Arabidopsis thaliana

Page 29: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Identification des gènes

Les choix stratégiques

Identification facile chez les Procaryotes :•promoteurs, séquences codantes, signaux de terminaison•Pas ou peu de séquences intergéniques

Identification difficile chez les Eucaryotes :•Découpage des gènes en introns et exons•Régions intergéniques parfois très vastes

Levure : 5% des gènes sont morcelés et régions non-codantes peu abondantes

Nématode, Drosophile, Arabette : régions codantes majoritairement fragmentées et régions non-codantes très étendues

•Comparaison des séquences génomiques et des séquences d’ADNc (EST ou séquence complète d’ARNm)alignement : séquence transcrite•Outils informatiques de prédiction : recherche de phase ouverte de lecture, signaux d’épissage, composition en bases•Utilisation des données d’un autre organisme. Ex : EST de Caenorhabditis briggsae pour Caenorhabditis elegans

Page 30: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Le séquençage des génomes

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes

Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales

Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes

Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Page 31: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génomes procaryotes

Structure chromosomique

Abondance en guanine et cytosineUn faible taux de G+C indique souvent un mode de vie parasitique ou synbiotiqueLa réplication du chromosome se fait dans deux directions opposées divergeant à partir de l’origine de réplication. Chacune de ces deux moitiés est appelée réplichoreLe séquençage révèle parfois des plasmides, des plasmides linéaires ou des mégaplasmides

Taille (en nucléotides)

nombre total de gènes

Gènes de fonction inconnue

Chromosome I 2.648.638 2.633 1.422

Chromosome II 412.348 369 183

Mégaplasmide 177.466 145 65

Plasmide 45.704 40 24

Total 3.284.156 3.187 1.694

Page 32: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Organisation des gènes

Génomes procaryotes

•La fraction codante est élevée (environ 90%)

•La taille moyenne des gènes est de 1 kb

•Le nombre de gènes est très variable (500 à 8000)

•Les unités transcriptomiques sont fréquemment organisées en opérons

•Les gènes codant pour les ARNr sont le plus souvent agencés en 16S-

23S-5S avec des gènes d’ARNt entre les gènes

•Le nombre de pseudogènes (gènes mutés non-transcrits ou non-

traduits) est faible.

Exception Mycobacterium leprae avec 24% de régions non codantes et

27% de gènes.

Page 33: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquences non codantes

Génomes procaryotes

•Régions intergéniques (séquences régulatrices, parfois des

séquences répétées et quelques rares introns)

•Chez E coli taille moyenne des régions intergéniques :118 pb

•Les séquences répétées en tandem comprennent un motif de 1 à 6 nt

répété de 2 à quelque dizaine de fois

•Les séquences dédiées à la transformation comme les USS (Uptake

Signal Sequence) de H influenzae (1465 USS par génome)

Page 34: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Retombées médicales et commerciales

Génomes procaryotes

De nombreuses retombées médicales sont espérées :•La syphilis touche 50 106 de personnes•La lèpre touche 15 106 de personnes•Chaque minute la tuberculose atteint 10 personnes

La comparaison de génomes d’espèces proches mais causant des maladies très différentes comme Mycobacterium leprae , Mycobacterium tuberculosis , Neisseria meningitidis , devrait permettre d’identifier les gènes responsables de tel ou tel autre effet pathogène

Diagnostic ou pronostic de développement d’infection (ex recherche de la séquence répétée Ng-rep utilisée pour détecter une contamination par Neisseria meningitidis )

Des protéines de bactéries extrêmophiles sont commercialisées (ex la Taq de Thermus aquaticus)

Page 35: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Le séquençage des génomes

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes

Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales

Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes

Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Page 36: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génomes des modèles eucaryotes

Structure des chromosomes

•Chez la levure , les régions riches en G+C correspondent aux régions riches en gènes. Les brins complémentaires codent pour un nombre similaire de gènes sauf pour le chromosome II et pour la région centrale du chromosome VI•Chez C elegans le génome est remarquablement uniforme en teneur G+C le long des chromosomes. La densité des gènes est plus élevées dans les régions centrales que dans les bras chromosomiques. La densité des gènes est faible sur le chromosome X.•Chez la drosophile, 180 Mb avec 60 Mb d’hétérochromatine (séquence répétée, éléments transposables, deux blocs de gènes ribosomiques). L’euchromatine couvre 120 Mb qui contient la majorité des gènes.•Chez la souris 20 paires de chromosomes (19 autosomes et une paire de chromosomes sexuels) tous acrocentriques.•Chez A thaliana, 5 chromosomes tous autosomiques (2 acrocentriques, 2 submétacentriques et 1 métacentrique.

L'hétérochromatine ne change pas d'état de condensation au cours du cycle cellulairesi le bras court est presque aussi long que le bras long, le chromosome est dit métacentrique; s'il est plus court, il est dit sub-métacentrique. Enfin, si ce bras p est très petit, le chromosome est dit acrocentrique

Page 37: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génomes des modèles eucaryotes

Identification des gènes

Levure Nématode Drosophile Arabette

taille physique (Mb) 13 100 180 125

taille moyenne d'un cM (kb)

3 500 300 220

teneur en [G+C] 38% 36% nd 41%

nombre de gènes 6.200 19.100 13.600 25.500

fraction codante 68% 27% 13% 29%

nombre moyen d'exons par gène

1,04 5,5 4,6 5,2

taille des gènes (kb) 1,4 2,7 3 2,1

taille moyenne du codant (introns exclus)

1.450 1.311 1.497 1.300

taille moyenne des exons (pb)

1.450 218 150 250

taille moyenne des introns (pb)

500 267 487 168

fréquence des gènes (par kb)

2 4,8 / 6 9 4,5

nombre d'ARNt 273 584 284 589

Page 38: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génomes des modèles eucaryotes

Fonctions des gènes reconnus ou prédits

•Prédiction de fonction : le nombre de gènes potentiellement impliqués dans une fonction biologique donnée s’est soudainement accru avec le séquençage systématique (selon l’espèce 40 à 60 % des gènes ne sont toujours pas reliés à des gènes de fonction connue)•Chez la levure : identification d’un nouveau gène codant pour l’histone H1.•Chez le nématode : identification de protéines SXC impliquées dans des interactions avec la matrice extracellulaire.•Chez l’Arabette : identification d’un gène codant pour la lyase hydroxynitrile qui produit de l’acide cyanhydrique (répulsif d’herbivores)•Les gènes codant pour les cyclines de la levure sont différents de ceux très similaires de la drosophile, du nématode, des vertébrés

Page 39: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génomes des modèles eucaryotes

Régions non codantes

Arabette Nématode Drosophile Souris

LINE/SINE 0,5% 0,4% 4,7% (0,7% + 13,2%) 28%

Séquences type rétrovirus 4,8% 0% 6,4% (1,5% + 16,9%) 10%

Séquences type transposons 5,1% 5,3% 3,6% (0,7% + 9,9%) 1%

Total 10,5% 6,5% 14,9% (3,1% + 40,2%) 38%

Plus faible que chez l’homme

Séquences répétées en tandem :les microsatellites : répétitions de motifs de 1 à 13 nt, polymorphes et distribués le long des chromosomesLes minisatellites : répétitions de motifs de 14 à 500 nt, distribués sur 0,5 à 30 kb.Séquences répétées dispersées : (40 % du génome murin)LINE, SINE, rétrotransposons à LTR et les rétrotransposons à ADN

Page 40: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

.......G C T G A G C C G G C T C C T G A G A G A A G C G C T T T C T G A G T C G T T T C G A G G A C A G C C C T G G C C G G T C T T T C C A G G C T G T G A G G G G C T C C T G G G A C T G C T G T C T C C T C T T A T C C T G T A C C T C T G C C A T G T G A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A T A A A T T A T C C T G G A G G A A A G G T T A A G G T G A C A C A T G G A G A C T G A G T G T C A C C G T T A T T T C C G C A G G T C C T C T C T G A T G A C A T G A A G A A G C T G A A G G C C C G A A T G G T A A T G C T C C T C C C T A C T T C T G C T C A G G G G T T G G G G G C C T G G G T C T C A G C G T G T G A C A C T G A G G A C A C T G T G G G A C A C C T G G G A C C C T G G A G G G A C A A G G A T C C G G CC C T T

.......T C A G G G T G A G A A G G A T G A A A A G G G A C C C A C A G G C T C C C T C A C C C C T T A C C G T G G G C A A A T G C T T G C A C C T G G G T G G C A G T G A G T G G G C G G G T A A T C G G G C A G G A G G G G G A G G C G G G C A G G A G G G G G G A G G C G G G C A C G A G G G G G G A G G T G A G C A G G A G G G G G A G G C G G G C A G G A G G A G G A G G C G G G C A G G A G G G G G A G A C G G G C A G G A G A G G G A G G C A G G C A G G A G A G G G A G G T G G G C A G G A G G G G G G G G C G G G C A G G A G G A G G A G G T G G G C A G G A G G G G G A G G C G G G C A G G A G G G G G A G G C G G G C A G G A G G G T G A G G G G G G A T C T G G A C G C C C G G G G A G A C T G A G G G A G G C A T C C A A G C C C C A G G G C T C C T T G A G G A A A C A A C A G G G G T G C C A G A C G T G G C C C G G G C C C C T G G C T G G G C C C A G T T C G G G G T G T G T G G G A G C T G A G G A C T C A C T G G G C T T G A G G A C T G A C T G A T G T G G A.....

Microsatellite Minisatellite

Page 41: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Le séquençage des génomes

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes

Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales

Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes

Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Page 42: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génome humain

Les chromosomes humains

14 20 21 22

caryotype acrocentrique métacentrique acrocentrique acrocentrique

taille 87,4 Mb 59,1 Mb 33,5 Mb 33,5 Mb

fraction du génome 2,7% 1,8% 1,0 % 1,0 %

contenu en [G+C]; 40,9% 44,1% 40,9 % 47,8 %

lacunes 0 4 (~320 kb) 3 (~100 kb) 11 (~150 kb)

nombre de gènes 1128 (dont 292

pseudogènes)

895 (dont 168 pseudogènes)

284 (dont 59 pseudogènes)

679 (dont 134

pseudogènes

La longueur totale du génome humain : 3000 Mb20 laboratoires de 6 pays (USA, GB, Japon, France, Allemagne et Chine)1000 nt / sec

Page 43: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génome humain

Identification des gènes

•535 gènes codant pour des ARNt (plus faible que chez le nématode et plus élevé que chez la drosophile)•150 à 200 groupes de gènes codant pour les ARNr 18S, 28S et 5,8S sur les chromosomes 13, 14, 15, 21 et 22•2000 gènes codant pour l’ARNr 5S sur le chromosome 1•Les gènes codants pour des protéines ont été prédits :

•Comparaison aux bases de données d’EST•Comparaison aux séquences complètes d’ARNm•Programme de prédiction comme GENESCAN

•Le nombre total de gènes varient entre 26000 et 35000 gènes (2x plus que le nématode ou la drosophile).•11,1 gènes / Mb•Taille moyenne des gènes 27900 nt répartis en 8 à 9 exons de 145 nt environ avec des introns d’environ 3500 nt. Plus de 35 % des gènes ont un épissage alternatif•28% du génome serait transcrit en ARNr, ARNm, ARNt ou ARN de petite taille et 1,4 % serait traduit.•Le gène le plus grand est celui de la dystrophine (2,4 Mb)•Le plus grand messager est celui de la titine (80780 nt) avec 178 exons et l’exon le plus grand (17 106 nt)

Page 44: SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Génome humain

Séquences répétées

Homme

LINE/SINE 28%

Séquences type rétrovirus 7 %

Séquences type transposons 3%

Total 38%