31
OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes Li et al. Genome Res. (2003) Présenté par Marc-André Legault

OrthoMCL Presentation (French)

Embed Size (px)

Citation preview

OrthoMCL: Identification of Ortholog Groups for Eukaryotic GenomesLi et al. Genome Res. (2003)Prsent par Marc-Andr Legault

Introduction Orthologie

https://genomevolution.org/wiki/index.php/OrthologLes orthologues partagent un rle fonctionnelLes paralogues rcents aussi

Introduction Reciprocal Best Hits

Espce 1

Espce 2Gne AGne AGne BGne C

Et vice versa

5

1

2

Introduction Reciprocal Best Hits

Espce 1

Espce 2Gne AGne A

5Gne BGne C

21Alignement A A est optimal dans les deux directionsQuarrive-t-il avec des paralogues (rcents)?

Introduction Reciprocal Best Hits

Espce 1

Espce 2Gne AGne A

5Paralogue AGne B

61Le hit nest plus rciproque!Possibilit de faux positifs et faux ngatifsDpend de BLAST

Introduction Reciprocal Best Hits

RBH fonctionne bien dans les cas simplesGnomes eucaryotes:Redondance fonctionnelleStructures plusieurs domainesSquenage incomplet

OrthoMCL Objectifs

Ajouter les paralogues rcents aux groupes dorthologuesPrendre plusieurs espces en charge de faon simultane

OrthoMCL Mthodes

Utilisation de WU-BLASTP pour chaque gneConstruction du graphe pondr par le score dalignementLes paralogues potentiels sont ajouts ssi. ils ont un meilleur score que nimporte quelle paire dorthologues

OrthoMCL Mthodes

Diffrence entre les scores de paralogues rcents (plus similaires) et dorthologuesDiffrence en comparant diffrentes espcesviter des biais ltape du partitionnement

Marc-Andre Legault (ML) - Normalisation en divisant par le ratio entre la moyenne des poids moyen pour les orthologues entre ces espces et le poids moyen pour tous les orthologues ou paralogues.OrthoMCL Markov Cluster Algorithm

Approches de partitionnement (clustering)Non supervisTrouver des regroupements dlments similaires

doi:10.1186/gb-2012-13-7-r64Exemple de clustering vectoriel

OrthoMCL Markov Cluster Algorithm

Marche alatoire dans le grapheLa marche passe plus des temps lintrieur des clusters

https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdfhttp://micans.org/mcl/ani/mcl-animation.html

OrthoMCL Markov Cluster Algorithm

La marche dans le graphe peut tre reprsente par une chaine de MarkovLa marche se fait par exponentiation de la matrice (expansion)Les noeuds dun mme cluster auront de plus grands poidsMCL utilise lopration de r-inflation pour renforcer cet effet

https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdfLa matrice est ensuitenormalise par colonne

Marc-Andre Legault (ML) - Inflation: exponentiation par la constante r + normalisationOrthoMCL Rsum de lalgorithme

Rsultats Comparaison des mthodes

InParanoid: Algorithme similaire, mais qui peut traiter seulement des paires despcesNexige pas que les alignements entre parangonnes soient meilleurs que pour les orthologues

Rsultats Comparaison des mthodes

Identification des orthologues entre le ver et la drosophileEnviron 30% des squences regroupes (sur 33 062)Mthodes relativement cohrentes entre elles

10.230.62OrthoMCLInParanoidLes valeurs sont des milliers de squences1.13

Rsultats Comparaison des mthodes

Identification des orthologues entre le ver et la drosophile et la levureComparaison avec EGO (capable de grer des triplets despces)35% des squences classes par OrthoMCL vs. 13% pour EGO

4.729.14EGO0.57OrthoMCL

Rsultats Comparaison des mthodes

tendre un ensemble: Lorsquun groupe dorthologues est un sous-ensemble dun groupe identifi par lautre mthode considre.70 groupe OrthoMCL tendus par EGO2038 groupes EGO tendus par OrthoMCLSuggre une plus grande sensibilit de OrthoMCLsnb-1SybSNC1

snb-1SybSNC1

n-syb

EGOOrthoMCL

Rsultats Relation avec la fonction

Utilisation denzymes avec un numro ECEC (Enzyme Commission Number): Classification systmatique de la fonction des enzymese.g. EC 3.4.11.43 Hydrolases4 agissant sur des liens peptidiques11 clivant lacide amin terminal4 dun tri-peptide

Rsultats Relation avec la fonction

7 protomes, 3562 squences avec numro EC88% des groupes avec au moins 2 squences annotes avaient la mme annotationSuggre que OrthoMCL est un bon candidat pour lannotation fonctionnelle

http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif

Rsultats Annotation

Le parasite protozoaire Plasmodium falciparum causant la forme la plus svre de malariaAnnotation de protines prditesSil ny a pas dorthologue, on peut envisager des thrapies cibles

http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png

Rsultats Annotation

175 protines sans numro EC se sont retrouves dans des groupes avec au moins une squence annoteCertaines de ces protines taient connues, mais dautres taient seulement prditesPlusieurs (137) annotations prdites ont t confirmesLabsence de gnes animaux dans des regroupements est aussi intressant (traitement)

Discussion Dfis

Considrations TechniquesGnome eucaryotes ont un haut taux de duplicationParalogues rcents (mme fonction)Paralogues anciens (fonction divergente)Alignements sensibles larchitecture en domaines des protines

http://www.endocytosis.org/EHDs/EHD2_Dimer.gif

Discussion Dfis

Considrations Techniques (suite)Gnomes incompletsLapproche RBH peut identifier des substituts Le clustering dans le graphe permet dliminer ces faux positifs

Conclusions (de larticle)

Fonctionne aussi bien que InParanoid pour 2 espcesForme des groupes cohrents avec EGO pour 3 espcesPerspectives pour lannotation de protines prditesIdentification de cibles thrapeutiques spcifiques

Amliorations

Pour la cration du graphe initialIntgrer la structure tri-dimensionnelleApproche base sur les domaines protiquesNormalization dans la matriceAlgorithme de partitionnement

Proteinortho

Cration du graphe bas sur une fraction f du score maximal

BLAST sur des protines spares (versus BDD agrges)Permet dviter la normalisation des poids du grapheFacile parallliser

Proteinortho

Partitionnement spectral (au lieu de MCL)Calcul des eigenvecteurs et eigenvaleurs () de la matrice laplacienne (L)Le eigenvecteur de la deuxime plus petite eigenvaleure (vecteur de Fiedler) forme la division optimale du grapheItration du partitionnement tant quil reste des composantes de faible connectivit

Conclusion

Dveloppements algorithmiques possiblesMeilleure identification de squences similairesMeilleur regroupement Cration du grapheGroupes dorthologuesSquences

BLASTPartitionnementModle gnrique des approches par squence:

Conclusion

Projet proposRemplacer lalignement par des techniques danalyse de squenceRemplacer le partitionnement du graphe par une partitionnement vectoriel

http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb

Questions