53
Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions Octobre 2008 Bernard Jacq intégration Molécule Fonction biochimique ou moléculaire Réseau d’interactions entre molécules Fonction cellulaire : voie, cascade, processus Cellules Tissus, organes Organismes Populations Régulations physiologiques Développement, reproduction, vieillissement Relations inter-espèces, Équilibres écologiques Migrations, Communications Deuxième partie

Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions

Embed Size (px)

DESCRIPTION

intégration. Relations inter-espèces, Équilibres écologiques. Populations. Développement, reproduction, vieillissement. Organismes. Régulations physiologiques. Tissus, organes. Migrations, Communications. Cellules. Réseau d’interactions entre molécules. Fonction cellulaire : voie, - PowerPoint PPT Presentation

Citation preview

Page 1: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Bioinformatique fonctionnelle des protéines

et analyse structurale de réseaux d'interactions

Octobre 2008 Bernard Jacq

intégration

MoléculeFonction biochimique

ou moléculaire

Réseau d’interactionsentre molécules

Fonction cellulaire : voie,cascade, processus

Cellules

Tissus, organes

Organismes

Populations

Régulations physiologiques

Développement, reproduction,vieillissement

Relations inter-espèces, Équilibres écologiques

Migrations,Communications

Deuxième partie

Page 2: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Les méthodes de prédiction fonctionnelle existantes

• Sont souvent basées sur des inférences utilisant des données structurales (alignments de séquence, fusions de domaines, proximités géniques, profils phylogénétiques)• Similarité de séquence/structure n’est pas toujours synonyme de similarité de fonction• Ne peuvent souvent être appliquées qu’à un sous-ensemble de protéines• Sont souvent dépendantes de la qualité de l’annotation• Problème du transfert automatique d’annotations (catastrophes transitives)• Nécessitent la connaissance de la séquence génomique• Ne donnent pas accès à des prédictions au niveau cellulaire

• NB : Une prédiction doit toujours être vérifiée expérimentalement

Page 3: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Les approches de la fonction à grande échelle (suite) :protéome et interactome

Page 4: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Etude à grande échelle des complexes protéiques

Page 5: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 6: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Stratégie

• PCR of the TAP cassette• Transformation of yeast cells• Selection for positive clones• Large scale cultivation• Cell lysis, Tandem affinity purification• 1D SDS-PAGE• MALDI-TOF protein identification• Bioinformatic interpretation data

ANALYSE SYSTEMATIQUE DES COMPLEXES PROTEIQUES CHEZ LA LEVURE

Gavin et al. (2002) Nature, 415:141-

147

Page 7: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

• 589 protéines utilisées comme entrées 78 % ont des partenaires 232 complexes identifiés

• 304 protéines sans annotation fonctionnelle dans YPD proposition de rôle pour 231 d’entre elles 76 %

• 113 protéines de fonction connue se voient attribuer une nouvelle fonction

Quelques résultats

Page 8: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Un RESEAU DE COMPLEXES PROTEIQUES

Rouge : Cell cycleVert foncé : SignallingBleu foncé : Transcription, DNA maintenance, chromatin

structureRose : Protein and RNA transportOrange : RNA metabolismVert clair : Protein synthesis and turnoverMarron : Cell polarity and structureViolet: Intermediate and energy metabolismBleu clair : Membrane biogenesis and traffic

Page 9: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

ANALYSE STATISTIQUE DES PROTEINES ET DES COMPLEXES

Page 10: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

L’interactomeListe de toutes les interactions entre toutes les macromolécules d’une cellule, d’un type cellulaire, d’un organisme

Employé par défaut pour décrire l ’ensemble des interactions protéine-protéine

Page 11: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

L’interactome (motivation)

• Les protéines n’agissent pas seules et les processus cellulaires reposent dans leur grande majorité sur des interactions spécifiques entre protéines

• Après avoir établi la liste des composants protéiques individuels (d’après les résultats du séquençage), une tâche essentielle est maintenant de déchiffrer la sructure, la dynamique, l’évolution des réseaux d’interaction

• Identifier quels sont les partenaires connus d’une protéine inconnue pourra nous aider à en comprendre la fonction

Page 12: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Genome

Transcriptome

Interactome

Proteome

Page 13: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Les Interactions :quelques définitions

Il y a interaction moléculaire entre le gène A et le gène B si le gène A (ou son ARNm ou son produit) interagit directement au niveau moléculaire avec le gène B (ou son ARNm ou son produit) --> Il existe un contact physique entre macromolécules.

La majorité des interactions décrites sont de 3 types: Protéine-ADN Protéine-ARN Protéine-Protéine

Interactions moléculaires

Les interactions peuvent être orientées (Protéine-ADN, Protéine-ARN) ou non orientées (Protéine-Protéine).

Page 14: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Interactions et réseaux Un ensemble d’interactions forme un réseau

d’interactions Un réseau peut illustrer les relation fonctionnelles

existant entre gènes/protéines Un réseau peut être représenté par un graphe orienté ou

non

G

B

A

C

D

E

F

•A-->B:interaction directe

• A-->C-->D-->F-->G:Interactions indirectes

• En bleu : le réseau

Les Interactions :quelques définitions,

suite

Page 15: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Interactions génétiques

• Interactions indirectes entre gènes/protéines (mais aussi directes) • Analyse et mise en évidence au niveau du phénotype de l’animal

Quelques Propriétés des interactions

• Spécifiques • Dynamiques • Dépendantes des caractéristiques intrinsèques de la protéine (modularité structurale, temps de 1/2 vie, localisation…)• Nombre ?• Eléments de base des réseaux de régulation

Les Interactions :quelques définitions,

fin

Page 16: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Tucker, Gera, and Uetz

TCB, 2001

CARTE D’INTERACTIONS Protéine-ProtéineLEVURE, 1200 protéines

Page 17: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

CARTE D’INTERACTIONS PP LEVURE 1548 protéines, 2358 interactions

Gris : Chromatine structureBleu : Membrane fusionVert : Cell structureJaune : Lipid metabolismRouge : Cytokinesis Schikowski et al. (2000), Nat.Biotech., 18, 1257-1261

Page 18: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Les réseaux protéines-ADN

Crédit: N. Luscombe

Comment évolue la dynamique des réseaux P-ADN en fonction des conditions physiologiques ?

Gène 1 Gène 2 Gène 3

.....

Facteurs deTranscription

Un trait liant 2 pointsSur la circonférence

Représente une interactionProtéine-ADN

Page 19: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Utilisation du réseau dans differentes Conditions physiologiques

Cycle cellulaire Sporulation Diauxic shift Réparation du DNA Stress

Crédit: N. Luscombe

Page 20: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

On dispose maintenant, grâce aux approches à grande échelle (double hybride, Chromatin IP) de

milliers d’interactions binaires entre protéines ou entre protéines et ADN

Que faire avec cette masse de données ??

• décrire les caractéristiques de l'organisation du protéome/interactome= statistique, approche descriptive

• prédire certaines « règles » à partir de l'observation du réseau = inférence, approche prédictive

Page 21: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Schwikowski et al. (2000), Nat.Biotech., 18, 1257-1261

Comptage des interactions entre groupes fonctionnels

Analyse fonctionnelle du réseau

Page 22: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Un réseau PPI de levure

Analyse structurale et fonctionnelle de réseaux d’interaction

Quelles caractéristiques structurales peut-on mettre en évidence ?

Page 23: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Deletion phenotype:Red = lethalRed = lethalGreen = non-lethalGreen = non-lethalOrange = slow growthOrange = slow growthYellow = unknownYellow = unknown

Ce réseau représente un type d’organisation dit « scale-free »

La plupart des nœuds (protéines) ont peu d’interactions

Un petit nombre de nœuds (hubs) sont connectés à un grand nombre de noeuds

Un réseau PPI de levure

Analyse structurale et fonctionnelle de réseaux d’interaction

Page 24: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Des mesures topologiques pour caractériser un réseau

Degré de connectivité Longueur de chemin

Coefficient de clusterisation

Crédit: N. luscombe

Analyse structurale et fonctionnelle de réseaux d’interaction

Page 25: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Méthodes d’analyse de graphes d’interactions

protéine-protéine

Comment identifier à l’intérieur du graphe des groupes de protéines reliées fonctionnellement ?

• Approches :- distance dans le graphe- connectivité des protéines- densité

Dense (clique)Peu dense

Crédit: C. Herrmann

Page 26: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Caractéristiques statistiques

• connectivité k d'une protéine = nombre de voisins

k = 4k = 4

kin = 1kout = 3

kin = 1kout = 3

Crédit: C. Herrmann

• si le réseau est dirigé (réseaux protéine-ADN) , on distingue kin et kout

Page 27: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

• distribution de connectivité:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

0.2

2

20

200

2000

levure S. cerevisae

connectivité k

nom

bre

de g

ènes

beaucoup de protéinesfaiblement connectées

quelques protéinesfortement connectées = « hub »

Crédit: C. Herrmann

Caractéristiques statistiques

Page 28: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Interprétation biologique (1/3)

• particularité des protéines ayant un grand nombre d'interacteurs – protéines structurantes

ex.: PBS2 chez S. cerevisae, k=15protéine structurante (« échafaudage ») pour le complexe MAP-kinase

– protéines létalesex.: Jeong et al. ont montré une corrélation entre la connectivité d'une protéine et son caractère létal chez la levure« plus une protéine a de partenaires, plus elle est essentielle »

Crédit: C. Herrmann

Page 29: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Interprétation biologique (2/3)

• Si des protéines ont une grande densité de connections ...

... c'est qu'elles forment un module fonctionnel

• 2 type de modules fonctionnels

• les complexes protéiques (interactions simultanées)

• les voies de signalisation/voies métaboliques (interactions consécutives)

Crédit: C. Herrmann

Page 30: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Interprétation biologique (3/3)

module impliquédans la régulation du cycle cellulaire

module impliquédans la régulation du cycle cellulaire

voie de transduction du signal déclenchéepar la phéromone

voie de transduction du signal déclenchéepar la phéromone

[Spirin & Mirny, PNAS 2003]

levure

Crédit: C. Herrmann

Page 31: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Prédire quoi ?

• on dispose d'informations encore très partielles sur le rôle des protéines

Nombre de gènes

estimés (Ensembl)Swissprot total

Swissprot annoté

Gene Ontology

Gene Ontology (annotations

manuelles)

homme 24195 13360 7454 9387

souris 28055 11460 2616 4585

drosophile 13525 2660 1224 6715

les réseaux d'interactions sont un moyenprivilégié pour inférer des fonctions

[date: 9/11/2004]

Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?

Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?

Crédit: C. Herrmann

Page 32: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Exemple de prédiction à partir d’un réseau d'interaction PP levure[Schwikowski et al., Nature Biotech 2000]

Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres

Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres

Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines

Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines

sourced'erreurs

Crédit: C. Herrmann

Page 33: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Comment peut-on systématiser les prédictions fonctionnelles faites à partir de réseaux d’interactions ?

Utilisation de la clusterisation fonctionnelleExemple de la méthode Prodistin (PROtein DIStance based on INteractions

Brun et al., Genome Biology(2003) R, R6

Page 34: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Tucker, Gera and Uetz

Trends in Cell Biology, March 2001

AB

D

C

What can be inferred about the functional relationships between A and B on the one hand and C and D on the other ?

C and D interact directly and share several common interactors, whereas A and B do not

It is likely that the network (cellular) functions of C and D are related whereas that of proteins A and B are not

Page 35: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Principles of our functional classification method (ProDistIn)

• Etablish a functional distance between proteins using lists of common and specific interactors

• Calculate the distance for all possible pairs of proteins

• Perform a clusterisation (NJ)

• Visualisation of result as a tree (dendrogram)

… Do not compare proteins themselves but…

…compare the lists of their interactors…

Page 36: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

1- Czekanovski-Dice distance for protein pairs

e

c a

b

fgh

Y

d

XD(X, Y) =

X spec + Y spec

(X U Y) + (X Y)

1 + 4

8 + 3= 0.45 =

-T

0.84-Z

0.660.6-Y

0.770.50.45-X

TZYX

2- distance table for all possible pairs

ijklm

Z

T

nop

In order to make a functional comparison between N proteins:

- calculate D for all pairwise comparisons of proteins

- fill in a distance matrix

X

YZ

T

3- clusterisation and tree drawing

Apply a clusterisation method (e.g. NJ) and

build a functional similarity tree

ProDistIn : the 3 first steps

Page 37: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Test on the yeast proteome

• A total of 2946 direct protein-protein interactions involving 2143 proteins

• Only proteins with at least 3 interactors are considered further

• =>Classification of 602 yeast proteins (10% of the proteome)

• Double-hybrid screens (Fromont-Racine et al., Uetz et al., Ito et al.)

• literature (via MIPS and YPD)

• Information Extraction on Medline yeast abstracts

Data from :

Page 38: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

RESULT :

FUNCTIONAL

PROXIMITY

TREE

FOR 602

YEAST

PROTEINS

Page 39: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Il existe maintenant des bases de données dédiées aux interactions

• Les interactions sont devenues en quelques années des données essentielles pour analyser et comprendre les fonctions des gènes et protéines

• Pour chaque organisme et dans chaque type cellulaire, il existe probablement des dizaines, centaines de milliers voire millions d’interactions moléculaires différentes

• Il est nécessaire de stocker informatiquement les données relatives aux interactions

Exemple des bases DIP et BIND …

Page 40: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 41: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 42: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 43: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 44: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 45: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 46: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

La biologie à grande échelle conduit à un changement de vision

de la fonction des protéines

Vision classique

La fonction de la protéine A est définie par

son action de transformation du substrat (S) en produit (P)

S (Substrat)

P (Produit)

A

Nouvelle vision

A

La fonction de la protéine A est définie par

Le contexte des ses interactions avec d ’autres produits dans la

cellule

Page 47: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

C ’EST FINI !

Page 48: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions
Page 49: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Le double-hybride dans la levure

Uetz et al. (2000) Nature, 403:623-627 Ito et al. (2000) PNAS, 97:1143-1147

Page 50: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Schächter (2002)

Le double-hybride dans la levure :bas-débit et haut-débit

Page 51: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Kumar and Snyder (2001)

Le double-hybride dans la levure :automatisation

Page 52: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

PRINCIPAUX CRIBLES DOUBLE-HYBRIDE A GRANDE ECHELLE

Schachter (2002) DDT,7:S48-S54

Page 53: Bioinformatique fonctionnelle des protéines  et analyse structurale  de réseaux d'interactions

Approche Spectrométrie de masse :

+ On peut détecter les interactions du signalling- Impératif de stabilité, solubilité, temps, concentration, taille- Approche chromosomique : pb tag des gènes essentiels

Avantages et inconvénients des deux méthodes

Approche double-hybride :

+ Mise en évidence d’interactions binaires carte d’interactions+ Automatisable- Nombreux faux positifs des appâts semblent interagir avec beaucoup de protéines car ils sont auto-activateurs, pb des proies collantes- Nombreux faux-négatifs repliement incorrect, localisation subcellulaire incorrecte, absence de modification post-traductionnelle- Ne met en évidence que les interactions « durables »