Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux...

Preview:

DESCRIPTION

intégration. Relations inter-espèces, Équilibres écologiques. Populations. Développement, reproduction, vieillissement. Organismes. Régulations physiologiques. Tissus, organes. Migrations, Communications. Cellules. Réseau d’interactions entre molécules. Fonction cellulaire : voie, - PowerPoint PPT Presentation

Citation preview

Bioinformatique fonctionnelle des protéines

et analyse structurale de réseaux d'interactions

Octobre 2008 Bernard Jacq

intégration

MoléculeFonction biochimique

ou moléculaire

Réseau d’interactionsentre molécules

Fonction cellulaire : voie,cascade, processus

Cellules

Tissus, organes

Organismes

Populations

Régulations physiologiques

Développement, reproduction,vieillissement

Relations inter-espèces, Équilibres écologiques

Migrations,Communications

Deuxième partie

Les méthodes de prédiction fonctionnelle existantes

• Sont souvent basées sur des inférences utilisant des données structurales (alignments de séquence, fusions de domaines, proximités géniques, profils phylogénétiques)• Similarité de séquence/structure n’est pas toujours synonyme de similarité de fonction• Ne peuvent souvent être appliquées qu’à un sous-ensemble de protéines• Sont souvent dépendantes de la qualité de l’annotation• Problème du transfert automatique d’annotations (catastrophes transitives)• Nécessitent la connaissance de la séquence génomique• Ne donnent pas accès à des prédictions au niveau cellulaire

• NB : Une prédiction doit toujours être vérifiée expérimentalement

Les approches de la fonction à grande échelle (suite) :protéome et interactome

Etude à grande échelle des complexes protéiques

Stratégie

• PCR of the TAP cassette• Transformation of yeast cells• Selection for positive clones• Large scale cultivation• Cell lysis, Tandem affinity purification• 1D SDS-PAGE• MALDI-TOF protein identification• Bioinformatic interpretation data

ANALYSE SYSTEMATIQUE DES COMPLEXES PROTEIQUES CHEZ LA LEVURE

Gavin et al. (2002) Nature, 415:141-

147

• 589 protéines utilisées comme entrées 78 % ont des partenaires 232 complexes identifiés

• 304 protéines sans annotation fonctionnelle dans YPD proposition de rôle pour 231 d’entre elles 76 %

• 113 protéines de fonction connue se voient attribuer une nouvelle fonction

Quelques résultats

Un RESEAU DE COMPLEXES PROTEIQUES

Rouge : Cell cycleVert foncé : SignallingBleu foncé : Transcription, DNA maintenance, chromatin

structureRose : Protein and RNA transportOrange : RNA metabolismVert clair : Protein synthesis and turnoverMarron : Cell polarity and structureViolet: Intermediate and energy metabolismBleu clair : Membrane biogenesis and traffic

ANALYSE STATISTIQUE DES PROTEINES ET DES COMPLEXES

L’interactomeListe de toutes les interactions entre toutes les macromolécules d’une cellule, d’un type cellulaire, d’un organisme

Employé par défaut pour décrire l ’ensemble des interactions protéine-protéine

L’interactome (motivation)

• Les protéines n’agissent pas seules et les processus cellulaires reposent dans leur grande majorité sur des interactions spécifiques entre protéines

• Après avoir établi la liste des composants protéiques individuels (d’après les résultats du séquençage), une tâche essentielle est maintenant de déchiffrer la sructure, la dynamique, l’évolution des réseaux d’interaction

• Identifier quels sont les partenaires connus d’une protéine inconnue pourra nous aider à en comprendre la fonction

Genome

Transcriptome

Interactome

Proteome

Les Interactions :quelques définitions

Il y a interaction moléculaire entre le gène A et le gène B si le gène A (ou son ARNm ou son produit) interagit directement au niveau moléculaire avec le gène B (ou son ARNm ou son produit) --> Il existe un contact physique entre macromolécules.

La majorité des interactions décrites sont de 3 types: Protéine-ADN Protéine-ARN Protéine-Protéine

Interactions moléculaires

Les interactions peuvent être orientées (Protéine-ADN, Protéine-ARN) ou non orientées (Protéine-Protéine).

Interactions et réseaux Un ensemble d’interactions forme un réseau

d’interactions Un réseau peut illustrer les relation fonctionnelles

existant entre gènes/protéines Un réseau peut être représenté par un graphe orienté ou

non

G

B

A

C

D

E

F

•A-->B:interaction directe

• A-->C-->D-->F-->G:Interactions indirectes

• En bleu : le réseau

Les Interactions :quelques définitions,

suite

Interactions génétiques

• Interactions indirectes entre gènes/protéines (mais aussi directes) • Analyse et mise en évidence au niveau du phénotype de l’animal

Quelques Propriétés des interactions

• Spécifiques • Dynamiques • Dépendantes des caractéristiques intrinsèques de la protéine (modularité structurale, temps de 1/2 vie, localisation…)• Nombre ?• Eléments de base des réseaux de régulation

Les Interactions :quelques définitions,

fin

Tucker, Gera, and Uetz

TCB, 2001

CARTE D’INTERACTIONS Protéine-ProtéineLEVURE, 1200 protéines

CARTE D’INTERACTIONS PP LEVURE 1548 protéines, 2358 interactions

Gris : Chromatine structureBleu : Membrane fusionVert : Cell structureJaune : Lipid metabolismRouge : Cytokinesis Schikowski et al. (2000), Nat.Biotech., 18, 1257-1261

Les réseaux protéines-ADN

Crédit: N. Luscombe

Comment évolue la dynamique des réseaux P-ADN en fonction des conditions physiologiques ?

Gène 1 Gène 2 Gène 3

.....

Facteurs deTranscription

Un trait liant 2 pointsSur la circonférence

Représente une interactionProtéine-ADN

Utilisation du réseau dans differentes Conditions physiologiques

Cycle cellulaire Sporulation Diauxic shift Réparation du DNA Stress

Crédit: N. Luscombe

On dispose maintenant, grâce aux approches à grande échelle (double hybride, Chromatin IP) de

milliers d’interactions binaires entre protéines ou entre protéines et ADN

Que faire avec cette masse de données ??

• décrire les caractéristiques de l'organisation du protéome/interactome= statistique, approche descriptive

• prédire certaines « règles » à partir de l'observation du réseau = inférence, approche prédictive

Schwikowski et al. (2000), Nat.Biotech., 18, 1257-1261

Comptage des interactions entre groupes fonctionnels

Analyse fonctionnelle du réseau

Un réseau PPI de levure

Analyse structurale et fonctionnelle de réseaux d’interaction

Quelles caractéristiques structurales peut-on mettre en évidence ?

Deletion phenotype:Red = lethalRed = lethalGreen = non-lethalGreen = non-lethalOrange = slow growthOrange = slow growthYellow = unknownYellow = unknown

Ce réseau représente un type d’organisation dit « scale-free »

La plupart des nœuds (protéines) ont peu d’interactions

Un petit nombre de nœuds (hubs) sont connectés à un grand nombre de noeuds

Un réseau PPI de levure

Analyse structurale et fonctionnelle de réseaux d’interaction

Des mesures topologiques pour caractériser un réseau

Degré de connectivité Longueur de chemin

Coefficient de clusterisation

Crédit: N. luscombe

Analyse structurale et fonctionnelle de réseaux d’interaction

Méthodes d’analyse de graphes d’interactions

protéine-protéine

Comment identifier à l’intérieur du graphe des groupes de protéines reliées fonctionnellement ?

• Approches :- distance dans le graphe- connectivité des protéines- densité

Dense (clique)Peu dense

Crédit: C. Herrmann

Caractéristiques statistiques

• connectivité k d'une protéine = nombre de voisins

k = 4k = 4

kin = 1kout = 3

kin = 1kout = 3

Crédit: C. Herrmann

• si le réseau est dirigé (réseaux protéine-ADN) , on distingue kin et kout

• distribution de connectivité:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

0.2

2

20

200

2000

levure S. cerevisae

connectivité k

nom

bre

de g

ènes

beaucoup de protéinesfaiblement connectées

quelques protéinesfortement connectées = « hub »

Crédit: C. Herrmann

Caractéristiques statistiques

Interprétation biologique (1/3)

• particularité des protéines ayant un grand nombre d'interacteurs – protéines structurantes

ex.: PBS2 chez S. cerevisae, k=15protéine structurante (« échafaudage ») pour le complexe MAP-kinase

– protéines létalesex.: Jeong et al. ont montré une corrélation entre la connectivité d'une protéine et son caractère létal chez la levure« plus une protéine a de partenaires, plus elle est essentielle »

Crédit: C. Herrmann

Interprétation biologique (2/3)

• Si des protéines ont une grande densité de connections ...

... c'est qu'elles forment un module fonctionnel

• 2 type de modules fonctionnels

• les complexes protéiques (interactions simultanées)

• les voies de signalisation/voies métaboliques (interactions consécutives)

Crédit: C. Herrmann

Interprétation biologique (3/3)

module impliquédans la régulation du cycle cellulaire

module impliquédans la régulation du cycle cellulaire

voie de transduction du signal déclenchéepar la phéromone

voie de transduction du signal déclenchéepar la phéromone

[Spirin & Mirny, PNAS 2003]

levure

Crédit: C. Herrmann

Prédire quoi ?

• on dispose d'informations encore très partielles sur le rôle des protéines

Nombre de gènes

estimés (Ensembl)Swissprot total

Swissprot annoté

Gene Ontology

Gene Ontology (annotations

manuelles)

homme 24195 13360 7454 9387

souris 28055 11460 2616 4585

drosophile 13525 2660 1224 6715

les réseaux d'interactions sont un moyenprivilégié pour inférer des fonctions

[date: 9/11/2004]

Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?

Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?

Crédit: C. Herrmann

Exemple de prédiction à partir d’un réseau d'interaction PP levure[Schwikowski et al., Nature Biotech 2000]

Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres

Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres

Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines

Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines

sourced'erreurs

Crédit: C. Herrmann

Comment peut-on systématiser les prédictions fonctionnelles faites à partir de réseaux d’interactions ?

Utilisation de la clusterisation fonctionnelleExemple de la méthode Prodistin (PROtein DIStance based on INteractions

Brun et al., Genome Biology(2003) R, R6

Tucker, Gera and Uetz

Trends in Cell Biology, March 2001

AB

D

C

What can be inferred about the functional relationships between A and B on the one hand and C and D on the other ?

C and D interact directly and share several common interactors, whereas A and B do not

It is likely that the network (cellular) functions of C and D are related whereas that of proteins A and B are not

Principles of our functional classification method (ProDistIn)

• Etablish a functional distance between proteins using lists of common and specific interactors

• Calculate the distance for all possible pairs of proteins

• Perform a clusterisation (NJ)

• Visualisation of result as a tree (dendrogram)

… Do not compare proteins themselves but…

…compare the lists of their interactors…

1- Czekanovski-Dice distance for protein pairs

e

c a

b

fgh

Y

d

XD(X, Y) =

X spec + Y spec

(X U Y) + (X Y)

1 + 4

8 + 3= 0.45 =

-T

0.84-Z

0.660.6-Y

0.770.50.45-X

TZYX

2- distance table for all possible pairs

ijklm

Z

T

nop

In order to make a functional comparison between N proteins:

- calculate D for all pairwise comparisons of proteins

- fill in a distance matrix

X

YZ

T

3- clusterisation and tree drawing

Apply a clusterisation method (e.g. NJ) and

build a functional similarity tree

ProDistIn : the 3 first steps

Test on the yeast proteome

• A total of 2946 direct protein-protein interactions involving 2143 proteins

• Only proteins with at least 3 interactors are considered further

• =>Classification of 602 yeast proteins (10% of the proteome)

• Double-hybrid screens (Fromont-Racine et al., Uetz et al., Ito et al.)

• literature (via MIPS and YPD)

• Information Extraction on Medline yeast abstracts

Data from :

RESULT :

FUNCTIONAL

PROXIMITY

TREE

FOR 602

YEAST

PROTEINS

Il existe maintenant des bases de données dédiées aux interactions

• Les interactions sont devenues en quelques années des données essentielles pour analyser et comprendre les fonctions des gènes et protéines

• Pour chaque organisme et dans chaque type cellulaire, il existe probablement des dizaines, centaines de milliers voire millions d’interactions moléculaires différentes

• Il est nécessaire de stocker informatiquement les données relatives aux interactions

Exemple des bases DIP et BIND …

La biologie à grande échelle conduit à un changement de vision

de la fonction des protéines

Vision classique

La fonction de la protéine A est définie par

son action de transformation du substrat (S) en produit (P)

S (Substrat)

P (Produit)

A

Nouvelle vision

A

La fonction de la protéine A est définie par

Le contexte des ses interactions avec d ’autres produits dans la

cellule

C ’EST FINI !

Le double-hybride dans la levure

Uetz et al. (2000) Nature, 403:623-627 Ito et al. (2000) PNAS, 97:1143-1147

Schächter (2002)

Le double-hybride dans la levure :bas-débit et haut-débit

Kumar and Snyder (2001)

Le double-hybride dans la levure :automatisation

PRINCIPAUX CRIBLES DOUBLE-HYBRIDE A GRANDE ECHELLE

Schachter (2002) DDT,7:S48-S54

Approche Spectrométrie de masse :

+ On peut détecter les interactions du signalling- Impératif de stabilité, solubilité, temps, concentration, taille- Approche chromosomique : pb tag des gènes essentiels

Avantages et inconvénients des deux méthodes

Approche double-hybride :

+ Mise en évidence d’interactions binaires carte d’interactions+ Automatisable- Nombreux faux positifs des appâts semblent interagir avec beaucoup de protéines car ils sont auto-activateurs, pb des proies collantes- Nombreux faux-négatifs repliement incorrect, localisation subcellulaire incorrecte, absence de modification post-traductionnelle- Ne met en évidence que les interactions « durables »

Recommended