33
Bioinformatica Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Molecolare Analisi di Dati di Analisi di Dati di Espressione Espressione 6/5/2008 6/5/2008 Stefano Forte

Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Embed Size (px)

Citation preview

Page 1: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

BioinformaticaBioinformaticaCorso di Laurea Specialistica in Biologia Cellulare e MolecolareCorso di Laurea Specialistica in Biologia Cellulare e Molecolare

Analisi di Dati di Analisi di Dati di EspressioneEspressione

6/5/20086/5/2008

Stefano Forte

Page 2: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Orario di ricevimentoOrario di ricevimento

• Stefano Forte

Lunedi e Mercoledi 10.00 – 11.00Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli)Tel. 095 7383082email: [email protected]

Page 3: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Le immaginiLe immagini

-Acquisizione di 2 immagini (una per ogni lunghezza d’onda/dye)

-In fase di acquisizione si cerca di bilanciare i due canali.

-Identificazione degli spots (corrispondente ad matrice testuale 2d tramite una griglia di spots)

-Calcolo e sottrazione del background

-Flaging automatico e manuale delle immagini

-Produzione dei log ratios

Log Sample1

Sample2

Page 4: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Preprocessing dei DatiPreprocessing dei Dati

• Dai raw data dobbiamo estrarre l’informazione. Per evitare di estrarre informazioni sbagliate dobbiamo cercare di eliminare l’influenza dell’errore sperimentale

Nella cellula (condizione reale)

sample1 sample2

Gene A 30 30

Gene B

Gene C

10

50

30

20

Nei risultati (condizione dedotta)

sample1 sample2

Gene A 30 45

Gene B

Gene C

10

50

45

30

=

-

+

-

-

+

Il sample2 viene sovrastimato di 1,5 volte. Per riportare i valori alla normalità basta dividere ogni valore per 1,5NORMALIZZAZIONE

Page 5: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Preprocessing dei DatiPreprocessing dei Dati

• Normalizzazione: processing dei dati all’interno della stessa ibridazione.

• Standardizzazione (o Normalizzazione tra gli array): processing dei di tutti gli esperimenti (rende i dati paragonabili tra loro e quindi utilizzabili nello stesso processo di analisi)

Page 6: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

NormalizzazioneNormalizzazione

Perché normalizzare?

R

G

Ibridazione dello stesso campione su due canali

L’allontanamento dalla linea x=y è dovuto a errori random e sistematici

Page 7: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

NormalizzazioneNormalizzazione

Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della standardizzazione) rappresenta una diversa sorgente?

Selezione dei geni per BIAS correction

TUTTI I GENI Assunzione: la maggior parte dei geni sono espressi in maniera uguale nelle cellule paragonate, mentre solo una piccola parte dei geni è differenzialmente espressa (<20%).

Geni Housekeeping Assunzione: sulla base della conoscenza biologica un set di geni può essere considerato come egualmente espresso nei campioni comparati.

Spiked-in controls Alcuni controlli vengono immessi nei campioni a concentrazioni note per tarare il sistema

Invariant set Un set di geni viene individuato come costante senza nessuna conoscenza biologica di partenza.

Page 8: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Metodi di normalizzazioneMetodi di normalizzazione

1) Normalizzazione globale (SCALING)

Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei chip o dei canali.

Xinorm = k*Xi

In questo modo si equalizza la media delle intensità

2) Normalizzazione intensità dipendente (Lowess o Loess - Locally Weighted Linear Regression)

Invece di un singolo fattore si utilizza una funzione che compensa i bias intesità-dipendenti.

Page 9: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

I vantaggi di LowessI vantaggi di Lowess

La normalizzazione globale è inefficace nella correzione degli errori intesità-dipendenti. Il grafico evidenzia come l’utilizzo di un singolo parametro non è sufficiente allo scopo.

A

M = log(Cy3/Cy5)

Low intensities

M<0: Cy3<Cy5

High intensities

M>0: Cy3>Cy5

Page 10: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Software ToolsSoftware Tools

• Bioconductor:pacchetto di applicazioni per il preprocessing e l’analisi dei dati microarray per l’ambiente statistico open source R

• BRB:plugin per Excel. Interfaccia intuitiva, facile da usare ma meno potente e customizzabile.

Page 11: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Analisi dei datiAnalisi dei dati

Cosa vogliamo sapere dai nostri dati?

1) Quali geni sono responsabili delle differenze tra la condizione A e la condizione B (geni differenzialmente espressi)

2) Quali geni si muovono insieme, nella modalità di espressione, all’interno di uno stesso campione (geni coespressi)

3) Esiste un “classificatore” che ci permette di riconoscere su base molecolare una data condizione?

Page 12: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Analisi dei datiAnalisi dei dati

Da cosa partiamo?

Page 13: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

ClusteringClusteringMetodiche per il raggruppamento dei geni (e dei campioni) che mostrano

un comportamento simile dal punto di vista dell’espressione. Il Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via sempre più stretti contenenti geni via via sempre più simili nell’espressione. E’ possibile quindi identificare una gerarchia ed un grado di “parentela” tra i diversi gruppi ottenuti.

Page 14: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

ClusteringClustering

• Due geni che mostrano un pattern di espressione genica simile si possono considerare coespressi.

• Ci sono evidenze che molti geni funzionalmente correlati sono coespressi. Ad esempio geni codificanti per elementi di un complesso proteico solitamente hanno simili pattern di espressione.

• Geni coespressi possono dare informazioni sui meccanismi regolatori. Se un sistema regolativo controlla due o più geni questi risulteranno essere coespressi.

Page 15: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

ClusteringClustering

Una situazione ideale

Page 16: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

La matrice di espressione è una rappresentazione dei dati da un certo numero di esperimenti di miroarray.

Each element is a log ratio(usually log 2 (Cy5 / Cy3) )

Red indicates a positive log ratio, i.e, Cy5 > Cy3

Green indicates anegative log ratio , i.e.,Cy5 < Cy3

Black indicates a logratio of zero, i. e., Cy5 and Cy3 are very close in value

Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6

Gene 1

Gene 2

Gene 3

Gene 4

Gene 5

Gene 6

Gray indicates missing data

Page 17: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Expression VectorsExpression Vectors

- Il vettore di epressione genicaè una lista che riporta tutti i valori di espressione di un dato gene su un set di esperimenti (praticamente una riga della matrice di espressione).

Page 18: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

I vettori di espressione come punti I vettori di espressione come punti nello “spazio di espressione”nello “spazio di espressione”

Experiment 1

Experiment 2

Experiment 3

Similar Expression

-0.8

-0.60.9 1.2

-0.3

1.3

-0.7Exp 1 Exp 2 Exp 3

G1G2

G3

G4

G5

-0.4-0.4

-0.8-0.8

-0.7

1.3 0.9 -0.6

Page 19: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Distanza e similarità Distanza e similarità

-the ability to calculate a distance (or similarity, it’s inverse) between two expression vectors is fundamental to clustering algorithms

-distance between vectors is the basis upon which decisions are made when grouping similar patterns of expression

-selection of a distance metric defines the concept of distance

Page 20: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

La distanza è unamisura (inversa) della similarità tra geni.

Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6

Gene A

Gene B

x1A x2A x3A x4A x5A x6A

x1B x2B x3B x4B x5B x6B

Some distances: (MeV provides 11 metrics)

1. Euclidean: i = 1 (xiA - xiB)26

2. Manhattan: i = 1 |xiA – xiB|6

3. Pearson correlation

p0

p1

Page 21: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Clustering gerarchico (HCL)Clustering gerarchico (HCL)

HCL is an agglomerative clustering method which joins similar genes into groups. The iterative process continues with the joining of resulting groups based on their similarity until all groups are connected in a hierarchical tree.

(HCL-1)

Page 22: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Hierarchical ClusteringHierarchical Clustering

g8g1 g2 g3 g4 g5 g6 g7

g7g1 g8 g2 g3 g4 g5 g6

g7g1 g8 g4 g2 g3 g5 g6

g1 is most like g8

g4 is most like {g1, g8}

(HCL-2)

Page 23: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

g7g1 g8 g4 g2 g3 g5 g6

g6g1 g8 g4 g2 g3 g5 g7

g6g1 g8 g4 g5 g7 g2 g3

Hierarchical ClusteringHierarchical Clustering

g5 is most like g7

{g5,g7} is most like {g1, g4, g8}

(HCL-3)

Page 24: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

g6g1 g8 g4 g5 g7 g2 g3

Hierarchical TreeHierarchical Tree

(HCL-4)

Page 25: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Hierarchical ClusteringHierarchical Clustering

Durante la decisione della gerarchia devono essere prese delle decisioni in merito ai clusters da collegare tra di loro.Calcolare la distanza tra due punti è facile (ad esempio usando la distanza euclidea), ma come calcolo la distanza tra due clusters? O tra un punto ed un cluster?Le regole che governano questi problemi sono i metodi di linkage.

(HCL-5)

Page 26: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Agglomerative Linkage MethodsAgglomerative Linkage Methods

Linkage methods are rules or metrics that return a value that can be used to determine which elements (clusters) should be linked.

Three linkage methods that are commonly used are:

• Single Linkage• Average Linkage• Complete Linkage

(HCL-6)

Page 27: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Cluster-to-cluster distance is defined as the minimum distance between members of one cluster and members of the another cluster. Single linkage tends to create ‘elongated’ clusters with individual genes chained onto clusters.

DAB = min ( d(ui, vj) )

where u A and v Bfor all i = 1 to NA and j = 1 to NB

Single LinkageSingle Linkage

(HCL-7)

DAB

Page 28: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Cluster-to-cluster distance is defined as the average distance between all members of one cluster and all members of another cluster. Average linkage has a slight tendency to produce clusters of similar variance.

DAB = 1/(NANB) ( d(ui, vj) )

where u A and v Bfor all i = 1 to NA and j = 1 to NB

Average LinkageAverage Linkage

(HCL-8)

DAB

Page 29: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Cluster-to-cluster distance is defined as the maximum distance between members of one cluster and members of the another cluster. Complete linkage tends to create clusters of similar size and variability.

DAB = max ( d(ui, vj) )

where u A and v Bfor all i = 1 to NA and j = 1 to NB

Complete LinkageComplete Linkage

(HCL-9)

DAB

Page 30: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Comparison of Linkage MethodsComparison of Linkage Methods

Single Ave. Complete(HCL-10)

Page 31: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Il K-means è un algoritmo non gerarchico di clustering.Raggruppa gli elementi in clusters omogenei ma non genera delle relazioni di parentela tra gli elementi o tra i clusters.

Questo algoritmo ha bisogno di avere una conosceza a-priori del numero di clusters da produrre.

K-Means / K-Medians Clustering (KMC)– 1K-Means / K-Medians Clustering (KMC)– 1

Page 32: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

1. Specificare il numero dei clusters, ad esempio 5.

2. Assegnare, in maniera casuale, ogni punto ad un cluster.

G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13

K-Means / K-Medians Clustering (KMC)– 1K-Means / K-Medians Clustering (KMC)– 1

Page 33: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

K-Means Clustering – 2K-Means Clustering – 2

3. Calcolare media o mediana degli elementi in ogni cluster.

4. Riassegnare gli elementi a cluster in modo tale che ogni elemento venga assegnato al cluster il cui valore medio o mediano è il più vicino al valore di quel elemento.

G1 G2G3 G4 G5G6

G7

G8 G9G10

G11

G12

G13

5. Ripetere i passi 3 e 4 finche i geni si stabilizzano (non cambiano più cluster da una iterazione ad un’altra) o finchè si raggiunge un numero massimo di iterazioni stabilito dall’utente.

K-Means / K-Medians is most useful when the user has an a-priori hypothesis about the number of clusters the genes should group into.