Bioinformatics – Functional Genomics – Dr. Víctor Treviño

MICROARRAYS EXCERSIZE - GEO

Bioinformatics – Functional Genomics – Dr. Víctor Treviño

[email protected]

DESCARGUE

MeV del sitio de TM4 (www.tm4.org)

[email protected]

DATOS DE GEO (GENE EXPRESSION OMNIBUS, NCBI)

GEO es una base de datos genérica en formato “standard” para almacenar y compartir datos de microarreglos

Como ejemplo vamos a buscar datos de Cáncer de Mama Busque “Breast Cancer” en

GEO Filtre para “Homo Sapiens” Seleccione Series Agregue “Schmidt” en el

query (deben aparecer 3) Localice Schmidt-Gehrmann-

Breast-GSE11121

[email protected]

TIPOS DE DATOS EN GEO

ARCHIVO/ID

CONTENIDO

GSM… Muestra

GPL… Plataforma: Información del diseño del microarreglo

GSE… Matriz de datos, Serie Original proporcionada por autores

GDS… Data Set : Procesado por el NCBI, análisis básico ya hecho

Otros Información adicional proporcionada por autores Descargue el Series Matrix File

Algo de ayuda del archivo

[email protected]

CONOCIENDO EL ARCIVO GSE

Descomprima el GSE11121...gz

Abra en Excel el archivo GSE11121_series_matrix.txt (texto, delimitado)

Comentatios con (!) Serie Samples

Datos normalizados por arreglo

Datos NO Normalizados entre arreglos

Cada columna es una muestra (GSM…)

Cada renglón es un gen

[email protected]

USO DE MEV

Abra MeV Use FileLoad Data MeV puede leer archivos de

diferentes formatos El nuestro es de tipo

Affymetrix pero obtenido desde GEO

Use Select File Loader GEO Files

Use “Spotted” para que no cambie los datos.

MeV manual … “In addition to being

formatted correctly, the input data should already be normalized.”

[email protected]

VISUALIZANDO DATOS EN MEV

Muestras en horizontal

Genes en Vertical Color en la

Intersección es el valor de intensidad Cambio de colores

(Scheme) Y escalas (Scale)

Use valores cercanos al Lower, MidPoint y Upper

[email protected]

NORMALIZACIÓN CON MEV

Siempre vea “Expression Image”

Realice la operación Log2 (si los datos no son ya logaritmicos) Adjust Log Trans.. Log2

Ahora nos falta normalizar entre arreglos usamos… Adjust Sample

Normalize Samples Esto “Estandariza” los datos vij = (vij – mean(vi)) / sd(vi) Donde “i” es la muestra y “j”

es el gen

[email protected]

CAMBIE LIMITES

Ajuste la visualización para que muestre Verde = Valores de

expresión “BAJOS” Negro = Valores de

expresión “Medios” Rojo = Valores de

Expresión “ALTOS” Límites “Prácticos”

menores que los extremos

Considere los valores de sus datos (encerrados en óvalos)

+4.21 (máximo)Mínimo -4.31

0.0550% datos (mediana)

“Distribución”De los datos

[email protected]

AGRUPANDO MUESTRAS

Dado que leímos un GEO, las muestras no aparecen agrupadas en MeV, tenemos que indicar cuales son nuestros grupos de muestras para poder hacer operaciones estadísticas

Para agrupar muestras… Use Cluster Manager Sample

Clusters Use el botón Cluster by List

Import

En el texto puede pegar las muestras que desee agrupar

Tiene que pegarlas EXACTAMENTE como aparecen en MeV (incluso comillas si estas aparecen)

[email protected]

AGRUPANDO MUESTRAS Para hacer los grupos requiere

de información clínica o relacionada a las muestras del experimento Por ejemplo, puede guiarse del

mismo archivo GSE… data matrix.txt y de los renglones “samples characteristics”

1. Copiar y pegar especial (transposed) muestras e información clínica y los nombres

2. Ordenar por carácterística (grade)

3. Agregar Comillas (usando la función concatenate)

1. =CONCATENATE("""",B2,"""")

4. Tomar los nombres de las muestras y ponerlos en el “Cluster Paste List” de Mev”, Use OK

5. Use Store Cluster y especifique el Nombre (Label) y Color del grupo

1

2

5

3

4

[email protected]

GENES DIFERENCIALMENTE EXPRESADOS : T-TEST

Statistics->T-test Between Subjetcs

Para comparar un grupo vs otro

Variance Asumption Usar Unequal variance Para que sea mas “general”

P-Value Parameters 0.05 cuando se hace 1

prueba, saldrán 5% de falsos

Vamos a hacer + 20,000 pruebas t, tenemos que fijar el valor crítico mucho mas abajo

Usar 0.00005 = (1/20000) o incluso menor

[email protected]

VISUALIZACION DE GENES SIGNIFICATIVOS

Información General

Use t-Test Expression Image Significant Genes

Se ve clara la diferencia?No están muy bien “ordenados” verdad?

[email protected]

VISUALIZACION DE GENES SIGNIFICATIVOS – AGRUPAMIENTO JERÁRQUICO

Establezca los genes significativos como la “fuente de datos activa” usando botón derecho y Set as Data Source (debe enmarcarse en verde indicando la activación) Use ClusteringHierarchical

Active las 2 casillas de “Tree Selection” : Gene Tree y Sample TreeUse Euclidean DistanceUse “Average Linkage”(vea siguiente diapositiva para explicación)

[email protected]

QUE ES AGRUPAMIENTO O CLUSTERING ?

Clustering son métodos de agrupar objetos mediante la similitud de sus propiedades Por ejemplo puedo agrupar autos

en base a su color, forma, tamaño, desempeño o potencia

También los puedo agrupar considerando todas las carácterísticas al mismo tiempo

Para agrupar objetos por similitud, requerimos una función de “similitud” o en su caso, una función de distancia

Una medida de distancia tipica es la distancia euclideana

Cual es la distancia entre los puntos A y B ?

A

B

-2 +3

+3

+1

€

(x1 − x2)2 + (y1 − y2)

2

[email protected]

COMO SE FORMAN LOS GRUPOS (CLUSTERS) ?

Como podrías agrupar los objetos del A a la G ?

Que grupos se forman? Claramente A+B+C vs

F+G+E Donde ponemos a D ?

Junto A+B+C o junto F+G+E ?

Observa el cluster ABC, A y B están muy juntos, deberíamos separar a C ?

A B

-2 +3

+3

+1

€

(x1 − x2)2 + (y1 − y2)

2

C

D

E

FG

[email protected]

AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL CLUSTERING

El método de agrupamiento jerárquico considera y resuelve las cuestiones observadas

Se basa en calcular una matriz de distancias

Luego agrupa todos los pares de muestras más cercanas (cuya distancia sea mínima) Por ejemplo AB, luego FG

Luego va uniendo las sobrantes dependiendo de la distancia y el método de ligamiento (linkage) Más cercano (single linkage) Más lejano (complete linkage) Promedio (average linkage)

Mas usado en genómica funcional E se uniría a FG luego C a AB Luego D a EFG y luego DEFG a ABC

A B

-2

+3

+3

+1

€

(x1 − x2)2 + (y1 − y2)

2

C

D

E

FG

A BCDEF G

[email protected]

A B C D E FB 0.50C 1.41 1.12D 2.69 3.16 4.03E 4.27 4.74 5.02 2.92F 4.92 5.39 5.59 3.61 0.71G 4.59 5.03 5.15 3.58 0.75 0.56

AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL CLUSTERING

X YA 2.5 3B 3 3C 3.5 2D 0 4E -1.5 1.5F -2 1G -1.5 0.75

Matriz de DistanciasDatos

Promedio = 1.265Promedio = 3.3

[email protected]

MUCHOS GENES Y MUESTRAS - DISTANCIA EN HYPERPLANOS

En nuestro caso un objeto (A o B) podría ser la muestra o el gen.

Si el objeto es la muestra, tenemos 1223 genes dif. Exp., ¿como calculamos la distancia euclideana?

Donde Xij es la expresión del gen j en la muestra i o k

Luego se obtiene la matriz de distancias y luego el árbol jerárquico

En 2 dimensiones, cual es la distancia entre los puntos A y B ?

A

B

-2 +3

+3

+1€

(x1 − x2)2 + (y1 − y2)

2

€

(x ij − xkj )2∑

[email protected]

VER ÁRBOL DE AGRUPAMIENTO JERÁRQUICO (HIERARCHICAL CLUSTERING)

Seleccione HCL(2) HCL Tree

Grupo mayoritariamente Grado 3

Grado 1Grado 3Grado 2


Clustering por Muestras

Clustering Por Genes

[email protected]

HIERARCHICAL CLUSTERING- GENES DIF. EXPRESADOS



Genes expresados “BAJO” en Grupo 3 y “ALTO” en Grupo 1


[email protected]




Genes expresados “ALTO” en Grupo 3 y “BAJO” en Grupo 1


[email protected]




Genes con poca diferencia podrían ser “falsos”


Documents

Bioinformatics – Functional Genomics – Dr. Víctor Treviño