Upload
manuelita-robledo
View
132
Download
2
Embed Size (px)
Citation preview
MICROARRAYS EXCERSIZE - GEO
Bioinformatics – Functional Genomics – Dr. Víctor Treviño
DATOS DE GEO (GENE EXPRESSION OMNIBUS, NCBI)
GEO es una base de datos genérica en formato “standard” para almacenar y compartir datos de microarreglos
Como ejemplo vamos a buscar datos de Cáncer de Mama Busque “Breast Cancer” en
GEO Filtre para “Homo Sapiens” Seleccione Series Agregue “Schmidt” en el
query (deben aparecer 3) Localice Schmidt-Gehrmann-
Breast-GSE11121
TIPOS DE DATOS EN GEO
ARCHIVO/ID
CONTENIDO
GSM… Muestra
GPL… Plataforma: Información del diseño del microarreglo
GSE… Matriz de datos, Serie Original proporcionada por autores
GDS… Data Set : Procesado por el NCBI, análisis básico ya hecho
Otros Información adicional proporcionada por autores Descargue el Series Matrix File
Algo de ayuda del archivo
CONOCIENDO EL ARCIVO GSE
Descomprima el GSE11121...gz
Abra en Excel el archivo GSE11121_series_matrix.txt (texto, delimitado)
Comentatios con (!) Serie Samples
Datos normalizados por arreglo
Datos NO Normalizados entre arreglos
Cada columna es una muestra (GSM…)
Cada renglón es un gen
USO DE MEV
Abra MeV Use FileLoad Data MeV puede leer archivos de
diferentes formatos El nuestro es de tipo
Affymetrix pero obtenido desde GEO
Use Select File Loader GEO Files
Use “Spotted” para que no cambie los datos.
MeV manual … “In addition to being
formatted correctly, the input data should already be normalized.”
VISUALIZANDO DATOS EN MEV
Muestras en horizontal
Genes en Vertical Color en la
Intersección es el valor de intensidad Cambio de colores
(Scheme) Y escalas (Scale)
Use valores cercanos al Lower, MidPoint y Upper
NORMALIZACIÓN CON MEV
Siempre vea “Expression Image”
Realice la operación Log2 (si los datos no son ya logaritmicos) Adjust Log Trans.. Log2
Ahora nos falta normalizar entre arreglos usamos… Adjust Sample
Normalize Samples Esto “Estandariza” los datos vij = (vij – mean(vi)) / sd(vi) Donde “i” es la muestra y “j”
es el gen
CAMBIE LIMITES
Ajuste la visualización para que muestre Verde = Valores de
expresión “BAJOS” Negro = Valores de
expresión “Medios” Rojo = Valores de
Expresión “ALTOS” Límites “Prácticos”
menores que los extremos
Considere los valores de sus datos (encerrados en óvalos)
+4.21 (máximo)Mínimo -4.31
0.0550% datos (mediana)
“Distribución”De los datos
AGRUPANDO MUESTRAS
Dado que leímos un GEO, las muestras no aparecen agrupadas en MeV, tenemos que indicar cuales son nuestros grupos de muestras para poder hacer operaciones estadísticas
Para agrupar muestras… Use Cluster Manager Sample
Clusters Use el botón Cluster by List
Import
En el texto puede pegar las muestras que desee agrupar
Tiene que pegarlas EXACTAMENTE como aparecen en MeV (incluso comillas si estas aparecen)
AGRUPANDO MUESTRAS Para hacer los grupos requiere
de información clínica o relacionada a las muestras del experimento Por ejemplo, puede guiarse del
mismo archivo GSE… data matrix.txt y de los renglones “samples characteristics”
1. Copiar y pegar especial (transposed) muestras e información clínica y los nombres
2. Ordenar por carácterística (grade)
3. Agregar Comillas (usando la función concatenate)
1. =CONCATENATE("""",B2,"""")
4. Tomar los nombres de las muestras y ponerlos en el “Cluster Paste List” de Mev”, Use OK
5. Use Store Cluster y especifique el Nombre (Label) y Color del grupo
1
2
5
3
4
GENES DIFERENCIALMENTE EXPRESADOS : T-TEST
Statistics->T-test Between Subjetcs
Para comparar un grupo vs otro
Variance Asumption Usar Unequal variance Para que sea mas “general”
P-Value Parameters 0.05 cuando se hace 1
prueba, saldrán 5% de falsos
Vamos a hacer + 20,000 pruebas t, tenemos que fijar el valor crítico mucho mas abajo
Usar 0.00005 = (1/20000) o incluso menor
VISUALIZACION DE GENES SIGNIFICATIVOS
Información General
Use t-Test Expression Image Significant Genes
Se ve clara la diferencia?No están muy bien “ordenados” verdad?
VISUALIZACION DE GENES SIGNIFICATIVOS – AGRUPAMIENTO JERÁRQUICO
Establezca los genes significativos como la “fuente de datos activa” usando botón derecho y Set as Data Source (debe enmarcarse en verde indicando la activación) Use ClusteringHierarchical
Active las 2 casillas de “Tree Selection” : Gene Tree y Sample TreeUse Euclidean DistanceUse “Average Linkage”(vea siguiente diapositiva para explicación)
QUE ES AGRUPAMIENTO O CLUSTERING ?
Clustering son métodos de agrupar objetos mediante la similitud de sus propiedades Por ejemplo puedo agrupar autos
en base a su color, forma, tamaño, desempeño o potencia
También los puedo agrupar considerando todas las carácterísticas al mismo tiempo
Para agrupar objetos por similitud, requerimos una función de “similitud” o en su caso, una función de distancia
Una medida de distancia tipica es la distancia euclideana
Cual es la distancia entre los puntos A y B ?
A
B
-2 +3
+3
+1
€
(x1 − x2)2 + (y1 − y2)
2
COMO SE FORMAN LOS GRUPOS (CLUSTERS) ?
Como podrías agrupar los objetos del A a la G ?
Que grupos se forman? Claramente A+B+C vs
F+G+E Donde ponemos a D ?
Junto A+B+C o junto F+G+E ?
Observa el cluster ABC, A y B están muy juntos, deberíamos separar a C ?
A B
-2 +3
+3
+1
€
(x1 − x2)2 + (y1 − y2)
2
C
D
E
FG
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL CLUSTERING
El método de agrupamiento jerárquico considera y resuelve las cuestiones observadas
Se basa en calcular una matriz de distancias
Luego agrupa todos los pares de muestras más cercanas (cuya distancia sea mínima) Por ejemplo AB, luego FG
Luego va uniendo las sobrantes dependiendo de la distancia y el método de ligamiento (linkage) Más cercano (single linkage) Más lejano (complete linkage) Promedio (average linkage)
Mas usado en genómica funcional E se uniría a FG luego C a AB Luego D a EFG y luego DEFG a ABC
A B
-2
+3
+3
+1
€
(x1 − x2)2 + (y1 − y2)
2
C
D
E
FG
A BCDEF G
A B C D E FB 0.50C 1.41 1.12D 2.69 3.16 4.03E 4.27 4.74 5.02 2.92F 4.92 5.39 5.59 3.61 0.71G 4.59 5.03 5.15 3.58 0.75 0.56
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL CLUSTERING
X YA 2.5 3B 3 3C 3.5 2D 0 4E -1.5 1.5F -2 1G -1.5 0.75
Matriz de DistanciasDatos
Promedio = 1.265Promedio = 3.3
MUCHOS GENES Y MUESTRAS - DISTANCIA EN HYPERPLANOS
En nuestro caso un objeto (A o B) podría ser la muestra o el gen.
Si el objeto es la muestra, tenemos 1223 genes dif. Exp., ¿como calculamos la distancia euclideana?
Donde Xij es la expresión del gen j en la muestra i o k
Luego se obtiene la matriz de distancias y luego el árbol jerárquico
En 2 dimensiones, cual es la distancia entre los puntos A y B ?
A
B
-2 +3
+3
+1€
(x1 − x2)2 + (y1 − y2)
2
€
(x ij − xkj )2∑
VER ÁRBOL DE AGRUPAMIENTO JERÁRQUICO (HIERARCHICAL CLUSTERING)
Seleccione HCL(2) HCL Tree
Grupo mayoritariamente Grado 3
Grado 1Grado 3Grado 2
Grupo mayoritariamente Grado 1
Clustering por Muestras
Clustering Por Genes
HIERARCHICAL CLUSTERING- GENES DIF. EXPRESADOS
Grupo mayoritariamente Grado 3
Grupo mayoritariamente Grado 1
Genes expresados “BAJO” en Grupo 3 y “ALTO” en Grupo 1
Grado 1Grado 3Grado 2
HIERARCHICAL CLUSTERING- GENES DIF. EXPRESADOS
Grupo mayoritariamente Grado 3
Grupo mayoritariamente Grado 1
Genes expresados “ALTO” en Grupo 3 y “BAJO” en Grupo 1
Grado 1Grado 3Grado 2
HIERARCHICAL CLUSTERING- GENES DIF. EXPRESADOS
Grupo mayoritariamente Grado 3
Grupo mayoritariamente Grado 1
Genes con poca diferencia podrían ser “falsos”
Grado 1Grado 3Grado 2