20
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS SUSANA RUIZ 1 y DIANA KELMANSKY 2 1 Facultad de CEFyN de la UNSJ [email protected] 2 Instituto de Cálculo de la UBA [email protected] RESUMEN En el presente trabajo se describen y comparan alternativas de estimación de transformaciones para estabilizar varianzas con aplicación a datos de microarreglos, basadas en relaciones media varianza. Se parte de propuestas de estimación de Simon Lin et al. (2008). Todas las propuestas se implementan en R y se comparan mediante un estudio intensivo de Monte Carlo. Se generan datos con una distribución de medias similar a la de datos reales de microarreglos que satisfacen un modelo con parámetros conocidos con una relación media varianza cuadrática, y también en varios escenarios de alejamiento de dicha estructura media varianza inicial. Mediante modificaciones propuestas se logra mejorar las estimaciones de transformaciones estabilizadoras de varianzas de Simon Lin et al. (2008) en casos donde la presencia de datos contaminados rompen con la estructura de la relación media varianza considerada, como también en casos donde dicha estructura es mucho más general que la planteada inicialmente. PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza. 1. INTRODUCCIÓN En muchos tipos de experimentos los datos muestran una relación entre media y varianza. Tal es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer

ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS

SUSANA RUIZ1 y DIANA KELMANSKY

2

1 Facultad de CEFyN de la UNSJ [email protected]

2 Instituto de Cálculo de la UBA [email protected]

RESUMEN

En el presente trabajo se describen y comparan alternativas de estimación de transformaciones

para estabilizar varianzas con aplicación a datos de microarreglos, basadas en relaciones

media varianza. Se parte de propuestas de estimación de Simon Lin et al. (2008). Todas las

propuestas se implementan en R y se comparan mediante un estudio intensivo de Monte

Carlo. Se generan datos con una distribución de medias similar a la de datos reales de

microarreglos que satisfacen un modelo con parámetros conocidos con una relación media

varianza cuadrática, y también en varios escenarios de alejamiento de dicha estructura media

varianza inicial. Mediante modificaciones propuestas se logra mejorar las estimaciones de

transformaciones estabilizadoras de varianzas de Simon Lin et al. (2008) en casos donde la

presencia de datos contaminados rompen con la estructura de la relación media varianza

considerada, como también en casos donde dicha estructura es mucho más general que la

planteada inicialmente.

PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza.

1. INTRODUCCIÓN

En muchos tipos de experimentos los datos muestran una relación entre media y varianza. Tal

es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se

observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza

para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento

de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer

Page 2: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

comparaciones como por ejemplo un ANAVA. En este contexto también es de interés tener

presente la posible presencia de datos contaminados que pueden afectar enormemente las

estimaciones.

Una salida al problema mencionado, de heteroscedasticidad, es transformar los datos de

manera tal que los datos transformados muestren varianza constante o al menos en forma

aproximada.

Varias transformaciones se han propuesto para estabilizar varianzas para datos de

experimentos de microarreglos. La preferida por los Biólogos es la transformación logaritmo

en base 2, debido a que es muy simple interpretar los valores transformados (Smyth et al.

(2003)). Pero esta transformación ha sido duramente criticada por su comportamiento en los

valores bajos ya que estabiliza varianza en valores altos pero infla varianzas en valores bajos

y no están definidas para valores negativos (Durbin et al.(2002)). Otras transformaciones

aplicadas son las correspondientes a la familia Box y Cox, que resultan muy inestables para

valores cercanos al cero, y no están definidas para valores negativos (Huang,S. et al, (2004)).

Como solución al problema anterior varios autores (Rocke y Durbin (2003)-Durbin et

al.(2002)- Huber et al.(2002) han propuesto trabajar con la familia de transformaciones

Logaritmo Generalizado [1], definidas para valores negativos, y que surge de considerar un

modelo de error aditivo-multiplicativo. Esta familia de transformaciones también ha sido

utilizada en el estudio de datos de concentraciones de análisis químicos.

h(y,a,b,c) = c .asinh(a.y +b) [1]

Varios métodos han sido propuestos para seleccionar un miembro de la familia de

transformaciones Logaritmo Generalizado con el objetivo de estabilizar varianzas para datos

de experimentos de microarreglos. Unos de éstos es el método VSN propuesto por Huber et

al. (2003), para estabilizar varianzas sobre microarreglos con pocos replicados técnicos de

sondas con afinidad a un mismo tipo de gen y con distribución, en cada microarreglo, en

lugares fijos. Otro método es el método VST, propuesto por Simón Lin et al.(2008), para

estabilizar varianzas sobre microarreglos con mayor número de replicados técnicos que los

diseños convencionales. Este grupo de científicos, destacado por sus aportes en esta área,

comparan el método VST bajo la implementación propuesta por Pan Du y Simón Lin (2008),

en R, con los métodos VSN y la transformación log2, y concluyen en su trabajo que el método

VST resulta ser más apropiado para estabilizar varianzas para datos de experimentos de

Page 3: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

microarreglos con las características de tener 30 o más réplicas técnicas de sondas con

afinidad a un mismo tipo de gen y con distribución aleatoria sobre el soporte (Lin et

al.(2008)).

Por otro lado la transformación Logaritmo Generalizado ha sido criticada por Speed (2003),

debido a su comportamiento en los valores altos. Speed comenta que esta transformación es

muy severa en estos valores y cuando uno transforma los datos lo que hace es invertir la

heteroscedasticidad. Como solución a este problema, más recientemente las Dras. Diana

Kelmansky y Elena Martínez han propuesto que se trabaje con la familia de transformaciones

de Potencia Generalizada [2], que contiene al Logaritmo Generalizado entre uno de sus

miembros así como la familia Box y Cox contiene al logaritmo natural entre sus miembros

(Kelmansky D.M. y Martinez E.J. (2010)) .

. [2]

Teniendo en cuenta los antecedentes mencionados y las problemáticas planteadas, el objetivo

general de este trabajo es la de proponer y estudiar alternativas metodológicas que puedan

mejorar el método y la implementación propuestos por Simón Lin y colegas, en el año 2008,

para estabilizar varianzas para datos de experimentos de microarreglos.

2. METODOLOGÍAS

Los métodos que se emplean en este trabajo son:

2.1. Método VST: Simón Lin et al. (2008) proponen el método VST para estimar

transformaciones que estabilicen varianzas en forma asintótica, dentro de la familia de

transformaciones logaritmo generalizado. Los autores a partir de considerar un modelo de

error aditivo multiplicativo para intensidades sobre microarreglos (Rocke y Durbin (2001),

Huber et al. (2003)),

y = a + b . m. eη + ε, [3]

donde: η y ε son variables aleatorias independientes, con distribución unimodal, simétrica,

con media cero y varianza finita; muestran que la relación media-varianza responde a una

relación cuadrática ,

Page 4: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

vu=(c1 .u +c2)2+c3 , [4]

tal que a medida que la media de intensidades, u, aumenta la varianza vu también; y proponen

estimar la transformación estabilizadora de varianzas asintótica, que responde a la forma de

una transformación Logaritmo Generalizado cuando el parámetro c3 es positivo, cuya

expresión general es dada en [5], modelando la relación media varianza (Lin S. et al. (2008)).

. [5]

Para la estimación de la transformación los autores sugieren además seguir con los siguientes

pasos:

1) estimar c3, teniendo en cuenta que representa la varianza de intensidades de sondas de

fondo (es decir: sondas asociadas a genes que no se expresan).

2) Estimar los parámetros c1 y c2 por ajuste lineal teniendo en cuenta que la relación

media varianza [4] puede ser reescrita de la siguiente manera: =c1 u + c2,

para c3.

3) Por último, estimar la transformación estabilizadora de varianzas asintótica, dada en

[5], reemplazando los parámetros c1, c2 y c3 por los valores obtenidos en los pasos

anteriores.

Respecto a la implementación de este método en R, según la propuesta dada por Pan Du y

Simon Lin (2008), se observa que dada una muestra aleatoria de intensidades sobre un mismo

microarreglo,

para k =1, ...,K genes, donde yki representa la intensidad asociada al

gen k en la réplica i, el procedimiento considera como datos de entrada a un conjunto de

pares de valores media-varianza estimadas de intensidades para cada tipo de gen k, con

k=1,2,..,K, , cuyos cálculos se obtienen según [6] y [7], luego de eliminar

datos extremos según el criterio 3-MAD .

= = [6]

= =

. [7]

Page 5: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

En la implementación del método VST, el procedimiento por defecto, que denominamos en

este trabajo “VST-2 iter”, parte considerando c3=0 como estimación inicial. Luego a) estima

c1 y c2 por ajuste lineal, utilizando mínimos cuadrados. Posteriormente b) estima c3, a través

de una media aritmética truncada al 5% en ambos extremos, de la diferencias

para cada gen k. Si la estimación de c3 resulta un valor positivo, los pasos a) y

b) los aplica dos veces más en forma iterativa; mientras que si resulta un valor negativo, este

lo cambia, lo iguala a 0 (cero) y da por concluido el proceso de estimación.

Respecto al procedimiento alternativo en la implementación propuesta, la denominamos en

este trabajo VST p-valor , ya que a diferencia del procedimiento anterior, este además

considera como valores de entrada un conjunto de p-valores de detección asociados a cada

tipo de gen, { , con 0 ≤ pk ≤ 1, que resultan de realizar pruebas de comparación de

medias de intensidades, donde para cada gen k se compara el valor medio de intensidades

respecto a la media de intensidades de sondas de control negativo (sondas

termodinámicamente preparadas y distribuidas sobre el soporte de tal forma que no haya

hibridación específica, sus señales son muy similares a las señales de sondas de fondo). En las

pruebas de comparación de medias se asume que la variable intensidad asociada a sondas de

control negativo se distribuye normalmente con media y varianza conocidas. A partir del

conjunto de valores de entrada, se estima c3 a través de una media aritmética de los valores de

varianza estimada asociada a sondas cuyos p-valores son mayores que un cierto umbral, 0.01

es el valor que se toma por defecto, ; mientras que c1 y c2 se estiman, de la

misma forma que el proceso anterior, por ajuste lineal utilizando mínimos cuadrados.

Teniendo en cuenta esta implementación definidas en R, uno puede observar que ante la

presencia de datos contaminados, que pueden afectar a los valores de entrada: estimar c3 a

través de una media aritmética o estimar c1 y c2 por ajuste lineal por mínimos cuadrados

pueden resultar valores muy alejados de los valores verdaderos, ya que tanto la media

aritmética como los estimadores por mínimos cuadrados son muy sensibles a la presencia de

datos contaminados. Por otro lado, en el proceso iterativo se estima c3 a través de una media

aritmética truncada utilizando las diferencias , para k=1,2,..,K, tanto

positivas como negativas. Consideramos, en este trabajo, la posibilidad de que no tengan

sentido tener en cuenta las diferencias negativas desde el sólo hecho que se quiere estimar el

parámetro c3 que representa un valor de varianza y por lo tanto nunca puede tomar valores

Page 6: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

negativos. A partir de estas observaciones se generan nuevas propuestas de implementación

del método VST, que tienen como base las implementaciones originadas dadas en R, y lo que

se realiza son pequeñas modificaciones en cuanto a cómo se estiman los parámetros. Así

resultan:

i) Teniendo en cuenta el proceso “VST-p valor”:

Propuesta 1: “VST p-valor-mediana” propone estimar c3, en lugar de aplicar una media

aritmética, utilizando la mediana de los valores de varianza estimada.

Propuesta 2: “VST p-valor-LTS” estima c1 y c2 por ajuste lineal, en lugar de aplicar mínimos

cuadrados, utiliza mínimos cuadrados truncados, es decir un ajuste lineal LTS cuyas

estimaciones son más resistentes a la presencia de datos contaminados.

ii) Teniendo en cuenta el proceso iterativo “VST-2 iter”:

Propuesta 3: “VST 2iter-MEDIA TRIM(dk > 0)” estima el parámetro c3 sólo considerando

las diferencias positivas.

Propuesta 4: “VST 2-iter -MEDIANA(dk > 0)” estima el parámetro c3 a través de la mediana

de las diferencias positivas.

Propuesta 5: “ VST 2-iter - LTS” estima c1 y c2 por ajuste lineal LTS.

Propuesta 6: “VST 2iter-MEDIA TRIM(dk > 0)-LTS” que surge de combinar la Propuestas 3

y 5.

Propuesta 7: “VST 2-iter -MEDIANA(dk > 0)-LTS” que surge de combinar las Propuestas 4

y 5.

2.2. Método Resistente: El Método Resistente se basa en la aplicación del método de Máxima

Verosimilitud, y postula como modelo adecuado a: , donde G es la

transformación verdadera, que se asume dentro de la familia de Potencia Generalizada con

parámetro P próximo a 0 [2], es la intensidad asociada a sondas con afinidad al gen

especifico k en la réplica i, es el nivel de expresión media en escala transformada para el

gen k, y es el término de error, componente aleatoria que se sume con distribución normal,

media 0 y varianza constante. Los parámetros a estimar son correspondientes a la

transformación que se asume verdadera, para cada tipo de gen, y la varianza del término

de error.

Page 7: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Como los estimadores por máxima verosimilitud son sensibles a desviaciones de normalidad

y a la presencia de datos contaminados, este método propone como estimadores de los niveles

de expresión media para cada tipo de gen para k=1,..,K, y la varianza del término de error ,

a los que se obtienen de maximizar la función log-verosimilitud, dada en [8], considerando

valores fijos, previa eliminación de datos extremos, y cuyas expresiones respectivas

se muestran en [9] y [10].

[8]

[9]

. [10]

Posteriormente se obtienen los estimadores de los parámetros de la transformación

( maximizando una expresión modificada de la log-verosimilitud, dada en [11], que

resulta de reemplazar las expresiones de los estimadores de [9], para cada gen k, y la

varianza del término de error [10], y luego considerar sólo aquellos datos correspondientes a

los genes cuya suma de residuos al cuadrado resulten ser más bajos. Este criterio está

relacionado con el criterio utilizado en ajustes lineales LTS (ajustes lineales por mínimos

cuadrados truncados) para obtener estimaciones más resistentes ante la presencia de datos

contaminados.

[11]

Respecto al proceso que se define para implementar este método, en términos generales, se

puede detallar los siguientes pasos:

1. Hacer CK0={1,2,…,K} conjunto inicial de genes.

2. Para cada kϵ CK0 considerar el conjunto de intensidades yki, con i=1,2,…,n(k), y definir un

nuevo conjunto

eliminando datos extremos.

3. Seleccionar valores iniciales de y P.

4. Calcular

, para k=1,2,…,K.

Page 8: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

5. Para cada k, con k=1,2,…,K, calcular la suma de cuadrados de residuos

.

6. Ordenar los valores , para k=1,2,…,K:

.

7. Determinar el conjunto CKqlts={t(j)ϵ CK0: <=Q

*qlts}, donde qlts es un valor tal

que 0.5<qlts<1, y Q*

qlts es aquel cuantil que deja el (qlts.100)% de los valores

sr2(sumas de residuos al cuadrado) más pequeños a la izquierda.

8. Hallar que maximiza .

9. Mientras no se cumpla algún criterio de convergencia o no se alcance una cantidad

máxima de iteraciones preestablecida, volver a 4. Considerando P)= .

3. RESULTADOS Y DISCUSIÓN

Para comparar las distintas propuestas metodológicas de estimación de transformaciones

estabilizadoras de varianzas ya presentadas en la sección anterior, tanto para datos reales

como simulados, con errores normales y normales contaminados, se dispone inicialmente de

datos reales correspondientes a cuatro muestras bilógicas que contienen información sobre

diluciones de sangre y placenta humana. Los datos son de Barnes y se pueden acceder a ellos

desde internet o desde R bajando la librería “lumi”. Para las simulaciones, en términos

generales, se generan datos de tal forma que posean una distribución de frecuencias y un

rango de valores similares a los extraídos experimentalmente, la transformación adecuada sea

conocida, perteneciente a la familia de Potencia Generalizada con parámetro P próximo a

cero, y permitan evaluar las distintas propuestas metodológicas que se desean comparar.

Respecto a los datos contaminados, estos se generan de tal forma que rompan con la

estructura de relación media varianza, tanto para intensidades bajas como también para

intensidades medias altas, en niveles de contaminación del 0, 5 y hasta un 10%.

Específicamente los escenarios de simulación para las comparaciones corresponden a datos de

microarreglos con la característica de tener 30 o más réplicas técnicas de sondas con afinidad

a un mismo tipo de gen, con distribución aleatoria sobre el soporte; la cantidad de genes que

se consideran en un solo microarreglo es de 1000 ó 8000 ( bajo selección aleatoria); la

cantidad de microarreglos por simulación es uno; y el software sobre la cual se trabaja es R,

ya que es libre, gratuito y la mayoría de los científicos la utilizan para realizar sus aportes en

esta área.

Para las comparaciones este trabajo se organiza en dos etapas. En la primera etapa donde se

comparan las distintas implementaciones del método VST, trabajando con datos reales y

Page 9: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

simulados con errores normales y normales contaminados, asumiendo como transformación

adecuada a miembros de la familia de Potencia Generalizada con parámetro P=0. Mientras

que en la segunda, se comparan implementaciones del método VST con la respectiva al

método Resistente, trabajando con datos simulados, con errores normales y normales

contaminados y asumiendo como transformación adecuada a miembros de la familia de

Potencia Generalizada con parámetro P próximo a 0.

Respecto a las simulaciones, en la primer etapa del trabajo, se generan datos de tal forma que

respondan al modelo planteado en la siguiente igualdad:

, [12]

donde

para transformación

estabilizadora a estimar perteneciente a la familia de Potencia Generalizada con parámetro

P=0, es el nivel de expresión media en escala transformada para el gen k y es el

término de error, componente aleatoria que se asume con distribución normal, media cero y

varianza constante.

En la segunda etapa se asume como modelo adecuado a

similar al dado en [12] salvo que la transformación estabilizadora de varianzas a estimar es un

miembro de la familia de Potencia Generalizada dada en [2] con parámetro P próximo a 0,

.

Respecto a los datos contaminados, estos se generan de tal forma que rompan con la

estructura de relación media-varianza, tanto para intensidades bajas (ver Figura 1), como

también, para intensidades medias-altas (ver Figura 2), en niveles de contaminación del 0, 5 y

hasta un 10%.

Page 10: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Figura 1

Figura 2

Para ello en la primer etapa del trabajo, se reemplazan un cierto porcentaje de pares de valores

media varianza-estimada para k=1…K, por nuevos pares de valores

tal que

y positivo. Se consideran alternativas de definición de la discrepancia, ,

entre la varianza estimada y la “inflada” , de tal forma que el rango de valores esté dentro del

rango de valores que se puede observar. Las expresiones alternativas que se consideran son: i)

, ii)

} .

Mientras que en la segunda etapa, se generan pseudo-datos aleatorios ϵ

, en escala transformada, bajo una distribución normal con media y varianza

Page 11: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

constante. Los valores , para cada gen k, se generan con una distribución de frecuencia y

un rango de valores similar a los obtenidos experimentalmente. A estos datos pseudo

aleatorios, además, se le suma un término adicional, donde pk es un indicador que

puede tomar valores 0 ó 1, si toma el valor 1 quiere decir que el dato está contaminado,

mientras que si toma el valor 0 el dato esta sin contaminar. El factor representa la

amplitud diferencial entre el dato contaminado y el sin contaminar, y estos se obtienen

generando pseudo-datos aleatorios bajo una distribución uniforme,

donde representa la máxima amplitud diferencial.

El criterio que se utiliza para comparar las estimaciones de la transformación estabilizadora

de varianzas bajo las distintas propuestas metodológicas planteadas es a través del error

cuadrático medio. Para ello se realizan 1000 simulaciones, y para cada simulación se calcula

el error cuadrático medio de la transformación estimada cuya expresión de cálculo se muestra

en [12], donde N representa el número total de datos en la muestra aleatoria de intensidades ,

es la transformación verdadera y la transformación estimada. Luego se promedia

los errores y se tiene en cuenta que cuanto más pequeño es el error mejor es la estimación en

términos medios. Todas las comparaciones se realizan bajo una misma escala.

[12 ]

Los resultados obtenidos en la primer etapa del trabajo se pueden visualizar en las Figuras 3,

4, 5 y 6. Al considerar las cuatro muestras biológicas de la base de datos Barnes, y comparar

las estimaciones de las relación media varianza aplicando los distintos procesos propuestos en

la implementación en R dada por Pan Du y Simon Lin (2008), se observa que para las

intensidades altas, los resultados son similares; mientras que a medida que las intensidades

medias van decreciendo las diferencias en las estimaciones por los distintos procesos también

(ver Figuras 4 ,5 y 6).

A partir de considerar los datos simulados se pudo apreciar mejores resultados en el proceso

iterativo VST-2iter, en términos medios, respecto al proceso VST-p valor, teniendo en cuenta

el promedio de error cuadrático medio para 1000 simulaciones, como lo muestra la Tabla 1.

Page 12: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Método VST VST p-valor VST 2-iter

0.07132273 0.02119795

Tabla 1

Teniendo en cuenta los resultados para las distintas implementaciones del método VST

(propuestas en este trabajo), considerando datos simulados, se observa en general que para

datos contaminados en niveles de contaminación del 0, 5 y hasta un 10%, los mejores

resultados se obtuvieron al aplicar las dos últimas formas de implementación del proceso

iterativo, bajo los nombres de las Propuestas 6 y 7 dadas en este escrito (ver Figuras 7 y 8).

Se detectaron algunos problemas en la estimación de los valores transformados, al trabajar

con datos contaminados en las intensidades bajas, al aplicar procesos iterativos donde utilizan

diferencias dk tanto negativas como positivas y aplican mínimos cuadrados para la estimación

de c1 y c2. También se presentaron casos, bajo un nivel de contaminación del 10%, tanto en

procesos iterativos como en los que utilizan p-valores como datos de entradas, con excepción

de las Propuestas 6 y 7, donde los errores en la estimación de c3 fueron tan grandes que el

ajuste lineal no se pudo realizar.

Bajo las Propuestas 6 y 7, según lo muestran las Figuras 7 y 8, también se observa que los

resultados en las estimaciones son bastante similares.

- Figura 3: Estimación de la relación media varianza para la base de datos A01 de

Barnes, según los procedimientos VST 2-iter y VST p-valor.

Page 13: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

- Figura 4: Estimación de la relación media varianza para la base de datos B01 de

Barnes, según los procedimientos VST 2-iter y VST p-valor.

- Figura 5: Estimación de la relación media varianza para la base de datos A02 de

Barnes, según los procedimientos VST 2-iter y VST p-valor.

Page 14: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

- Figura 6: Estimación de la relación media varianza para la base de datos B02 de

Barnes, según los procedimientos VST 2-iter y VST p-valor.

Figura 7: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático

medio para 1000 simulaciones, cuando los datos contaminados corresponden a

intensidades bajas.

Page 15: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Figura 8: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático

medio para 1000 simulaciones, cuando los datos contaminados corresponden a

intensidades medias altas.

Respecto a la segunda etapa del trabajo, se comparan el proceso iterativo bajo la

implementación original del método VST dadas en R (2008), y el método Resistente cuyos

parámetros iniciales son P=0 mientras que y se determinaron al generar pseudo-datos

aleatorios bajo una distribución uniforme y

, donde Delta representa la máxima amplitud diferencial entre el

parámetro verdadero y el inicial. Se consideran en este trabajo valores de discrepancias

=100 y =500.

Los resultados obtenidos se muestan en las Figuras 9, 10, 11, 12 y 13. Teniendo en cuenta los

errores cuadráticos medios, se pudo observar que:

- a medida que la estructura de los datos responden a una estructura de relación

media-varianza que se va alejando de la propuesta original dada por los autores del

método VST, los errores en las estimaciones para la propuesta considerada de

implementación del método VST aumentan.

- Los mejores resultados se obtienen al aplicar el método Resistente para 0.1≤P≤0.4

(ver Figura 9).

Page 16: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Trabajando con datos contaminados, tanto para intensidades bajas (q=0), como para

intensidades medias altas (q=0.75), en niveles de contaminación del 0, 5 hasta un 10%, en

general se pudo notar sensibilidad en las estimaciones, como es de esperar, para las distintas

propuestas consideradas. Esto es, a medida que el porcentaje (pc) de datos contaminados

aumenta, los errores en términos medios también (ver Figuras 10, 11, 12 y 13). Sin embargo

los mejores resultados se obtienen con el método Resistente en casos donde la estructura de la

relación media-varianza se aleja de la propuesta original dada por Simon Lin y colegas en el

año 2008 (ver Figuras 12 y 13).

Figura 9: Relación entre el parámetro P de la transformación verdadera a estimar y el error

cuadrático medio en la estimación de la transformación estabilizadora de varianzas, para

datos generados por simulación sin contaminar.

Page 17: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Figura 10: Relación entre el parámetro P de la transformación verdadera a estimar y el

error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al

aplicar el Método Resistente a datos contaminados en intensidades bajas (q=0) y

proporciones de contaminación pc=0, 0.05 y 0.1.

Figura 11: Relación entre el parámetro P de la transformación verdadera a estimar y el

error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al

aplicar el Método Resistente a datos contaminados en las intensidades medias altas (q=0.75)

y proporciones de contaminación pc=0, 0.05 y 0.1.

Page 18: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Figura 12: Resultados obtenidos al trabajar con datos simulados contaminados en las

intensidades bajas (q=0) y niveles de contaminación de 0, 5 hasta un 10% (pc=0, 0.05, 0.1)

con el objetivo de relacionar el parámetro P de la transformación verdadera a estimar y el

error cuadrático medio en la estimación de la transformación, al aplicar distintas

metodologías.

Figura13: Resultados obtenidos al trabajar con datos simulados contaminados en las

intensidades medias altas (q=0.75) y niveles de contaminación de 0, 5 hasta un 10% (pc=0,

0.05, 0.1), con el objetivo de relacionar el parámetro P de la transformación verdadera a

estimar y el error cuadrático medio en la estimación de la transformación, al aplicar

distintas metodologías.

Page 19: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

4. CONCLUSIONES

Luego de un estudio exhaustivo de Montecarlo, teniendo en cuenta los resultados de los

errores cuadráticos medios en la estimación de los parámetros de la transformación

estabilizadora de varianzas adecuada, se logra mejorar la implementación del método VST

definida por los autores de este método en R, cuando los datos responden a una estructura de

relación media-varianza cuadrática y ésta se rompe ante la presencia de datos contaminados

en niveles de contaminación de hasta un 10%.

Por otro lado se propone una nueva alternativa metodológica para estimar transformaciones

estabilizadoras de varianzas para datos de experimentos de microarreglos. El procedimiento

es el denominado método Resistente. Esta nueva alternativa muestra resultados alentadores

cuando se trabaja con datos cuya estructura de relación media varianza se aleja de la

propuesta original; como también para datos contaminados con niveles de contaminación de

hasta un 10%.

5. REFERENCIAS

DURBIN,B.P., HARDIN,J.S., HAWKINS,D.M. and ROCKE,D.M. (2002) “A variance-

stabilizing transformation for gene-expression microarray data”. Bioinformatics, 18(Suppl. 1),

S105–S110.

HUANG,S., YEO,A.A., GELBERT,L., LIN,X., NISENBAUM,L. and BEMIS,K.G. (2004)

“At what scale should microarray data be analyzed?” Am. J. Pharmacogenomics, 4, 129–139.

HUBER W., HEYDEBRECK A., SUELTMANN H., POUSTKA A. and VINGRON M.

(2003) “Parameter estimation for the calibration and variance stabilization of microarray

data”. Statistical Applications in Genetics and Molecular Biology”. Volume 2, Inssue 1,

Article 3. http:/www.bepress.com/sagmb/vol2/iss1/art3.

HUBER,W., VON HEYDEBRECK,A., SULTMANN,H., POUSTKA,A. and VINGRON,M.

(2002) “Variance stabilization applied to microarray data calibration and to the quantification

of differential expression”. Bioinformatics, 18(Suppl. 1), S96–S104.

KELMANSKY D. M., MARTINEZ E.J. (2010) “Generalized Power Transformations”.

CLATSE IX –Viña del Mar –Chile-octubre 2010.

LIN S.M., PAN DU, HUBER W. and WARREN A. K. (2008) “Model-based variance-

stabilizing transformation for Illumina microarray data”. Nucleic Acids Research, 2008, Vol.

36. No 2.

Page 20: ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

ROCKE D. M. and DURBIN B.(2001). “A Model for Measurement Error for Gene

Expression Arrays”. Journal of Computational Biology. Volume 8, Number 6, 2001. Mary Ann

Liebert, Inc. Pp. 557-569.

ROCKE D. M. and DURBIN B (2003) .-“Approximate variance-stabilizing transformations

for gene-expression microarray data”. Bioinformatics, 19, 966972.

SMYTH G.K., YANG Y.H, SPEED T. (2003). “Statistical issues in cDNA microarray data

analysis”. Methods Mol Biol;224:111-36.