Aplicacion de Modelos Lineales y Lineales Generalizados

8/6/2019 Aplicacion de Modelos Lineales y Lineales Generalizados

http://slidepdf.com/reader/full/aplicacion-de-modelos-lineales-y-lineales-generalizados 1/105

UNIVERSIDAD DE READINGMAESTRIA EN BIOMETRIA

PROYECTO

“APLICACION DE MODELOS LINEALES y MODELOS LINEALESGENERALIZADOS A LA INVESTIGACIÓN AGROPECUARIA Y

FORESTAL EN EL CIAT, SANTA CRUZ, BOLIVIA”

Reading, 27 de Agosto de 2002

Diseño Completamente Aleatorizado ......................................................................303.3.1 Enunciado ............................................................................................303.3.2 Entrada de datos en GenStat: ...............................................................313.3.3 Análisis exploratorio de datos:.............................................................313.3.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................32

3.3.5 Interpretación del análisis. ...................................................................343.3.6 Programa de comandos en GenStat. ....................................................343.4 Ejemplo – 9 ..................................................................................................34Estructura factorial...................................................................................................34

3.4.1 Enunciado ............................................................................................343.4.2 Entrada de datos en GenStat ................................................................353.4.3 Análisis exploratorio de datos..............................................................353.4.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................363.4.5 Interpretación del análisis ....................................................................373.4.6 Programa de comandos en GenStat .....................................................38

3.5 Ejemplo - 10.................................................................................................39

Estructura factorial más control en bloques completos al azar................................393.5.1 Enunciado ............................................................................................393.5.2 Entrada de datos en GenStat ................................................................403.5.3 Análisis exploratorio de datos:.............................................................403.5.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................403.5.5 Interpretación del análisis. ...................................................................423.5.6 Programa de comandos en GenStat. ....................................................42

3.6 Ejemplo – 11................................................................................................42Diseño Cuadrado Latino ..........................................................................................42

3.6.1 Enunciado ............................................................................................423.6.2 Entrada de datos en GenStat ................................................................433.6.3 Análisis exploratorio de datos..............................................................433.6.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................443.6.5 Interpretación del análisis. ...................................................................463.6.6 Programa de comandos en GenStat .....................................................46

3.7 Ejemplo –12.................................................................................................46Diseño de parcelas divididas....................................................................................47

3.7.1 Enunciado ............................................................................................473.7.2 Entrada de datos en GenStat ................................................................473.7.3 Análisis exploratorio de datos..............................................................473.7.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................48

3.7.5 Interpretación del análisis ....................................................................503.7.6 Programa de comandos en GenStat .....................................................513.8 Ejemplo – 13................................................................................................51Diseño de parcelas sub-divididas.............................................................................51

3.8.1 Enunciado ............................................................................................513.8.2 Diseño del experimento en GenStat.....................................................523.8.3 Entrada de datos en GenStat ................................................................533.8.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................543.8.5 Análisis de varianza y promedios ........................................................553.8.6 Interpretación del análisis ....................................................................573.8.7 Programa de comandos en GenStat .....................................................57

3.9 Ejemplo 14...................................................................................................57Diseño no balanceado ..............................................................................................573.9.1 Enunciado ............................................................................................57

3.9.2 Entrada de datos en GenStat ................................................................583.9.3 Análisis exploratorio de datos..............................................................583.9.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................583.9.5 Análisis de varianza y promedios ........................................................593.9.6 Interpretación del análisis ....................................................................61

3.9.7 Programa de comandos en GenStat .....................................................614 Analisis de datos - M.Sc ......................................................................................614.1 Ejemplo – 15................................................................................................62

4.1.1 Enunciado ............................................................................................624.1.2 Entrada de datos en GenStat ................................................................624.1.3 Análisis exploratorio de datos..............................................................634.1.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................634.1.5 Análisis de varianza y promedios ........................................................644.1.6 Interpretación del análisis ....................................................................664.1.7 Programa de comandos en GenStat .....................................................66

5 Medidas repetidas ................................................................................................66

5.1 Ejemplo - 16.................................................................................................675.1.1 Enunciado. ...........................................................................................675.1.2 Método 1 de análisis ............................................................................675.1.3 Método 2 mediante regresiones ...........................................................695.1.4 Metodo 3. Usando Excel......................................................................70

6 Comparación de regresiones................................................................................716.1 Ejemplo – 17 Cuando la distribución es normal.......................................71

6.1.1 Enunciado ............................................................................................716.1.2 Entrada de datos en GenStat ................................................................726.1.3 Análisis exploratorio de datos..............................................................726.1.4 Modelos y análisis................................................................................736.1.5 Interpretación.......................................................................................746.1.6 Grafico del modelo elegido..................................................................756.1.7 Conclusiones........................................................................................76

6.2 Ejemplo – 18 Cuando la distribución es Binomial ....................................776.2.1 Entrada de datos en GenStat ................................................................776.2.2 Análisis exploratorio de datos..............................................................786.2.3 Modelos y análisis................................................................................786.2.4 Interpretación.......................................................................................796.2.5 Grafico del modelo elegido..................................................................796.2.6 Conclusión ...........................................................................................80

6.3 Ejemplo – 19 Cuando los datos siguen la distribución de Poisson.............816.3.1 Entrada de datos en Genstat.................................................................816.3.2 Análisis exploratorio de datos..............................................................816.3.3 Modelos y análisis................................................................................826.3.4 Interpretación.......................................................................................826.3.5 Grafico del modelo elegido..................................................................836.3.6 Conclusión ...........................................................................................84

6.4 Ejemplo – 20................................................................................................847 Estructura Binomial .............................................................................................84

7.1.1 Datos a introducir.................................................................................857.1.2 Análisis exploratorio............................................................................85

7.1.3 Modelos y análisis................................................................................867.1.4 Interpretación.......................................................................................888 Regresión logística...............................................................................................88

8.1 Ejemplo 21...................................................................................................888.1.1 Enunciado ............................................................................................888.1.2 Introducción de datos...........................................................................888.1.3 Análisis exploratorio............................................................................898.1.4 Modelos y análisis................................................................................89

8.1.5 Discusion..............................................................................................908.1.6 Interpretación.......................................................................................918.2 Ejemplo 22...................................................................................................91

8.2.1 Enunciado ............................................................................................918.2.2 Introducción de datos...........................................................................928.2.3 Análisis exploratorio............................................................................928.2.4 Modelos y análisis................................................................................928.2.5 Interpretación.......................................................................................93

8.3 Ejemplo 23...................................................................................................938.3.1 Enunciado ............................................................................................938.3.2 Introducción de datos...........................................................................93

8.3.3 Análisis exploratorio............................................................................938.3.4 Discusión del análisis...........................................................................948.3.5 Modelo.................................................................................................948.3.6 Análisis de desvianza...........................................................................958.3.7 Interpretación.......................................................................................95

8.4 Ejemplo 24...................................................................................................968.4.1 Enunciado ............................................................................................968.4.2 Introducción de datos...........................................................................968.4.3 Análisis exploratorio............................................................................978.4.4 Modelos y análisis................................................................................978.4.5 Discusión: ............................................................................................978.4.6 Discusión..............................................................................................988.4.7 Interpretación.......................................................................................99

1 Regresión lineal Simple

1.1 Ejemplo-1

1.1.1 Enunciado

Se prepararon 9 macetas con suelo a las cuales se les aplicó diferentes cantidades defósforo inorgánico. En cada maceta se cultivo plantas de maíz que fueron cosechadas38 días después de la siembra y fueron analizadas en el laboratorio para determinar lacantidad de fósforo asimilado como una medida aproximada de la cantidad de fósforodisponible en el suelo. Los resultados introducidos en GenStat como sigue:

1.1.2 Entrada de datos en GenStat

1.1.3 Análisis exploratorio de datos

P_suelo P_planta

28 109

1.1.4 Gráfico de la relación

El supuesto de relación lineal entre P suelo y P planta parece razonable.Ahora podemos estimar los parámetros de la ecuación de la línea recta: a y b.mediante el análisis de varianza.

1.1.5 Modelo, supuestos, prueba de los supuestos

Yi = α + βxi + εi

Donde:

Yi variable respuesta con in valoresα Valor constante cuando el valor de la abcisa es cero.β Pendiente de la línea de regresiónxi Variable independiente con con in valores εi representa la suma de cuadrados de residuales que no explica el modelo:

1.1.5.1 Los supuestos para el análisis de varianza

1. La variable independiente se mide sin error.

2. El valor verdadero de la variable respuesta y esta linealmente relacionado con x, sinembargo los valores observados están afectados por variación aleatoria. Así

.Yi = α + βxi + εi

3. Se asume que las desviaciones ei siguen una distribución normal con media cero yvarianza constante. En notación estadística ei ~ N(m,σ2 )

El primero esta determinado por el diseño del experimento y en este caso esaceptable.

El segundo fue aceptado cuando hicimos el gráfico de P planta contra P suelo ydecidimos que el uso del modelo y = a + bx era razonable.

El tercero sólo puede ser probado una vez que el análisis ha sido realizado. La formamás fácil de comprobar este supuesto es a través de gráficos.

En Genstat estos gráficos se pueden obtener una vez que el análisis ha sido efectuado presionando el botón Further output y luego Model Checking Esto genera el

comando RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite

Que produce la siguiente salida:

Discusión:

En este caso es mas útil interpretar los restantes gráficos de residuales que emuestrancierta normalidad de los datos que están por encima de la media y con distribuciónsesgada a la izquierda

Esta secuencia produce los siguientes comandos y salida

"Simple Linear Regression"MODEL P_plantaTERMS P_suelo

FIT [PRINT=model,summary,estimates; CONSTANT=estimate;FPROB=yes; TPROB=yes] P_suelo

***** Regression Analysis *****

Response variate: P_plantaFitted terms: Constant, P_suelo

*** Summary of analysis ***

d.f. s.s. m.s. v.r. F pr.Regression 1 1473.6 1473.6 12.89 0.009Residual 7 800.4 114.3Total 8 2274.0 284.2

Percentage variance accounted for 59.8 = [1-(114.3/284)*100]Standard error of observations is estimated to be 10.7

*** Estimates of parameters ***

estimate s.e. t(7) t pr.

Constant 61.58 6.25 9.86 <.001P_suelo 1.417 0.395 3.59 0.009De donde podemos decir que la ecuación de la recta es:

P planta = 61.58 + 1.417 P suelo

El análisis de regresión puede hacerse en Genstat usando el menú Stats, RegressionAnalysis, Linear, luego en el recuadro de Response variate colocar el nombre de lavariable respuesta, en el recuadro Explanatory variates nombre o los nombres de las

variables independientes.

Interpretación de los resultados

Andeva

Grados de libertad (g.l.), en regresión linear simple los g.l resultan ser uno por que seconsidera solo una variable independiente. Para el total de la andeva los g.l son eltotal de las observaciones menos 1. Para los residuales los g.l. vienen dados por ladiferencia de los g.l del total menos los de la regresión.

La suma de cuadrados medios es el resultado de dividir la suma de cuadrados entrelos g.l., asi la varianza corresponde a la suma de cuadrados medios de los residuales(114.3). El valor de F calculado o v.r. corresponde a la razon: (1473.6/114.3) cuyoresultado es 12.89 comparado con el valor de F(1,7) de tabla 5.59, claramente el valor de F calculado es superior al de tabla de F. Sin embargo, las diferencias significativaslas podemos observar directamente en la ultima columna de la andeva cuyo valor es0.009 menor que el 1% como margen de error mas bajo para aceptar la hipótesisalternativa de que dichas variables tienen relación lineal.

Genstat también puede producir el gráfico de la línea de regresión y los valores

observados x, y. Para ello use el menú Further Output, Model Checking y completela caja de dialogo seleccionando Fitted Values, o bien use el commando

RGRAPH [GRAPHICS=high]

Que produce el gráfico

Note que el título del gráfico puede cambiarse usando la opción Title, por ejemplo

RGRAPH [GRAPHICS=high; title = ‘Gráfico de regresión y = 60.58 + 1.417 x’]

1.1.6 El error típico de la pendiente

El error típico de la pendiente nos de la medida de la precisión de b. Esta dado por

395.02

== xx s

s s.e.(b)

Usando este resultado y la información b sigue una distribución de t de Student conlos grados de libertad del error, es posible definir el intervalo de confianza para la

pendiente como

)2( −± x error tipico

En nuestro ejemplo el intervalo de confianza del 95% para la verdadera pendiente estadado por:

1.417 ± (2.36) x (0.395) = (0.485, 2.349).

1.1.7 Predicción

Un uso frecuente de la regresión es para predecir el valor que la variable respuesta (y)tomaría bajo ciertos valores de la variable independiente (x). Estas predicciones seobtienen sustituyendo el valor de x en la ecuación y calculando el valor correspondiente de y.

Por ejemplo, si el fósforo inorgánico en el suelo fuera X0 = 20 ppm el contenidoesperado de fósforo en la planta sería

y = 61.58 + 1.417 * 20 = 89.92

Dado que el valor predicho (y ) es un estimado es necesario tener una medida de su precisión.

Esta precisión se mide a través del error típico de la predicción.Aquí hay que distinguir dos situaciones:

1.1.8 Predicciones para un valor medio y de un valor individual

La predicción del valor medio esperado para un grupo de observaciones tomadas a unnivel fijo de x. En este caso el error típico esta dado por

El intervalo de confianza esta dado por (61.85, 116.56)

Para hacer este análisis en Genstat se puede usar el menú como se describió arriba o bien los siguientes comandos:

"Simple Linear Regression"

MODEL P_plantaTERMS P_sueloFIT [PRINT=model,summary,estimates; CONSTANT=estimate;FPROB=yes; TPROB=yes] P_suelo

RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite

predict P_suelo; levels=20predict [scope=new]P_suelo; levels=20

print 'predicciones medias'predict[prediction=ypred; se=etipico] P_suelo; levels=P_suelo

calc max95=ypred+2.36*etipicocalc min95=ypred-2.36*etipicocalc ancho=max95-min95print ypred, etipico, min95, max95, ancho

print 'predicciones individuales'

PREDICT[Prediction=iypred; se=ietipico; scope=new]P_suelo;levels=P_suelo

calc imax95=iypred+2.36*ietipicocalc imin95=iypred-2.36*ietipicocalc iancho=imax95-imin95print iypred, ietipico, imin95, imax95, iancho

Comentarios sobre el programa:

La directiva VARIATE, especifica el numero de datos y el nombre de la variable. Ladirectiva READ especifica el orden de los datos de la variable. Para el análisis deregresión, la directiva MODEL señala la variable respuesta, mientras que TERMSindica la variable respuesta. La directiva FIT hace que el contenido entre corchetes

realice el análisis de varianza considerando la variable respuesta que debe estar indicada luego del cierre de corchetes. La directiva RCHECK, permite observar elsupuesto de normalidad mediante graficos que indican como se distribuyen losresiduales. La directiva PREDICT permite encontrar el valor de la variable respuesta

para un determinado valor del la variable independiente. Esta directiva tambien permite especificar entre corchetes el error tipico para cada correspondencia devalores entre la variable independiente y respuesta, permitiendo calcular los intervalosde confianza como se muestra el los resultados de salida del GenStat.

Response variate: P_plantaFitted terms: Constant, P_suelo

reduce como se vio en el ejemplo anterior. En segundo lugar cuando se hace una predicción fuera del rango conocido de x se esta asumiendo que el modelo continuarásiendo válido. Como ejemplo véase el gráfico de abajo

1.2 Ejemplo - 2.

1.2.1 Regresión y Correlación

Cuando tenemos un grupo de pares (x, y) podemos estudiar la relación entre x y y dedos formas

1.2.2 La proporción de variabilidad explicada por la regresión

La proporción de la variación de y que es explicada por la regresión de x en y estadada por el Coeficiente de Determinación (R 2 ) que se calcula como:

R 2= Suma de cuadrados de la regresión /suma de cuadrados total

Que en nuestro ejemplo –1

R 2 = 1474/2274 =0.64

Este coeficiente se interpreta así:

64% de la variación del fósforo encontrado en las plantas es explicada por su relaciónlineal con el contenido de fósforo inorgánico en el suelo.

1.2.3 El coeficiente de correlación

¿Hasta que punto la relación es lineal? Esto se puede medir usando el coeficiente decorrelación (r)

Note que r =√ 0 64 . =√ R 2, es decir el coeficiente de correlación es igual a la raízcuadrada del coeficiente de determinación únicamente en el caso cuando elcoeficiente de determinación mide la variabilidad de y explicada por el modelo

y = a + bx.

1.2.4 Modelos

¿Cómo están relacionadas x y y? Hasta ahora hemos visto el caso del modelo

y = a + bx,

la línea recta, como un posible modelo y se asume que estamos interesado en larelación de dependencia entre y y x . Al comparar la utilidad de la regresión lineal conel coeficiente de correlación se puede concluir que la regresión lineal es mas útil

porque

a. Da la forma de la relación entre y y x. b. Da el valor de R 2 , que contiene toda la información del coeficiente de correlacióny aun mas.c. Porque es posible chequear la validez del modelo de regresión.

2.5. Uso de transformaciones para solventar las violaciones de los supuestos

Una manera de corregir problemas con los supuestos de los análisis de regresión estransformar la variable respuesta. Algunas transformaciones usadas para estabilizar varianzas pueden asociarse a ciertos tipos de variables respuesta. Por ejemplo:

Raiz cuadrada de y Para respuestas Poisson

Sen-1 (√y) Para respuestas binomiales

Log(y) Cuando la variable respuesta es proporcional al cuadrado deltamaño de la variable independiente.

Una vez que se han aplicado las transformaciones se debe ajustar la línea de regresiónotra vez y analizar de nuevo los residuos.

Es importante detectar y corregir el problema de la falta de homogeneidad devarianzas. Si no se elimina el problema los estimadores tienen errores típicos masgrandes de lo que deberían tener, es decir nuestros estimados son menos precisos.

1.3 Ejemplo 3.

1.3.1 Enunciado.

Se supone que el rendimiento del cultivo del arroz en tierras bajas de Nicaragua esafectado por la concentración de sal en el suelo. Como consecuencia de laintroducción de irrigación, la concentración de sales ha ido incrementándose en losúltimos 25 años. Un sonde de los niveles de salinidad en 28 campos arrojo lossiguientes resultados. La concentración de sal se dad como la diferencia entre laconcentración en el campo irrigado y la concentración en áreas adyacentes noirrigadas.

1.3.2 Entrada de datos en GenStat:

sal rend …………...Continua

7 14.5 75 9.9

9 25.3 79 14.4

18 16.2 83 10.8

24 10.82 94 5.8

26 20.6 100 8.9

42 9.7 106 11.3

43 18.6 107 9.89

51 13.8 108 9

54 10.85 113 7.69

58 16.4 116 9.07

59 11.64 120 8.7

68 8.5 131 7.4

72 14.3 142 5.7

74 9 142 5.1

1.3.3 Análisis exploratorio de datos:

El supuesto de relación lineal entre P suelo y P planta parece razonable pero no pareceseguir una línea recta propiamente, ante la duda veremos el porcentaje de variaciónque toma en cuenta el análisis considerando regresión lineal mediante el análisis devarianza.

1.3.4 Modelo, supuestos, prueba de los supuestos

Los supuestos son similares al ejemplo 1. la prueba de los supuestos se vera con elanálisis de varianza.

d.f. s.s. m.s. v.r. F pr.Regression 1 334.2 334.217 36.86 <.001Residual 26 235.7 9.067Total 27 570.0 21.110

Percentage variance accounted for 57.0Standard error of observations is estimated to be 3.01* MESSAGE: The following units have large standardized

residuals:Unit Response Residual2 25.30 2.77* MESSAGE: The error variance does not appear to be constant:large responses are more variable than small responses

*** Estimates of parameters ***estimate s.e. t(26) t pr.

Constant 18.37 1.25 14.75 <.001sal -0.0888 0.0146 -6.07 <.001

El grafico de los valores ajustados se muestra a continuación:

El análisis grafico de los residuos produjo lo siguiente:

El grafico de residuos estandarizados contra valores ajustados confirma la advertenciade Genstat sobre la falta de homogeneidad de varianzas. Para tratar de resolver este

problema se sugiere probar transformando la variable respuesta al logaritmo naturalde los valores originales, de tal forma que analizaremos ln(y) en lugar de y.

Los comandos de GenStat son:

CALCULATE logrend=LOG(rend)

"Simple Linear Regression"MODEL logrendTERMS salFIT [PRINT=model,summary,estimates; CONSTANT=estimate;FPROB=yes; TPROB=yes] sal

RGRAPH [GRAPHICS=high]

RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite

La salida de GenStat es:

Response variate: logrend

Fitted terms: Constant, sal

Percentage variance accounted for 64.2Standard error of observations is estimated to be 0.221

estimate s.e. t(26) tpr.Constant 2.9586 0.0914 32.39 <.001sal -0.00754 0.00107 -7.03 <.001

Comparación de las salidas

Los cambios entre la salida como resultado del análisis, es diferente básicamentedebido a la transformación de datos. Las ultimas cuatro columnas de la andeva cambiahacia números menores es de nuestro interés observar el cuadrado medio de los

residuales (la varianza) que es mucho menor (0.1362) cuando se analiza datostransformados. El error estándar de la observaciones mucho menor 0.221. lo cual nos permitirá estimar intervalos de confianza de menor ancho y mayor precisión.

A continuación se muestran el grafico de los valores ajustados:

El análisis grafico de los residuos fue el siguiente:

Comentarios sobre los gráficos de residuos:Los gráficos de histograma y residuales vs valores ajustados aun muestran que losdatos transformados no siguen una distribución normal propiamente, sin embargo lossiguientes dos gráficos llamados Normal plot y Half-Normal plot muestran una mayor aproximación a lo que llamamos distribución normal comparando con los gráficosusando datos sin transformar.

2 Regresión Múltiple

Los mismos principios usados para la regresión lineal pueden usarse para extender el

modelo con la inclusión de mas de una variable independiente. A estos modelos se lesllama modelos de regresión múltiple.

2.1 Ejemplo 4

2.1.1 Enunciado.

Por ejemplo considere los datos un estudio para investigar el efecto del consumo dealimento y el tiempo de descanso en el aumento de peso de cerdos. Para el estudio seobservaron 12 cerdos durante 4 semanas. Los resultados se presentan a continuación.Consumo de alimento Tiempo de descanso Ganancia de peso

La preguntas de interés son:

¿Hay alguna relación entre la ganancia de peso y el consumo de alimento?¿Hay alguna relación entre la ganancia de peso y el tiempo de descanso?¿Será que la ganancia de peso depende tanto del consumo de alimento como deltiempo de descanso?¿Hay algún efecto combinado del tiempo de descanso y el consumo de alimento sobrecon la ganancia de peso?

alimento descanso gpeso

90 175 865.71

120 342 1178.48

114 252 1084.86

137 362 1229.59

128 284 1114.62

130 219 1102.61114 229 1045.29

73 260 976.4

55 88 519.32

102 132 893.9

106 254 1095.24

60 199 828.68

Los gráficos expresan un crecimiento positivo de ganancia en peso en los cerdos, enfunción de las dos variables independientes. Ambas variables independientes expresanuna tendencia lineal pero un mejor ajuste de la variable respuesta podría estar en

función de la variable denominada descaso.

2.1.4 Modelo, hipótesis, supuestos, prueba de los supuestos

El modelo que incluye todas las variables independientes es:

Ganancia de peso i = constante + b1*alimentoi + b2*descansoi + b3*alimento*descanso + ei

Se asume queei

sigue una distribución normal con media m=0 y varianza constante. Note que el modelo incluye múltiples variables independientes, de allí el nombre deregresión múltiple.

La prueba de F del ANOVA “summary of analysis” es para la hipótesis nulaH0 : b1 = b2 = ... = bk = 0

Contra la hipótesis alternativa de que por lo menos uno de los coeficientes β esdistinto de cero.

Las pruebas de F en el ANOVA “Accumulated analysis of variance” son pruebas paracada β

individualmente así:

H0 : b1 = 0H0 : b2 (una vez que b1 ha sido estimado) = 0H0 : b3 (una vez que b2 y b1 han sido estimados) = 0De la misma forma que en la regresión lineal el coeficiente de determinación R 2(llamado coeficiente de determinación múltiple en este caso) es un indicador de que

tan bueno es el modelo que se esta ajustando.

Los datos estan contenidos en 3 variables: alimento, descanso, gpeso. Luego deintroducir los datos en Genstat, ajustamos el modelo usando los siguientes comandoscomandos:

"General Linear Regression"model gpesoFIT [PRINT=model, summary, accumulated, estimates;

CONSTANT=estimate; FPROB=yes; TPROB=yes; FACT=9]alimento+descanso+alimento.descanso

RCHECK [RMETHOD=deviance;GRAPHICS=high] residual;composite

Response variate: gpesoFitted terms: Constant+alimento+descanso +alimento.descanso

estimate s.e. t(8) t.pr.Constant -139.9 65.7 -2.13 0.066alimento 3.636 0.325 11.20 <.001

descanso 8.177 0.696 11.75 <.001alimento.descanso -0.02185 0.00295 -7.41 <.001

si un modelo es apropiado debe tomarse dos aspectos principales:

• Que el modelo tenga sentido práctico• Que tenga el mínimo número necesario de variables independientes, a este modelose le llama un modelo parsimonioso.

Una vez que se han seleccionado las posibles variables que serán incluidas en elmodelo, se pueden ajustar los todos los modelos posibles (este número puede ser

bastante grande) o un sub-conjunto promisorio y la decisión sobre cual modelo es másapropiado puede ser hecha sobre la base de:

1. La Suma de cuadrados residual (RSS). Mientras esta sea más pequeña el modeloserá mejor.

2. El coeficiente de determinación múltiple. Mientras R 2 sea más grande el modeloserá mejor. Estos dos estadísticos tienen la desventaja de que un modelo reducirá suRSS (o incrementará su R 2 ) cada vez que se incluya un término nuevo en el modeloindependientemente de si el nuevo término realmente contribuye a explicar lavariabilidad de y. Aun así estos dos criterios pueden ser útiles en la selección demodelos.

3. Un criterio mucho mejor que se puede usar es el Cuadrado Medio del Error (RMS,residual mean square, en Inglés). Este es calculado por RSS/gl del error, y por lotanto toma en cuenta el número de variables que han sido incluidas en el modelo.

Debe hacerse énfasis que el proceso de selección de un modelo adecuado debesiempre comenzar por encontrar un modelo que tiene sentido práctico, solo despuésde ello se deben utilizar métodos estadísticos para la comparación de modelos.

En el ejemplo anterior, los modelos posibles son:1. Ganancia de peso = a + b1* alimento2. Ganancia de peso = a + b2* descanso3. Ganancia de peso = a + b1* alimento + b2* descanso4. Ganancia de peso = a + b1* alimento + b2* descanso + b3* alimento* descanso

Comparemos los 3 estadísticos sugeridos arriba para cada modelo:

Modelo RSS R 2 RMS1

99990283973608

73.691.798.8

99993151451

2.1.6 Prueba de hipótesis para comparar modelos

Hasta ahora hemos descrito como comparar modelos usando estadísticos derivadosdel análisis de varianza de cada modelo en particular y este método funcionó bien

para el primer ejemplo pues la ventaja del modelo que incluye 3 variablesindependientes salta a la vista. Sin embargo en algunas ocasiones es necesario decidir

si la inclusión de una nueva variable realmente mejora un modelo y para esto serequiere de una prueba estadística.

Esta prueba esta basada en el principio de Extra Suma de Cuadrados mencionadoanteriormente en este curso.

La prueba se realiza de la siguiente forma:

Supongamos que tenemos un modelo M1 para la variable respuesta y que incluye lavariable x1, con una suma de cuadrados del error RSS1 que representa la variabilidadno explicada por M1

M1: y = a + b1*x1, RSS1

A este modelo se quiere añadir la variable X2 para formar el modelo M2 con unasuma de cuadrados del error RSS2 que representa la variabilidad no explicada por M2

M2: y = a + b1*x1 + b2*x2,RSS2

Además se tiene un estimado de la variabilidad aleatoria de y, S2, probablemente dado por el cuadrado medio del error de M2, = RSS2/gl. (Este estimado puede tambiénvenir de un modelo con más términos de tal forma que generalmente escogemos elcuadrado medio del error del modelo mas grande que se este ajustando).Entonces para determinar si M2 realmente es mejor que M1, habría que ver si lareducción en la variabilidad no explicada

RSS1 – RSS2

Es suficientemente grande para decir que X2 realmente contribuye a explicar y, una

vez que X1 esta incluida en el modelo.

La prueba para la hipótesis H0: X2 mejora el modelo y = a + b1* x1 es:

donde s2 puede estimarse como RSS2/gl2.

Si la hipótesis nula es cierta el estadístico F sigue la distribución de F de Fisher con g l1

y gl2 grados de libertad.

2.2 Ejemplo - 5

2.2.1 Enunciado.

La calidad del agua para el cultivo de peces en estanques puede ser evaluada por la producción de oxigeno de los organismos que flotan en el agua. Además se sabe quela cantidad de luz que incide sobre la superficie de los estanques también afecta la

producción de oxigeno. En una evaluación de 17 estanques midió la cantidad de

clorofila en el agua, la cantidad de luz incidente y la producción de oxigeno. A partir de estos datos se quiere determinar un modelo estadístico para la predicción de la

producción de oxigeno, y en particular se quiere confirmar si la clorofila y la luz sonvariables importantes en el modelo.

2.2.2 Entrada de datos en GenStat:

clorofila luz oxigeno

33.8 329.5 2.16

47.8 306.8 4.13

100.7 374.7 2.84

105.5 432.8 4.65

33.4 222.9 -0.42

27 352.1 1.32

46 390.8 4.04

139.5 232.6 1.97

27 277.7 1.63

22.5 358.5 1.16

16.5 210 0.61

71.3 361.8 1.94

49.4 300.4 1.7

19.3 96.9 0.21

71.6 151.8 0.98

13.4 126 0.06

11.8 67.8 -0.19

De las dos variables independientes, la variable luz muestra que existe relacion

positiva mucho mas definida que la variable independiente clorofila.

Modelo incluyendo solo clorofila

Comandos de GenStatmodel oxigenoterms[fact=9] clorofila+luzfit[print=model, summary; constant=estimate; fprob=yes;tprob=yes; fact=9]clorofila

Salida de GenStat

Response variate: oxigenoFitted terms: Constant + clorofila

d.f. s.s. m.s. v.r. F pr.Regression 1 10.91 10.915 6.31 0.024Residual 15 25.93 1.729Total 16 36.85 2.303

Ahora añadimos luz al modedo:

add[print=model, summary; constant=estimate; fprob=yes;tprob=yes; fact=9]luz

Nueva salida, incluyendo el efecto de la variable luz.

Response variate: oxigenoFitted terms: Constant + clorofila + luz

Change -1 -13.51 13.5124 15.23 0.002

Percentage variance accounted for 61.5Standard error of observations is estimated to be 0.942

Discusión:

Si el estimado de la variabilidad aleatoria no es el cuadrado medio del error delsegundo modelo, entonces se debe tener cuidado de no usar el test automático deGenstat.

De esta prueba se deduce que si el término Luz se incluye en el modelo después de

tener Clorofila, el modelo si mejora y por lo tanto M2 es mejor que M1.

¿Qué pasa si la primera variable que se incluye es Luz y a esta se añade Clorofila?Los resultados del análisis en Genstat son los siguientes

Response variate: oxigenoFitted terms: Constant + luz

Response variate: oxigenoFitted terms: Constant + luz + clorofila

Change -1 -2.56 2.5602 2.89 0.111

El resultado de añadir Clorofila a un modelo que ya incluye Luz es que la nuevavariable no mejora significativamente el modelo.

La conclusión general de este análisis es que el modelo el mejor modelo de los probados es

Producción de Oxigeno = Constante + β Luz

El modelo no mejora significativamente con la inclusión de Clorofila como variable

adicional.

3 Diseños de experimentos

3.1 Conceptos y ejemplos - 6

3.1.1 Objetivos de un experimento

Generalmente para conocer resultados o reunir información (ej. Para optimizar la producción).

3.1.2 Tratamientos

En este curso se comparan los efectos de diferentes tratamientos. Ejemplos detratamientos en diferentes áreas de investigación:

3.1.2.1 Cualitativos

Medicina drogas o medicamentosAnimales dietasAgricultura Variedades, pesticidas, maquinarias, tipos de suelo... etc.Psicología Métodos de enseñanza.

3.1.2.2 Cuantitativos

Fertilizantes (Cantidad en peso o volumen)Pesticidas (Cantidad en peso o volumen)Semillas (Numero o peso por area o sitio)

3.1.3 Componentes de la experimentación

1. El diseño (antes de experimentar)2. El análisis (después de realizado el experimento)

3.1.4 Componentes del diseño de un experimento

1. Los tratamientos a ser usados (ej. Pesticidas, dietas, variedades, maquinariaetc)

2. Las unidades experimentales (ej. Platas, animales, unidades de area)3. Las observaciones a ser recolectadas (ej. Altura de planta, peso etc.)4. La ubicación de los tratamientos en las unidades experimentales (ej. Parcelas)

3.1.5 Principios sobre diseños

3.1.5.1 AleatorizaciónConsiste en la distribución de los tratamientos sobre unidades experimentales de talmanera que estas no interfieran el efecto individual de cada tratamientos, asi se reduce

el sesgo debido a aleatorización y permite que los tratamientos se comparen conimparcialidad. Esto justifica el supuesto de independencia de errores in modeloslineales.

3.1.5.2 Bloque

Se utiliza para homogeneizar las unidades experimentales o reducir la heterogeneidadasi los bloques pueden estar formados por ej. Sexo masculino, sexo femenino, edad,tipo de suelo, pastura etc.

3.1.5.3 RepeticiónSe considera asi al tener mas de una unidad del mismo tratamiento, son necesariasincrementar la suma de cuadrados como efecto de los tratamientos y asi reducir lasuma de los mismo por causa del error de aleatorizacion, a esto se llama incrementar la precisión de las diferencias de tratamientos.

3.1.5.4 Diseño de bloques Ortogonales

Un diseño de bloques es ortogonal si cada bloque contiene cada tratamiento en lamisma cantidad de veces. Un diseño ortogonal requiere que el tamaño de bloque seamúltiplo del numero de tratamientos. Ej. 4 trat. Se distribuyen en diseño de bloquesortogonales siempre y cuando el tamaño de los bloques sea: 4, 8, 12..... etc. Asi cada

bloque contiene cada tratamiento 1, 2 o 3 veces.

3.1.5.5 Diseños de bloques completos

Un diseño de bloques completos al azar es un diseño de bloques en el cual cada bloque contiene cada tratamiento una sola vez. De acuerdo con la definición deortogonalidad los DBCA es ortogonal.

Notación comun:

t = numero de tratamientos r = repeticiones b = No. De bloques k = tamaño de bloquen = No. Unidades experimentales

ej: 4 tratamientos, 20 unidades exp., 5 bloques, tamaño de bloque 4.

Bloques Tratamientos12345

A B C DA B C DA B C DA B C DA B C D

t = 4 r = 5 b = 5 k = 4 n = 20

3.1.5.6 Diseños de bloques incompletos

En los diseños incompletos el tamaño de bloque es menor al numero de tratamientos(k<t) por lo tanto tambien el numero de replicas es menor al numero de bloques (r<b)hay menos de una replica por bloque porque cada tratamiento no aparece en cada

bloque. Por definición de ortogonalidad, los diseños de bloques incompletos no sonortogonales.

3.1.5.7 Diseños de bloques incompletos balanceados (Condición )

Un diseño de bloques es balanceado si cada par de tratamientos aparecen juntos en los bloques el mismo numero de veces. Asi por definición, los diseños de bloquesortogonales son balanceados, mientras que los diseños de bloques incompletos no sonnecesariamente ortogonales.

La formula para detectar si un diseño de bloques incompletos es balanceado es:

Λ = r(k-1)/t-1 debe dar siempre un entero, si no es asi el diseño no es balanceado yel análisis de varianza no podra ser realizado por Genstat usando los comandos Stats,Análisis of Variance para un diseño especifico.

3.1.5.8 Contrastes ortogonales

Son las comparaciones donde cada promedio de tratamiento o grupo de tratamientosque se compara participa con un mismo o diferente numero de observaciones por locual para cada comparación es preciso calcular el error estándar de la diferencia demedias teniendo como base la misma varianza homogénea que se extrae de la andeva

donde se la conoce como el cuadrado medio del error.Prueba de coeficientes ortogonales en el total de contrastes que se incluyen en laanova:

Ej. Se pretende comparar dos variedades tradicionales (T1 y T2) con dos variedadesnuevas (N1 y N2), además saber cual de las tradicionales a la fecha es mejor y cual dela nuevas es mejor.

T1 T2 N1 N2 SUMA(horizontal)Cont-1 0.5 0.5 -0.5 -0.5 =0

Cont-2 -1 1 0 0 =0Cont-3 0 0 -1 1 =0

Multiplicación vertical:

Cont-1*Cont-2 -0.5 0.5 0 0 =0Cont-1*Cont-3 0 0 0.5 -0.5 =0Con-2*Cont-3 0 0 0 0 =0

Solo tres contrastes por que se tiene solo tres grados de libertad para tratamientos, se puede hacer mas contraste pero ya no serian ortogonales.

3.2 Ejemplo – 7

Diseño completamente aleatorizado (diferente numero de replicas)

3.2.1 Enunciado

Se realiza un experimento con el objetivo de comparar el rendimiento de tres nuevas

variedades de trigo, representadas por las letras A, C, D, frente a una variedadtradicional B; las variedades fueron aleatorizadas sobre 16 parcelas. Debido a un error de procedimiento, la variedad D fue sembrada en tres parcelas y variedad A en 5

parcelas, las otras dos variedades en cuatro. El experimento se establecido comosigue:

A B C AB C A DC A D BA D B C

Después de la cosecha se midio el peso seco de trigo por parcela. Los siguientesrendimientos fueron obtenidos de cada parcela.

var! Rend …continuacion

A 115.5 B 83.8

A 137.2 C 109.1

A 118.3 C 116.7

A 105.9 C 90.6A 112.4 C 86.6

B 90.6 D 76.9

B 58.8 D 66.4

B 97.2 D 89.3

Mean Minimum Maximum Variancevar A 117.86 105.90 137.2 138.2B 82.60 58.80 97.2 281.7C 100.75 86.60 116.7 209.1

D 77.53 66.40 89.3 131.4

Este análisis grafico se obtiene, eligiendo Stats del menu principal, luego Summary

statistics, del submenú elegir Sumarise Contents of Variates, luego en el cuadro dedialogo Variates introducir rendimiento y en el recuadro By groups introducir variedades. En el recuadro de Options en este caso elegimos Aritmetic Mean yStandard Deviation. Finalmente en el recuadro de Graphics elegimos Boxplots paraobtener el grafico que se observa arriba.

Interpretación

Observando los datos horizontalmente, podemos ver un traslape entre las variedadesA y C las cuales probablemente no serian diferentes estadísticamente, al igual que B,C y D, pero no existe traslape alguno comparando A vs B y D. Según la distribuciónde datos las variedades D y A, presentan los menores valores en desviación estándar 11.5 y 11.8 respectivamente seguidos por los valores de C y B ver la salida deresumen estadístico para rendimiento.

ijiij et u y ++=

Donde: j es el rendimiento de cada i variedad

µ es el efecto de la media generalti es el efecto de tratamientos (variedades)

ei error sin explicacion de la variación aleatoria se asume que son indep. Condistribución normal N(o, σ2)

Hipotesis: Ho: µA= µB= µC= µD H1: µA≠ µB (almenos dos de los promedios de tratamientos sean difrerentes)

Supuestos: son necesarios dos supuestos:1.Los residuales son independientes y normalmente distribuidos2.La varianza de las observaciones en cada grupo de tratamiento es la misma.

Análisis:El análisis de datos se obtuvo eligiendo Stats del menú principal, luegoAnálisis of variance del submenú. Del recuadro Design se eligio One-way ANOVA

(no blocking). Se introdujo la variable rendimiento en el recuadro Y-Variate, yvariedades en el recuadro Treatments. Para obtener los contrastes que se presentanen la Andeva, hacemos clic en el boton de Contrasts, en el recuadro Contrast-factor introducimos variedades, en Number of Contrast colocamos hasta un máximo igualal numero de grados de libertad de los tratamientos en la Andeva finalmente en

Contrast type elegimos Regresión lo cual nos genera una matriz que se debe llenar con los coeficientes ortogonales de cada contraste o comparación que se muestra alfinal de resultados. Luego de hacer clic en Ok dos veces aceptando los contrasteselegidos y para ejecutar el análisis de varianza hacemos clic en Further ouput yluego en Residual plots para obtener los gráficos que se muestran a continuación yobservar la condición de normalidad.

Discusión del supuesto de normalidad:

Ambos gráficos muestran que los errores siguen distribución normal aceptable paracontinuar con el análisis de varianza que se muestra a continuación.

***** Analysis of variance *****

Variate: RendSource of variation d.f. s.s. m.s. v.r. F. pr.var 3 4197.6 1399.2 7.34 0.005A-B 1 2762.8 2762.8 14.49 0.002B-C 1 658.8 658.8 3.46 0.088B-D 1 44.0 44.0 0.23 0.640Residual 12 2287.9 190.7Total 15 6485.4

***** Tables of contrasts *****Variate: Rend*** var contrasts ***

A-B 35.3 s.e. 9.26 ss.div. 2.22B-C -18.1 s.e. 9.76 ss.div. 2.00

B-D 5. s.e. 10.5 ss.div. 1.71

A B C DContrast 1 1 -1 0 0Contrast 2 0 1 -1 0Contrast 3 2 1 0 -1

3.2.5 Interpretación del análisis.

El análisis de varianza con varianza homogénea 190.7, muestra que si existediferencia altamente significativa entre las variedades. Dichas diferencias sondemostradas mediante la prueba de contrastes incluidas en la Andeva. El primer contraste indica que existe diferencia altamente significativa entre la nueva variedadA y la tradicional B. El segundo y tercero indican que no existe diferencia estadísticaentre las nuevas variedades C y D respecto de la variedad tradicional B.

3.2.6 Programa de comandos en GenStat.

matrix[rows=!t('A-B','B-C','B-D');columns=4;values=1,-1,0,0,0,1,-1,0,0,1,0,-1]mycomptreatmentstructure var+comp(var;3;mycomp)anova[print=aov,means,contrasts;fprob=yes] Rend

3.3 Ejemplo – 8

Diseño Completamente Aleatorizado

3.3.1 Enunciado

Un experimento fue conducido para estudiar el cómo responde el pasto Taiwán avarios tratamientos del fertilizante. Cuatro tratamientos fueron incluidos:

A: Estiércol de vaca B: Estiércol de caballoC: Estiércol de pollo D: Control, es decir ningún fertilizante.

Los datos aparecen abajo. Corresponden a las alturas de una planta (en cm) tressemanas después de la aplicación.

Ambos gráficos muestran que los datos siguen distribución normal aunque algunosresiduos positivos correspondientes a los valores 31 y 39.8 observados en eltratamientos estiércol de caballo hacen que la curva normal este sesgada a la derecha,

pero que a pesar de ello aceptable para continuar con el análisis de varianza que semuestra a continuación.

Variate: growth

Source of variation d.f. s.s. m.s. v.r. F. pr.fert 3 123.154 41.051 6.15 0.002A-B 1 0.421 0.421 0.06 0.803(A+B)/2-C 1 50.968 50.968 7.64 0.009(A+B+C)/3-D 1 71.765 71.765 10.75 0.002Residual 36 240.222 6.673Total 39 363.376

***** Tables of contrasts *****

Variate: growth

*** fert contrasts ***

A-B -0.3 s.e. 1.16 ss.div. 5.00

(A+B)/2-C 2.8 s.e. 1.00 ss.div. 6.67

(A+B+C)/3-D 9.3 s.e. 2.83 ss.div. 0.833

trat! fert! pot! rep! rend

A f1 p1 r1 32

A f1 p1 r2 37

A f1 p1 r3 33

A f1 p1 r4 31

B f1 p2 r1 44

B f1 p2 r2 45

B f1 p2 r3 47

B f1 p2 r4 40

C f2 p1 r1 48

C f2 p1 r2 43

C f2 p1 r3 52

C f2 p1 r4 46

D f2 p2 r1 54

D f2 p2 r2 49

D f2 p2 r3 53

D f2 p2 r4 48

Para el análisis exploratorio de datos se uso el comando TABULATE con lasespecificaciones requeridas entre corchetes y al final especificando la variable deinteres que es el rendimiento. Lo cual nos genera una tabla de doble entrada conmedias de rendimiento como resultado del efecto de los niveles de ambos factores.

TABULATE [PRINT=means; CLASSIFICATION=fert,pot; MARGINS=yes]rend

Mean pot Np sp Meanfertnf 33.25 44.00 38.63sf 47.25 51.00 49.13Mean 40.25 47.50 43.88

Discusión

Los promedios muestran que el efecto de la fertilización orgánica genera mayor rendimiento que cuando se aplica solamente potasio ( 47.25>44). También se puededecir que el rendimiento en parcelas donde se aplico potasio es ligeramente superior comparado con el rendimiento de parcelas donde no se aplico ningún fertilizante(44>33.25). Finalmente, se obtuvo mayor rendimiento promedio en las parcelas dondese aplicaron ambos fertilizantes (51.0 kg/ha). Para explicar el nivel de significacia deestas diferencias realizaremos el análisis de varianza según el modelo del diseñocompletamente aleatorizado con estructura factorial.

ijiij et u y ++=

Donde: j es el rendimiento de cada i variedadµ es el efecto de la media generalti es el efecto de tratamientos (variedades)

Hipotesis: Ho: µA= µB= µC= µD H1: µA≠ µB (almenos dos sean diferentes)

Supuestos: son necesarios dos supuestos:

1.Los datos son independientes y normalmente distribuidos2.La varianza de las observaciones en cada grupo de tratamiento es la misma.

Ambos gráficos muestran que los datos siguen distribución normal aunque algunos

residuos negativos correspondientes a los valores 31 y 32 de rendimiento observadosen el tratamiento uno sin ninguna fertilización hacen curva normal este sesgada a laderecha, pero que a pesar de ello es aceptable para continuar con el análisis devarianza que se muestra a continuación.

Variate: rend

Source of variation d.f. s.s. m.s. v.r. F.pr.trat 3 700.250 233.417 24.25 <.001Residual 12 115.500 9.625Total 15 815.750

***** Tables of means *****

Variate: rend

Grand mean 43.88

trat A B C D33.25 44.00 47.25 51.00

*** Standard errors of differences of means ***

Table tratrep. 4d.f. 12s.e.d. 2.194

3.4.5 Interpretación del análisis

El análisis de varianza que se muestra arriba correspondiente al modelo del diseñocompletamente aleatorizado con varianza constante 9.625, muestra que los promediosde tratamientos (A,B,C,D), presentan diferencia estadística altamente significativa.Pero, el análisis no especifica donde están las diferencias, para identificar lasdiferencias se requiere especificar la estructura factorial dentro de la andeva como seobserva a continuación y como se observa en el programa de comandos para esteejercicio.

Variate: rend

Source of variation d.f. s.s. m.s. v.r. F.pr.fert 1 441.000 441.000 45.82 <.001

pot 1 210.250 210.250 21.84 <.001fert.pot 1 49.000 49.000 5.09 0.043Residual 12 115.500 9.625Total 15 815.750

Variate: rend

Grand mean 43.88

fert f1 f2

38.63 49.13

pot p1 p240.25 47.50

fert pot p1 p2f1 33.25 44.00f2 47.25 51.00

Table fert pot fert potrep. 8 8 4d.f. 12 12 12s.e.d. 1.551 1.551 2.194

3.4.5.1 Interpretación del análisis.

E análisis de varianza con estructura factorial (rend = fert + pot + fert*pot), muestraque promedios de los niveles de fertilización (f1 y f2) presenta diferencia altamentesignificativa a favor de las parcelas donde se aplico fertilizacion organica. De igualmanera para los promedios de los niveles de fertilizacion con potasio. Finalmente, los

promedios de la interaccion que se observan al final del análisis presentan diferenciaestadística signifcativa lo que indica que se obtuvo mayor rendimiento 51.0 en

parcelas donde se aplicaron ambos fertilizantes.

3.4.6 Programa de comandos en GenStat

anova[print=aovtable,information,mean;FACT=32; FPROB=yes;PSE=diff]rendtreatments fert+pot+fert.potanova[print=aovtable,information,mean;FACT=32; FPROB=yes;PSE=diff]rendDAPLOT fitted,normal,halfnormal,histogram

bloq! fung! Noaplic! Adher! trat! rend

1 1 1 1 A 1131

2 1 1 1 A 1013

3 1 1 1 A 1096

4 1 1 1 A 1102

1 1 1 2 B 1114

2 1 1 2 B 1152

3 1 1 2 B 1133

4 1 1 2 B 1117

1 1 2 1 C 1098

2 1 2 1 C 1111

3 1 2 1 C 1092

4 1 2 1 C 1102

1 1 2 2 D 1092

2 1 2 2 D 1169

3 1 2 2 D 1145

4 1 2 2 D 1100

1 2 0 0 E 960

2 2 0 0 E 996

3 2 0 0 E 1073

4 2 0 0 E 980

El análisis exploratorio de datos corresponde a los promedios de las combinaciones delos factores por analizar que están incluidos en la salida de el análisis realizado enGenstat.

ijiij et biu y +++=

Donde: j es el rendimiento de cada i variedad

µ es el efecto de la media general bi es el efecto de bloquesti es el efecto de tratamientos (variedades)

hipótesis

1. Ho. El rendimiento en parcelas aplicadas es igual al obtenido en parcelas no apl.H1. El rendimiento en parcelas apl. es diferente al obtenido en parcelas no apl.

2. Ho. El numero de aplicaciones de aplicaciones de fungicida no afecta al rend.

H1. El rendimiento es diferente según el numero de aplicaciones de fungicida3. Ho. El uso de adherente en las aplicaciones de fung. Tiene un efecto sobre el rend.

H1. El uso de adherente en las aplicaciones no afecta al rendimiento.

4. Ho. El uso de adherente combinado al numero de aplicaciones no afecta el rend.H1. El uso de adherente combinada al numero de aplicaciones afecta el rend.

Los gráficos de distribución de residuales, muestran que los datos siguen distribuciónmuy aproximada a la normal con excepción del dato mas bajo correspondiente altratamiento E bloque 1 con rendimiento 960 y al tratamiento D bloque 2 conrendimiento 1169.

Variate: rend

Source of variation d.f. s.s. m.s. v.r. F. pr.trat 4 42728. 10682. 7.94 0.001Trat. Vs Cntrl. 1 37455. 37455. 27.84 <.001Aplicaciones 1 163. 163. 0.12 0.733Adherente 1 4796. 4796. 3.56 0.079Aplic.Adher 1 315. 315. 0.23 0.635

Residual 15 20180. 1345.Total 19 62907.

* MESSAGE: the following units have large residuals.

*units* 2 -72.5 s.e. 31.8*units* 19 70.7 s.e. 31.8

***** Tables of means *****Variate: rend

Grand mean 1088.8

trat A B C D E1085.5 1129.0 1100.7 1126.5 1002.2

El análisis de varianza realizado siguiendo las estructura factorial mas control,establecido en diseño de bloques al azar muestra que existe diferencia altamentesignificativa entre tratamientos. La diferencias entre tratamientos fueron encontradasen los contrastes que responden a los objetivos en el orden en que fueron planteados.Existe diferencia altamente significativa en el rendimiento obtenido de parcela dondese aplico funguicida en comparación de aquellas que no fueron aplicadas, por lo cualse acepta la hipótesis alternativa. No existe diferencia en rendimiento de parcelassegún numero de aplicaciones de funguicida y adherente al igual que la interacción deambos por lo cual para los últimos tres objetivos se acepta la hipótesis nula con unnivel de confiabilidad del 0.05. Pero también podríamos decir que existe diferenciamayor rendimiento de parcelas donde se aplico funguicida mas adherente con relaciónal rendimiento de parcelas donde no se uso adherente, la confiabilidad de estadiferencia es al nivel de 0.1.

3.5.6 Programa de comandos en GenStat.

BUILDCONTRASTS Factor=trat; nrows=4; Matrix=Cont%WSPREAD Cont

READ _trows_'Trat. Vs Cntrl' 'Aplicaciones' 'Adherente' 'Aplic.Adher' :MATRIX [rows=!t(#_trows_);columns=!t(#_tcols_)] ContREAD Cont1 1 1 1 -4 1 1 -1 -1 0 1 -1 1 -1 0 1 -1 -1 1 0 :

"General Analysis of Variance."BLOCK "No Blocking"TREATMENTS REG(trat;4;Cont)COVARIATE "No Covariate" ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes;

PSE=diff] rend

3.6 Ejemplo – 11

Diseño Cuadrado Latino

3.6.1 Enunciado

Se realizo un experimento agrícola para evaluar los efectos de 5 fertilizantes (A, B, C,

D y E) sobre el rendimiento de un variedad de caña de azúcar, el diseño de campo fueestablecido de la forma siguiente:

Columna 1 Columna 2 Columna 3 Columna 4 Columna 5Fila 1 A B C D E2 B E D A C3 C D B E A4 D A E C B

5 E C A B D

Discusión:

Se decidió aleatorizar los tratamientos bajo del diseño cuadrado latino 5x5, por que enlos objetivos del ensayo se quiere establecer si existe algún efecto de aleatorizacionrespecto a filas y columnas y por que las unidades experimentales eran suficientes

para el requerimiento del diseño.

Tratamientos:

A, C: Fertilizantes nuevos que incluyen urea (nitrogero).E: Fertilizante nuevo sin urea.B: Fertilizante tradicional que incluye urea.D: Fertilizante tradicional sin urea.

Objetivos:

a) Comparar rendimiento de fertilizantes nuevos con tradicionales b) Identificar si los fertilizantes con urea son mas eficientes que los que no

incluyen urea.

c) Identificar los fertilizantes de ambos tipos (con y sin urea) que generan mayor rendimiento.

trat! fila! colum! rend ….Continuacion

A 1 1 13.7 A 5 3 10.8

B 2 1 10.8 D 1 4 9.8

C 3 1 12 A 2 4 12.3

D 4 1 9.8 E 3 4 11.1

E 5 1 11.9 C 4 4 10.9

B 1 2 10 B 5 4 8.3E 2 2 11 E 1 5 11

D 3 2 9.9 C 2 5 10.5

A 4 2 11.9 A 3 5 11

C 5 2 10.4 B 4 5 9.1

C 1 3 11.6 D 5 5 9.3

D 2 3 9

B 3 3 9.3

E 4 3 11.6

TABULATE [PRINT=means,variances,minima,maxima;CLASSIFICATION=trat; MARGINS=yes] rend

Mean Minimum Maximum VariancetratA 11.94 10.800 13.70 1.3530B 9.50 8.300 10.80 0.8950

C 11.08 10.400 12.00 0.4870D 9.56 9.000 9.90 0.1530E 11.32 11.000 11.90 0.1670

Margin 10.68 8.300 13.70 1.5100

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(rend);SKIP=0; JUSTIFICATION=leftBOXPLOT [TITLE=_tmptext] rend; GROUPS=trat

Discusión

El análisis tabular y grafico muestran que los fertilizantes A, C y E presentan los promedios mas altos, con el menor promedio esta el fertilizante B. Sin embargo losrangos mas largos y por ende con mayor varianza se presentan en los fertilizantes A y

B. El tratamiento A presenta datos mejor distribuidos respecto a la mediana.3.6.4 Modelo, hipótesis, supuestos, prueba de los supuestos

ijijk jiij et cr u y ++++= )(

Donde: el rendimiento se observa en cada intersección de cada i fila y j colum.µ es el efecto de la media generalr i es el efecto de las filasc j es el efecto de las columnastk(ij) efecto de tratamientos k en fila i y columna j.

fila 4 colum 1 -0.700 s.e. 0.345fila 5 colum 5 0.780 s.e. 0.345

Variate: rend

Grand mean 10.680

trat A B C D E11.940 9.500 11.080 9.560 11.320

El análisis de varianza correspondiente al diseño cuadrado latino 5x5, muestra que noexiste diferencia entre los promedios tanto entre filas como entre columna. Se puede

afirmar que el efecto de estos dos factores no afecto significativamente el efecto delos fertilizantes sobre el rendimiento. La andeva muestra la comparación atendiendo por orden con respuesta estadística a los objetivos planteados: Así el primer contrastemuestra que las parcelas aplicadas con fertilizantes nuevos dieron significativamentemayor rendimiento que en aquellas aplicadas con fertilizantes tradicionales. Elsegundo y el cuarto demuestran que no existe diferencia que afecte al rendimientocuando se aplican fertilizantes con o sin urea. El tercer contraste muestra que las

parcelas aplicadas con el fertilizante A obtuvieron mayor rendimiento que aquellasaplicadas con fertilizante B y por ende fue el de mejor performance.

TABULATE [PRINT=means,variances,minima,maxima;CLASSIFICATION=trat; MARGINS=yes] rend

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(rend);SKIP=0; JUSTIFICATION=leftBOXPLOT [TITLE=_tmptext] rend; GROUPS=trat

BUILDCONTRASTS Factor=trat; nrows=4; Matrix=Cont

Ver programas en ejemplos 8 y 10 para crear contrastes ortogonales.

3.7 Ejemplo –12

Diseño de parcelas divididas

3.7.1 Enunciado

Un experimento diseñado para probar el efecto de tres cultivos de abono vegetal sobrela producción subsecuente de remolacha azucarera, con dos niveles de fertilización denitrógeno, fue planificado con un diseño de parcelas dividida. Al principio se supusoque la remolacha azucarera respondería en diversas formas a los abonos vegetales,dependiendo del nivel de fertilidad del nitrógeno; por tanto el objetivo consistió encomparar precisamente como fuese posible el efecto de los abonos vegetales en cadanivel de fertilidad. En consecuencia, las parcelas principales tuvieron que ser dosniveles dos niveles de fertilización de nitrógeno, aplicados a la remolacha de azúcar en poco tiempo y repetidos tres veces en un proyecto de bloque aleatorio completo.Las sub-parcelas fueron los abonos vegetales que crecieron durante el otoño y elinvierno anteriores a la siembra de la remolacha azucarera. Los tratamientos de abonovegetal fueron cebada ( C ), vicia ( V ), cebada y vicia creciendo juntas ( CV ) y

barbecho ( B ). No se permitió que creciera nada en las parcelas en barbecho, antes desembrar la remolacha azucarera.

Nitrogeno! Abonos! Bloq! Rend …………Continuacion

0N Ba 1 13.8 120N Ba 1 19.3

0N Ce 1 15.5 120N Ce 1 22.2

0N Vi 1 21 120N Vi 1 25.3

0N CeVi 1 18.9 120N CeVi 1 25.9

0N Ba 2 13.5 120N Ba 2 18

0N Ce 2 15 120N Ce 2 24.2

0N Vi 2 22.7 120N Vi 2 24.8

0N CeVi 2 18.3 120N CeVi 2 26.7

0N Ba 3 13.2 120N Ba 3 20.5

0N Ce 3 15.2 120N Ce 3 25.4

0N Vi 3 22.3 120N Vi 3 28.4

0N CeVi 3 19.6 120N CeVi 3 27.6

Nitrogeno 0-NMean Minimum Maximum Variance

AbonosBa 13.50 13.20 13.80 0.090

Ce 15.23 15.00 15.50 0.063Vi 22.00 21.00 22.70 0.790CeVi 18.93 18.30 19.60 0.423

Nitrogeno 120-NMean Minimum Maximum Variance

AbonosBa 19.27 18.00 20.50 1.563Ce 23.93 22.20 25.40 2.613Vi 26.17 24.80 28.40 3.803CeVi 26.73 25.90 27.60 0.723

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(Rend);SKIP=0; JUSTIFICATION=leftBOXPLOT [TITLE=_tmptext] Rend; GROUPS=Nitrogeno

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(Rend);SKIP=0; JUSTIFICATION=leftBOXPLOT [TITLE=_tmptext] Rend; GROUPS=Abonos

( ) ijk jk k ij jiijk e pqqe pbu y ++++++= '

Donde: µ es el efecto de la media general bi es el efecto de bloques i p j es el efecto de los tratamientos de la parcela principal (niveles de nitrógeno)

ei error a causa de la aleatorizacion de tratamientos en parcela ppal. Con distribución

normal N(o, σ

)qk efecto de los tratamientos k distribuidos en las sub-parcelas(qp) jk interaccion de ambos efectos.Eijk error a nivel de sub-parcelas

Variate: Rend

Source of variation d.f. s.s. m.s. v.r. F pr.

Bloq stratum 2 7.8658 3.9329 1.56

Bloq.Nitrogeno stratum Nitrogeno 1 262.0204 262.0204 104.06 0.009Residual 2 5.0358 2.5179 4.17

Bloq.Nitrogeno.Abonos stratumAbonos 3 215.2612 71.7537 118.96 <.001

Nitrogeno.Abonos 3 18.6979 6.2326 10.33 0.001

Residual 12 7.2383 0.6032Total 23 516.1196

Variate: Rend

Grand mean 20.72

Nitrogeno 0N 120N

17.42 24.02

Abonos Ba Ce Vi CeVi16.38 19.58 24.08 22.83

Nitrogeno Abonos Ba Ce Vi CeVi0N 13.50 15.23 22.00 18.93120N 19.27 23.93 26.17 26.73

Table Nitrogeno Abonos NitrogenoAbonosrep. 12 6 3s.e.d. 0.648 0.448 0.849d.f. 2 12 5.44

Except when comparing means with the same level(s) of Nitrogeno 0.634d.f. 12

Se busca la intersección de niveles de los tres factores que presenten mejor incremento en el rendimiento.

3.8.2 Diseño del experimento en GenStat

El diseño de experimento se realizo manipulando el menú Stats, luego haciendo clicen el submenú Design, de donde se eligió Select Design que produce un recuadro contodos los diseños por elegir, se elige el primero orthogonal hierarchical design (randomized block, split-plots-) hacer clic en Ok . Luego de nuevo recuadro elegir split-split-plot design hacer clic en Ok para confirmar. Responder a la pregunta(what would you like to call de la block factor?) cambiando el nombre por bloq o

bloques haciendo clic en ok para confirmar. Luego pregunta ¿cuantas son replicas de bloques? (How many replicates are there of bloq?) en el recuadro Number colocar el numero de bloques. Luego pregunta ¿como le gustaría llamar al factor parcela

principal? (What would you like to call de la whole-plot factor?) click Ok directamente. Luego pregunta ¿cuantos factores-tratamientos se incluyen en la parcela

principal? (How many treatment factores are applied to whole-plots?) poner 1 enel recuadro y hacer clic en Ok. Luego pregunta ¿como le gustaría llamar altratamiento-factor? (What would you like to call the treatment-factor?) indicar elnombre en este caso Fsiembra y hacer clic en Ok para confirmar. Luego pregunta¿Cuantos niveles tiene el tratamiento Fsiembra? (How many levels does treatmentfactor Fsiembra have? en el recuadro Number colocar el numero 3 y hacer clic en Ok.El mismo procedimiento se repite para sub-parcelas. Finalmente pregunta ¿ quiereusted imprimir el diseño? (Do you want to print de la design?) hacer clic en yes yOk . La ultima pregunta es ¿ quiere Usted revisar el diseño mediante la andeva? (doyou want to check the disign by ANOVA?) hacer clic en yes si lo desea, y clic enOk para confirmar.

Lo cual genera el diseño en la siguiente salida que incluye la andeva con grados delibertad:

*** Treatment combinations on each unit of the design ***

Source of variation d.f.

Blocks stratum 3

Blocks.Wplotsstratum

Fsiembra 2Residual 6

Blocks.Wplots.Subplots stratumInsectisida 1Fsiembra.Insectisida 2Residual 9

Blocks.Wplots.Subplots.Subsubplots stratumFcosecha 2Fsiembra.Fcosecha 4

Insectisida.Fcosecha 2Fsiembra.Insectisida.Fcosecha 4Residual 36

Total 71

Luego usando el comando la secuencia de comandos Spread, New, Data in Genstat, del recuadro Type of spread elegimos Vector (variate, text o factor), luego delrecuadro Available data seleccionamos los factores de interés bloque, Fsiembra,Insecticida y Fcosecha. Hacemos clic en Ok para confirmar la selección y obtener latabla electrónica que incluye la distribución de factores y niveles en la cual debemosadicionar la columna rendimiento o las variables que serán analizadas.

Esta seria la manera de ingresar los datos en Genstat para analizar la variablerendimiento de acuerdo al diseño de parcelas sub-divididas observado en el parrafo

anterior.

Blocks! Fsiembra! Insectisida! Fcosecha! Rend …..….Continuacion

1 1 2 1 27.7 3 2 1 1 27.8

1 1 2 2 38 3 2 1 2 31

1 1 2 3 42.1 3 2 1 3 31.2

1 1 1 1 25.7 3 2 2 2 31.5

1 1 1 3 34.6 3 2 2 3 38.9

1 1 1 2 31.8 3 2 2 1 29.5

1 3 1 1 23.4 3 3 1 3 24.3

1 3 1 2 25.3 3 3 1 2 23.7

1 3 1 3 29.8 3 3 1 1 21.21 3 2 3 36.6 3 3 2 3 34.8

1 3 2 1 20.8 3 3 2 2 26.5

1 3 2 2 29 3 3 2 1 25.2

El supuesto de normalidad se cumple, de acuerdo con los graficos de valoresajustados y normalidad.

3.8.5 Análisis de varianza y promedios

Variate: Rend

Source of variation d.f. s.s. m.s. v.r. F pr.

Blocks stratum 3 143.456 47.819 2.57

Blocks.Fsiembra stratum

Fsiembra 2 443.689 221.844 11.91 0.008Residual 6 111.758 18.626 2.14

Blocks.Fsiembra.Insectisida stratumInsectisida 1 706.880 706.880 81.21 <.001Fsiembra.Insectisida 2 40.688 20.344 2.34 0.152Residual 9 78.343 8.705 1.86

Blocks.Fsiembra.Insectisida.*Units* stratumFcosecha 2 962.335 481.168 102.80 <.001Fsiembra.Fcosecha 4 13.110 3.277 0.70 0.597

Insectisida.Fcosecha 2 127.831 63.915 13.66 <.001Fsiembra.Insectisida.Fcosecha 4 44.019 11.005 2.35 0.072Residual 36 168.498 4.681

Total 71 2840.606

* MESSAGE: the following units have large residuals.

Blocks 1 Fsiembra 2 2.54 s.e. 1.25

Blocks 2 Fsiembra 1 Insectisida 1 *units* 33.51 s.e. 1.53Blocks 4 Fsiembra 1 Insectisida 2 *units* 13.77 s.e. 1.53Blocks 4 Fsiembra 1 Insectisida 2 *units* 2-4.13 s.e. 1.53

Variate: Rend

Grand mean 30.94

Fsiembra 1 2 3

Response variate: pesovitaminas C A BPrediction S.e. Prediction S.e. Prediction S.e.

jaulas1 1622.1 21.4 1743.7 29.4 1722.1 36.72 1422.1 36.7 1543.7 29.4 1522.1 21.43 1589.5 29.9 1711.1 27.8 1689.5 29.94 1554.2 28.8 1675.8 23.1 1654.2 28.8

predict[print=p,se]vitaminas

Response variate: peso

Prediction S.e.vitaminasC 1544.1 21.5A 1665.7 18.4B 1644.1 21.5

predict[print=p,se]jaulas

*** Predictions from regression model ***

Prediction S.e. jaulas1 1696.0 24.02 1496.0 24.03 1663.3 23.34 1628.1 20.5

predict[print=p,se;adjust=equal]vitaminas

*** Predictions from regression model ***

Prediction S.e.vitaminasC 1547.0 21.5A 1668.6 18.4B 1647.0 21.5

rkeep v=mycovaprint mycova

mycova

Constant 457.3 jaulas 2 -295.8 1479.0 jaulas 3 -340.6 739.5 1119.0

jaulas 4 -319.2 739.5 583.8 1011.9vitaminas A -202.4 -443.7 -264.7 -350.3 809.6vitaminas B -147.9 -887.4 -443.7 -443.7 591.6 1183.2

Constant jaulas 2 jaulas 3 jaulas 4 vitaminas A vitaminas B

La directiva rkeep, permite encontrar directamente las varianzas y covarianzas de lostratamientos que se desea comparar, usando esta información es muy sencilloencontrar el error típico o estándar de la diferencia de las medias.

Ejemplo, la comparación entre los efectos de las vitaminas A y B se calcula primerola deferencia de los valores predichos :

Vitamina A – Vitamina B = 1668.6 – 1647 = 21Luego el s.e dif = Varianza de A + Varianza de B – 2 Cov (AB)

= 809.6 + 1183.2 - 2*(591.6) = 809.6

Asi el valor de “t” calculado es t = A-B/s.e dif = 21/809.6 = 0.025

El cual es inferior en mas de cuatro veces al valor de tabla que se encuentra con 7grados de libertad y al nivel de 0.005 de confianza.

Del resumen de los parámetros estimados, en la columna de t pr, podemos observar que las vitaminas A y B tienen efecto significativamente diferentes comparadas con elefecto de la vitamina C. Luego usando la matriz de varianzas y covarianzasencontramos que las vitaminas A y B también tienen un efecto diferentessignificativamente. Por lo cual se concluye que las jaulas en las que se utilizo lavitamina A incremento significativamente el peso o engorde de pollos encomparación con la vitamina B y es testigo vitamina C.

TABULATE [PRINT=means; CLASSIFICATION=jaulas,vitaminas;MARGINS=yes] peso

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(peso);SKIP=0; JUSTIFICATION=leftBOXPLOT [TITLE=_tmptext] peso; GROUPS=vitaminasmodel pesoterms jaulas+vitaminasfit[print=a,e;fprob=yes;tprob=yes]jaulas+vitaminaspredict[print=p,se]jaulas,vitaminaspredict[print=p,se]vitaminaspredict[print=p,se]jaulaspredict[print=p,se;adjust=equal]vitaminasrkeep v=mycovaprint mycova

4 Analisis de datos - M.Sc

4.1 Ejemplo – 15

4.1.1 Enunciado

Un veterinario solicita ayuda para analizar los datos de su experimento en el cual seinvestiga la preferencia de cuatro tipos de alimentos para pavos, el explica quedispuso de 12 cajas conteniendo 5 hembras y 5 machos lo que fueron usados en elestudio para el consumo de las 4 distintas dietas. La cantidad de alimento consumido

por los pavos en una caja es la variable respuesta que se debe analizar, se conoce quelos machos comen mas que las hembras. Desafortunadamente, algunos de los pavosmurieron en los primeros dos días de iniciado el estudio y no pudieron ser reemplazados. En la tabla de abajo se muestra la cantidad de alimento consumido por caja (sin incluir los dos primeros días), entre paréntesis se muestra el numero de pavosmachos y hembras respectivamente.

Trat A 40 (5,5) 44(5,5) 41(5,5)Trat B 34 (5,4) 28(4,5) 38(5,5)Trat C 31(5,4) 34(5,5) 24(3,5)Trata D 33(4,4) 40(5,5) 36(5,5)

El investigador solicita comprender la forma mas simple para comparar la diferenciaentre tratamientos.

Dietas! Machos Hembras ConsumoA 5 5 40

A 5 5 44

A 5 5 41

B 5 4 34

B 4 5 28

B 5 5 38

C 5 4 31

C 5 5 34

C 3 5 24

D 4 4 33

D 5 5 40D 5 5 36

Mean Minimum Maximum Variance

DietasA 41.67 40.00 44.00 4.33B 33.33 28.00 38.00 25.33C 29.67 24.00 34.00 26.33D 36.33 33.00 40.00 12.33

La distribución de datos de la la variable respuesta no es normal en los absoluto peroasumimos que es lo suficiente como para continuar con el análisis de varianza.

Discusión

La variable respuesta el la cantidad de alimento que esta afectada por tres factores:1. La dietas A, B, C y D. Que serian los tratamientos que afectan la respuesta.2. El total de numero de pavos por caja no es el mismo en todas las cajas.3. el numero de machos y hembras no es igual en cada caja.

Estos tres factores seran tomados en cuenta para analizar los datos considerando unmodelo lineal que pordria ser el siguiente.

Consumo = (No. Machos)x1 + (No.Hembras)x2 + Dietas

4.1.5 Análisis de varianza y promedios

estimate s.e. t(6) t pr.Constant 8.4 10.7 0.79 0.462Machos 5.13 1.16 4.40 0.005

Hembras 1.52 1.65 0.92 0.391Dietas B -6.12 2.02 -3.03 0.023Dietas C -8.08 2.14 -3.78 0.009Dietas D -3.12 2.02 -1.55 0.173

Los parámetros estimados para las dietas B, C y D son comparados con la Dieta A.Asi podemos ver le error estándar, valor de t y la probabilidad para cada comparaciónque nos dice que unicamente las diferencia entre las dietas B y C respecto de A essignificativa .

*** Accumulated analysis of variance ***

Change d.f. s.s. m.s. v.r. F pr.+ Machos 1 219.429 219.429 41.01 <.001+ Hembras 1 26.694 26.694 4.99 0.067+ Dietas 3 90.024 30.008 5.61 0.036Residual 6 32.103 5.351

Total 11 368.250 33.477

Discusión:

Los parámetros estimados no dicen que el consumo esta afectado básicamente por los pavos machos, siendo el efecto de la Hembras no significativo.

Con estos resultados, una opción es sacar el factor hembras del modelo. Reorganizar el modelo tomando como respuesta el consumo por pavo y como variablesindependiente la proporción de machos sobre el total de pavos mas las dietas. Estofacilitara al investigador entender la relación del siguiente modelo .

Consumo/pavo = (No pavos machos/total pavos)X1 + Dietas

model Consporpav

terms Machprop+Dietasfit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietas

estimate s.e. t(7) t pr.Constant 2.42 10.7 75 3.12 0.017Machprop 3.49 1.53 2.29 0.056Dietas B -0.604 0.190 -3.17 0.016Dietas C -0.804 0.193 -4.16 0.004Dietas D -0.258 0.190 -1.36 0.216

La interpretacion de los parametros de arriba es la misma que la del analisis previounicamente la comparacion de las dietas (D-A) es no significativa con relacion alresto.

Change d.f. s.s. m.s. v.r. F pr.+ Machprop 1 0.51616 0.51616 9.52 0.018+ Dietas 3 1.12229 0.37410 6.90 0.017Residual 7 0.37963 0.05423

Total 11 2.01807 0.18346

Discusion

En el Nuevo analisis vemos que los factores que explican las variaciones de lavariable respuesta son altamente significativos por tanto si hay diferencia en la preferencia de las dietas como se puede observar en los resultados de valoresestimados.

predict[print=p,se;adjust=equal]Dietas

Response variate: ConsporpavPrediction S.e.

Dietas

A 4.146 0.135B 3.543 0.135C 3.342 0.137D 3.888 0.135

Discusión

Se calcula de manera los valores predichos por el modelo para realizar futurascomparaciones entre dietas o grupo de diestas que el investigador considerenecesarias.

rkeep v=mycovaprint mycova

mycova

Constant 0.6006Machprop -1.1650 2.3299Dietas B -0.0181 0.0000 0.0362Dietas C -0.0450 0.0539 0.0181 0.0374

Dietas D -0.0181 0.0000 0.0181 0.0181 0.0362

Constant Machprop Dietas B Dietas C Dietas D

La directiva rkeep, permite encontrar directamente las varianzas y covarianzas de losniveles de factores. Esto nos permite disponer de información para hacer calculos delerror estándar para la comparación de dietas que se consideren necesarias:

Ej: Se desea comparar si las dietas D y C son diferentes estadísticamente:Valor de t = (D-C)/s.e dif D-C = 0.546

s.e.dif = VD + VC – 2 Cov(DC) = 0.0362 + 0.0374 – 2(0.0181)=0.0374

luego t calculado = 0.546/0.0374= 14.6 que siendo mayor al t de tabla con 7 gl alnivel de 0.05 es 2.36. Por definición las diferencias entre dietas son altamentesignificativas.

El análisis permite tener concerteza la idea de de las preferencias de dietas por la proporcion de pavos machos cuanto afecta las dietas consumidas preferentemente por los pavos machos, viendo los parámetros estimados de la regresión la dieta A tienemayor preferencia sobre B y C pero no con respecto a D, de la comparación entre D yC, deducimos que existe diferencia significativa a favor de la dieta D.

model Consumoterms Machos+Hembras+Dietasfit[print=a,e;fprob=yes;tprob=yes]Machos+Hembras+Dietasmodel Consporpavterms Machprop+Dietasfit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietaspredict[print=p,se;adjust=equal]vitaminasrkeep v=mycovaprint mycova

5 Medidas repetidas

Un supuesto en regresión y análisis de varianza es que las observaciones sonindependientes. Una situación donde esto es normalmente falso es cuando cuando setoman medidas de la misma unidad experimental (plot, plant, etc.) en funcion deltiempo. A esto se llama “medidas repetidas” de datos y existe muchos enfoques para

el análisis de este tipo de datos. La ayuda de Genstat describe estos enfoques.

Un metodo de analizar tales datos es usar regresión para ajustar un apropiadarespuesta (con respecto del tiempo) para los datos de cada unidad separadamente yluego para analizar los parámetros estimados en forma individual.

Tipicos ejemplos donde este metodo es apropiado son:

-desarrollo linear, donde una tasa de desarrollo o crecimiento es estimada como la pendiente de la regresión linear para cada unidad.

-area de infestacion por enfermedades, donde para el 50 de area infestada es estimadacomo un parámetro M de una curva logística.

Este enfoque puede se llevado acabo en un proceso de dos etapas, primero ajustar todas las respuestas individuales, luego introducir los valores de los parámetros en unsubsecuente análisis de varianza.

5.1 Ejemplo - 16

5.1.1 Enunciado.

Se estudia la eficiencia de tres métodos para aislar un hongo particular comparando latasa de crecimiento diametral (mm/dia) en cajas petrix, se decide replicar en 5 cajas

petrix el aislamiento por método. Luego de establecido el estudio se tomanmediciones de diámetro de crecimiento por caja petrix a partir del dia 3 y continuandohasta el dia 8.

dia c11 C12 C13 C14 C15 C21 C22 C23 C24 C25 C31 C32 c33 C34 C35

3 3.7 3.9 3.9 3 3.6 3.4 3.2 3.6 2.6 3.1 2.4 2.3 2.2 3.2 2.2

4 5 5.6 5 3.7 4.6 4.5 3.9 5.2 3.8 3.8 3.5 3.2 2.8 3.9 2.6

5 6.1 6.5 5.8 4.3 5.7 5.6 4.7 6.3 3.9 5.3 3.7 4.2 3.4 5.2 3.7

6 7.5 7.3 7.3 5.6 6.7 6.2 5.5 7.7 5.3 6.1 4.9 5.2 4.2 6.3 3.8

7 8.3 9.1 8 6.2 8.1 7.4 6.7 8.6 6.2 6.9 6.1 5.3 4.7 7.3 5

8 9.8 10.8 9.5 7.2 9.2 9 7.7 10 6.7 8.4 7 6.4 5.8 7.9 5.3

Nota. En las columnas el primer numero después de la c (caja petrix) indica el numero de aislamiento,el segundo indica la repetición.

Aclaración.-se tiene tres factores que afectan la variable respuesta (medición deldiámetro del hongo por caja), los factores son: repetición, el tiempo (días) y lostratamientos (métodos de aislamientos).

5.1.2 Método 1 de análisis

1. Si los datos se organizaran como en la tabla de arriba se puede analizar los datoshaciendo regresiones individuales tomando como variable respuesta los diámetrostomados de las repeticiones que están incluidas en los tres aislamientos y por días.

Con este método se elimina el factor tiempo el cual afecta al supuesto deindependencia de las mediciones.

2. En Gesntat se utilizaría el siguiente menú: (Stat, Regresión Análisis, Linear, yeligiendo Simple Linear Regresión).

Asi la salida de la primera regresión seria:

***** Regression Analysis *****Response variate: d1Fitted terms: Constant, dia

Percentage variance accounted for 99.5

Standard error of observations is estimated to be 0.152

estimate s.e. t(4) t pr.Constant 0.165 0.2 10 0.79 0.476día 1.1943 0.0364 32.81 <.001

La tasa de desarrollo en el día uno en función de los aislamientos es 1.1943.

Precediendo de igual manera con las restantes 14 mediciones se obtienen las tasasindividuales que pueden ser reordenadas en una nueva tabla de entrada, como semuestra abajo. Esta tiene 15 filas con tres columnas, dos factores Aislamiento ynumero de caja petrix, (5 cajas petrix por aislamiento).

Aislam! PetrixNo! Pendientes

1 1 1.1943

1 2 1.3086

1 3 1.1

1 4 0.8514

1 5 1.12862 1 1.0657

2 2 0.9057

2 3 1.2457

2 4 0.8314

2 5 1.0457

3 1 0.9143

3 2 0.7943

3 3 0.7

3 4 0.9943

3 5 0.6514

Variate: Pendientes

Source of variation d.f. s.s. m.s. v.r. F pr.Aislam 2 0.24379 0.12189 4.90 0.028Met1 vs (Met2+Met3)/2 1 0.13565 0.13565 5.46 0.038Met2 vs Met3 1 0.10814 0.10814 4.35 0.059

Residual 12 0.29831 0.02486Total 14 0.54210

Variate: Pendientes

Grand mean 0.982

Aislam 1 2 3

1.117 1.019 0.811

Table Aislamrep. 5d.f. 12s.e.d. 0.0997

Discussion:

El analizas de varianza de arriba muestra que el método 1 presenta diferenciasignificativa respecto de los otros dos. Lo que indica que las cajas petrix establecidascon el método uno incrementaron el diámetro de desarrollo del hongo con mayor velocidad 1.117 mm/dia en comparación con los otros dos métodos que entre si no

presentan diferencia al nivel de 0.05.

5.1.3 Método 2 mediante regresiones

Otra alternativa que permite realizar las regresiones en el metodo 1 llevarlas acabo de

forma simultanea.

los diámetros de todas las cajas petrix son introducidos en una hoja electrónica deGenstat en una larga columna con 90 observaciones (6 días por 15 cajas petric por método).,Luego de tener la hoja electrónica lista, usar los siguientes comandos Stats,Regresión Análisis de la lista de regresión. Hacer clic en Opciones, y de-seleccionar la opción Estimate Constant Term. Hacer clic en Ok para confirmar. Entrar diámetro como variable respuesta y método cajas/dias en Model to be Fitted. Luegohacer clic en Ok para confirmar.Hacer clic en Save. Seleccionar Estimates e introducir el nombre Pendiente en el

recuadro adyacente. También seleccione la opción, Display in Spreadsheet. Clic Ok .Mediante este procedimiento se gravara los parametros estimados (ambos constantesy pendientes) dentro de una columna llamada pendiente.

La hoja electrónica resultante, se muestra arriba y tiene 30 filas y la primeras 15

contienes las constantes y el resto las tasas de crecimiento o desarrollo de cadaregresión. Se deberá borrar las constantes así la columna queda con 15 filascorrespondiente a las tasas de crecimientos esto se hace usando el siguiente menúSpread, Delete y Selected rows).

En la nueva hoja electrónica creada, deberá introducirse el factor método para poder hacer el análisis de varianza similar al método anterior.

5.1.4 Metodo 3. Usando Excel

Un tercer metodo para calcular la tasa de desarrollo (pendiente) es usando la funcionSLOPE en Excel. La sintaxis general de esta funcion es:

SLOPE(known_y’s, known_x’s)

En este caso y’s son los diametros de cada replica por metodo de aislamiento x’s sonel numero de dias que se realizaron las mediciones. Como se observa en siguientecuadro:

Los datos corresponde al numero de hojas en plantas de coliflor, que seránrelacionadas con los grados de temperatura acumulados (grados acumulados por día).Hay siete pares de valores para cada variedad del experimento. Los análisis evaluaransi la relación (lineal) entre el numero de hojas y la temperatura acumulada díaria entrelas variedades.

Variedad! hojas temp

Var1 3.8 4.5

Var1 6.2 7.5

Var1 7.2 9.5

Var1 8.7 10.5

Var1 10.2 13

Var1 13.5 16

Var1 15 18

Var2 6 4.5

Var2 8.5 8

Var2 9.1 9.5

Var2 12 11.5

Var2 12.6 13

Var2 13.3 14

Var2 15.2 16.5

6.1.4 Modelos y análisis

Para el análisis usamos el menu principal Stats, luego Linear Regresión seleccionando Simple Linear Regresión with Groups del menu. Presionar Options

del menu de Regression y luego selccione Accumulated, finalmente Ok .

6.1.4.1 Una solo línea de regresióneste primer modelo con una sola variable independiente (temperatura acumulada)genera una regresión lineal simple.

Response variate: hojasFitted terms: Constant, temp

Change d.f. s.s. m.s. v.r. F pr.+ temp 1 152.069 152.069 119.58 <.001Residual 12 15.260 1.272

Total 13 167.329 12.871

6.1.4.2 líneas paralelas

esto se consigue agregando al modelo temp + variedad como variablesindependientes.

Response variate: hojasFitted terms: Constant + temp + variedaded

Change d.f. s.s. m.s. v.r. F pr.+ temp 1 152.0694 152.0694 930.74 <.001+ variedad 1 13.4626 13.4626 82.40 <.001

Residual 11 1.7972 0.1634

Total 13 167.3293 12.8715

6.1.4.3 Líneas separadas

finalmente agregamos la interacción años.temp, es decir los términos que explicanla respuesta son: Constante + temp + variedad + temp.variedad, que corresponde aajustar líneas separadas para cada año.

Response variate: hojasFitted terms: Constant + temp + year + temp.variedad

Change d.f. s.s. m.s. v.r. F pr.+ temp 1 152.0694 152.0694 920.04 <.001+ variedad 1 13.4626 13.4626 81.45 <.001+ temp.variedad 1 0.1444 0.1444 0.87 0.372Residual 10 1.6529 0.1653

Total 13 167.3293 12.8715

6.1.5 Interpretación

Del primer modelo vemos que el termino temp es importante y que el cuadradomedio del residuo es 1.272. el segundo modelo expuesto en el inciso ( b)), muestrala salida resultante de agregar el termino variedad es decir líneas paralelas, eltermino adicional es significativo y el cuadrado medio del error (variaza) ha

bajado a 0.163. En el tercer modelo presentado en el inciso ( c ) muestra que las

líneas separadas no mejoran el modelo siendo no significativo y que el cuadradomedio del residuo no aumento en gran medida 0.165, por lo cual escogemos elmodelo de líneas paralelas, es decir con el arreglo temp + variedad.

6.1.6 Grafico del modelo elegido

Para obtener los detalles y el grafico del modelo ajustado regresamos al menu deregresión y ajustamos directamente el modelo, usando General linear Regresión como se muestra en la siguiente figura. El modelo ajustado puede examinarse

gráficamente seleccionando Further options y Fitted model con temp comoExpalnatory variate y variedad como el Grouping factor.

Finalmente como Genstat muestra los coeficientes del modelo ajustado. Por defecto se obtine la siguiente salida:

estimate s.e. t(11) t pr.Constant -0.010 0.337 -0.03 0.978Variedad Var2 1.962 0.216 9.08 <.001temp 0.8186 0.0266 30.81 <.001

Seleccionando Options en el menu de Resgression y eliminando la seleccionEstimante Constant nos da como resultado la siguiente salida.

estimate s.e. t(11) t pr.

Variedad Var1 -0.010 0.337 -0.03 0.978Variedad Var2 1.953 0.330 5.92 <.001temp 0.8186 0.0266 30.81 <.001

De esta ultima salida se obtienen directamente las ecuaciones:

Variedad 1: No hojas = -0.01 + 0.8186*tempVariedad 2 : No hojas = 1.953 + 0.8186*temp

Si se requiere el modelo para lineas separadas, entonces el resultado predeterminado del modelo ajustado como variedad + temp + temp.variedad, lasalida es como sigue.

estimate s.e. t(10) t pr.Constant -0.249 0.425 -0.59 0.570Variedad Var2 2.525 0.640 3.94 0.003

temp 0.8398 0.0351 23.95 <.001temp.Variedad Var2 -0.0506 0.0542 -0.93 0.372

Mientras que el resultado sin la constante y para el modelo ajustado comovariedad + temp.variedad

estimate s.e. t(10) t pr.Variedad Var1 -0.249 0.425 -0.59 0.570Variedad Var2 2.276 0.479 4.75 <.001

temp.Variedad Var1 0.8398 0.0351 23.95 <.001temp.Variedad Var2 0.7892 0.0413 19.12 <.001

Este ultimo resultado genera nuevamente las siguientes ecuaciones:

6.1.7 Conclusiones

El grafico del modelo expresa la distribución de los datos presentados en larelacion del analsisi exploratorio para ambas variedades, la presicion del mismo seexpresa con el tamño de la varianza homogénea.

La variedad dos muestra el mismo incrento del numero de hojas por unidad detemperatura lo que esta condicionado por la pendiente 0.8186. Pero por lascaracterísticas de la variedad presenta mayor numero de hojas que la variedad uno

lo que se manifiesta en la diferencia de constantes en las ecuaciones.

6.2.3.1 Una solo línea de regresión,

este primer modelo con una sola variable independiente (Temperatura) genera unaregresión lineal simple.

*** Accumulated analysis of deviance ***

Change mean deviance approxd.f. deviance deviance ratio chi pr

+ temp 1 44.501 44.501 44.50 <.001Residual 12 30.682 2.557

Total 13 75.183 5.783

6.2.3.2 líneas paralelas

Esto se consigue agregando al modelo tem + variedad como variables independientes.

+ temp 1 44.501 44.501 44.50 <.001+ Variedad 1 7.886 7.886 7.89 0.005Residual 11 22.796 2.072

Total 13 75.183 5.783

6.2.3.3 Líneas separadas

finalmente agregamos la interacción variedad.temp, es decir los términos que explicanla respuesta son: Constante temp + variedad + temp.variedad, que corresponde a

ajustar líneas separadas para cada variedad.

+ temp 1 44.5011 44.5011 44.50 <.001+ Variedad 1 7.8858 7.8858 7.89 0.005+ temp.Variedad 1 16.1944 16.1944 16.19 <.001Residual 10 6.6014 0.6601Total 13 75.1828 5.7833

Del primer modelo vemos que el termino temp es altamente significativo en larelación y el cuadrado medio del residuo es 2.557. el segundo modelo expuesto enel inciso ( b) líneas paralelas, muestra la salida resultante de agregar el terminovariedad el cual también es altamente significativo con cuadrado medio del error (variaza) levemente mas bajado a 2.072. En el tercer modelo presentado en elinciso ( c ) las líneas separadas, muestra que el efecto de la interacción esaltamente significativa y el cuadrado medio del residuo bajo considerablemente0.6601, por lo cual escogemos el modelo de líneas separadas, es decir con elarreglo temp + variedad + temp.variedad.

Al igual que en el caso anterior 19.1, En el cuadro de dialogo Generalized linearmodels, Ajustamos el modelo introduciendo en el sub menu model to be fitted elmodelo variedad + temp.variedad y antes de ejecutarlo, seleccionamos el menuOptions y eliminamos la selección Estimate Constant para obtener los siguientes

parámetros estimados para cada una de la variedades con constantes pendientesdiferentes al ser líneas separadas.

antilog of estimate s.e. t(*) t pr. estimate

Variedad Var1 -3.97 1.20 -3.32 <0.001 0.01885Variedad Var2 -17.59 5.88 -2.99 0.003 0.230E-07temp.VariedadVar1 0.2755 0.0880 3.13 0.002 1.317temp.VariedadVar2 1.562 0.507 3.08 0.002 4.768

logit (p) = ln (p/1-p) = ŷ

Variedad 1 logit (p) = -3.97 + 0.2755*Temp.Variedad 2 logit (p) = -17.59 + 1.562*Temp.

6.2.6 Conclusión

Asi para una temperatura de 12 grados acumulados al dia, el numero esperado de plantas enfermas para la variedad uno seria plantan enfermas = anti ln {ln (0.01885)

+ln(1.317)*(10.6) = 1. Mientras que para la variedad dos serian 3. y podriamosconcluir que el incremento de la temperatura afecta incrementando el numero de

plantas enfermas de las variedades pero tambien que la variedad 2 esexponencialmente susceptible.

6.3 Ejemplo – 19 Cuando los datos siguen la distribución de Poisson

Continuando con el enunciado el ejemplo 19.1 para distribución normal, aquí elobjetivo es analizar si los datos registrados para la presencia de una enfermedadradicular causada por el hongo Fusarium sp. Fue afectada por la temperatura y/oalguna de las variedades presento cierta resistencia. Los datos fueron tomados deltotal plantas (22-25) de cada unidad experimetal.

6.3.1 Entrada de datos en Genstat

A la tabla del ejemplo anterior agregamos una columna con la información señalada.

Variedad! hojas temp total Plenfer Fusarium

Var1 3.8 4.5 6 0 1

Var1 6.2 7.5 6 0 1

Var1 7.2 9.5 7 2 2

Var1 8.7 10.5 7 3 2

Var1 10.2 13 8 3 3

Var1 13.5 16 8 5 4

Var1 15 18 9 6 5

Var2 6 4.5 6 0 2

Var2 8.5 8 6 0 6

Var2 9.1 9.5 7 1 9

Var2 12 11.5 7 3 11

Var2 12.6 13 8 8 15

Var2 13.3 14 8 8 18

Var2 15.2 16.5 9 9 21

cual escogemos el modelo de líneas paralelas, es decir con el arreglo temp +variedad, procediendo al igual que en el primer caso cuando analizamos datos condistribución normal.

mean deviance approxd.f. deviance deviance ratio chi pr

Regresión 2 73.720 36.8598 36.86 <.001Residual 11 2.122 0.1929Total 13 75.841 5.8339

antilog of estimate s.e. t(*) t pr. stimate

Variedad Var1 -0.985 0.478 -2.06 0.039 0.3736Variedad Var2 0.642 0.397 1.62 0.106 1.901temp 0.1518 0.0296 5.12 <.001 1.164

logit (p) = ln (p/1-p) = ŷ

Variedad 1 logit (p) = -.985 + 0.2755*Temp.Variedad 2 logit (p) = 0.642 + 1.562*Temp.

6.3.6 Conclusión

Los cual se interpreta diciendo que el numero de plantas infestadas en 0.1518 veso las veces del resultado ln (1.164) por cada unidad de temperatura que seincremente para cada variedad en particular. Asi para 12 grados de temperatura elnumero de plantas infestadas para la variedad uno se calcula:

Variedad 1 No Pl infestadas = anti ln {ln(0.3736) + ln(1.164)*12 }=2Variedad 2 No Pl infestadas= anti ln { ln(1.901) + ln(1.164)*12 }= 11

Lo cual esta de acuerdo con los datos exploratorios que demuestran una respuestanatural de mayor susceptibilidad de la variedad dos que se incrementalogaritmicamente en forma paralela a la variedad uno como efecto del incrementode la temperatura.

6.4 Ejemplo – 20

7 Estructura Binomial

Como parte de un largo estudio sobre los efectos de varios químicos sobre lagerminación de semillas bajo viarios regímenes de temperatura, cuatro diferentesconcentraciones de un químico fueron usadas para tratamiento de semillasalmacenadas a cuatro niveles de temperatura. Para cada una de las 16combinaciones 4 recipientes con 50 semillas fueron almacenados y el numero desemillas contenidas en las 64 unidades experimentales fueron probados bajocondiciones estándares. En la tabla de abajo se muestra el numero de semillasgerminadas en cada recipiente. Si se asume que cada una de las 50 semillasgerminan independientemente y que no existe ninguna diferencia en la tasa degerminación entre recipientes que son tratados idénticamente, luego unadistribución binomial mas una relación logística puede ser esperada como unmodelo apropiado. Una secuencia de modelos es ajustada para evaluar la relativaimportancia de los efectos de los niveles de concentración y temperatura y su

interacción. Note que no hay boque para las 4 repeticiones.

7.1.1 Datos a introducir

Concentración

Temp! Rep Agua 0.1 1 10T1 1 9 13 21 40

2 9 12 23 32

3 3 14 24 43

4 7 15 27 34

T2 1 19 33 43 48

2 30 32 40 48

3 21 30 37 49

4 29 26 41 48

T3 1 7 1 8 3

2 7 2 10 4

3 2 4 6 8

4 5 4 7 5

T4 1 4 13 16 13

2 9 6 13 18

3 3 15 18 11

4 7 7 19 16

7.1.2 Análisis exploratorio

MeanConc agua 0.1 1.0 10TempT1 7.00 13.50 23.75 37.25T2 24.75 30.25 40.25 48.25T3 5.25 2.75 7.75 5.00

T4 5.75 10.25 16.50 14.50

G erminacion co n Tem peratura -1

0 2 4 6

C once ntracion

G erm inacio n con Tem pe ratura -2

0 2 4 6

C onc entracion

G erminacion co n Tem peratura -3

0 2 4 6

C oncen tracio n

Germinacion con Tem eratura -4

05101520

0 2 4 6

Concentracion

Modelo Desvianza Grados de libertad

Media general 1193.8 63Media + Temp 430.1 60

Media + Conc 980.1 60Media + Temp + Conc 148.1 57Media + Temp + Con. + Temp.Conc 55.6 48

Obviamente la desvianza mas pequeña corresponde al modelo mejor ajustado para elcual calculamos los parámetros estimados.

antilog of

estimate s.e. t(*) t pr. estimateConstant -1.815 0.204 -8.91 <.001 0.1628

Temp T2 1.795 0.248 7.24 <.001 6.021

Temp T3 -0.328 0.308 -1.06 0.287 0.7207

Temp T4 -0.225 0.301 -0.75 0.454 0.7982

Conc 0.1 0.821 0.259 3.17 0.002 2.272

Conc 1 1.715 0.248 6.91 <.001 5.558

Conc 10 2.887 0.26 11.09 <.001 17.95

Temp T2 .Conc 0.1 -0.374 0.328 -1.14 0.254 0.6878

Temp T2 .Conc 1.0 -0.277 0.337 -0.82 0.41 0.7578

Temp T2 .Conc 10 0.449 0.485 0.93 0.354 1.567

Temp T3 .Conc 0.1 -1.522 0.465 -3.27 0.001 0.2184Temp T3 .Conc 1.0 -1.268 0.391 -3.24 0.001 0.2813

Temp T3 .Conc 10 -2.942 0.42 -7 <.001 0.05277

Temp T4 .Conc 0.1 -0.135 0.383 -0.35 0.724 0.8734

Temp T4 .Conc 1.0 -0.383 0.365 -1.05 0.295 0.682

Temp T4 .Conc 10 -1.742 0.376 -4.64 <.001 0.1751

Asi el modelo que es :

logit (pij) = log (pij/(1-pij))= Media + Temp + Con. + Temp.Conc

Por ejemplo para T2, C2 y su interacción seria:

Logit (pij) = -1.815 + 1.795 ln ( T2) + 0.821ln(Conc 0.1) – 0.374[ln(T2)*ln(Conc0.1)]

Agregando un pseudofactor con dos niveles para comparar dos grupos de niveles detemperatura (T1 + T2) vs (T3 + T4), la primera agrupación por presentar el mayor incremento de plantas germinadas mientras en los dos últimos niveles presentaron losincrementos mas bajos.

+ pseudoF 1 554.586 554.586 554.59 <.001+ Temp 2 209.101 104.551 104.55 <.001+ Conc 3 282.008 94.003 94.00 <.001

+ Temp.Conc 9 92.464 10.274 10.27 <.001Residual 48 55.641 1.159

Total 63 1193.801 18.949

La principal fuente de interacción seria la ausencia de un incremento en la respuesta(plantas germinadas) a los niveles del químico con temperatura a nivel 3 como seobserva en el grafico y promedio en la sección del análisis exploratorio. Para el restode los regímenes de temperatura en interacción con el químico utilizado el numero de

plantas germinadas aumenta en relación al incremento de la concentración. Losmayores incrementos de plantas germinadas se observan en los niveles T1 y T2 detemperatura, mientras que los mas bajos corresponden a los niveles T3 y T4. cuyadiferencia entre ambos grupos de acuerdo al ultimo análisis de desvianza realizadoincluyendo el pseudo factor muestra que es altamente significativa.

8 Regresión logística

8.1 Ejemplo 21

8.1.1 Enunciado

Se evalua la sobrevivencia de estacas de yuca (Manihot sculenta) mediante pruebade germinación para dos épocas de siembra Primavera tardía y Verano, con dostamaños de tallo ( largo y corto), después de tres semanas se realiza el conteo de lasestacas germinadas, se desea conocer en que medida los factores de época de siembra

y tamaño de la estacas están relacionados con la sobrevivencia de las estacas.

8.1.2 Introducción de datos

Epoca tamano Sbrev No pl

Primaver largo viva 156

Primaver corto viva 107

Primaver largo muerta 84

Primaver corto muerta 133

Verano largo viva 84

Verano corto viva 31Verano largo muerta 156

Verano corto muerta 209

Primaver Verano Grand TotalSbrev. corto largo corto largo

muerta 133 84 209 156 582

viva 107 156 31 84 378

Grand Total 240 240 240 240 960

Los principios expuestos en capitulos anteriores para tables de doble entrada pueden

ser extendidos para tables de mayors dimenciones. En este ejemplo se muestra unatabla con tres variables categóricas: La epoca de siembra, el tamaño y lasobrevivencia.

Los datos como respuesta a estas tres variables estan representados por

Yijk , i(epocas0=1, 2....E. j(tamaños)=1, 2,.... T. K(sobrev.)=1,2... S.

El modelo completo puede ser escrito como sigue:

Log Uijk = m + Ei + Tj + Sk + (ET)ij + (ES)ik + (TS)jk + (ETS)ijk

Donde:Uijk = media gral. como resultado del efecto de todos los términos de miembro izq.Ei, Tj, y Sk = efectos individuales de cada factor en orden jerarquico.(ET)ij, (ES)ik, (TS)jk y (ETS)ijk = Interacciones de acuerdo al orden jerarquico.

El procedimiento de análisis en Genstat es muy similar que para los modelos nolineares vistos anteriormente, iniciamos con Stats de la barra del menu principal,luego del submenú Regresión análisis elegimos Generalized linear models. Delcuadro de dialogo para Análisis, elegimos Log-linear modelling. En el recuadro

Response variates introducimos Numero de plantas germinadas. En el recuadro deNumber of successes introducimos la columna que representa el numero de plantasgerminadas. En el recuadro Model to be fitted la variable independiente empesandoen el orden jerarquico Epocas. Luego para adicionar mas factores, inicialmentehacemos clic en el submenú Change model en el recuadro Terms introduciremos lostérminos en el orden de interés como se muestra en la fuente de variación del análisisabajo.

Empezando con el factor Epoca

Change mean deviance approx

d.f. deviance deviance ratio chi pr + Epoca 1 0.00 0.00 0.00 1.000Residual 6 194.70 32.45

Total 7 194.70 27.81

Adicionando factores individuales en el orden que se muestra en la fuente devariacion del analisis de desvianczas y comparando los residuales de las desvianzasmedias y la significancia para elegir el modelo que minimice los residuales y presentediferencia estadística significativa.

+ Epoca 1 0.00 0.00 0.00 1.000+ Tamano 1 0.00 0.00 0.00 *+ Sobrev 1 43.68 43.68 43.68 <.001Residual 4 151.02 37.75

Total 7 194.70 27.81

Adicionando las interacciones en el orden jerarquico sugerido.

+ Epoca 1 0.000 0.000 0.00 1.000+ Tamano 1 0.000 0.000 0.00 *+ Sobrev 1 43.682 43.682 43.68 <.001+ Epoca.Tamano 1 0.000 0.000 0.00 *+ Epoca.Sobrev 1 97.579 97.579 97.58 <.001

+ Tamano.Sobrev 1 51.147 51.147 51.15 <.001Residual 1 2.294 2.294

Total 7 194.702 27.815

8.1.5 Discusion

Los análisis anteriores nos permiten elejir el modelo que explica la mayor variavilidadde la media general 194.702. el ultimo análisis de desvianzas presenta el residual mas

bajo 2.294 que seria lo que no explica el modelo, pero que es el mas bajo encomparación con los modelos anteriores que al igual que este presenta diferenciaestadística altamente significativa. Estas son las razones para elegir este modelo que

considera la sobrevivencia como factor individual y las interacciones con los otros dosfactores.

En este nuevo análisis de desvianzas resumimos las distribución de las desvianzasentre los terminos del modelo que se observan el la fuente de variación (change)

Change mean deviance approxd.f. deviance deviance ratio chipr

+ Sobrev 1 43.682 43.682 43.68 <.001+ Sobrev.Epoca 2 97.579 48.789 48.79 <.001+ Sobrev.Tamano 2 45.837 22.918 22.92 <.001Residual 2 7.604 3.802

Total 7 194.702 27.815

antilog of estimate s.e. t(*) t pr. estimate

Constant 5.1179 0.0730 70.14 <.001 167.0Sobrev muerta -0.624 0.111 -5.61 <.001 0.5359Sobrev viva.Epoca Verano -0.827 0.112 -7.40 <.001 0.4373Sobrev muerta.Epoca Verano 0.5200 0.0857 6.07 <.001 1.682Sobrev viva.Tamano corto -0.553 0.107 -5.18 <.001 0.5750Sobrev muerta .Tamano corto 0.3542 0.0842 4.21 <.001 1.425

La interacción de los factores Epoca y tamaño no afecta la sobrevivencia de lasestacas de yuca. Unicamente la interaccion de sobrevivencia con los factores de epocay tamaño muestran ser altamente significativa y explican la sobrevivencia de lasestacas mediante pruebas de germinación. De la probabilidades de observadas mayor numero de estacas sobreviven plantando en Primavera tardía y tallos largos.8.2 Ejemplo 22

8.2.1 Enunciado

Se estudia la relación de independencia entre dos especies de cítricos sobre lacantidad de éxito y fracaso en plantas injertadas, el injerto de dos variedades denaranja (A y B) sobre un pie de injerto resistente a gomosis.

var! injerto! Nopla

A Ex 45A Fr 60

B Ex 20

B Fr 95

TABULATE [PRINT=totals;CLASSIFICATION=var,injerto;MARGINS=yes]Nopla

Totalinjerto Ex Fr Total

var A 45.00 60.00 105.00B 20.00 95.00 115.00

Total 65.00 155.00 220.00

Para probar si existe una relación de dependencia entre las variedades y la respuestaen el injerto bastaria con hacer una prueba de chi-cuadrado en Genstat usando lossiguientes comandos: Stats, Statistical test y luego elegir Contingency table. Hacer clic en Create table luego dar nombre a la tabla y especificar el numero de filias ycolumnas 2x2. e ingresar los valores. Finalmente hacer clic en Ok para confirmar.

La salida es como sigue:

CHISQUARE [method=pearson] table

Pearson chi-square value is 27.07 with 1 df.

Probability level (under null hypothesis) p < 0.001

Los valores esperados Eij son calculados de la siguiente forma:

Eij = Nx(Fi/N)x(Cj/N) F=Total en las filas y C=totales en columnas

Simplificando Eij =(FixCj)/N ej. E11= (105x120)/200=63

Luego el calculo de Chi-cuadrado

X2 = Sumatoria{(valor Obs. – valor esperado)2/valor esperado}

X2 = (18)2 (1/63 + 1/42 + 1/ 57 + 1/38)= 27.7 valor obtenido en salida de Genstat.

esta probabilidad nos indica que la respuesta del los niveles categoricos de ijerto(éxito/fracaso) responden altamente significativa al efecto de los dos nivelescategóricos de la variedad (A/B).

8.3 Ejemplo 23

8.3.1 Enunciado

Si a los datos del ejercicio anterior agregamos una factor llamado localidad (L1 y L2)a nuestro estudio como es muy normal en investigación agrícola, nuestros datos enGenstat estarian de la siguiente manera:

var! !Loc injerto! Nopla

A L1 Ex 25

A L1 Fr 10

A L2 Ex 20A L2 Fr 50

B L1 Ex 60

B L1 Fr 5

B L2 Ex 15

B L2 Fr 15

Note que los valores de éxito y fracaso de ambas variedades se reparten por localidades

Los totales para cada factor serian;

Variedades Localidades Injertos

A 105 1 100 Ex 120B 95 2 100 Fr 80

Totales 200 200 200

8.3.4 Discusión del análisis

El calculo para los valores esperados ahora es mas tedioso así para el primer valor denuestros datos seria:

200x(105/200)x(100/200)x(120/200)=31.5

en términos formales seria:

EAL1IEx = Nx(VA/N)x(L1/N)x(IEx/N)

Finalmente nuestro Chi-cuadrado seria X2 = 103.72

Para calcular los efectos por separado talvez tendríamos que organizar tablasindividuales o si queremos ver la interacción de efectos y se complica mas aun sitenemos la necesidad de seguir agregando factores.

8.3.5 ModeloSi aplicamos logaritmo a la formula de arriba tendríamos la siguiente formula queexplicaria como la respuesta de cada valor se ve afectado por cada uno de las nivelescategóricos:

Ln (EAL1IEx ) = Ln (VA ) + Ln (L1 ) + Ln (IE) - 2Ln (N )

Si incluimos la interaccion tendríamos

Ln (EAL1IEx ) = Ln (VA ) + Ln (L1 ) + Ln (IE) + ln(LI)1VA - 3Ln (N )

Este mismo modelo se realiza en Genstat valanceando con la constante el termino queaqui reduce en 2 o 3 veces Ln(N) al miembro izquierdo de la ecuación.

Usando el mismo proceso en el manejo del menu que en el ejercicio anterior aquíobtenemos el modelo completo y observamos la desviación media del residual y lasignificancia básicamente en la respuesta y las interacciones de los factores.

La cantidad de plantas injertadas son estadísticamente superiores con ralacion en laque no se tubo éxito. La interacción entre variedad y localidad esta generada

básicamente por la diferencia entre lo totales de la cantidad de plantas de la variedadB en la localidad 1 que es estadísticamente diferente del total de la variedad A enlocalidad 1. Finalmente podemos afirmar que se obtuvo mayor éxito injertando con la

variedad A efectuados en la localidad 1.

8.4 Ejemplo 24

8.4.1 Enunciado

Los datos en este ejemplo son la frecuencia de ocurrencia de diferentes números decorderos que nacieron vivos de hembras de tres diferentes razas en tres fincasdiferentes.

fincas! razas! cor_vivos! NoCorderos ……..Continuacion

1 A 0 10 2 B 2 56

1 A 1 21 2 B 3+ 1

1 A 2 96 2 C 0 1

1 A 3+ 23 2 C 1 5

1 B 0 4 2 C 2 20

1 B 1 6 2 C 3+ 2

1 B 2 28 3 A 0 22

1 B 3+ 8 3 A 1 95

1 C 0 6 3 A 2 103

1 C 1 7 3 A 3+ 4

1 C 2 58 3 B 0 18

1 C 3+ 7 3 B 1 49

2 A 0 8 3 B 2 62

2 A 1 19 3 B 3+ 0

2 A 2 44 3 C 0 4

2 A 3+ 1 3 C 1 12

2 B 0 5 3 C 2 16

2 B 1 17 3 C 3+ 2

cor_vivos 0 1 2 3+Fincas razas

1 A 10 21 96 23B 4 6 28 8C 6 7 58 7

2 A 8 19 44 1B 5 17 56 1C 1 5 20 2

3 A 22 95 103 4B 18 49 62 0

C 4 12 16 2

+ fincas 2 78.452 39.226 39.23 <.001

+ razas 2 171.664 85.832 85.83 <.001+ cor_vivos 3 552.434 184.145 184.14 <.001+ fincas.razas 4 75.036 18.759 18.76 <.001+ fincas.cor_vivos 6 112.394 18.732 18.73 <.001+ razas.cor_vivos 6 4.265 0.711 0.71 0.641Residual 12 14.580 1.215

Total 35 1008.825 28.824

8.4.5 Discusión:

Claramente la interaccion razas por corderos vivos es no significativa entonces elmodelo que deberiamos usar excluye esta interaccion. Dando lugar al modelosiguiente donde los grados de libertad del residual (18) es muy similar a la desvianza18.84, que es otro indicador de que nuestro modelo provee un aceptable ajuste de llosdatos.

+ fincas 2 78.452 39.226 39.23 <.001+ razas 2 171.664 85.832 85.83 <.001+ cor_vivos 3 552.434 184.145 184.14 <.001+ fincas.razas 4 75.036 18.759 18.76 <.001+ fincas.cor_vivos 6 112.394 18.732 18.73 <.001Residual 18 18.845 1.047

Total 35 1008.825 28.824

Parámetros estimados para el modeloantilog of

estimate s.e. t(*) t. pr estimateConstant 2.393 0.23 10.39 <.001 10.95

fincas 2 -0.665 0.364 -1.82 0.068 0.5143

fincas 3 0.844 0.279 3.03 0.002 2.326

razas B -1.182 0.169 -7.01 <.001 0.3067

razas C -0.654 0.14 -4.68 <.001 0.52

cor_vivios 1 0.531 0.282 1.88 0.06 1.7

cor_vivios 2 2.208 0.236 9.37 <.001 9.1

cor_vivios 3+ 0.642 0.276 2.32 0.02 1.9

fincas 2 .razas B 1.275 0.234 5.44 <.001 3.578

fincas 2 .razas C -0.291 0.263 -1.11 0.269 0.7479

fincas 3 .razas B 0.63 0.202 3.13 0.002 1.878fincas 3 .razas C -1.231 0.231 -5.33 <.001 0.2919

fincas 2 .cor_vivios 1 0.544 0.419 1.3 0.194 1.723

fincas 2 .cor_vivios 2 -0.06 0.368 -0.16 0.871 0.9419

fincas 2 .cor_vivios 3+ -1.895 0.631 -3 0.003 0.1504

fincas 3 .cor_vivios 1 0.735 0.329 2.23 0.026 2.086

fincas 3 .cor_vivios 2 -0.794 0.289 -2.74 0.006 0.452

fincas 3 .cor_vivios 3+ -2.634 0.515 -5.11 <.001 0.07177

8.4.6 Discusión

Para efectos de interpretación del modelo, necesitamos una tabla que explique lainteracción fincas por corderos vivos, ya que la interacción precedente esindependiente de corderos vivos, aunque se pueden presentar ambas tablas queexpliquen ambas interacciones. la siguiente tabla muestra la interacción finca vscorderos vivos

TABULATE [PRINT=means;CLASSIFICATION=fincas,cor_vivios;MARGINS=no] NoCorderos

Meancor_vivos 0 1 2 3+fincas

1 6.67 11.33 60.67 12.672 4.67 13.67 40.00 1.333 14.67 52.00 60.33 2.00

Adicionalmente podemos agregar la tabla de doble entrada para explicar lo que

sucede con la interacción finca vs. Raza como sigue

TABULATE [PRINT=means; CLASSIFICATION=fincas,razas;MARGINS=no]NoCorderos

Meanrazas A B Cfincas1 37.50 11.50 19.502 18.00 19.75 7.003 56.00 32.25 8.50

La principal conclusión en base al modelo y principalmente el origen de la interacciónfinca vs. Corderos vivos es que la finca 1 produce mas múltiples nacimientos y que lafinca 3 es la que menos produce.

Aplicacion de Modelos Lineales y Lineales Generalizados

Documents

Polyominos lineales generalizados, funciones de Green y ...€¦ · Green y matrices de Green A. Carmona1,A.M. Encinas1 and M. Mitjana2 1Dept. Matem atica Aplicada III 2Dept. Matem

1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz

Modelo Lineal Generalizado - dm.uba.ar · Los modelos lineales generalizados permiten dos extensiones: I. podemos tratar distribuciones que pertenezcan a una familia exponencial

Modelos Lineales Generalizados

MODELOS LINEALES GENERALIZADOS - cdn …cdn-cimat.cloudful.com/Datos categoricos/GLM/files/assets/downloads... · 2 . Los modelos lineales más conocidos son los de regresión lineal

Trastorno generalizados oseos

Trastornos generalizados de desarrollo

MODELOS GENERALIZADOS LINEALES CON SPSS …digital.csic.es/bitstream/10261/124020/2/GzLM_regression.pdf · MODELOS GENERALIZADOS LINEALES CON SPSS Luis M. Carrascal () Depto. Biogeografía

TCC modelos lineares generalizados

Trastornos Generalizados Del Desarrollo

¿De qué se encarga la Estadística? Scdn01.pucp.education/zonaescolar/wp-content/... · Estadística Bayesiana Ingeniería Económica Base de Datos Modelos Lineales Generalizados

MODELOS GENERALIZADOS Luis M. Carrascal Los modelos Generalizados Lineales tienen tres propiedades: 1) la estructura del error 2) el predictor lineal 3)

Modelos Lineales Generalizados ... - Instituto de Cálculoglm/ML.pdf · Ganancia de un transistor En un estudio se miden y = ganancia de un transistor en un circuito integrado entre

1 Effect of sampling frequency - unirioja.escondicionamiento aversivo, congelamiento, modelos lineales generalizados, series temporales. the absence of movement except that involved

Impacto de especi car incorrectamente la distribuci on de los efectos aleatorios en los modelos lineales generalizados mixtos: caso Poisson y Binomial Negativa Diana Mar a Arango

- Tema 4. APLICACIONES LINEALES.€¦ · 4 Nucleo, imagen y rango de una aplicaci´ on lineal.´ 5 Composicion de aplicaciones lineales.´ Inversa de una aplicacion lineal biyectiva.´

Examen.pdf - Modelos lineales, generalizados y mixtos en ...modeloslineales.wdfiles.com/local--files/start/Examen_resp.pdf · Cerciórate (ls()) que las bases de datos de los ejercicios

Problemas de Aplicacion de sistemas de Ecuaciones Lineales ... · Trabajo Práctico Integrador Nº1 – Año 2011 Parte B PROBLEMAS DE APLICACIÓN DE SISTEMAS DE ECUACIONES LINEALES

Aplicacion de modelos no lineales dependiente_limitada.pdf

Problemas de Aplicacion de Sistemas de Ecuaciones Lineales 2011 Sin Respuestas