15
Análisis Multivariante I Ing. Luis Alberto Sánchez Alvarado Universidad Nacional de Ingeniería 2014-II 1 PRUEBA DE HIPÓTESIS MULTIVARIADAS

Capítulo VII PruebaHipótesisF

Embed Size (px)

DESCRIPTION

Curso de análisis multivariado

Citation preview

Page 1: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Ing. Luis Alberto Sánchez Alvarado Universidad Nacional de Ingeniería

2014-II

1

PRUEBA DE HIPÓTESIS MULTIVARIADAS

Page 2: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

1. Prueba de hipótesis Multivariada:Las pruebas de hipótesis son supuestos tentativos que se hacen acerca de los parámetros poblacionales. Este supuesto tentativo se denomina “hipótesis nula”. Las pruebas de hipótesis multivariadas son una generalización de las pruebas de hipótesis univariadas.

2. Error Tipo I y error Tipo II:a) Error tipo I (alfa): Conocido como falso positivo y es el error que se comete cuando el investigador no acepta la hipótesis nula siendo esta verdadera en la población.

b) Error tipo II (Beta): Conocido como falso negativo, se comete cuando el investigador no rechaza la hipótesis nula siendo esta falsa en la población.

3. Las ventajas de hacer uso de estas pruebas son:a) Al usar varias pruebas univariadas por separado se incrementará el error tipo I. Por ejemplo si todas las variables fueran independientes y asumiendo un nivel de significancia de (alfa) de 0.05 y se trabajarían con 10 variables, la probabilidad de error tipo I será igual a:

P=1-0.9510=0.40

Pero como siempre existirá cierta correlación entre las variables, se puede decir que el error tipo I irá de 0.05 a 0.40. En las pruebas de hipótesis multivariadas este valor será constante.

b) Las pruebas de hipótesis multivariadas toman en cuenta las correlaciones entre las variables.

c) En algunos casos las pruebas de hipótesis multivariadas son más poderosas, ya que al tomar en cuenta el efecto conjunto de las variables puede ser capaces de detectar diferencias que en forma univariada no se podría

A continuación se examinará las diferentes pruebas de hipótesis, se planteará la fórmula a usar, el criterio de aceptación o rechazo de la hipótesis nula, la obtención de valores en R la interpretación de los resultados.

4. Hipótesis para la media cuando la matriz de varianza y covarianza es conocida:

Se rechazará Ho si el valor calculado Z2 es mayor que X2( p).

2

Page 3: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Si la matriz de varianza y covarianza no es conocida se puede usar S, pero para ello se deberá tener una muestra grande (n>30) para poder asumir la normalidad multivariada y hacer la comparación con una chi cuadrado.

Ejercicio 1:Se ha recogido la información del peso y la talla de 20 estudiantes varones, se desea probar la hipótesis de que el peso de la población es de 70 kg y la estatura de 170 centímetros, para ello se asumirá que ambas variables provienen de una población bivariada con matriz de varianza y covarianza igual a:

Σ=( 20 100100 1000)

Usar base: problem81

Solución:De acuerdo al problema la hipótesis a plantear será:

Ho :(μ1μ2)=( 70170)

H 1:(μ1μ2)≠( 70170)es diferente paraalmenos unμ iDado que la matriz de varianza y covarianza es conocida el estadístico de prueba será:

Estos cálculos se harán en el software R:

El vector de medias resultante es:

3

> x<-read.table(file.choose(),header=T)> base<-x[,-1]> filas<-nrow(base)> columnas<-ncol(base)> uno<- matrix(data=1,nr=filas,nc=1)> media=(1/filas)*(t(base)%*%uno)

Page 4: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Ahora se definirá el vector con el cual se desea constrastar u0:

La respuesta será:

Se ingresa la matriz de varianza y covarianza la cual es conocida:

Ahora se procederá a determinar el estadístico de prueba:

El valor obtenido es el siguiente:

Finalmente resta hallar el valor de la chi cuadrado, el valor dado por el R es X2(1−alfa , p)

4

uo=c(70,170)uo=matrix(uo,2,1)

sigma=c(20,100,100,1000)sigma=matrix(sigma,2,2)

n=filasz2=n*t(media-uo)%*%solve(sigma)%*%(media-uo)

chi_tabla=qchisq(0.95,2)

Page 5: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Conclusión: Dado que Z2=8.4026> Chi tabla=5.99 se rechazará la hipótesis nula.

5. Hipótesis para la media cuando la matriz de varianza y covarianza es desconocida (T cuadrado de Hotelling):

Sea x1,x2,x3,…, xn una muestra aleatoria de una población normal N p(μ , Σ)Se desea para probar hipótesis del tipo:

H o : μ=μo

El estadístico de prueba se puede plantear como:

T 2=n(x−μo) ' S−1(x−μo)

T2 se distribuye como (n−1 ) p(n−p)

F p ,n−p

Se rechazará la hipótesis nula cuando T 2>¿ (n−1 ) p(n−p)

F p ,n−p

Ejercicio 2:Se tiene 10 observaciones (provenientes de una población norma) de los cuales se tiene mediciones de 3 variables, se termina probar la hipótesis nula siguiente:

Ho :(μ1μ2μ3)=( 1562.85)Se sabe que la matriz de varianza y covarianza es desconocida.Base82Solución:

5

x<-read.table(file.choose(),header=T)base<-x[,-1]filas<-nrow(base)columnas<-ncol(base)uno<- matrix(data=1,nr=filas,nc=1)media=(1/filas)*(t(base)%*%uno)S=cov(base)

Page 6: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Ahora se definirá el vector con el cual se desea contrastar u0:

El cálculo del estadístico será:

El resultado será:

Calculamos el valor de F:

Por lo tanto rechazamos Ho.

6

uo=c(15,6,2.85)uo=matrix(uo,3,1)

n=filasp=columnas T2=n*t(media-uo)%*%solve(S)%*%(media-uo)

valor_f=((n-1)*p/(n-p))*qf(0.95,p,n-p)

Page 7: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

6. Hipótesis Lineal Tipo I:

7. Hipótesis Lineal Tipo II:

8. Test para comparar matrices de varianza y covarianzas: La prueba de hipótesis para este caso es el test de Box, la prueba de hipótesis a probar es:

H o :Σ1=Σ2=…=Σg=Σ

7

Page 8: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Donde cada uno de ellos es la matriz de varianza y covarianza de una población. La prueba alternativa es que al menos uno de los ellos sea diferente.

Box plantea el siguiente estadístico:

C=(1−u ){¿l=1,2, … , g.

Donde u es igual a:

Se rechazará la hipótesis si el estadístico de prueba X p ( p+1 )(g−1)/22

Ejercicio 3:Se tiene 3 grupos de enfermeras los cuales asumiremos que provienen de poblaciones normales, de las cuales se ha tomado una muestra sus medias y matrices de varianza y covarianza muestrales son las siguientes:

8

Page 9: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Se pide hacer una prueba de hipótesis para probar si las matrices de varianza y covarianza de las 3 poblaciones son iguales.

Solución:

9

media1=c(2.066,0.480,0.082,0.36) media1=matrix(media1,4,1) media2=c(2.167,0.596,0.124,0.418) media2=matrix(media2,4,1) media3=c(2.273,0.521,0.125,0.383) media3=matrix(media3,4,1)S1=c(0.291,-0.001 ,0.002,0.010,-0.001,0.011,0.00,0.003,0.002,0.00,0.001,0.00,0.010,0.003,0.00,0.010)S1=matrix(S1,4,4)S2=c(0.561,0.011,0.001,0.037,0.011,0.025,0.004,0.007,0.001,0.004,0.005,0.002,0.037,0.007,0.002,0.019)S2=matrix(S2,4,4)S3=c(0.261,0.03,0.003,0.018,0.03,0.017,-0.00,0.006,0.003,-0.00,0.004,0.001,0.018,0.006,0.001,0.013) S3=matrix(S3,4,4)n1=271n2=138n3=107p=4g=3u=((1/(n1-1))+ (1/(n2-1))+(1/(n3-1))-(1/(n1-1+n2-1+n3-1)))*(2*p*p+3*p-1)/(6*(p+1)*(g-1))S=(1/(n1-1+n2-1+n3-1))*((n1-1)*S1+(n2-1)*S2+(n3-1)*S3)estadistico=(1-u)*( (n1-1+n2-1+n3-1)*log(det(S)) - (n1-1)*log(det(S1))- (n2-1)*log(det(S2))- (n3-1)*log(det(S3)))

valor_tabla=qchisq(0.95,p*(p+1)*(g-1)/2)

Page 10: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Por lo tanto rechazamos la hipótesis nula.

9. Comparación de dos vectores de Medias:En este caso la prueba de hipótesis será:

H o : μ1=μ2

Se debe asumir que ambas poblaciones a comparar son normales con matrices de varianzas y covarianza iguales:

x1 , x2 ,…, xn1 N p(μ1 , Σ1)

y1 , y2 ,…, yn2 N p(μ2 , Σ2)

Para la prueba de hipótesis se deberá tener que construir una matriz ce varianza global la cual resulta de unir la de las dos poblaciones, esto de la siguiente manera:

S=n1−1n1+n2−2

S1+n2−1n1+n2−2

S2

A partir de ello el estadístico de prueba será:

T 2=n1n2n1+n2

( x− y) ' S−1(x− y)

La hipótesis nula se rechazará si el estadístico de prueba es mayor a:

(n1+n2−2 ) p(n1+n2−p−1)

F p ,n1+n2−p−1

Ejercicio 4:4 pruebas psicológicas han sido aplicadas a un grupo de 32 hombres y 32 mujeres, se desea saber si los resultados obtenidos no varían por género.La base de los hombres se denomina base83h, y la de las mujeres base83m.

10

Page 11: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Solución:

Teniendo los datos para los hombres

Teniendo los datos para las mujeres

11

x<-read.table(file.choose(),header=T)base<-xfilas<-nrow(base)columnas<-ncol(base)uno<- matrix(data=1,nr=filas,nc=1)media1=(1/filas)*(t(base)%*%uno)S1=cov(base)n1=filas

x<-read.table(file.choose(),header=T)base<-xfilas<-nrow(base)columnas<-ncol(base)uno<- matrix(data=1,nr=filas,nc=1)media2=(1/filas)*(t(base)%*%uno)S2=cov(base)n2=filasp=columnas

Page 12: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Hallamos la matriz S:

El valor a comparar será:

12

S=((n1-1)/(n1+n2-2))*S1+ ((n2-1)/(n1+n2-2))*S2

T2=((n1*n2)/(n1+n2))*t(media1-media2)%*%solve(S)%*%(media1-media2)

valor=((n1+n2-2)*p/(n1+n2-p-1))*qf(0.95,p,n1+n2-p-1)

Page 13: Capítulo VII PruebaHipótesisF

Análisis Multivariante I

Por lo tanto no se acepta la hipótesis nula.

10. Comparación de medias con matriz de varianza y covarianza diferente – Muestras grandes:

La hipótesis a probar es:H o : μ1=μ2

El estadístico a usar es:

T 2=( x− y )' ( 1n1S1+

1n2S2)

−1

( x− y)

Se rechazará la hipótesis si el T2 es mayor a X2 p

Ejercicio 5:Se tiene una muestra de 45 casos y otra de 55, se desea comparar si existe diferencias entre las medias de ambas poblaciones, se sabe que las matrices de varianza y covarianza poblacional no son iguales. El vector de medias y las matrices de varianza y covarianza para ambas poblaciones normales es la siguiente:

11. Aproximación a la distribución T cuadrado de Hotelling para poblaciones normales con tamaño de muestra pequeños:Cuando las matrices de varianza y covarianza son distintas se puede hacer uso del estadístico de prueba del punto anterior, no obstante se deberá hacer una aproximación del T de Hotteling , para ello el único requisito es que n1 y n2 esté por encima de p, y que ambas muestras vengan de poblaciones normales.

A diferencia de la prueba anterior no se usará una chi cuadrado para la comparación si no se usará la siguiente aproximación:

13

Page 14: Capítulo VII PruebaHipótesisF

Prueba de Hipótesis

Ejercicio 6:Resolver el ejercicio 5 asumiendo que las bases son pequeñas.Solución:V=77.6Valor de tabla=15.66

14