22
Pruebas de Bondad de Ajuste Un problema importante en estadística es obtener información acerca de la forma de la población de la cual se tomó la muestra. La forma de la distribución es lo importante. A veces lo que nos interesa es cierto aspecto en particular de la población, por ejemplo, el valor de un parámetro, pero para realizar las pruebas se hacen supuestos sobre la distribución, así que primero hay que revisar si la población se distribuye como se supone, como por ejemplo, la prueba para la media que supone poblaciones normales. La compatibilidad de un conjunto de valores observados en una muestra con una distribución normal o cualquier otra puede ser revisada utilizando una prueba de bondad de ajuste. Estas pruebas están diseñadas para una hipótesis nula donde se enuncia la forma de la función de distribución o de la función de probabilidad de la población de la cual se tomó la muestra. Idealmente, la distribución supuesta está

Pruebas de Bondad de Ajuste

  • Upload
    dans

  • View
    1.341

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Pruebas de Bondad de Ajuste

Pruebas de Bondad de Ajuste

Un problema importante en estadística es obtener información acerca de la forma de la población de la cual se tomó la muestra. La forma de la distribución es lo importante.

A veces lo que nos interesa es cierto aspecto en particular de la población, por ejemplo, el valor de un parámetro, pero para realizar las pruebas se hacen supuestos sobre la distribución, así que primero hay que revisar si la población se distribuye como se supone, como por ejemplo, la prueba para la media que supone poblaciones normales.

La compatibilidad de un conjunto de valores observados en una muestra con una distribución normal o cualquier otra puede ser revisada utilizando una prueba de bondad de ajuste. Estas pruebas están diseñadas para una hipótesis nula donde se enuncia la forma de la función de distribución o de la función de probabilidad de la población de la cual se tomó la muestra. Idealmente, la distribución supuesta está completamente especificada, incluyendo a todos sus parámetros.

Page 2: Pruebas de Bondad de Ajuste

La hipótesis alternativa puede ser muy amplia, incluyendo diferencias en localización, escala, otros parámetros, etc.

Hay diferentes tipos de prueba de bondad de ajuste:

a) Las diseñadas para H0 que conciernen a distribuciones discretas y comparan las frecuencias observadas con las esperadas bajo la hipótesis nula. Esta es la prueba Ji-cuadrada de Pearson

b) Las diseñadas para H0 que conciernen a distribuciones continuas y comparan las frecuencias relativas acumuladas observadas con las esperadas bajo la hipótesis nula. Ejemplo de estas pruebas se tiene la Kolmogorov-Smirnov y Lilliefors.

Pruebas de Bondad de Ajuste

Page 3: Pruebas de Bondad de Ajuste

Pruebas de Ji-Cuadrada

Se tiene una m.a. de tamaño n de una población con función de distribución acumulada desconocida.

La hipótesis nula puede ser vista como:

Donde está completamente especificada contra:

xF

x : 00 xFxFH

xF0

x.. : 01 apxFxFH

Page 4: Pruebas de Bondad de Ajuste

Estadístico de Prueba:

donde:

es la frecuencia absoluta de la categoría i

es la frecuencia esperada para la categoría i, donde es la probabilidad de estar en la categoría i dada H0.

Para muestras grandes (ó cuantil α de cola derecha). Esta aproximación puede usarse con confianza siempre y cuando:

1er. Criterio: cada frecuencia esperada sea al menos 5.

2do. Criterio: cada frecuencia esperada sea al menos 1.5 (poco restrictivo). Cuando hay una lo que se debe hacer es unir ese grupo con su adyacente para acumular la frecuencia esperada y reducir acordemente los grados de libertad (colapsar grupos).

k

i i

ii

e

efQ

1

2

ˆ

if

ii pne ˆˆ ip

2

1,1~ kQ

5.1ˆ ie

Page 5: Pruebas de Bondad de Ajuste

Ejercicio:

Un ingeniero de control de calidad tomó 50 muestras de un mismo tamaño (13) de un proceso de producción. Se registró el número de muestras defectuosas. Probar H0 a un nivel α=0.05 de que el número de defectuosas sigue:

a) Una distribución Poisson

b) Una distribución binomial

No. de defectuosos No. de muestras

0 10

1 24

2 10

3 4

4 1

5 1

6 ó más 0

Page 6: Pruebas de Bondad de Ajuste

Esta prueba es utilizada para probar funciones de distribución continua.

Se utiliza la función de distribución empírica definida como:

siendo la observación ordenada que ocupa la posición i-ésima dentro de una muestra de tamaño

Prueba Kolmogorov-Smirnov

11, XxX sin

ixS in

iXn

Page 7: Pruebas de Bondad de Ajuste

El estadístico de prueba se define como:

Para la hipótesis:

Para encontrar los cuantiles que ayuden a determinar la región de rechazo, se puede utilizar la tabla F, o bien, hacer uso del siguiente teorema

Prueba Kolmogorov-Smirnov

0,,maxsup xFxSxFxSxFxSD xnxnx

xnx

n

x : 00 xFxFH xap xFxFH .vs ..: 01

Page 8: Pruebas de Bondad de Ajuste

Prueba Kolmogorov-Smirnov

Y se rechaza si:

Este último siendo cuantil de la tabla F, a un nivel alfa de significancia.

0H

*,nn DD

Page 9: Pruebas de Bondad de Ajuste

Prueba Kolmogorov-Smirnov

Page 10: Pruebas de Bondad de Ajuste

Prueba Kolmogorov-Smirnov

Para ampliar la prueba a hipótesis de una cola, se definen a los estadísticos:

Para la alternativa:

Se rechaza la hipótesis nula si: siendo este último cuantil obtenido de la tabla F (Gibbons), donde el alfa a considerar es aproximadamente la mitad a la de la prueba de dos colas. Por ejemplo, para n=20, el cuantil para una prueba de dos colas a un nivel de 0.10 es 0.265, mientras que para las de una cola a un nivel de 0.10 es 0.294.

x : 01 xFxFH

,nn DD

Page 11: Pruebas de Bondad de Ajuste

Prueba Kolmogorov-Smirnov

Para la otra alternativa:

Se rechaza la hipótesis nula si: siendo este último cuantil obtenido de la tabla F (Gibbons), donde el alfa a considerar es aproximadamente la mitad a la de la prueba de dos colas (mismo caso que el anterior).

x xFxFH 01 :

,nn DD

Page 12: Pruebas de Bondad de Ajuste

Prueba Kolmogorov-Smirnov

Observación: La prueba Kolmogorov como tal no puede ser desarrollada en SPSS.

SPSS permite realizar la prueba de bondad de ajuste para una normal, uniforme, Poisson y exponencial sin especificar los parámetros

Page 13: Pruebas de Bondad de Ajuste

En esta prueba SPSS estima los parámetros de la muestra. La media y desviación muestral son los estimadores de los parámetros de la distribución normal, el mínimo y máximo de las observaciones muestrales son el rango que define a la distribución uniforme y las medias muestrales son los parámetros de las distribuciones Poisson y exponencial.

Para mayor referencia, consultar la ayuda de SPSS.

Page 14: Pruebas de Bondad de Ajuste

Prueba Lilliefors para normalidad

En la prueba Kolmogorov-Smirnov, uno de los supuestos es que la distribución que se propone siguen los datos es totalmente especificada. Cuando esto no sucede, se tiene un conjunto de pruebas no paramétricas, diseñadas para las distribuciones continuas más utilizadas, tal es el caso de la prueba Lilliefors para normalidad.

La prueba ocupa prácticamente el mismo estadístico que la prueba Kolmogorov, con una nueva definición de:

Donde:

0,,maxsup *0

*0

*0 xFxSxFxSxFxSD nn

xn

xn

xF *0

zxF *0

Page 15: Pruebas de Bondad de Ajuste

Prueba Lilliefors para normalidad

Y z se define como:

Pueden ocuparse las tablas de la Kolmogorov (tabla F) pero se ha mostrado que llevan a conclusiones más conservadoras, por lo que Lilliefors propone calcular estas probabilidades con simulaciones Monte Carlo. Los cuantiles están definidos en la tabla O.

muestral) desviación (la

n

xxσy muestral media la es x donde

,xx

z

n

i

i

i

1

2

Es decir, se rechaza la hipótesis de normalidad si: este último, cuantil de la tabla O.

*,nn DD

Page 16: Pruebas de Bondad de Ajuste

Prueba Lilliefors exponencial

Otra prueba importante de bondad de ajuste en la práctica es probar que una muestra proviene de una población con una distribución exponencial sin media especificada. Es muy utilizada, por ejemplo, cuando la variable de estudio son tiempos de espera (el tiempo de ocurrencia de un evento). Lilliefors propone un modificación de la prueba Kolmogorov, con su mismo estadístico de prueba y con cuantiles aproximados por simulaciones Monte Carlo y también con una nueva forma de definir

Donde:

La tabla a ocupar es la tabla T. Se rechaza la hipótesis nula (los datos provienen de una población exponencial) si: (este último cuantil de la tabla T).

0,,maxsup *0

*0

*0 xFxSxFxSxFxSD nn

xn

xn

xF *0

i

zx

x

x observado valor cada para x

xz siendo

ezFexF

,11 *0

*0

*,nn DD

Page 17: Pruebas de Bondad de Ajuste

Prueba Shapiro Wilks

Es una prueba de normalidad de uso muy frecuente. Las hipótesis son:

Pasos para la construcción del estadístico de prueba:

1. Calcular el denominador: siendo X barra la media muestral.

2. Ordenar a la muestra de menor a mayor:

3. De la tabla A16, para la muestra de observaciones de tamaño n se deben obtener los coeficientes con los que se calcula:

2

1

n

ii XXD

nXXX 21

kaaa ,,, 21

2

113

1

k

iiini XXa

DT

normal distribuye se no

daespecifica no varianza

y media con normal óndistribuci de función una es

xFH

xFH

x

x

:

:

1

0

Page 18: Pruebas de Bondad de Ajuste

Este estadístico es básicamente el cuadrado de un coeficiente de correlación. Si es cercano a 1, la muestra aleatoria proviene de una población normal. Los cuantiles de esta tabla están dados por la tabla A17. Se rechaza la hipótesis nula de normalidad si el estadístico es menor que el cuantil al nivel obtenido de esta tabla. Un P-value más preciso se obtiene con la siguiente transformación:

Los coeficientes se obtienen de la tabla A18 y G se distribuye como una normal estándar. La probabilidad alcanzada en este valor es el resultante P-value.

Prueba Shapiro Wilks

3

3

1ln

TdT

cbG nnn

nnn dcb y ,

Page 19: Pruebas de Bondad de Ajuste

Salida en SPSS

Para la prueba Shapiro Wilks, se elige dentro del menú:

No se despliega como una prueba, sino que se debe escoger del botón Plot la opción Normality plots with test

Page 20: Pruebas de Bondad de Ajuste

La salida que arroja (junto con estadísticas descriptivas, gráficas de probabilidad y de caja) es la siguiente:

Como puede verse, además de proporcionar la prueba Shapiro Wilks, también arroja la Lilliefors Normal.

Page 21: Pruebas de Bondad de Ajuste

Ejercicios:

1. Cinco niños de cuarto año fueron seleccionados al azar dentro de su clase y puestos a prueba en una pequeña carrera de velocidad. Los tiempos en segundos fueron: 4.2, 4.7, 5.7, 6 y 6.3. Pruebe la hipótesis de que los datos siguen la siguiente distribución:

2. A una muestra de 12 personas se les entrevista para estimar el ingreso medio bruto anual en cierta ciudad en vías de desarrollo. Use la prueba más apropiada para la hipótesis nula de que los datos provienen de una distribución normal.

81

844

40

0

x

xxx

xF

para

4 para

para

9800 8600

10200 9600

9300 12200

8700 15500

15200 116000

6900 7200

Page 22: Pruebas de Bondad de Ajuste

3. La incidencia de llamadas telefónicas de larga distancia en cierta localidad se considera un proceso aleatorio, donde los tiempos entre llamadas se distribuyen de manera exponencial. Las primeras 10 llamadas en lunes, después de las 1 p.m., ocurrieron a la 1:06, 1:08, 1:16, 1:22, 1:23, 1:34, 1:44, 1:47, 1:51 y 1:57. Los tiempos sucesivos entre llamadas, contando desde la primera (1:00 a 1:06, 1:06 a 1:08, etc.) fueron: 6, 2, 8, 6, 1, 11, 10, 3, 4 y 6, con una media muestral de 5.7. ¿Qué puede concluir?