View
224
Download
0
Category
Preview:
Citation preview
Conceptos básicos de inferencia estadística (III):Inferencia no paramétrica:
Contrastes de bondad de ajuste.
Tema 1 (III)
Estadística 2
Curso 08/09
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 1 / 33
Inferencia no paramétrica Objetivos
Inferencia no paramétrica
En inferencia estadística es habitual partir de una hipótesis de la forma:
Suponemos X1, . . . ,Xn m.a.s. de X
Hipótesis estructurales (Xi i .i .d . (X )):
Independencia (aleatoriedad)Homogeneidad (misma distribución)
Adicionalmente, en inferencia estadística paramétrica, se supone unmodelo paramétrico:
La distribución de X es de la forma Fθ(x)(siendo θ un parámetro desconocido)
Distribución paramétrica (la distribución se ajusta a un modeloparamétrico)
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 2 / 33
Inferencia no paramétrica Objetivos
Inferencia no paramétricaObjetivos
Desarrollar herramientas que permitan veri�car el grado decumplimiento de las hipótesis anteriores:
Métodos descriptivos (grá�cos)Contrastes de bondad de ajusteContrastes de aleatoriedad
Desarrollar procedimientos alternativos válidos cuando estashipótesis no se veri�can (métodos de distribución libre).
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 3 / 33
Contrastes de bondad de ajuste Introducción
Contrastes de bondad de ajuste
A partir de X1, . . . ,Xn m.a.s. de X con función de distribución F , interesarealizar un contraste de la forma:�
H0 : F = F0H1 : F 6= F0
Por ejemplo:�H0 : F = N(0, 1)H1 : F 6= N(0, 1)
�H0 : F es normal N(µ, σ2)H1 : F no es normal
H0 simple H0 compuesta
H0 especi�ca por completo H0 sólo especi�cala distribución de X el tipo de distribución
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 4 / 33
Contrastes de bondad de ajuste Introducción
Métodos Grá�cos
Histograma
Diagrama de cajas
Función de distribución empírica
Grá�cos P-P y Q-Q
Grá�co de tallo y hojas
Densidad suavizada
...
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 5 / 33
Contrastes de bondad de ajuste Introducción
Contrastes de hipótesis
Generales: �H0 : F = F0H1 : F 6= F0
Chi-cuadrado de PearsonKolmogorov-Smirnov
Especí�cos de normalidad:�H0 : F = N(µ, σ2)H1 : F 6= N(µ, σ2)
Kolmogorov-Smirnov-LillieforsShapiro-WilksAsimetría y apuntamiento...
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 6 / 33
Métodos Grá�cos Histograma
Métodos Grá�cosHistograma
Se agrupan los datos en intervalos Ik = [Lk�1, Lk ) .A cada intervalo se le asocia un valor (altura) proporcional a lafrecuencia de dicho intervalo:
f̂n(x) =fi
Lk � Lk�1=
nin (Lk � Lk�1)
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 7 / 33
Métodos Grá�cos Grá�co de cajas
Grá�co de cajas (Box-plot)
Útiles para resumir un conjunto de datos (variables cuantitativas conun amplio rango de valores), permiten visualizar la distribución y ladispersión de los datos y también detectar valores extraños (outliers).
Son muy utilizados en el análisis exploratorio de datos yespecialmente útiles para comparar distribuciones.
NOTA: Normalidad ) simetría
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 8 / 33
Métodos Grá�cos Ejemplos
EjemplosDistribución normal
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 9 / 33
Métodos Grá�cos Ejemplos
EjemplosDistribución asimétrica
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 10 / 33
Métodos Grá�cos Función de distribución empírica
Función de distribución empírica
La función de distribución empírica Fn asigna a cada número real x lafrecuencia relativa de observaciones menores o iguales que x .
Se ordena la muestra X(1) � X(2) � � � � � X(n) y:
Fn(x) =
8<:0 si x < X(1)in si X(i ) � x < X(i+1)1 si X(n) � x
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 11 / 33
Métodos Grá�cos Grá�cos P-P y Q-Q
Grá�co P-P
Gra�co de dispersión:
f(Fn(xi ),F0(xi )) : i = 1, � � � , ngsiendo Fn la FD empírica y F0 la FD bajo H0.Si H0 es cierta, la nube de puntos estará en torno a la recta y = x(probabilidades observadas próximas a las esperadas bajo H0).
NOTA: Si H0 : F = N(µ, σ2), F0 FD de N(µ̂, σ̂2).Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 12 / 33
Métodos Grá�cos Grá�cos P-P y Q-Q
Grá�co Q-Q
Equivalente al anterior pero en la escala de la variable (cuantiles):n�x(i ), qi
�: i = 1, � � � , n
osiendo x(i ) los cuantiles observados y qi = F
�10 (pi ) los esperados bajo
H0.
NOTA: Típicamentenpi =
(i�0.5)n : i = 1, � � � , n
oTema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 13 / 33
Contrastes Contraste chi-cuadrado de Pearson
Contraste chi-cuadrado de Pearson
Contraste de bondad de ajuste:�H0 : F = F0H1 : F 6= F0
Agrupamos los datos en k clases: C1, � � � ,CkBajo H0 cada clase tendrá asociada una probabilidad pi = P (X 2 Ci )
Clases ProbabilidadesGeneral Discreta Continua H0 simple H0 compuestaC1 x1 [L0, L1) p1 p̂1...
......
......
Ck xk [Lk�1, Lk ) pk p̂k∑i pi = 1 ∑i p̂i = 1
Contraste a realizar:�H0 : Las probabilidades son correctasH1 : Las probabilidades no son correctas
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 14 / 33
Contrastes Contraste chi-cuadrado de Pearson
Si H0 es cierta entonces fi � pi (fi frecuencia relativa de la clase Ci ),o equivalentemente las frecuencias observadas:
ni = n � fi
deberían ser próximas a las esperadas bajo H0:
ei = n � pi
Sugiriendo el estadístico del contraste:
χ2 =k
∑i=1
(ni � ei )2ei
�aprox .
χ2k�r�1, si H0 cierta
siendo:
k = número de clasesr = número de parámetros estimados (para obtener las pi ).
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 15 / 33
Contrastes Contraste chi-cuadrado de Pearson
Clases ni observadas pi bajo H0 ei bajo H0(ni�ei )2
ei
C1 n1 p1 e1(n1�e1)2
e1...
......
......
Ck nk pk ek(nk�ek )2
ek
Total ∑i ni = n ∑i pi = 1 ∑i ei = n χ2 = ∑ki=1
(ni�ei )2ei
Cuando H0 es cierta el estadístico tiende a tomar valores pequeños ygrandes cuando es falsa.
Rechazamos H0, para un nivel de signi�cación α, si:
k
∑i=1
(ni � ei )2ei
� χ2k�r�1,1�α
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 16 / 33
Contrastes Contraste chi-cuadrado de Pearson
Distribución bajo H0Â2
k¡r¡1
Â2k¡r¡1;1¡®
Distribución bajo H0Â2
k¡r¡1Â2k¡r¡1
Â2k¡r¡1;1¡®Â2k¡r¡1;1¡®
Si realizamos el contraste a partir del p-valor o nivel crítico:
p = P
χ2k�r�1 �
k
∑i=1
(ni � ei )2ei
!rechazaremos H0 si p � α (y cuanto menor sea con mayor�seguridad� la rechazaremos) y aceptaremos H0 si p > α (con mayor�seguridad�cuanto mayor sea).
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 17 / 33
Contrastes Condiciones necesarias para la validez del test
Condiciones necesarias para la validez del test
Para que la aproximación χ2 de la distribución del estadístico del contrastesea válida:
El tamaño muestral debe ser su�cientemente grande (p.e. n > 30).La muestra debe ser una muestra aleatoria simple.En caso de que haya que estimar parámetros, los parámetros debenestimarse por el procedimiento de máxima verosimilitud.Las frecuencias esperadas ei = n � pi deberían ser todas � 5.
Si la frecuencia esperada de alguna clase es < 5, se agrupa con otra clase(o con varias si no fuese su�ciente con una) para obtener una frecuenciaesperada � 5.
Cuando la variable es nominal (no hay una ordenación lógica) se sueleagrupar con la(s) que tiene(n) menor valor de ei .Si la variable es ordinal (o contínua) debe juntarse la que causó elproblema con una de las adyacentes.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 18 / 33
Contrastes Condiciones necesarias para la validez del test
Si la variable de interés es continua, una forma de garantizar que ei � 5consiste en tomar un número de intervalos igual al mayor valor:
k � n/5
y de forma que sean equiprobables:
pi = 1/k
Por ejemplo en el caso de una normal estandar consideraríamos los puntoscríticos zi/k
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 19 / 33
Contrastes Ejemplo test chi-cuadrado
Ejemplo
La siguiente tabla muestra los fallos de tres servidores web durante un año:
Servidor 1 2 3 TotalNo de fallos 8 10 15 33
A partir de estos datos, con un nivel de signi�cación α = 0.05, ¿podemosa�rmar que los tres servidores tienen la misma probabilidad de fallar?
Hipótesis del contraste:�H0 : p1 = p2 = p3 = 1
3H1 : pi 6= pj para algún i , j
Estadístico del contraste:
χ2 =k
∑i=1
(ni � ei )2ei
�aprox .
χ2k�r�1, si H0 cierta
k = número de clases = 3r = número de parámetros estimados = 0
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 20 / 33
Contrastes Ejemplo test chi-cuadrado
Regla de decisión: rechazamos H0 si:
χ2 � χ22,0.95 = 5.99
Realización del contraste:
Categoría ni observadas pi bajo H0 ei bajo H0(ni�ei )2
ei1 8 1/3 11 0.81822 10 1/3 11 0.09093 15 1/3 11 1.4545
Total 33 1 33 χ2 = 2.364
Como 2.364 < 5.99) aceptamos que los tres servidores tienen lamisma probabilidad de fallo.
Cálculo del p-valor:
p = P�χ22 � 2.364
�= 0.3066 > 0.1 (tablas)
como p � α aceptamos claramente H0.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 21 / 33
Contrastes Contraste de Kolmogorov-Smirnov
Contraste de Kolmogorov-Smirnov
Contraste de bondad de ajuste de distribuciones continuas.Se basa en comparar la FD bajo H0 (F0) con la FD empírica (Fn):
Dn = supxjFn(x)� F0(x)j,
= maxi=1,��� ,n
njFn(X(i ))� F0(X(i ))j, jFn(X(i�1))� F0(X(i ))j
o
NOTA: Fn�X(i )
�= i
nTema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 22 / 33
Contrastes Contraste de Kolmogorov-Smirnov
Dn = max1�i�n
�in� F0(X(i )),F0(X(i ))�
i � 1n
�= max
1�i�n
�D+n,i ,D
�n,i
Si H0 es simple y F0 es continua, la distribución del estadístico Dnbajo H0 no depende F0. Esta distribución está tabulada (paratamaños muestrales grandes se utiliza la aproximación asintótica). Serechaza H0 si:
Dn � DKSn,1�α
Si H0 es compuesta, los parámetros desconocidos se estiman pormáxima verosimilitud y se trabaja con F̂0, aunque los cuantiles de ladistribución de Dn pueden ser demasiado conservativos (puede serpreferible aproximarlos por simulación).
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 23 / 33
Contrastes Ejemplo test KS
Ejemplo (problema 2.4)
X = "tiempo de funcionamiento (en cientos de horas) de cierto tipode impresoras antes de la primera avería"
Se ha observado una muestra de diez impresoras:
1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39
Contrastar si la distribución de X es exponencial:
f (x) = λe�λx si x > 0
F (x) = P (X � x) = 1� e�λx si x > 0
Se estima el parámetro λ =1
E (X ),
λ̂ =1x̄=
18.355
= 0.1197
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 24 / 33
Contrastes Ejemplo test KS
Se calcula la tabla del contraste K-S:
x(i ) F̂0�x(i )�
Fn�x(i�1)
�Fn�x(i )�
Dn,i1.69 0.183 0.00 0.10 0.1832.99 0.301 0.10 0.20 0.201�
3.03 0.304 0.20 0.30 0.1043.68 0.356 0.30 0.40 0.0564.70 0.430 0.40 0.50 0.0707.32 0.584 0.50 0.60 0.0849.72 0.688 0.60 0.70 0.08815.87 0.850 0.70 0.80 0.15016.16 0.855 0.80 0.90 0.05518.39 0.889 0.90 1.00 0.111
D̂n = 0.201 y p = P (Dn � 0.201) = 0.81 > 0.2 (tablas) ) Seacepta la hipótesis de que las observaciones siguen una distribuciónexponencial.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 25 / 33
Contrastes Contraste de Kolmogorov-Smirnov-Lilliefors
Contraste de Kolmogorov-Smirnov-Lilliefors
Contraste de normalidad, H0 : F = N(µ, σ2), empleando elestadístico Dn anterior.
Los parámetros se estiman por máxima verosimilitud yF̂0 = Φ ((x � x)/s) siendo Φ (z) la FD de una N(0, 1).
El estadístico del contraste es:
Dn = supxjFn(x)�Φ
�x � xs
�j
Esta distribución está también tabulada. Se rechaza H0 si:
Dn � DKSLn,1�α
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 26 / 33
Contrastes Ejemplo test KSL
Ejemplo (problema 2.4)
X = "tiempo de funcionamiento (en cientos de horas) de cierto tipode impresoras antes de la primera avería"
Se ha observado una muestra de diez impresoras:
1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39
Contrastar si la distribución de X es normal:�H0 : X � N(µ, σ2)H1 : X � N(µ, σ2)
Se estiman los parámetros µ y σ:
µ̂ = x̄ = 8.355
σ̂ = s = 6.305
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 27 / 33
Contrastes Ejemplo test KSL
Se calcula la tabla del contraste K-S-L:
x(i ) z(i ) F̂0�x(i )�
Fn�x(i�1)
�Fn�x(i )�
Dn,i
=x(i )�xs = Φ
�z(i )�
= i�1n = i
n
1.69 �1.06 0.145 0.00 0.10 0.1452.99 �0.85 0.198 0.10 0.20 0.0983.03 �0.84 0.201 0.20 0.30 0.0993.68 �0.74 0.229 0.30 0.40 0.1714.70 �0.58 0.281 0.40 0.50 0.219�
7.32 �0.16 0.436 0.50 0.60 0.1649.72 0.22 0.586 0.60 0.70 0.11415.87 1.19 0.883 0.70 0.80 0.18316.16 1.24 0.892 0.80 0.90 0.09218.39 1.59 0.944 0.90 1.00 0.056
D̂n = 0.219 y p = P�DKSLn � 0.219
�= 0.1904 ' 0.2 (tablas, 0.217)
) Se acepta la hipótesis de que las observaciones siguen unadistribución normal.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 28 / 33
Contrastes Contraste de simetría
Contraste de simetría
Coe�ciente de asimetría:
CA =∑ni=1(xi � x)3ns3
Bajo la hipótesis de normalidad CA �aprox .
N(0, 6n )
Coe�ciente de asimetría estandarizado:
CAS =
rn6CA �
aprox .N(0, 1).
Se rechaza la hipótesis de simetría si:
jCAS j � Z1� α2
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 29 / 33
Contrastes Ejemplo test simetría
Ejemplo (problema 2.4)
X = "tiempo de funcionamiento (en cientos de horas) de cierto tipode impresoras antes de la primera avería"
Se ha observado una muestra de diez impresoras:
1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39
CA = ∑ni=1(xi�x )3ns3 = 0.642
σ̂ (CA) =q
610 = 0.775
CAS = CAσ̂(CA) =
0.6420.775 = 0.828 2 R.A. = (�1.96, 1.96)
p = 2 � P (Z � j0.828j) ' 2 � 0.2061 = 0.412Como p � α aceptamos (claramente) la hipótesis nula de que ladistribución de los datos es simétrica
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 30 / 33
Contrastes Contraste de apuntamiento
Contraste de apuntamiento
Coe�ciente de apuntamiento o curtosis:
CAp =∑ni=1(xi � x)4ns4
� 3
Bajo la hipótesis de normalidad CAp �aprox .
N(0, 24n )
Coe�ciente de apuntamiento estandarizado:
CApS =
rn24CAp �
aprox .N(0, 1)
Se rechaza la hipótesis de curtosis nula si:
jCApS j � Z1� α2
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 31 / 33
Contrastes Ejemplo test apuntamiento
Ejemplo (problema 2.4)
X = "tiempo de funcionamiento (en cientos de horas) de cierto tipode impresoras antes de la primera avería"
Se ha observado una muestra de diez impresoras:
1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39
CAp = �1.397σ̂ (CAp) =
q2410 = 1.549
CApS = CApσ̂(CAp) =
�1.3971.549 = �0.902 2 R.A. = (�1.96, 1.96)
p = 2 � P (Z � j�0.902j) ' 2 � 0.1814 = 0.363Como p > α = 0.05 aceptamos (claramente) la hipótesis nula de que ladistribución de los datos tiene curtosis nula.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 32 / 33
Contrastes Transformaciones para corregir la falta de normalidad
Transformaciones para corregir la falta de normalidad
Si hay falta de normalidad, la solución a tomar depende del tipo dedistribución que muestran los datos y de los objetivos de la inferencia.
Si la distribución es unimodal y asimétrica, se puede pensar entransformar los datos para aproximarlos a la normalidad.
4 16 36 56 760
40
80
120
160
200
XX
1 1 3 5 7 9 110
20
40
60
80
100
pX
pX
4 2 0 2 4 60
20
40
60
80
100
120
ln(X)ln(X)
En otros casos se puede pensar en utilizar métodos alternativos noparamétricos.
Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 33 / 33
Recommended