Conceptos bÆsicos de inferencia estadística (III...

Conceptos básicos de inferencia estadística (III):Inferencia no paramétrica:

Contrastes de bondad de ajuste.

Tema 1 (III)

Estadística 2

Curso 08/09

Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 1 / 33

Inferencia no paramétrica Objetivos

Inferencia no paramétrica

En inferencia estadística es habitual partir de una hipótesis de la forma:

Suponemos X1, . . . ,Xn m.a.s. de X

Hipótesis estructurales (Xi i .i .d . (X )):

Independencia (aleatoriedad)Homogeneidad (misma distribución)

Adicionalmente, en inferencia estadística paramétrica, se supone unmodelo paramétrico:

La distribución de X es de la forma Fθ(x)(siendo θ un parámetro desconocido)

Distribución paramétrica (la distribución se ajusta a un modeloparamétrico)

Inferencia no paramétrica Objetivos

Inferencia no paramétricaObjetivos

Desarrollar herramientas que permitan veri�car el grado decumplimiento de las hipótesis anteriores:

Métodos descriptivos (grá�cos)Contrastes de bondad de ajusteContrastes de aleatoriedad

Desarrollar procedimientos alternativos válidos cuando estashipótesis no se veri�can (métodos de distribución libre).

Contrastes de bondad de ajuste Introducción

Contrastes de bondad de ajuste

A partir de X1, . . . ,Xn m.a.s. de X con función de distribución F , interesarealizar un contraste de la forma:�

H0 : F = F0H1 : F 6= F0

Por ejemplo:�H0 : F = N(0, 1)H1 : F 6= N(0, 1)

�H0 : F es normal N(µ, σ2)H1 : F no es normal

H0 simple H0 compuesta

H0 especi�ca por completo H0 sólo especi�cala distribución de X el tipo de distribución

Métodos Grá�cos

Histograma

Diagrama de cajas

Función de distribución empírica

Grá�cos P-P y Q-Q

Grá�co de tallo y hojas

Densidad suavizada

Contrastes de hipótesis

Generales: �H0 : F = F0H1 : F 6= F0

Chi-cuadrado de PearsonKolmogorov-Smirnov

Especí�cos de normalidad:�H0 : F = N(µ, σ2)H1 : F 6= N(µ, σ2)

Kolmogorov-Smirnov-LillieforsShapiro-WilksAsimetría y apuntamiento...

Métodos Grá�cos Histograma

Métodos Grá�cosHistograma

Se agrupan los datos en intervalos Ik = [Lk�1, Lk ) .A cada intervalo se le asocia un valor (altura) proporcional a lafrecuencia de dicho intervalo:

f̂n(x) =fi

Lk � Lk�1=

nin (Lk � Lk�1)

Métodos Grá�cos Grá�co de cajas

Grá�co de cajas (Box-plot)

Útiles para resumir un conjunto de datos (variables cuantitativas conun amplio rango de valores), permiten visualizar la distribución y ladispersión de los datos y también detectar valores extraños (outliers).

Son muy utilizados en el análisis exploratorio de datos yespecialmente útiles para comparar distribuciones.

NOTA: Normalidad ) simetría

Métodos Grá�cos Ejemplos

EjemplosDistribución normal

Métodos Grá�cos Ejemplos

EjemplosDistribución asimétrica

Métodos Grá�cos Función de distribución empírica

Función de distribución empírica

La función de distribución empírica Fn asigna a cada número real x lafrecuencia relativa de observaciones menores o iguales que x .

Se ordena la muestra X(1) � X(2) � � � � � X(n) y:

Fn(x) =

8<:0 si x < X(1)in si X(i ) � x < X(i+1)1 si X(n) � x

Métodos Grá�cos Grá�cos P-P y Q-Q

Grá�co P-P

Gra�co de dispersión:

f(Fn(xi ),F0(xi )) : i = 1, � � � , ngsiendo Fn la FD empírica y F0 la FD bajo H0.Si H0 es cierta, la nube de puntos estará en torno a la recta y = x(probabilidades observadas próximas a las esperadas bajo H0).

NOTA: Si H0 : F = N(µ, σ2), F0 FD de N(µ̂, σ̂2).Tema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 12 / 33

Métodos Grá�cos Grá�cos P-P y Q-Q

Grá�co Q-Q

Equivalente al anterior pero en la escala de la variable (cuantiles):n�x(i ), qi

�: i = 1, � � � , n

osiendo x(i ) los cuantiles observados y qi = F

�10 (pi ) los esperados bajo

NOTA: Típicamentenpi =

(i�0.5)n : i = 1, � � � , n

oTema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 13 / 33

Contrastes Contraste chi-cuadrado de Pearson

Contraste chi-cuadrado de Pearson

Contraste de bondad de ajuste:�H0 : F = F0H1 : F 6= F0

Agrupamos los datos en k clases: C1, � � � ,CkBajo H0 cada clase tendrá asociada una probabilidad pi = P (X 2 Ci )

Clases ProbabilidadesGeneral Discreta Continua H0 simple H0 compuestaC1 x1 [L0, L1) p1 p̂1...

......

Ck xk [Lk�1, Lk ) pk p̂k∑i pi = 1 ∑i p̂i = 1

Contraste a realizar:�H0 : Las probabilidades son correctasH1 : Las probabilidades no son correctas

Si H0 es cierta entonces fi � pi (fi frecuencia relativa de la clase Ci ),o equivalentemente las frecuencias observadas:

ni = n � fi

deberían ser próximas a las esperadas bajo H0:

ei = n � pi

Sugiriendo el estadístico del contraste:

χ2 =k

∑i=1

(ni � ei )2ei

�aprox .

χ2k�r�1, si H0 cierta

siendo:

k = número de clasesr = número de parámetros estimados (para obtener las pi ).

Clases ni observadas pi bajo H0 ei bajo H0(ni�ei )2

C1 n1 p1 e1(n1�e1)2

......

Ck nk pk ek(nk�ek )2

Total ∑i ni = n ∑i pi = 1 ∑i ei = n χ2 = ∑ki=1

(ni�ei )2ei

Cuando H0 es cierta el estadístico tiende a tomar valores pequeños ygrandes cuando es falsa.

Rechazamos H0, para un nivel de signi�cación α, si:

∑i=1

(ni � ei )2ei

� χ2k�r�1,1�α

Distribución bajo H0Â2

k¡r¡1

Â2k¡r¡1;1¡®

Distribución bajo H0Â2

k¡r¡1Â2k¡r¡1

Â2k¡r¡1;1¡®Â2k¡r¡1;1¡®

Si realizamos el contraste a partir del p-valor o nivel crítico:

χ2k�r�1 �

∑i=1

(ni � ei )2ei

!rechazaremos H0 si p � α (y cuanto menor sea con mayor�seguridad� la rechazaremos) y aceptaremos H0 si p > α (con mayor�seguridad�cuanto mayor sea).

Contrastes Condiciones necesarias para la validez del test

Condiciones necesarias para la validez del test

Para que la aproximación χ2 de la distribución del estadístico del contrastesea válida:

El tamaño muestral debe ser su�cientemente grande (p.e. n > 30).La muestra debe ser una muestra aleatoria simple.En caso de que haya que estimar parámetros, los parámetros debenestimarse por el procedimiento de máxima verosimilitud.Las frecuencias esperadas ei = n � pi deberían ser todas � 5.

Si la frecuencia esperada de alguna clase es < 5, se agrupa con otra clase(o con varias si no fuese su�ciente con una) para obtener una frecuenciaesperada � 5.

Cuando la variable es nominal (no hay una ordenación lógica) se sueleagrupar con la(s) que tiene(n) menor valor de ei .Si la variable es ordinal (o contínua) debe juntarse la que causó elproblema con una de las adyacentes.

Contrastes Condiciones necesarias para la validez del test

Si la variable de interés es continua, una forma de garantizar que ei � 5consiste en tomar un número de intervalos igual al mayor valor:

k � n/5

y de forma que sean equiprobables:

pi = 1/k

Por ejemplo en el caso de una normal estandar consideraríamos los puntoscríticos zi/k

Contrastes Ejemplo test chi-cuadrado

Ejemplo

La siguiente tabla muestra los fallos de tres servidores web durante un año:

Servidor 1 2 3 TotalNo de fallos 8 10 15 33

A partir de estos datos, con un nivel de signi�cación α = 0.05, ¿podemosa�rmar que los tres servidores tienen la misma probabilidad de fallar?

Hipótesis del contraste:�H0 : p1 = p2 = p3 = 1

3H1 : pi 6= pj para algún i , j

Estadístico del contraste:

χ2 =k

∑i=1

(ni � ei )2ei

�aprox .

χ2k�r�1, si H0 cierta

k = número de clases = 3r = número de parámetros estimados = 0

Contrastes Ejemplo test chi-cuadrado

Regla de decisión: rechazamos H0 si:

χ2 � χ22,0.95 = 5.99

Realización del contraste:

Categoría ni observadas pi bajo H0 ei bajo H0(ni�ei )2

ei1 8 1/3 11 0.81822 10 1/3 11 0.09093 15 1/3 11 1.4545

Total 33 1 33 χ2 = 2.364

Como 2.364 < 5.99) aceptamos que los tres servidores tienen lamisma probabilidad de fallo.

Cálculo del p-valor:

p = P�χ22 � 2.364

�= 0.3066 > 0.1 (tablas)

como p � α aceptamos claramente H0.

Contrastes Contraste de Kolmogorov-Smirnov

Contraste de Kolmogorov-Smirnov

Contraste de bondad de ajuste de distribuciones continuas.Se basa en comparar la FD bajo H0 (F0) con la FD empírica (Fn):

Dn = supxjFn(x)� F0(x)j,

= maxi=1,�� ,n

njFn(X(i ))� F0(X(i ))j, jFn(X(i�1))� F0(X(i ))j

NOTA: Fn�X(i )

�= i

nTema 1 (III) (Estadística 2) Contrastes de bondad de ajuste Curso 08/09 22 / 33

Contrastes Contraste de Kolmogorov-Smirnov

Dn = max1�i�n

�in� F0(X(i )),F0(X(i ))�

i � 1n

�= max

1�i�n

�D+n,i ,D

�n,i

Si H0 es simple y F0 es continua, la distribución del estadístico Dnbajo H0 no depende F0. Esta distribución está tabulada (paratamaños muestrales grandes se utiliza la aproximación asintótica). Serechaza H0 si:

Dn � DKSn,1�α

Si H0 es compuesta, los parámetros desconocidos se estiman pormáxima verosimilitud y se trabaja con F̂0, aunque los cuantiles de ladistribución de Dn pueden ser demasiado conservativos (puede serpreferible aproximarlos por simulación).

Contrastes Ejemplo test KS

Ejemplo (problema 2.4)

X = "tiempo de funcionamiento (en cientos de horas) de cierto tipode impresoras antes de la primera avería"

Se ha observado una muestra de diez impresoras:

1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39

Contrastar si la distribución de X es exponencial:

f (x) = λe�λx si x > 0

F (x) = P (X � x) = 1� e�λx si x > 0

Se estima el parámetro λ =1

E (X ),

λ̂ =1x̄=

18.355

= 0.1197

Contrastes Ejemplo test KS

Se calcula la tabla del contraste K-S:

x(i ) F̂0�x(i )�

Fn�x(i�1)

�Fn�x(i )�

Dn,i1.69 0.183 0.00 0.10 0.1832.99 0.301 0.10 0.20 0.201�

3.03 0.304 0.20 0.30 0.1043.68 0.356 0.30 0.40 0.0564.70 0.430 0.40 0.50 0.0707.32 0.584 0.50 0.60 0.0849.72 0.688 0.60 0.70 0.08815.87 0.850 0.70 0.80 0.15016.16 0.855 0.80 0.90 0.05518.39 0.889 0.90 1.00 0.111

D̂n = 0.201 y p = P (Dn � 0.201) = 0.81 > 0.2 (tablas) ) Seacepta la hipótesis de que las observaciones siguen una distribuciónexponencial.

Contrastes Contraste de Kolmogorov-Smirnov-Lilliefors

Contraste de Kolmogorov-Smirnov-Lilliefors

Contraste de normalidad, H0 : F = N(µ, σ2), empleando elestadístico Dn anterior.

Los parámetros se estiman por máxima verosimilitud yF̂0 = Φ ((x � x)/s) siendo Φ (z) la FD de una N(0, 1).

El estadístico del contraste es:

Dn = supxjFn(x)�Φ

�x � xs

Esta distribución está también tabulada. Se rechaza H0 si:

Dn � DKSLn,1�α

Contrastes Ejemplo test KSL

1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39

Contrastar si la distribución de X es normal:�H0 : X � N(µ, σ2)H1 : X � N(µ, σ2)

Se estiman los parámetros µ y σ:

µ̂ = x̄ = 8.355

σ̂ = s = 6.305

Contrastes Ejemplo test KSL

Se calcula la tabla del contraste K-S-L:

x(i ) z(i ) F̂0�x(i )�

Fn�x(i�1)

�Fn�x(i )�

=x(i )�xs = Φ

�z(i )�

= i�1n = i

1.69 �1.06 0.145 0.00 0.10 0.1452.99 �0.85 0.198 0.10 0.20 0.0983.03 �0.84 0.201 0.20 0.30 0.0993.68 �0.74 0.229 0.30 0.40 0.1714.70 �0.58 0.281 0.40 0.50 0.219�

7.32 �0.16 0.436 0.50 0.60 0.1649.72 0.22 0.586 0.60 0.70 0.11415.87 1.19 0.883 0.70 0.80 0.18316.16 1.24 0.892 0.80 0.90 0.09218.39 1.59 0.944 0.90 1.00 0.056

D̂n = 0.219 y p = P�DKSLn � 0.219

�= 0.1904 ' 0.2 (tablas, 0.217)

) Se acepta la hipótesis de que las observaciones siguen unadistribución normal.

Contrastes Contraste de simetría

Contraste de simetría

Coe�ciente de asimetría:

CA =∑ni=1(xi � x)3ns3

Bajo la hipótesis de normalidad CA �aprox .

N(0, 6n )

Coe�ciente de asimetría estandarizado:

rn6CA �

aprox .N(0, 1).

Se rechaza la hipótesis de simetría si:

jCAS j � Z1� α2

Contrastes Ejemplo test simetría

1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39

CA = ∑ni=1(xi�x )3ns3 = 0.642

σ̂ (CA) =q

610 = 0.775

CAS = CAσ̂(CA) =

0.6420.775 = 0.828 2 R.A. = (�1.96, 1.96)

p = 2 � P (Z � j0.828j) ' 2 � 0.2061 = 0.412Como p � α aceptamos (claramente) la hipótesis nula de que ladistribución de los datos es simétrica

Contrastes Contraste de apuntamiento

Contraste de apuntamiento

Coe�ciente de apuntamiento o curtosis:

CAp =∑ni=1(xi � x)4ns4

Bajo la hipótesis de normalidad CAp �aprox .

N(0, 24n )

Coe�ciente de apuntamiento estandarizado:

CApS =

rn24CAp �

aprox .N(0, 1)

Se rechaza la hipótesis de curtosis nula si:

jCApS j � Z1� α2

Contrastes Ejemplo test apuntamiento

1.69 2.99 3.03 3.68 4.70 7.32 9.72 15.87 16.16 18.39

CAp = �1.397σ̂ (CAp) =

q2410 = 1.549

CApS = CApσ̂(CAp) =

�1.3971.549 = �0.902 2 R.A. = (�1.96, 1.96)

p = 2 � P (Z � j�0.902j) ' 2 � 0.1814 = 0.363Como p > α = 0.05 aceptamos (claramente) la hipótesis nula de que ladistribución de los datos tiene curtosis nula.

Contrastes Transformaciones para corregir la falta de normalidad

Transformaciones para corregir la falta de normalidad

Si hay falta de normalidad, la solución a tomar depende del tipo dedistribución que muestran los datos y de los objetivos de la inferencia.

Si la distribución es unimodal y asimétrica, se puede pensar entransformar los datos para aproximarlos a la normalidad.

4 16 36 56 760

1 1 3 5 7 9 110

4 2 0 2 4 60

ln(X)ln(X)

En otros casos se puede pensar en utilizar métodos alternativos noparamétricos.

Conceptos bÆsicos de inferencia estadística (III...

Documents

Internet Conceptos BÆsicos - Departamento de Informáticadirinfo.unsl.edu.ar/profesorado/INfyEduc/teorias/Clase1Internet2008.… · 1 Internet Conceptos BÆsicos CÆtedra: Taller

Cartas sobre Estadística - cran.fiocruz.br · Marcelo R. Risk Cartas sobre Estadística 1 Cartas sobre Estadística 1: Estadística Descriptiva, Representación Gráfica y Distribución

Precision and Speed for Option Pricing - Departamento de ...dm.udc.es/finance09/conference/Olivier_Pirennau.pdf · Precision and Speed for Option Pricing ... using namespace std;

OPERACIÓN ESTADÍSTICA “ESTADÍSTICA DE INFORMACIÓN

Cartas sobre Estadística€¦ · Marcelo R. Risk Cartas sobre Estadística 1 Cartas sobre Estadística 1: Estadística Descriptiva, Representación Gráfica y Distribución Normal

Portal Estadística Aplicada...Portal Estadística Aplicada

TEMA 10.- INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIALvalentin/ging/materiales_web/Tema10-11_resaltado.pdf · de la estadÍstica descriptiva a la estadÍstica inferencial ESTADÍSTICA

Física Estadística - Mecánica Estadística (USaCh)

Principios bÆsicos teóricos - Alcidesmendoza's Blog · Principios BÆsicos Teóricos de Electricidad y Magnetismo `rea de Ciencia Tecnología y Ambiente 1 Alcides Mendoza Coba –

Mecánica Estadística: Estadística de Maxwell -Boltzmann · Mecánica Estadística: Estadística de Maxwell -Boltzmann Si los elementos (naipes) se encuentran originalmente ordenados

Capítulo 2 Estadística descriptiva 23 Estadística descriptiva

NACIONES UNIDAS TD · estructurada de los productos bÆsicos y las cuestiones conexas. La financiación es esencial para el fomento del sector de los productos bÆsicos en los países

ESTADÍSTICA DESCRIPTIVA. “CUESTIÓN DE ESTADÍSTICA”

Cuaderno de PrÆcticas Microsoft Excel · 1. Conceptos bÆsicos 6 1. Conceptos BÆsicos Objetivos del tema: En este primer tema, se tratarÆn los conceptos bÆsicos, los cuales son

Calculo´ Funciones reales de una variable real - …dm.udc.es/elearning/MaterialDocente/trCalculo-tema1.pdf · Ejemplo de funciones periodicas: las funciones trigonom´ etricas.´

ESTADÍSTICA INDUSTRIAL (Temas de estadística para …s281f9e96dbae1fd8.jimcontent.com/download/version/...ESTADÍSTICA INDUSTRIAL (Temas de estadística para Ingenieros) Rosa Rodríguez

ESTADÍSTICA Y PROBABILIDADES: Datos y Estadística

PLAN ESTADÍSTICO NACIONAL 2007 · 01056 - Estadística del Camal Municipal 01057 - Estadística Pecuaria 01058 - Estadística Pecuaria Continua - Huanuco 01059 - Estadística Pecuaria

Cartas sobre Estadística - cran.uni-muenster.de€¦ · Marcelo R. Risk Cartas sobre Estadística 1 Cartas sobre Estadística 1: Estadística Descriptiva, Representación Gráfica

Estadística ¿Por qué hay que estudiar Estadística?