32

Semana 7- Sesiones 13 y 14 - Pruebas de Independencia y Pruebas de Bondad de Ajuste

Embed Size (px)

DESCRIPTION

Prueba de Bondad.

Citation preview

Plan  de  clase  

Inicio  

• Competencias  • Mo0vación.  • Saberes  previos.  

Contenido  de  sesión  

• Prueba  de  Independencia.  • Pruebas  de  Bondad  de  Ajuste.  • Ejercicios  resueltos.  

Cierre  

• Retroalimentación.  • Autoevaluación  

Competencias  

  Al   termino   de   la   sesión,   el  estudiante  estará  en  capacidad  de:    

Ø R e a l i z a r   p r u e b a s   d e  independencia   en   problemas  contextualizados.  

Ø Realizar  pruebas  de  bondad  de  a j u s t e   e n   p r o b l e m a s  contextualizados.  

PRUEBA DE INDEPENDENCIA

Esta prueba permite analizar la relación de dependencia o independencia entre dos variables cualitativas.

¿El consumo de comida chatarra está relacionado c o n l a s e n f e r m e d a d e s s a n g u í n e a s , d i a b e t e s , colesterol, obesidad?

pero  uhm  

Tabla  de  con4ngencia  Los datos obtenidos para un par de variables cualitativas se resumen en una tabla de doble entrada que se conoce como tabla de contingencia, tal como se muestra a continuación:

donde: Ai: : Característica i de la variable A Bj: : Característica j de la variable B Ri : Número de individuos que tiene la característica Ai Cj : Número de individuos que tiene la característica Bj Oij : Número de individuos que tiene las características Ai y Bj a la vez. n : Tamaño de la muestra

Pasos  a  seguir:  

1.- Planteamiento de las hipótesis

2.- Fijar α

3.- Estadístico de prueba

Hipótesis nula (H0): Las variables X e Y son independientes. (X e Y no están relacionadas)

Hipótesis alterna (H1): Las variables X e Y no son independientes. ( X e Y están relacionadas)

∑∑= =

−=

R

i

C

j ij

ijijcal E

EO

1 1

22 )(

χ

nCR

E jiji

×=

La frecuencia esperada se calcula de la siguiente manera:

4.- Valor crítico

donde: (R-1)(C-1) son los grados de libertad

5.- Decisión

donde:

Oij : Frecuencia observada de la celda que está en la intersección de la fila i y columna j.

Eij : Frecuencia esperada de la celda que está en la intersección de la fila i y columna j.

21);1)(1(

2αχχ −−−= CRT

21);1)(1(

2:Re αχχ −−−> CRcalsiHochazar

Observaciones:

1.- Cuando Ho es verdadera, las diferencias entre Oi y Ei son pequeñas, pero cuando Ho es falsa esta diferencia es grande.

2.- Para saber si O(observado) y E (esperado) son suficientemente grandes,

se utiliza la distribución Chi – Cuadrado. 3.- Para que los resultados de la prueba sean válidas debe de cumplirse que: (supuesto) o  La muestra debe ser aleatoria y de preferencia de tamaño mayor a

100. o  La frecuencias esperadas deben ser mayores que cero y se admite solo

un 25% de celdas con Eij < 5; si esto no se cumple, se puede agrupar categorías adyacentes.

¿CUÁL  ES  EL  GRADO  DE  LA  RELACIÓN  ENCONTRADA?  

Una vez determinado que existe relación entre dos variables, el segundo aspecto de interés lógico será medir el grado de esta relación.

Phi (Es la más utilizada en tablas 2x2)

Coeficiente de Contingencia (para tablas de orden diferente de 2x2)

n

cal2χφ =

2

2

cal

cal

nC

χχ+

=

Existe la controversia de que un estudiante universitario logra culminar en menos tiempo su carrera en las especialidades de letras que en ingeniería o ciencias básicas. Por lo cual la empresa “Tanto” ha decidido realizar un estudio para verificar la controversia y por ello ha seleccionado una muestra aleatoria de 1600 estudiantes. Los resultados se muestran en el siguiente cuadro:

Ejemplo 1

A l n i v e l d e significación del 5%, ¿se puede inferir que existe relación entre el tipo de especialidad y el tiempo que el e s t u d i a n t e l o g r a culminar su carrera.

“LO QUE ESCUCHO LO OLVIDO. LO QUE VEO LO RECUERDO. PERO LO QUE HAGO, LO ENTIENDO.”

Solución  

H1: El tipo de especialidad y el tiempo que el estudiante logra culminar su carrera no son independientes.

Ho : El tipo de especialidad y el tiempo que el estudiante logra culminar su carrera son independientes.

2.- α = 0.05

3.- Estadístico de prueba

98)(

1 1

22 =

−=∑∑

= =

R

i

C

j ij

ijij

EEO

1.- Planteamiento de las hipótesis

4.- Valor crítico

488.9295.0;4

2

21);13)(13(

2

==

= −−−

χχχχ α

T

T

5.- Decisión

.,88.998 295.0;

2 HorechazaseComo TC =>= χχ

Por lo tanto, con un nivel de significancia del 5%, existe evidencia estadística para pensar que el tipo de especialidad y el tiempo que el estudiante logra culminar su carrera no son independientes.

Reporte: Minitab

Especialidad Menos de 4 años

Entre 5 a 6 años

Mayor igual a 7 años

Total (fila)

Letras 300 150 50 500229.687 195.313 75.000 500.00021.524 10.513 8.333

Ciencias Básicas 110 125 90 325149.297 126.953 48.75 32510.343 0.030 34.904

Ingeniería 325 350 100 775356 302.7 116.3 7752.702 7.380 2.272

Total columna 735 625 240 1600

Reporte: Minitab

Especialidad Menos de 4 años

Entre 5 a 6 años

Mayor igual a 7 años

Total (fila)

Letras 300 150 50 500229.687 195.313 75.000 500.00021.524 10.513 8.333

Ciencias Básicas 110 125 90 325149.297 126.953 48.75 32510.343 0.030 34.904

Ingeniería 325 350 100 775356 302.7 116.3 7752.702 7.380 2.272

Total columna 735 625 240 1600

¿El número de clientes de que llegan a un centro comercial se distribuye como una distribución Poisson?

Mo4vación  

PRUEBA  DE  BONDAD  DE  AJUSTE  

Prueba  de  Bondad  de  ajuste    Chi  Cuadrado  

Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.

Esta prueba es aplicable para variables aleatorias discretas o continuas.

Las pruebas de bondad de ajuste pueden utilizarse para determinar si una variable se ajusta a una determinada distribución de probabilidades, como por ejemplo: ü  Normal ü  Binomial ü  Poisson ü  Otra

Pasos  a  seguir:  1.- Planteamiento de hipótesis

2.- Fijar α

3.- Estadístico de prueba

Hipótesis nula (H0) : La variable de estudio se distribuye de acuerdo a la distribución dada.

Hipótesis alternativa (H1) : La variable de estudio no se distribuye de acuerdo a la distribución dada.

∑=

−=R

iC Ei

EiOi1

22 )(χ

donde: Ei = n. Pi Pi es la probabilidad de la distribución dada n es el tamaño de muestra

4.- Valor crítico

5.- Decisión

Rechazar Ho si: 21;1

2αχχ −−−> mkC

donde: k: número de categorías formadas m: número de parámetros estimados

21,1

2αχχ −−−= mkT

Observaciones

¿En qué casos se deben de estimar algunos parámetros a partir de la muestra?

ü  Cuando una variable se aproxima a una distribución normal y no se conocen los dos parámetros poblacionales ( µ y σ), se deben estimar a partir de los datos de la muestra ( 𝑋  y s) , y en este caso m=2

ü  Las frecuencias esperadas de cada una de las categorías deben ser mayores o iguales a cinco; si alguna categoría tuviera una frecuencia esperada menor que cinco, se deberán

unir categorías adyacentes.

Ejemplo  1  

El Ministerio de salud afirma que el tipo de sangre de las personas que residen en Lima Metropolitana está en el orden de 35%,10%,6% y 49%. Un investigador quiere verificar si el % de tipo de sangre es el mismo en el departamento del Cuzco. Para ello, seleccionó una muestra de 200 personas residentes del Cuzco y se les determinó el tipo de sangre que tenían con los resultados que se muestra:

¿podemos afirmar que el investigador tiene la razón? Use α = 0.05

Solución  

Estamos ante el caso de una distribución multinomial:

1.- Planteamiento de las hipótesis

2.- α = 0.05

3.- Estadístico de prueba

H0 : El tipo de sangre de las personas que residen en el Cuzco se distribuye según indica el Minsa

H1 : El tipo de sangre de las personas que residen en el Cuzco no se distribuye según indica el Minsa

489.9)(1

22 =−=∑

=

R

iC Ei

EiOiχ

4.- Valor crítico 815.7295.0;3

2 == χχT

5.- Decisión

815.7489.9 22 =>= TC χχRechazamos Ho, ya que:

Por lo tanto, con un nivel de significancia del 5%, existe evidencia estadística para pensar que el tipo de sangre de las personas que residen en el Cuzco no se distribuye según indica el Minsa.

Ejercicio  2  

Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años. Los resultados se han agrupado en siete categorías tal como se muestra en el siguiente cuadro:

Verifique al 5% de significancia si la duración en años de las baterías producidas por este fabricante se distribuye como una normal con µ = 3.5 y σ = 0.7

Solución  

00169.0)93.2(7.05.345.1)45.1( =−<=⎟⎠⎞⎜

⎝⎛ −<=< ZPZPXP

Primero debemos hallar las probabilidades

0117.07.05.395.1

7.05.345.1)95.145.1( =⎟

⎠⎞⎜

⎝⎛ −<<−=<< ZPXP

Se halla de la misma forma para los otros intervalos, los resultados se muestra en cuadro siguiente:

Las frecuencias esperadas se halló con la fórmula: Ei = nxPi

Como las frecuencias esperadas son menores que cinco en las primeras categorías, se unieron como una sola, al igual que las últimas tres categorías que formaron una sola como se muestra en cuadro adjunto

En este problema los parámetros(µ y σ ) son conocidos, por tanto m=0

H0 : El tiempo se distribuye como una normal con µ = 3.5 y σ =0.7

H1 : El tiempo no se distribuye como una normal con µ = 3.5 y σ =0.7

2.- α = 0.05

1.- Planteamiento de hipótesis

3.- Prueba Estadística

154.3)(1

22 =−=∑

=

R

iC Ei

EiOiχ

4.- Valor crítico

815.7295.0;3

2 == χχT

5.- Decisión

815.7

¡Concluya!

Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. En una muestra aleatoria de 60 tarjetas de circuito impreso se observa el número de defectos. Los resultados obtenidos son los siguientes:

¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad de ajuste con α = 0.05

Ejemplo  3  

Primer paso Reconocer que la media o promedio ( λ   )   de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.

Segundo paso: Estimar el valor de lambda

∞===−

....,2,1,0!

)( xxexXP

xλλ

A partir de la distribución Poisson con el parámetro estimado (0.75) pueden calcularse las probabilidades asociadas con el valor de x:

Solución:    (Cálculos    previos)  

75.060

)3(4)2(9)1(15)0(32ˆ =+++== xλ

Tercer paso

472.0!075.0)0(

075.0

===−eXP 354.0

!175.0)1(

175.0

===−eXP

133.0!275.0)2(

275.0

===−eXP [ ] 041.0133.0354.0472.01)3( =++−=≥XP

El cuadro queda como sigue:

1.- Planteamiento de hipótesis H0 : El número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson H1 : El número de defectos en las tarjetas de circuito impreso no sigue una distribución Poisson

2.- α = 0.05

3.- Prueba Estadística

9616.2)(1

22 =−=∑

=

R

iC Ei

EiOiχ

4.- Valor crítico

841.3295.0;113

2 == −−χχTEn este problema el parámetro λ se estimó a partir de la muestra, por tanto m=1 y k=3.

5.- Decisión

Como no se rechaza Ho . Con un nivel de significación del 5%, existe evidencia estadística para pensar que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson.

841.39616.2 22 =<= TC χχ

1.- Planteamiento de hipótesis Un ingeniero de control de calidad tomó una muestra de 10 neumáticos que salen de una línea de ensamblaje para verificar sobre la base de los datos si el número de llantas con defectos observadas en 205 días sigue una distribución binomial. Utilice un 5% de significancia

H0 : El número de llantas con defecto se distribuye como una Binomial con π = 0.05. H1 : El número de llantas con defecto no se distribuye como una Binomial con π = 0.05.

2.- α = 0.05

3.- Prueba Estadística

=−=∑=

R

iC Ei

EiOi1

22 )(χ

4.- Valor crítico == −−−2

1;12

αχχ mkT

Número  de  defectos  

Número  de  días  

0   138  

1   53  

2   9  

>=3   5  

Total   205