29
1 Índice. Bondad de ajuste..............................................2 Análisis Ji-cuadrada..........................................2 Prueba de independencia.......................................3 Prueba de la bondad del ajuste...............................6 Tablas de contingencia........................................8 Pruebas no paramétricas.......................................8 Escala de medición............................................8 Pruebas de los rangos con signo de wilcoxon para la mediana.. 10 Pruebas de sumas de rangos con signo de wilcoxon para la diferencia entre dos medianas (2 poblaciones independientes). 11 Prueba de rangos con signo de wilcoxon para la diferencia de 2 medianas (2 poblaciones dependientes, datos pareados)........14 Prueba de las corridas.......................................15 Métodos estadísticos contra no paramétricos..................16 Pruebas para verificar la normalidad en un grupo de datos.. . .18 Prueba de kolmogorov-smirnov................................18 Prueba de Anderson-Darling...................................18 Prueba de Ryan- Joiner.......................................19 Prueba de Shapiro-Wilks......................................20 Bibliografía.................................................22

Unidad 4 bondad y ajuste

Embed Size (px)

Citation preview

Page 1: Unidad 4 bondad y ajuste

1

Índice.Bondad de ajuste........................................................................................................................2

Análisis Ji-cuadrada....................................................................................................................2

Prueba de independencia...........................................................................................................3

Prueba de la bondad del ajuste.................................................................................................6

Tablas de contingencia...............................................................................................................8

Pruebas no paramétricas............................................................................................................8

Escala de medición.....................................................................................................................8

Pruebas de los rangos con signo de wilcoxon para la mediana................................................10

Pruebas de sumas de rangos con signo de wilcoxon para la diferencia entre dos medianas (2 poblaciones independientes)...................................................................................................11

Prueba de rangos con signo de wilcoxon para la diferencia de 2 medianas (2 poblaciones dependientes, datos pareados)................................................................................................14

Prueba de las corridas..............................................................................................................15

Métodos estadísticos contra no paramétricos.........................................................................16

Pruebas para verificar la normalidad en un grupo de datos.....................................................18

Prueba de kolmogorov-smirnov..............................................................................................18

Prueba de Anderson-Darling....................................................................................................18

Prueba de Ryan- Joiner.............................................................................................................19

Prueba de Shapiro-Wilks..........................................................................................................20

Bibliografía...............................................................................................................................22

Page 2: Unidad 4 bondad y ajuste

2

Unidad IV. Pruebas de bondad de ajuste y pruebas no paramétricas.

Competencias específicas a desarrollar:

Identificar y aplicar los conceptos de las pruebas de bondad de ajuste. Establecer cuál es la metodología aplicable a una prueba de bondad de

ajusté. Identificar y aplicar los conceptos de una prueba no paramétrica.

Bondad de ajuste.

Análisis Ji-cuadrada.

Otro caso especial muy importante de la distribución gamma se obtiene al hacer σ=γ/2 y β = 2, donde γ es un entero positivo. Este resultado se llama distribución ji cuadrada. La distribución tiene un solo parámetro, γ, llamado grados de libertad.

La variable aleatoria continua X tiene una distribución ji cuadrada, con γ grados de libertad, si su función de densidad está dada por:

En cualquier otro caso donde γ es un entero positivo.

La distribución ji cuadrada juega un papel vital en al inferencia estadística. Tiene una aplicación considerable en la metodología y en la teoría. La distribución ji cuadrada es un componente importante de la prueba de hipótesis y de la estimación estadística.

Los temas que tratan con distribución de muestreo, análisis de varianza y estadística no paramétrica implican el uso extenso de la distribución ji cuadrada.

La media y la varianza de la distribución ji cuadrada son:

Page 3: Unidad 4 bondad y ajuste

3

Prueba de independencia.

El procedimiento de prueba de ji cuadrada que se presenta en la sección también se puede usar para probar la hipótesis de independencia de dos variables de clasificación. Suponga que deseamos determinar si las opiniones de los votantes residentes del estado de Hilinois con respecto a una nueva reforma de impuestos son independientes de sus niveles de ingresos. Una muestra aleatoria de 1000 votantes registrados del estado de Hilinois se clasifican de acuerdo con su posición en las categorías de ingreso bajo, medio o alto y si están a favor o no de la nueva reforma de impuestos. Las frecuencias observadas se presentan en la tabla que se conoce como tabla de contingencia.

Una tabla de contingencia con r renglones y con c columnas se denomina tabla r X c (“r X c” se lee r por c). Los totales de renglones y columnas en la tabla se denominan frecuencias marginales. Nuestra decisión de aceptar o rechazar la hipótesis nula. Ho, de independencia entre la opinión de un votante con respecto a la nueva reforma de impuestos y su nivel de ingreso se basa en que tan buen 7ajuste tenemos las frecuencias observadas en cada una de la seis celdas de la tabla y las frecuencias que esperaríamos para cada celda bajo la suposición de que Ho es verdadera. Para encontrar estas frecuencias esperadas definamos los siguientes eventos:

L: Una persona seleccionada está en el nivel de ingresos bajo.

M: Una persona seleccionada está en el nivel de ingresos medio.

H: Una persona seleccionada está en el nivel de ingresos alto.

F: Una persona seleccionada está a favor de la nueva reforma de impuestos.

A: Una persona seleccionada está en contra de la nueva reforma de impuestos.

Con el uso de las frecuencias marginales, podemos listar las siguientes estimaciones de probabilidad:

Page 4: Unidad 4 bondad y ajuste

4

Ahora bien, si Ho es verdadero y las dos variables son independientes, debemos tener:

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el número total de observaciones. Como antes, redondeamos estas frecuencias a un decimal. Así, se estima que el número esperado de votantes de bajo ingreso en una muestra que favorecen la nueva reforma fiscal es:

Cuando Ho es verdadera. La regla general para obtener la frecuencia esperada de cualquier celda está dada por la siguiente formula:

En la tabla de frecuencia esperada para cada celda se registra entre paréntesis a un lado del valor observado real. Nótese que las frecuencias esperadas en cualquier renglón o columna se suman al total marginal apropiado.

Page 5: Unidad 4 bondad y ajuste

5

En nuestro ejemplo necesitamos calcular solo las dos frecuencias esperadas en el renglón superior de la tabla y después encontrar el otro pos sustracción. El número de grados de libertad asociados con la prueba de ji cuadrada que aquí se usa es igual al número de frecuencias de celdas que se pueden llenar libremente cuando se nos dan los totales marginales y el gran total, y en este ejemplo este número es de 2. Una formula simple que proporciona el número correcto de grados de libertad es:

De aquí, para nuestro ejemplo, grados de libertad. Para probar la hipótesis nula de independencia, usamos el criterio de decisión siguiente:

Prueba de independencia.

Calcular:

Donde la suma se extiende a todas las celtal rc en la tabla de contingencia r X c. si X2 > X2

α con γ = (r – 1) (c – 1) grados de libertad, rechazar la hipotesis nula de indepenencia al nivel de significancia α, en cualquier otro caso, aceptar la hipotesis nula.

Al aplicar estre criterio a nuestro ejemplo, encontramos que:

De la tabla encontramos que x20.05 = 3.991 para γ= (2-1) (3-1) = 2 grados de

libertad. La hipótesis nula se rechaza. Concluirnos que la opinión de un votante

Page 6: Unidad 4 bondad y ajuste

6

con respecto a la nueva reforma fiscal y su nivel de ingresos no son independientes.

Es importante recordar que la estadística sobre la que basamos nuestra decisión tiene una distribución que solo se aproxima a la distribución ji cuadrada. Los valores x2 calculados dependen de las frecuencias de las celdas y en consecuencia son discretas. La distribución ji cuadrada continua pare aproximar muy bien a la distribución de muestreo discreta de x2, dado que el número de grados de libertad es mayor que 1. En una tabla de contingencia de 2 * 2 donde solo tenemos 1 grados de libertad, se aplica una correlación llamada correlación de yates para continuidad. La fórmula corregida se vuelve entonces:

Si las frecuencias de celdas esperadas son grandes, los resultados corregidos y sin corrección son casi los mimos. Cuando las frecuencias esperadas están entre 5 y 10, se debe aplicar la corrección de Yates. Para frecuencias esperadas menores que 5, se debe utilizar la prueba exacta de Fisher-Irwin.

Prueba de la bondad del ajuste.

Una extensión de la prueba sobre la proporción binomial ocurre cuando una realización puede clasificarse en k posibles categorías en vez de dos (éxito y fracaso). Esto puede ocurrir en la elección de un individuo de un partido político (tricolor, amarillo, azul, otro), en el tipo de delito por el cual un individuo es recluido (un delito de violencia, un delito de cuello blanco, otro), por mencionar algunos ejemplos.

Supóngase que en una muestra en particular se observa que ocurre un conjunto de eventos posibles E1, E2, E3, …, Ek (véase la tabla), con frecuencias o1, o2, o3, …, ok, denominadas frecuencias observadas, y que de acuerdo con las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, …, ek, llamdas frecuencias esperadas. En un escenario como el descrito arriba se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas.

Page 7: Unidad 4 bondad y ajuste

7

Evento E1 E2 E3 … Ek

Frecuencia observada o1 o2 o3 … ok

Frecuencias esperadas

e1 e2 e3 … ek

El estadístico (léase chi cuadrada) proporciona una medida de la discrepancia existente entre la frecuencia observada y la frecuencia esperada, que está dada por

(1)

Donde, se la frecuencia total es n,

. (2)

La hipótesis nula que se desea probar es

H0: p1=p10,…pk = pk0

contra

H1: al menos una pj ≠ pj0 para j=1,…,k,

donde pj0 es la proporción correspondiente a la j-ésima categoría.

Nótese que bajo H0 ej = n pj0.

Page 8: Unidad 4 bondad y ajuste

8

Bajo la hipótesis nula, el estadístico (ji-cuadrado) se distribuye

aproximadamente (k-1) y entonces se rechaza H0 al nivel de significancia α si

excede el valor critico .

Tablas de contingencia.

En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales)

La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por

φ = ,

donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.

μ== Estudio de diferencia de proporciones == Hay situaciones en las que tenemos probabilidades de éxito cercanas al cero o del uno en donde las proporciones pueden ser poco representativas sobre el comportamiento dentro de los grupos.

Pruebas no paramétricas.

Escala de medición.

Se entenderá por medición al proceso de asignar el valor a una variable de un elemento en observación. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón.

Page 9: Unidad 4 bondad y ajuste

9

Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de las variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las variables numéricas sí.

La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la menos informativa de las escalas de medición.

Los siguientes son ejemplos de variables con este tipo de escala:

            Nacionalidad.             Uso de anteojos.             Número de camiseta en un equipo de fútbol.             Número de Cédula Nacional de Identidad. 

A pesar de que algunos valores son formalmente numéricos, sólo están siendo usados para identificar a los individuos medidos.

La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden entre los elementos medidos. 

Ejemplos de variables con escala ordinal:

            Preferencia a productos de consumo.             Etapa de desarrollo de un ser vivo.             Clasificación de películas por una comisión especializada.             Madurez de una fruta al momento de comprarla. 

La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.

Los siguientes son ejemplos de variables con esta escala:

            Temperatura de una persona.             Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85 Ruta 5).             Sobrepeso respecto de un patrón de comparación.             Nivel de aceite en el motor de un automóvil medido con una vara graduada.

Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones mediante un cociente.

Algunos ejemplos de variables con la escala de razón son los siguientes:

            Altura de personas. 

Page 10: Unidad 4 bondad y ajuste

10

            Cantidad de litros de agua consumido por una persona en un día.             Velocidad de un auto en la carretera.             Número de goles marcados por un jugador de básquetbol en un partido. 

La escala de intervalo tiene un cero que se establece por convención y puede tener variaciones. Es arbitrario. Por otra parte, la escala de razón tiene un cero real, fijo, no sujeto a variaciones; es propio de la medición hecha.

Pruebas de los rangos con signo de wilcoxon para la mediana.

La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la normalidad de dichas muestras. Debe su nombre a Frank Wilcoxon, que la publicó en 1945. Es una prueba no paramétrica de comparación de dos muestras relacionadas, debe cumplir las siguientes características:

• Es libre de curva, no necesita una distribución específica • Nivel ordinal de la

variable dependiente • Se utiliza para comparar dos mediciones de rangos

(medianas) y determinar que la diferencia no se deba al azar (que la diferencia sea

estadísticamente significativa).

Se utiliza cuando la variable subyacente es continua pero no se presupone ningún tipo de distribución particular.

Planteamiento

Suponga que se dispone de n pares de observaciones, denominadas  . El

objetivo del test es comprobar si puede dictaminarse que los valores   e   son o

no iguales.

Suposiciones

1. Si  , entonces los valores   son independientes.

2. Los valores   tienen una misma distribución continua y simétrica respecto a

una mediana común  .

Page 11: Unidad 4 bondad y ajuste

11

Método

La hipótesis nula es  :  . Retrotrayendo dicha hipótesis a los valores   

originales, ésta vendría a decir que son en cierto sentido del mismo tamaño.

Para verificar la hipótesis, en primer lugar, se ordenan los valores

absolutos   y se les asigna su rango  . Entonces, el estadístico de

la prueba de los signos de Wilcoxon,  , es

es decir, la suma de los rangos   correspondientes a los valores positivos de  .

La distribución del estadístico   puede consultarse en tablas para determinar si

se acepta o no la hipótesis nula.

En ocasiones, esta prueba se usa para comparar las diferencias entre dos

muestras de datos tomados antes y después del tratamiento, cuyo valor central se

espera que sea cero. Las diferencias iguales a cero son eliminadas y el valor

absoluto de las desviaciones con respecto al valor central son ordenadas de

menor a mayor. A los datos idénticos se les asigna el lugar medio en la serie. La

suma de los rangos se hace por separado para los signos positivos y los

negativos. S representa la menor de esas dos sumas. Comparamos S con el valor

proporcionado por las tablas estadísticas al efecto para determinar si rechazamos

o no la hipótesis nula, según el nivel de significación elegido.

Pruebas de sumas de rangos con signo de wilcoxon para la diferencia entre dos medianas (2 poblaciones independientes).

Esta prueba es un procedimiento libre de distribución poderoso, muy sencillo y ampliamente utilizado, para probar las diferencias entre las medianas de dos poblaciones. Además, la prueba de suma de rangos de wilcoxon es un procedimiento excelente a escoger cuando solamente se pueden obtener datos del tipo ordinal, como sucede a menudo cuando tratamos con estudios sobre comportamientos de consumo, investigaciones de mercado y psicología experimental.

Page 12: Unidad 4 bondad y ajuste

12

Esta prueba se emplea en combinación con el diseño de grupos independientes, con datos que tienen por lo menos una escala ordinal, puede sustituir a la prueba t student cuando ésta no cumple con la suposición de normalidad de su población. La hipótesis nula y alternativa se enuncia sin mencionar los parámetros de la población.

También puede emplearse en lugar de la prueba t cuando los datos no se encuentran en una escala de razón o intervalo. Básicamente compara la diferencia entre las medianas de dos grupos.

Procedimiento:

Para efectuar la prueba de suma de rangos de wilcoxon debemos sustituir las observaciones de las dos muestras de tamaños n1 y n2 por sus rangos combinados. Los rangos son asignados de tal manera que el rango 1 se asigna a la más pequeña de las n = n1 + n2 observaciones combinadas, el rango 2 se le asigna a la siguiente más alta y así sucesivamente, de modo que el rango n queda asignado a la observación mas grande.

Si varias observaciones tienen el mismo valor, asignamos a cada una de estas el promedio de los rangos que, en otra circunstancia, se les habría asignado.

Por cuestiones de comodidad, siempre que los dos tamaños de muestras sean distintos, haremos que n1 represente el de la muestra más pequeña y que n2 corresponda al de la más grande. La estadística de prueba de suma de rangos de wilcoxon, T1, es simplemente la suma de rangos asignados a las n1 observaciones de la muestra más pequeña.

Para cualquier valor entero n, la suma de los n primeros enteros consecutivos puede calcularse fácilmente como n(n + 1)/2. La estadística de prueba, T1, mas la suma de los rangos asignados a los n2 elementos de la segunda muestra, T2, por consiguiente, debe sr igual a este valor; es decir,

De modo que esta ecuación puede servir como una verificación del procedimiento de asignación de rangos. La prueba de hipótesis nula puede ser de dos extremos o de un extremo dependiendo de si estamos probando si las dos medianas de población son exclusivamente diferentes o si una de ellas es mayor que la otra.

Page 13: Unidad 4 bondad y ajuste

13

Cuando los tamaños de ambas muestras n1 y n2 son ≤ 10, se puede usar la tabla para obtener los valores críticos de la estadística de prueba T1 para pruebas de uno y dos extremos, a varios niveles de significación.

Para una prueba de dos extremos y para un nivel particular de significación α, si el valor calculado de T1 es igual o mayor que el valor critico superior o si es menor o igual que el valor critico inferior, la hipótesis nula pude ser rechazada.

Para pruebas de un extremo que tiene la hipótesis alternativa H1: M1 < M2, la regla de decisión consiste en rechazar la hipótesis nula si el valor observado de T1 es menor o igual que el valor critico inferior. Para la pruebas de un extremo cuya hipótesis alternativa sea H1: M1 > M2, la regla de decisión consiste en rechazar la hipótesis nula si el valor observado de T1 es igual o mayor que el valor critico superior.

Utilizamos como estadístico de prueba:

Donde:

T1 = suma de rangos de la primera muestras.

N1 = número de observaciones de la primera muestra.

N2 = numero de observaciones de la segunda muestra.

Basándonos en α el nivel de significación seleccionado, la hipótesis nula puede ser rechazada si el valor Z calculado cae en la región de rechazo apropiada, dependiendo de si se trata de una prueba de dos extremos o de uno solo.

Page 14: Unidad 4 bondad y ajuste

14

Prueba de rangos con signo de wilcoxon para la diferencia de 2 medianas (2 poblaciones dependientes, datos pareados).

UTILIDAD

Es útil para probar la aseveración de que una muestra proviene de una población con una mediana específica.

Se emplea para grupos correlacionados (datos apareados) y cuyos datos no siguen una distribución normal

Esta prueba toma en cuenta la magnitud como la dirección de los puntajes de diferencia

Puede emplearse en lugar de la prueba t para grupos dependientes cuando no se tiene certeza de la distribución de la muestra y no se tiene datos sobre la población

Es una prueba no pará métrica que utiliza rangos ordenados de datos muéstrales consistentes en datos apareados. Se usa para probar las diferencias en las distribuciones poblacionales y se basa en los siguientes supuestos:

Los datos consisten en datos apareados que se seleccionan aleatoriamente.

La podemos emplear para evaluar si dos grupos dependientes tienen distribuciones similares.

La distribución de las diferencias tiene una distribución que es aproximadamente simétrica.

Los datos dentro de cada pareja deben ser por lo menos de mediciones ordinales.

Para calcular Tobt hay que ordenar por rangos de puntaje de diferencia. Suposiciones y pasos a considerar: Los datos se ordenan de acuerdo a un criterio, por ejemplo del más

pequeño al más grande, o del mayor a menor, etc. El rango es el número que se asigna a un elemento muestral individual de

acuerdo con su orden en la lista ordenada Se descartan todas las diferencias iguales a cero y se ordenan y etiquetan

las diferencias absolutas restantes, desde la mínima hasta la máxima. Cuando las diferencias son iguales se les asigna la clasificación media a

sus posiciones ordenadas en el conjunto combinado de datos La idea básica que está detrás de la prueba del signo es el análisis de las

frecuencias de los signos positivos y negativos para determinar si son significativamente diferentes

Emplearemos el estadístico de prueba con base en el número de veces que ocurre el signo menos frecuente.

Page 15: Unidad 4 bondad y ajuste

15

Criterios a considerar: T= se elige a la más pequeña de las siguientes sumas: La suma de los valores absolutos de los rangos negativos de las diferencias La suma de los rangos positivos de las diferencias d Si el tamaño de la muestra es menor a 30, entones empleamos estadístico

T y se compara con T critico de tablas. Si el valor de TOBT es menor o igual a TCRI rechazamos Ho La suma de los rangos debe ser igual a T1 + T2 = n ( n + 1)/ 2

Entonces con respecto a las medianas:Para probar la hipótesis nula de que se muestrean dos poblaciones simétricas continuas con mediana1 = mediana2 para el caso de una muestra pareada, clasificamos las diferencias de las observaciones pareadas sin importar el signo y procedemos como en el caso de una sola muestra.

Prueba de las corridas.

Las pruebas de las corridas, que se basan en el orden en el que se obtienen las

observaciones muestrales, es una técnica útil para probar la hipótesis nula h0 de

que las observaciones en realidad se extraen al azar.

Para ilustrar las pruebas de corridas. Supongamos que se encuestan 12 personas

para saber si utilizan cierto producto. Se cuestionara seriamente la supuesta

aleatoravilidad de la muestra si las 12 personas fueran del mismo sexo.

Designaremos un hombre y una mujer con los símbolos M y F, respectivamente, y

registraremos los resultados de acuerdo con su sexo en el orden en que ocurren.

Subsecuencia típica para el experimento podría ser

M M F F F M F F M M M M

Donde agrupamos las subsecuencias de símbolos similares.

Tales agrupamientos se llaman corridas.

Definición: una corrida es una subsecuencia de uno o más símbolos idénticos que

representan una propiedad común de los datos

Page 16: Unidad 4 bondad y ajuste

16

Sin importar si las mediciones de nuestra muestra representan datos cuantitativos

o cualitativos, la prueba de corridas divide los datos en dos categorías

mutuamente excluyentes; masculino o femenino ; defectuoso o no defectuoso

caras o cruzes; arriba o abajo; etc. En consecuencias, una secuencia siempre

estará limitada a dos símbolos distintos. Sea n el numero de símbolos asociados

con la categoría. Entonces el tamaño de la muestra n= n1 +n2

Para los n =12 simbolos en nuestra encuesta tenemos cinco corridas con la

primera que contiene dos m la segunda 3 f etc, si el numero de corridas es mayor

o menor que el que esperaríamos al azar se debe rechazar la hipótesis de que la

muestra se extrajo al azar; ciertamente, una muestra que tiene como resultado

solo dos corridas.

O la inversa, es mas improbable que ocurra a partir de un proceso de selección

aleatoria. Tal c resultado indica ue las primeras siete personas entrevistadas

fueron todas hombres seguidas de cinco mujeres. De la misma manera, si la

muestra tiene como resultado el numer máximo de 12 corridas, comoen la

secuencia alternamente

M f m f m f m f m f m f

De nuevo sospechamos del orden en que se seleccionaron los individuos para la

encuesta

La prueba de corridas para la aleatoriedad se basa en la variable aleatoria V el

numero total de corridas que ocurren en la secuencia completa de nuestro

experimento. Se dan valores de p(V<v) cuando h0 es verdadera para V=2,3….20

corridas, y valores de n1 y n2 menores que o iguales a 10, los valores p para

pruebas de una cola y de dos colas se pueden obtener con el uso de estos valores

tabulados.

Métodos estadísticos contra no paramétricos.

1.- EL CASO DE DOS MUESTRAS: Las pruebas estadísticas de dos muestras se

usan cuando el investigador desea establecer la diferencia entre dos tratamientos o si

un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofármaco,

Page 17: Unidad 4 bondad y ajuste

17

en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha

experimentado o que ha sufrido un tratamiento diferente.

En la comparación de estos grupos, a veces se observan diferencias significativas que

no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que

se someten a un entrenamiento diferente para determinar cuál es el mejor para elevar

su calificación, puede ser que la diferencia no se deba, realmente, a uno u otro

tratamiento, sino que uno de los grupos estaba más motivado por elevar rápidamente

su calificación y, de esta forma, no se refleja verdaderamente la efectividad del

procedimiento de enseñanza.

Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas se

pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de sujetos en

las que se asignan los miembros de cada pareja, a las dos condiciones. La técnica

paramétrica usual para analizar datos provenientes de dos muestras relacionadas es

aplicar la prueba t a los puntajes, estos se pueden obtener de los dos puntajes de

cada pareja igualada o de los puntajes de cada sujeto bajo las dos condiciones. Éstas

pruebas determinan la medida en dije las diferencias de las muestras indican, de

forma convincente, una diferencia en el proceso aplicado en ellos.

En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse:

Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos

a miembros de algunas muestras de orígenes arbitrarios. No es necesario que la

muestra sea del mismo tamaño.

En este caso, la prueba t es la técnica paramétrica indicada para analizar los datos

de las dos muestras independientes.

2.-EL CASO DE K MUESTRA:

A veces las circunstancias requieren de diseños experimentales de más de dos

muestras o condiciones que puedan estudiarse simultáneamente y entonces es

necesario usar una prueba estadística que indique si existe una diferencia total entre

Page 18: Unidad 4 bondad y ajuste

18

las k muestras o condiciones, ya que no es posible tener confianza en una decisión

acerca de k muestras, en la que el análisis se haga probando las muestras, 2 a 2.La

técnica paramétrica para probar si varias muestras proceden de una misma

población, es el análisis de varianza o prueba F. La misma facilita que no haya

pérdida de precisión al estimar la varianza por separado, pues se utiliza una

varianza combinada.

Pruebas para verificar la normalidad en un grupo de datos.

Prueba de kolmogorov-smirnov.

Este contraste, que es válido únicamente para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal. Si esa probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros datos no proceden de una distribución, mientras que si es muy pequeña, no será aceptable suponer ese modelo probabilístico para los datos.

Prueba de Anderson-Darling.

Esta prueba es aplicada para evaluar el ajuste a cualquier distribución de probabilidades. Se basa en la comparación de la distribución de probabilidades acumulada empírica (resultado de los datos) con la distribución de probabilidades acumulada teórica (definida por H0). la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para

el estadístico A determina si los datos   (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa 

Donde

Page 19: Unidad 4 bondad y ajuste

19

El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que   se utiliza) para determinar el P-valor.

La prueba de Anderson-Darling es una prueba estadística que permite determinar si una muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba asume que no existen parámetros a estimar en la distribución que se está probando, en cuyo caso la prueba y su conjunto de valores críticos siguen una distribución libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos en los que se está probando una familia de distribuciones, en cuyo caso deben ser estimados los parámetros de esa familia y debe tenerse estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos. Cuando se aplica para probar si una distribución normal describe adecuadamente un conjunto de datos, es una de las herramientas estadísticas más potentes para la detección de la mayoría de las desviaciones de la normalidad.

Prueba de Ryan- Joiner.

La prueba re ryan – joiner es usada para probar si n muestra viene de muestra especifica. Esta prueba es una modificación de la prueba de Kolmogorck – Smirnov donde se damas paso a las colas de la distribución que la prueba de Kolmogorck – Smirnov.

Es un aprueba no paramétrica donde sobre si los datos de una meustra proviene de una distribución especifica la formaula para el estadístico determina si los datos (obseravar que los datos se deben ordenar) vienen de una distribución con acumulativa F.

Formulas:

A2=−N−S

Donde el estadístico de prueba para la prueba de Anderson – Darling:

Donde:

Page 20: Unidad 4 bondad y ajuste

20

n: es el número de datos

Prueba de Shapiro-Wilks

Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal. Este tipo de representación también lo proporcionan algunos programas de estadística, de tal manera que nos permite además apreciar el ajuste o desajuste de forma visual:

En escala probabilística normal se representa en el eje horizontal, para cada valor observado en nuestros datos, la función de distribución o probabilidad acumulada observada, y en el eje vertical la prevista por el modelo de distribución normal. Si el ajuste es bueno, los puntos se deben distribuir aproximadamente según una recta a 45º. En la imagen vemos que en este ejemplo existe cierta discrepancia.

En cualquier caso siempre es adecuado efectuar una representación gráfica de tipo histograma de los datos, y comparar el valor de la media y la mediana, así como evaluar el coeficiente de asimetría y apuntamiento, además de llevar a cabo una representación en escala probabilística de la distribución de probabilidad esperada versus observada, como la de la figura.

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la

Page 21: Unidad 4 bondad y ajuste

21

media y la varianza muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación se calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:

donde D es la suma de las diferencias corregidas.

Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor crítico proporcionado por la tabla elaborada por los autores para el tamaño muestral y el nivel de significación dado.

Esta prueba evalúa la normalidad calculando la correlación entre sus datos y las

puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra

cerca de 1, es probable que la población sea normal.

La estadística de Ryan-Joiner evalúa la solidez de esta correlación; si se

encuentra por debajo del valor crítico apropiado, se rechazará la hipótesis nula H0

de normalidad en la población. Esta prueba es similar a la prueba de normalidad

de Shapiro-Wilk

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con

la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza

muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación se

calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y

el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk. El

estadístico de prueba es:

donde D es la suma de las diferencias corregidas.

Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor crítico proporcionado por la tabla elaborada por los autores para el tamaño muestral y el nivel de significación dado. La secuencia para realizar los contrastes de normalidad es:Analiza, Estadísticos Descriptivos y Explorar.

Page 22: Unidad 4 bondad y ajuste

22

Bibliografía.

Est. Básica p Admón. - Berenson, Levine.

Probabilidad y Est. p Ing. 6ª ed (Walpole - Myers).

Estadistica aplic. a los neg. y la econ. (Webster).