Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
ESTADÍSTICA II
Tema V
487
TEMA V. CONTRASTACIÓN
V.1.- Contrastes paramétricos.
V.1.1.- Introducción.
V.1.2.- Proceso de contrastación.
V.1.3.- Diseño de criterios óptimos de contrastación.
V.1.4.- Contrastes clásicos en poblaciones normales.
V.2.- Contrastes no paramétricos.
V.2.1.- Introducción.
V.2.2.- Contrastes con dos muestras.
V.2.2.1.- Contraste de correlación de rangos de
Spearman.
V.2.2.2.- Contraste de Wilcoxon-Mann-Whitney.
V.2.3.- Crítica del modelo. Contrastes asociados.
V.2.3.1.- Contrastes de ajuste.
V.2.3.1.1.- χ2 de Pearson.
V.2.3.1.2.- Contraste de Kolmogorov-Smirnov.
Contrastación
Tema V 488
V.1.- Contrastación paramétrica
V.1.1.- Introducción y definiciones.
El término contrastar es de uso frecuente en la vida
cotidiana. En este ámbito, contrastar significa comparar,
viendo si existen diferencias notables entre dos o más
elementos. En el ámbito estadístico el significado será el
mismo, pero en este caso, la contrastación se realizará
entre un supuesto que nosotros hacemos y la realidad que
nos marcan los datos obtenidos de una muestra.
Llamaremos hipótesis estadística paramétrica a cualquier
afirmación acerca del valor de un parámetro de la función
de densidad de una distribución de probabilidad. Cualquier
otra afirmación de una característica no paramétrica es
también una hipótesis estadística a la que denominaremos
hipótesis "no paramétrica". Este tema lo dividimos en
función de este criterio en dos partes: en la primera
estudiaremos los contrastes estadísticos paramétricos, y
en la segunda algunos de los contrastes no paramétricos.
Por ejemplo, aseverar que una población se distribuye
según una distribución de Poisson de media 10 implica la
afirmación de dos hipótesis, por una parte se señala que
un parámetro vale 10, lo que constituye una hipótesis
estadística paramétrica, por otra se indica una
característica no paramétrica como es que la distribución
de la variable aleatoria se comporta como una Poisson. En
el primer caso nos encontramos con un contraste
paramétrico y en el segundo con uno no paramétrico.
Contrastar una hipótesis estadística no es más que
ESTADÍSTICA II
Tema V
489
compararla con los resultados de una muestra, de tal forma
que para ello debemos diseñar un procedimiento que nos
permita decidir si se acepta o se rechaza la hipótesis
propuesta.
El problema parece centrarse en el diseño del criterio que
emplearemos para la aceptación o rechazo de la hipótesis
propuesta, a esta hipótesis propuesta le llamaremos en lo
sucesivo HIPÓTESIS NULA, y escribiremos así:
H0 : q = q0
Por ejemplo, la hipótesis propuesta en el ejemplo anterior
será:
H0 : λ = 10
Frente a cualquier afirmación H0 , propondremos una
HIPÓTESIS ALTERNATIVA: H1, esta hipótesis negará
sistemáticamente la hipótesis nula.
De esta manera, un contraste estadístico se formularía
como
H0 : λ = 10
H1 : λ < 10
o también podríamos poner la siguiente alternativa:
H1 : λ = 12
Notese que se han propuesto dos hipótesis alternativas y
ambas niegan, de alguna forma, la hipótesis nula.
Las hipótesis, ya sean nulas o alternativas, pueden
clasificarse en SIMPLES O COMPUESTAS:
HIPÓTESIS SIMPLE: Es aquella que define totalmente la
característica de la población, por lo que asigna un único
Contrastación
Tema V 490
valor al parámetro a estimar.
Por ejemplo, queremos contrastar la hipótesis nula de que
la nota media obtenida en un examen de historia es de 6,5
puntos:
H0 : m = 6,5 puntos
HIPÓTESIS COMPUESTA: Es aquella en la que la
característica de la población no define completamente el
comportamiento probabilístico de la variable en estudio.
En estos casos se asigna más de un valor al parámetro a
contrastar.
Por ejemplo, queremos contrastar la hipótesis de que el
gasto medio de las familias españolas es superior a 65.000
ptas al mes.
H0 : m > 65.000 ptas
Según esta clasificación de hipótesis, cuando realizamos
un contraste nos podremos encontrar con todas las
combinaciones posibles entre hipótesis nula y alternativa:
- que ambas sean simples
- que ambas sean compuestas
- que una sea simple y otra compuesta
La contrastación de H0 frente a una H1 decíamos que la
realizaríamos con un procedimiento mediante el cual
aceptamos o rechazamos la H0, la aceptación de una de las
hipótesis implica el rechazo automático de la otra.
Una vez determinadas las hipótesis nula y alternativa
ESTADÍSTICA II
Tema V
491
debemos buscar un criterio (test) para resolver el dilema
de que hipótesis aceptaremos y cual rechazamos.
Por ejemplo, Un criterio sencillo, pero generalmente
inservible, podría ser: "Lanzamos una moneda si sale cruz
aceptamos la H0 en caso contrario........".
Esta sencilla forma de dilucidar el problema nos conducirá
a la idea de que podemos equivocarnos, efectivamente,
supongase que H0 sea cierta y resultó que al lanzar la
moneda salió cruz, rechazamos la H0 (lo que implica
aceptación automatica de la H1) por lo que evidentemente
nos hemos equivocado, así mismo pudo ocurrir que saliera
cara y que H0 (siendo falsa) sea aceptada.
En cualquier criterio que se adopte en el procedimiento de
contrastación, no podemos afirmar categóricamente que es
cierta o no la hipótesis nula, sino que realizamos un
proceso de toma de decisiones en función de una
información (generalmente muestral), y esta decisión la
tomamos con un cierto grado de incertidumbre.
Esto nos llevará a encontrarnos con las siguientes
situaciones a la hora de realizar un contraste de
hipótesis:
- Si tomamos la decisión de aceptar H0 puede que:
- H0 sea cierta
- H0 sea falsa
- Si tomamos la decisión de rechazar H0 puede que:
- H0 sea cierta
- H0 sea falsa
es decir, se pueden producir las siguientes posibilidades:
Contrastación
Tema V 492
EN LA REALIDAD PUEDE SER
CIERTA
FALSA
ACEPTAR
CORRECTA
ERROR TIPO
II
DECISIÓN
RECHAZAR
ERROR TIPO I
CORRECTA
Se comprueba que podemos cometer dos tipos de errores:
ESTADÍSTICA II
Tema V
493
- ERROR DE TIPO I (e1): el que se comete cuando rechazamos
H0, siendo ésta cierta.
- ERROR DE TIPO II(e2): el que se comete al aceptar H0
siendo ésta falsa.
Sin embargo, el conocer los tipos de errores no es
suficiente. Está claro que en la situación ideal el
contraste debiera buscar un método que nos garantizase que
ambos errores son cero. En el contraste estadístico en vez
de trabajar con el nivel de error de tipo I o II,
trabajamos con probabilidades de cometerlos. De esta
manera podemos denotar:
a) P(rechazar H0/H0 cierta) = α siendo 0 ≤ α ≤ 1
α es la probabilidad de rechazar H0 siendo cierta, por
lo que es la probabilidad de cometer un error de tipo
I )][P( Iε .
α también recibe el nombre de NIVEL DE SIGNIFICACIÓN
y 1-α IVEL DE CONFIANZA.
b) P(aceptar H0/H0 falsa) = β 0 ≤ β ≤ 1
β es la probabilidad de aceptar H0 siendo ésta falsa,
por lo que es la probabilidad de cometer un error de
tipo II )][P( IIε
El valor (1-β) recibe el nombre de POTENCIA DEL
CONTRASTE, cuyo significado es la probabilidad de
rechazar la hipótesis nula siendo ésta falsa.
La gravedad del hecho de cometer cada uno de estos
Contrastación
Tema V 494
errores, juzgará la prudente elección del criterio de
contrastación, es lo que denominaremos tamaño del error en
términos de probabilidad. Un sencillo principio aplicable
sería: "Entre todos los criterios que tengan el mismo
error de tipo I se elegirá el que tenga menor tamaño de
tipo II".
En inferencia, y para los niveles de nuestras necesidades,
se adopta un convenio según el cual se fija el error de
tipo I. (generalmente α se cifra en un 5%, lo que
significa que un 5% de las H0 ciertas serán rechazadas) .
El elemento básico para la validación de una hipótesis es
la información muestral. Esta información muestral será
empleada para evaluar la validez de algunas conjeturas o
hipótesis que hayamos formulado sobre las características
de la población. La información muestral empleada en
contrastación se sintetizará en el ESTADÍSTICO DE CONTRAS-
TE.
Como ya hemos acordado, para corroborar o no la hipótesis
nula, vamos a utilizar la información muestral, y para
llevar a cabo la contrastación utilizaremos un estadístico
que llamaremos ESTADÍSTICO DE CONTRASTE, siendo éste una
función de la muestra aleatoria, que tomará valores
distintos dependiendo de la muestra escogida, de manera,
que este estadístico podrá tomar valores que nos sirvan de
argumento para aceptar o rechazar la hipótesis nula.
Por ejemplo, si queremos contrastar la media poblacional,
lo más racional sería utilizar como estadístico de
contraste un buen estimador de dicho parámetro. Ya sabemos
que este estimador sería la media muestral.
ESTADÍSTICA II
Tema V
495
Por lo tanto, veremos que basándonos en los valores de la
media muestral podremos tomar decisiones con respecto a la
media poblacional.
El conjunto de valores del estadístico de contraste que
nos sirve de argumento para rechazar la hipótesis nula le
llamaremos REGIÓN CRÍTICA, y a la región complementaria la
denominamos REGIÓN DE ACEPTACIÓN.
REGION CRITICA: Se define así al conjunto de valores del
estadístico de contraste que nos lleva a tomar la decisión
de rechazar la hipótesis nula (H0).
REGION DE ACEPTACION: Es la región complementaria a la
región crítica, por lo tanto, es el conjunto de valores
que puede tomar el estadístico de contraste que nos lleva
a tomar la decisión de aceptar la hipótesis nula (H0).
V.1.2.- Proceso de contrastación.
Trataremos de ordenar las ideas señaladas en el epígrafe
anterior para lo que haremos hincapié en cada una de las
fases para realizar un contraste de hipótesis.
a).- Se tendrá una afirmación que compondrá la H0
b).- Se determinará la H1 negándose la H0
A la hora de plantear la H1 partimos de la base de que no
tratamos de estimar el parámetro, tratamos de verificar si
es cierta o no la H0, por lo tanto generalmente la H1 es
de tipo compuesto utilizándose las siguientes formas:
b.1).- H1 : q = q0
Contrastación
Tema V 496
esta forma nos conducirá a contrastaciones BILATERALES
b.2).- H1 : q > q0
o también
H1 : q < q0
esta relación de orden definida sobre la hipótesis
alternativa nos conducirá a contrastaciones UNILATERALES,
resultando más potentes que las bilaterales para un mismo
nivel de significación.
En la práctica, la determinación de la H1, con esta relación
de orden descrita, se hará a partir del conocimiento de la
estimación máximo verosímil del parámetro contrastable.
Por ejemplo, se trata de determinar la H1 para la
contrastación de la media de una población Normal en la
que se afirma que dicha media vale m0. Para ello se extrae
una muestra de tamaño n siendo los resultados muestrales:
Media muestral = m > m0
Al ser el EMV de la media poblacional la media muestral y
al resultar esta mayor que la definida por la H0, nos debe
hacer sospechar que de no ser cierta la H0 es porque debe
ser mayor, entonces la elección de la H1 será:
H1 : m > m0
El desconocimiento de las realizaciones muestrales a
priori no nos permitirá establecer una relación de orden,
lo que nos obligará a utilizar una forma bilateral y la
consiguiente perdida de potencia.
ESTADÍSTICA II
Tema V
497
c).- Se elegirá el tamaño de error tipo I (αα ) deseable
d).- Determinación del estadístico de contraste
Dada la necesidad de conocer la distribución estadistica
de estos estadísticos remitimos al alumno/a al capitulo de
Distribuciones Muestrales.
La determinación del estadístico de contraste la tendremos
que limitar al pequeño grupo de estadísticos muestrales
cuya distribución se conoce, por otra parte, ya utilizamos
para inferir parámetros en la estimación.
Por ejemplo, sea una población Normal de la que se extrae
una muestra de tamaño n. Si conocieramos la varianza de
esta población y deseamos tener información de la media
poblacional se recurriría al estimador máximo verosímil,
que como ya se ha visto es la media muestral Σxi/n, cuya
distribución es.
Σxi/n. → N(m,s/%n)
Lo mismo ocurriría para la contrastación de la varianza (o
desviación), sabemos que el EMV de la varianza poblacional
es la varianza muestral Sn2, de distribución en principio
desconocida pero no la de la siguiente función.
nSn2/ s2 → χ2
n-1
Por ejemplo, considerese una N(5;3) y supóngase que se
desea contrastar la media toda vez que sospechamos que es
7
Contrastación
Tema V 498
Ho : m = 5
H1 : m = 7
establezcamos un criterio (todavía de forma intuitiva) que
sea: "extraeré una muestra de tamaño 9 de la población y
si la media muestral es menor de 6 aceptaré la Ho".
Conocemos la distribución de la media muestral:
Σxi/n → N(m;s/%n) en el presente caso N(5;1)
Para este criterio hemos localizado la región crítica en
el intervalo x>6
Región crítica
____________________________________
5 6 7
Con este críterio (insisto que es intuitivo) ¿Qué errores
estamos cometiendo?
α = P(Σxi/n>6)Ho = P(5+z>6) = P(z>1) = 0,1587
β = P(Σxi/n<6)H1 = P(7+z<6) = P(z<-1) = 0,1587
En este mismo ejemplo vamos a dimensionar la región
crítica para que el error de tipo I tenga un tamaño de
0,05
α = 0,05 = P(Σxi/n >ε)Ho = P(5+z >ε) =P( z>ε-5)
por tanto, ε-5 = 1,64 y ε = 6,64
En consecuencia, el error de tipo II será:
ESTADÍSTICA II
Tema V
499
β = P(Σxi/n <6,64)H1 = P(7+z < 6,64) = P(z <-0,36) = 0,3594
e).- Localización de la región crítica y dimensionarla en
función de α
f).- Cálculo del valor muestral ai del estadístico de
contraste.
ai = F(x1,x2,.........xn)
g).- Toma de decisión a la vista de la región que contenga
a ai
V.1.3.- Diseño de criterios óptimos de contrastación.
En la introducción de este tema enunciamos un sencillo
principio que decía: "Entre todos los criterios que tengan
el mismo error de tipo I se elegirá el que tenga menor
tamaño de tipo II". Basándonos en él demostraremos la
existencia de test óptimos generadores de la máxima
potencia, esto es con el menor β posible, para las
significaciones acordadas.
a).- CRITERIO ÓPTIMO PARA HIPÓTESIS SIMPLES
Se plantea el objetivo de obtener, localizar y dimensionar
una región crítica, a la que denominamos Región Crítica
Óptima (RCO), para la verificación de hipótesis
estadísticas simples, habiéndose acordado un tamaño de
error tipo I, mediante la optimización de la potencia
(minimización del error tipo II). El procedimiento se basa
en un cociente entre verosimilitudes y se conoce como:
Lema de Neyman-Pearson.
Contrastación
Tema V 500
Sea una población con función de densidad continua f(x;q),
de la que se extrae una muestra aleatoria simple de tamaño
n cuya realización resultó ser: x1,x2,.........xn, Se
entiende la existencia de una hipótesis nula (simple):
H0 : q = q0
frente a una alternativa simple:
H1 : q = q1
El Teorema de NEYMAN-PEARSON se expresa así:
Si existe una región crítica R de tamaño α y una constante K
tal que:
Verosimilitud(H1) / Verosimilitud(H0) ≥≥ K dentro región
crítica, y
Verosimilitud(H1) / Verosimilitud(H0) ≤≤ K fuera de la región
crítica,
Entonces R es una región crítica óptima de tamaño αα.
Es decir.
R de dentro K);xf(
);xf(
0i
n
1
1i
n
1 ≥∏
∏
θ
θ
en donde, en el numerador se encuentra la verosimilitud
que nos da la muestra bajo el cumplimiento de la hipótesis
alternativa, y en el denominador bajo la hipótesis nula.
El valor de K, que pertenece al conjunto de los números
reales positivos, es calculable para los casos de
hipótesis simples, pero como se apreciará en los
ejercicios no es necesario su calculo, simplemente se
ESTADÍSTICA II
Tema V
501
localizará la Región Crítica Óptima (RCO).
El Lema de Neyman Pearson, diseñado para contrastación de
hipótesis simples, es también aplicable en la verificación
de hipótesis nulas simples frente a hipótesis alternativas
compuestas en la que se ha definido una relación de orden.
Estas son los casos más realistas y satisfactorios en las
verificaciones paramétricas.
Ejercicio. Encontrar las regiones críticas óptimas para la
contrastación de la media en poblaciones normales, para
muestras de tamaño n.
Si aplicamos el Lema de Neyman Pearson:
que para el caso de la distribución Normal que nos ocupa
se convierte en:
R de dentro K
e )-x()
21
(
e )-x()
21
(
20in
121
-n
21in
121
-n
≥∑
∑
σµ
σπ
σµ
σπ
donde operando convenientemente resulta:
Tomamos ln, y seguimos llamando K al Ln(K)
R de dentro K);xf(
);xf(
0i
n
1
1i
n
1 ≥∏
∏
θ
θ
Ke ))-x(+)-x( 20i
n
1
21i
n
1
(2
1- 2 ≥∑∑ µµ
σ
Contrastación
Tema V 502
pasando las constantes al segundo termino y siguiendo
llamando K al resultado:
K))-x(+)-x((- 20i
n
1
21i
n
1
≥∑∑ µµ
cambiando el signo y el sentido de la desigualdad:
K))-x(+)-x(( 20i
n
1
21i
n
1
≤∑∑ µµ
operando resulta la condición:
K x )-( 2 - ) - ( n i0120
21 ≤∑µµµµ
sobre la que se harán las consideraciones para encontrar
la RCO.
Las alternativas que se nos presenta son:
- Si µo > µ1 entonces H1 : µ < µo
-2(µ1 - µo ) Σxi < K
(µ1 - µo ) Σxi > K ⇒ Σxi < K
- Si µo < µ1 entonces H1: µ > µo
-2(µ1 - µo ) Σxi < K
(µ1 - µo ) Σxi > K ⇒ Σxi > K
Una vez localizada la RCO la dimensionamos para el tamaño
α acordado, debemos conocer del estadístico a utilizar, en
este caso la distribución de: Σxi
Por ejemplo, Sea una población N(?;3), establezcamos las
hipótesis:
K))-x(+)-x((2
1- 20i
n
1
21i
n
12
≥∑∑ µµσ
ESTADÍSTICA II
Tema V
503
Ho : µ = µo
H1 : µ < µo
α =0,05
La región crítica óptima como hemos visto es: Σxi < K
La distribución de Σxi /n < K/n=Ko es conocida y la RCO se
encuentra en la cola izquierda de la normal:
b).- CONTRASTES DE SIGNIFICACION TEST DE LA RAZON DE
VEROSIMILITUDES
Se ha visto, para el caso de hipótesis simples, que el
criterio de razón de verosimilitudes constituye el
criterio óptimo de contrastación, en el que prefijado la
probabilidad de error de tipo I se obtiene la mayor
potencia de un contraste, esto es, la menor probabilidad
del error de tipo II.
Generalmente, en el intento de contrastar una hipótesis de
tipo paramétrica simple (H0), establecemos una hipótesis
alternativa de tipo compuesto, ya que verdaderamente lo
que interesa es verificar la certeza o no de la afirmación
Función de densidad Normal
Región de aceptación Región de rechazo
Contrastación
Tema V 504
H0.
Como primer paso para establecer la hipótesis alternativa
que nos proporcione una mayor potencia, estudiaremos el
ESTADISTICO DE MAXIMA VEROSIMILITUD del parámetro que
deseamos contrastar.
Ejemplo: Supóngase que se afirma que una población normal
tiene una media de tres unidades, esto es: Ho:µ=3 y
deseamos verificarlo. Más tarde o más temprano tendríamos
que extraer una muestra de tamaño n. Para el parámetro
media el estimador máximo verosímil es la media muestral,
como ya se ha visto. En el presente caso supóngase que
para una realización muestral de 20 elementos nos dió una
media muestral de 3,7.
Este valor de la media muestral, superior a la afirmación
de la hipótesis nula, nos debe hacer "sospechar" que si la
media poblacional no es 3 es porque debe ser mayor que 3,
con lo cual ya estamos en disposición de poder establecer
una hipótesis alternativa de tipo compuesto acorde con
nuestras sospechas: H1:µ>3.
Considérese entonces la siguiente razón (cociente) de
verosimilitudes, que como se ha visto en el Lema de
NEYMAN-PEARSON constituye el criterio óptimo para la
determinación de la región óptima de hipótesis
paramétricas.
en el que:
θ0 = valor del parámetro según la hipótesis nula.
λθθ =
);xL();xL(
*i
0i
ESTADÍSTICA II
Tema V
505
θ* = estadístico estimador máximo verosímil del
parámetro.
Evidentemente esta razón (cociente), al ser el denominador
un estadístico muestral, es una variable aleatoria a la
que hemos denominado λ, y que estará definida entre los
valores máximos y mínimos de la razón, esto es: 0<λ<1. Para
una realización muestral determinada valores de λ próximos
a 1 conceden una gran CREDIBILIDAD a la Ho, mientras que
valores próximos a cero seria un crédito de la
IRRACIONALIDAD de la hipótesis nula.
Con las condiciones anteriormente expuestas, y tras lograr
la distribución del estadístico λ, el dimensionamiento de
la región crítica está definido por:
λλαλ
)dg( = 0
0∫
en donde α es el nivel de significación y g(λ) es la
función de densidad de λ.
La región crítica vendría dada por
0 <λ < λ0
En general no existe una relación sencilla y la obtención
de la distribución de λ puede resultar difícil.
Ejemplo: El consumo de energía eléctrica diario, medido en
KWh, de una industria se distribuye normalmente. Se desea
conocer los parámetros de dicha distribución para lo que
se extrae una muestra aleatoria simple de las lecturas
diarias de consumo, resultando:
57.6 62.1 60.3 51.4 55.3 55.3
Contrastación
Tema V 506
63.7 58.9 55.7 54.3 59.0 55.5
57.0 56.8 60.3 52.9
Se pide:
¿Es aceptable, utilizando un criterio óptimo, que la media
vale 58,83 Kwh?
Los datos, según nuestra notación, son los siguientes:
n=16
X=57,256
Sn=3,209
Sn-1=3,315
Contrastación bilateral de la media:
H0: µ = 58,83
H1: µ Ö 58,83
α = 0,05
Estadístico de contraste,
Ec = 4(57,256 - 58,83)/3,315 = -1,89
Si se cumple la hipótesis nula, el estadístico de
contraste demostraremos que se distribuye como una
variable t-student de 15 grados de libertad, y en
consecuencia sabemos que se cumple
Función de densidad t-Student de 15 grados de libertad
ESTADÍSTICA II
Tema V
507
Conclusión: ACEPTAMOS H0
Por tanto la región de aceptación viene dado por el
intervalo (-2.131,2.131). Dado que el estadístico de
prueba cae dentro de este intervalo, se encuentra dentro
de la zona de aceptación y en consecuencia no podemos
rechazar la hipótesis nula. Es decir, no puedo rechazar
que la media sea igual a 58’83.
Obsérvese que hemos dicho no se puede rechazar, no hemos
dicho que aceptamos la hipótesis nula. La razón es simple.
Veámoslo con un ejemplo. Si mi hipótesis nula es que todos
los individuos de una clase son de pelo negro, y se extrae
un individuo de la clase y este es rubio, es evidente que
la hipótesis es falsa, ya que al menos hay uno rubio. Sin
embargo, si al extraer una muestra de tamaño 1 sale un
individuo de pelo negro, podemos decir que no existe
evidencia empírica para rechazar la hipótesis nula, pero
no podemos aceptarla. Para poder aceptarla tendríamos que
estudiar a toda la población, no podemos aceptarla con una
muestra, puesto que puede suceder que todos los de la
muestra sean de pelo negro y sin embargo en la población
existan individuos rubios.
Contrastación
Tema V 508
Volvamos a realizar la contrastación pero de forma
unilateral basandonos en que al ser la media muestral
inferior a la propuesta en H0, optamos por una hipótesis
alternativa de la siguiente forma:
H0: µ = 58,83
H1: µ < 58,83
entonces la RCO será para el mismo tamaño de α = 0,05:
con lo que obtenemos la conclusión de RECHAZAR H0, puesto
que el estadístico de prueba vale –1.86 y como se puede
observar en la gráfica los valores más pequeños que –1.753
se encuentran en la zona de rechazo de la hipótesis nula.
Por tanto, rechazamos que la media sea igual a 58’83.
V.1.4.- Contrastes paramétricos en poblaciones normales
Veremos algunas aplicaciones del contraste de hipótesis de
parámetros poblacionales correspondientes a poblaciones
Normales. Se incluyen los contrastes bilaterales y
unilaterales para los estadísticos de contraste basados en
los estimadores máximo verosímiles obtenidos en el
capítulo anterior y cuya distribución, en consecuencia, ya
hemos obtenido.
Función de densidad t-Student de 15 grados de libertad
t=-1.753 P(t<-1.753)=0.05
Región de aceptación R. rechazo
ESTADÍSTICA II
Tema V
509
V.1.4.1.- Contraste para de la media µ conocida la varianza σ2
Supongamos que tenemos una muestra aleatoria de tamaño n,
que proviene de una población Normal de la que conocemos
su varianza, N(µ,σ2). La muestra observada tiene una media
muestral _
x .
Nos interesa, bajo estas condiciones, contrastar las
siguientes hipótesis:
µµ
µµ
01
00
> :H
= :H
Como ya hemos visto, lo más adecuado es basar el contraste
de la media poblacional en la información que nos
suministra la media muestral, por lo tanto, el estadístico
de contraste estará basado en dicha media muestral, que se
distribuye como una N (n
,σµ ). Pero, si además tipificamos
esta variable aleatoria obtenemos la expresión del
estadístico muestral
n
-x=Z 0
σµ
, que no es más que una
variable aleatoria normal tipificada Z = N(0,1).
Según la distribución que sigue el estadístico de
contraste se definen la región crítica y de aceptación:
Región crítica: Si αα =)Z>P(Z la región crítica la
componen todos aquellos valores de Z que sean iguales
o mayores a Zα .
Contrastación
Tema V 510
Región de aceptación: Si αα -1=)Z<P(Z la región de
aceptación la componen todos aquellos valores de Z
que sean menores a Zα .
En función de que el estadístico de contraste que
calculemos con la información muestral se encuentre en la
región de aceptación o de crítica, aceptaremos o
rechazaremos la hipótesis nula.
Veamos un ejemplo. Si el proceso de fabricación de
cojinetes está funcionando correctamente, se obtienen
piezas de 5 onzas de peso medio, y desviación típica de
0.1 onzas. Como la máquina que los produce ha sufrido una
serie de ajustes en su funcionamiento, se sospecha que
hayan aparecido algunos cambios en el proceso de
fabricación.
Para comprobar esto, se tomó una muestra de 16 cojinetes y
se obtuvo una media de 5.038 onzas de peso. Se quiere
contrastar a un nivel de significación del 5% si la
hipótesis nula de que la media de peso de los cojinetes
sigue siendo 5 onzas, contra la alternativa que indica un
peso superior después del ajuste realizado.
Si planteamos las hipótesis del contraste tendríamos:
5> > :H
5== :H
01
00
µµµ
µµ
contraste unilateral, con un 0.05=α
El estadístico de contraste en este caso será:
ESTADÍSTICA II
Tema V
511
1.52=
160.1
5-5.038=
n
-x=Z 0
σµ
El criterio de aceptación de la hipótesis nula sería por
tanto:
H0 es cierta si Z (estadístico de
contraste) < Zα , o la que es lo mismo si
se cumple que 1.52 < 1.645
Dado que se cumple esta condición, no se puede rechazar la
hipótesis nula, por lo que a pesar de haber sufrido
modificaciones en el ajuste del proceso de producción,
según la información muestral, y con un nivel de
significación del 5%, se siguen fabricando cojinetes de 5
onzas como peso medio.
Intentaremos ahora hacer otro tipo de contrastación, bajo
las mismas condiciones poblacionales, pero modificando las
hipótesis planteadas:
Supongamos que el fabricante de microcomponentes
electrónicos que suministra a la empresa "ELECTRON S.A."
garantiza al gerente de dicha empresa que la duración
media de estos componentes es de 500 horas de
funcionamiento, con una desviación típica de 80 horas
(sabiendo que dicha variable aleatoria se distribuye como
una Normal).
Para poder comprobar este nivel de calidad, la empresa
compradora realiza cada cierto tiempo un muestreo
aleatorio simple sobre los pedidos que llegan de esos
componentes, y en el último, sobre una muestra de 45
componentes se obtuvo como resultado una media de 503
horas de duración. ¿Se podría decir, a la vista de estos
Contrastación
Tema V 512
datos, que la calidad de los microcomponentes sigue siendo
la que afirma el fabricante?
Para poder contestar a esta pregunta necesitaremos
realizar un contraste de hipótesis, ya que el fabricante
realiza una afirmación sobre una característica de la
población (media poblacional), y el gerente de la empresa
"Electron S.A." quiere saber si con la información
muestral de la que dispone puede aceptar dicha afirmación.
Pero para realizar este contraste necesitamos determinar
bajo qué condiciones nos encontramos:
Variable aleatoria en estudio: duración en horas de los
microcomponentes.
Distribución: Normal ( 500=µ , 80=σ )
Muestra en estudio
Muestra de tamaño: 45
Distribución muestral de la media:
Normal ( 503=x ,45
80=n
σ)
Esto es, una población normal con varianza conocida, de la
que tenemos datos muestrales y queremos contrastar la
validez de su media.
Para ello formularemos las hipótesis:
500 :H
500== :H
01
00
≠≠ µµ
µµ
contraste bilateral y fijamos el nivel de significación
0.05=α
El siguiente paso sería preguntarnos qué estadístico de
ESTADÍSTICA II
Tema V
513
contraste utilizaremos, y por la que sabemos de temas
anteriores, el estimador máximo verosímil de la media
poblacional es la media muestral, y ya hemos visto como se
distribuye esta variable aleatoria media muestral, Normal
( 503=x ,45
80=n
σ), de manera que el estadístico de contraste
que utilizaremos será
n
-x=Z 0
σµ
, que no es más que la
variable media muestral tipificada.
Al trabajar con valores de la distribución Normal
tipificada como estadístico de contraste, utilizaremos
esta misma distribución para determinar las regiones de
aceptación y rechazo de este contraste.
Esto nos permite poder tomar una decisión, con un
determinado nivel de significación α. Al ser el
estadístico de contraste Z = 0.2515, y los valores
críticos que delimitan las regiones de rechazo y la de
aceptación por los valores (-1.96,1.96), vemos que el
estadístico de contraste se encuentra dentro de la región
de aceptación, por lo que podemos ACEPTAR la hipótesis
nula, rechazando así la alternativa.
Por lo que podemos decir que la calidad de los
microcomponentes es realmente la que afirma el fabricante,
con un nivel de significación del 5%.
V.1.4.2.- Contrastes de la media µ con varianza desconocida. Muestras
pequeñas (n<30)
Plantearemos el siguiente ejemplo. En el proceso de
llenado de cajas de cereales se sabe que el peso en gramos
Contrastación
Tema V 514
que contiene cada caja es una variable que se distribuye
según una normal, de la cual desconocemos sus
características. Para poder hacer una verificación del
proceso se tomó una muestra de 16 elementos y se obtuvo un
peso medio de 498.9 gramos y una desviación de 6.2.
¿ Podríamos afirmar que el proceso de llenado fabrica
paquetes de cereales de 500 gramos como mínimo?
La hipótesis a plantear serían las siguientes:
500<:H
500:H
1
0
µ
µ ≥
contraste unilateral con α =0,05
Notese que la hipótesis alternativa viene condicionada a
ser unilateral por la forma de la hipótesis nula. El
estadístico de contraste a utilizar sería una t student ya
que estamos ante una población de la que desconocemos la
varianza y además la muestra es de pequeño tamaño. El
estadístico de prueba es
-0.69=15/6.2500-498.9=
1-n/S
-x=t
x
01-n
µ
En función del estadístico de contraste definiremos las
regiones de aceptación y crítica:
Función de densidad t-Student de 15 grados de libertad
Región de aceptación de H0 Región de rechazo
ESTADÍSTICA II
Tema V
515
Vemos que el estadístico de contraste se encuentra dentro
de la región de aceptación, por tanto, aceptaremos (no
podemos rechazar) la Hipótesis Nula que afirma que en el
proceso de llenado se obtienen cajas de 500 gramos de peso
como mínimo, con un nivel de significación del 5%.
V.1.4.3.- Contrastes de la media µ con varianza desconocida. Muestras grandes
(n>30)
Supongamos que el estudio de una muestra de los salarios
de cuarenta oficiales de taller en una determinada empresa
arrojó los siguientes resultados:
media= 2556 ptas/hora desviación: 589 ptas/hora
Sabiendo que esta variable aleatoria sigue una
distribución Normal, el sindicato de esta empresa quiere
comprobar si se está en concordancia con la media de
salarios del sector, para esta categoría profesional, que
es de 3000 ptas /hora.
Para ello realizaremos un contraste bajo las siguientes
hipótesis:
Contrastación
Tema V 516
3000:H
3000=:H
1
0
≠µ
µ
contraste bilateral con 0.05=α , donde el estadístico de
contraste a utilizar sería una variable Z que se
distribuye como una Normal(0,1), ya que aunque estamos
ante una población de la que desconocemos la varianza, la
muestra es de tamaño grande (n>30).
El estadístico de contraste toma el siguiente valor
-4.77=40/589
3000-2556=n/S
-x=Z
x
0µ
En función de cómo se distribuye el estadístico de
contraste bajo el cumplimiento de la hipótesis nula,
definimos las regiones de aceptación y rechazo de dicha
hipótesis:
Vemos que el valor del estadístico de contraste se
encuentra dentro de la región de rechazo (toma el valor –
4.77, por tanto, rechazaremos la Hipótesis Nula que afirma
Función de densidad Normal (0,1)
-1.96 1.96
Región de Aceptación
Región de Rechazo
Región de Rechazo
ESTADÍSTICA II
Tema V
517
que en esta empresa los oficiales de taller tienen como
salario medio el mismo que el sector, con un nivel de
significación del 5%, lo que implica que aceptamos la
hipótesis alternativa, por lo que los salarios no están en
concordancia con los del sector.
Contrastación
Tema V 518
Podríamos realizar un contraste más potente e incluso que
contenga más cantidad de información si para este mismo
ejercicio se plantease la hipótesis para un contraste
unilateral.
En efecto, el EMV de µ sabemos que es _
x , observando en
esta muestra que _
x = 2556 nos hace sospechar no solo que
es diferente sino incluso menor que la media propuesta
µ=3000.
Si realizamos el contraste bajo las siguientes hipótesis:
3000<:H
3000=:H
1
0
µ
µ
y realizamos, por tanto, un contraste unilateral con
0.05=α , siendo el estadístico de contrate y las
realizaciones muestrales las mismas del ejercicio
anterior. La nueva región crítica (que resulta ser óptima
por la aplicación del Lema de Neyman-Pearson) será:
El estadístico de contraste bajo la hipótesis nula, que
vale Z=-4,77, se encuentra en la región crítica, al
rechazar la H0 aceptamos que los salarios no solo no están
Función de densidad Normal (0,1)
-1.645
Región de Aceptación Región de Rechazo
ESTADÍSTICA II
Tema V
519
en concordancia con la media del sector sino que son
menores, la potencia de esta afirmación es mayor que en el
caso anterior.
V.1.4.4.- Contraste de la varianza σ2 de una población normal
Seguiremos con más ejemplos. En un proceso de llenado, se
admite una tolerancia en el peso. Para reunir este
requisito, la desviación standard en el peso debe ser de
dos gramos.
Los pesos de 25 recipientes seleccionados al azar dieron
como resultado una desviación standard de 2.8 gramos. Si
suponemos que los pesos se distribuyen normalmente,
¿podríamos decir que el proceso de llenado sigue un ritmo
adecuado con respecto al peso?.
Para saberlo realizaremos un contraste bajo las siguientes
hipótesis:
2:H
2==:H
220
21
220
20
≠≠σσ
σσ
contraste bilateral con 0.05=α
Notese como la hipótesis alternativa se toma de tipo
bilateral pues es tan malo llenar poco los recipientes
como llenarlos mucho ya que desbordarían.
Tal y como se hizo en el caso de la estimación por
intervalos, el estadístico del cual conocemos la
distribución es el siguiente
σχ
2
2x2
1-nSn
=*
Sabemos que este estadístico se distribuye como una chi-
Contrastación
Tema V 520
cuadrado de n-1 grados de libertad, en donde n es el
tamaño muestral.
En consecuencia, si la hipótesis nula es cierta el
estadístico
σχ
2
2x2
1-nSn=0
*
se distribuye como una chi-cuadrado de n-1 grados de
libertad. Obsérvese que en esta última expresión, en el
denominador tenemos el valor de la varianza bajo la
hipótesis nula. Lo que tenemos que ver es si la evidencia
empírica apoya la hipótesis nula o no. De esta manera lo
primero que calculamos es el valor del estadístico de
contraste bajo el cumplimiento de la hipótesis nula y la
información muestral.
Estadístico de contraste: 49=2
82.25=Sn=2
2
20
2x2
1-n
**
σχ
En función del estadístico de contraste definiremos las
regiones de aceptación y crítica:
Criterio de Rechazo de H0: χχ α2
/2,1-n2
1-n < ó χχ α2
/2,1-n2
1-n > −1,
siendo /2=)<P( 2/2,1-n
21-n αχχ α y /2=)>P( 2
/2,1-n2
1-n αχχ α−1,
es decir,
Distribución chi-cuadrado
Región de Aceptación
I II
Región de Rechazo, zonas I y II
χ2α/2 χ2
1-α/2
ESTADÍSTICA II
Tema V
521
Contrastación
Tema V 522
Para el caso de que n sea igual a 25, tenemos que trabajar
con la chi-cuadrado de 24 grados d libertad, siendo
4011.12025.0, =χ21-n , y 3641.39975.0, =χ2
1-n . Vemos que el estadístico de
contraste se encuentra dentro de la región de rechazo II,
por tanto, rechazaremos la Hipótesis Nula que afirma que
en el proceso de llenado la desviación típica es de 2
gramos, ya que con los datos muestrales obtenidos no se
puede aceptar, con un nivel de significación del 5%, lo
que implica que aceptamos la hipótesis alternativa.
V.1.4.5.- Contraste para la diferencia de medias de dos poblaciones normales
varianzas conocidas.
Un inversionista desea comparar los riesgos asociados a
dos diferentes mercados, A y B. El riesgo de un mercado se
mide por la variación en los cambios diarios de precios, y
se sabe que se comporta, en ambos casos, como una variable
aleatoria Normal independiente con las siguientes
desviaciones típicas: para el mercado A es de 0.5 y para
el B 0.7.
El inversionista piensa que el riesgo en el mercado B es
igual al del mercado A, aunque hay otros inversionistas
que piensan que el del mercado B es mayor. Para poder
contrastarlo, se toman muestras aleatorias de 21 cambios
de precios diarios para el mercado A y 16 para el mercado
B, obteniéndose una media para el mercado A de 0.8 y para
el mercado B de 1.1 ¿ Podríamos encontrar evidencia
empírica para la creencia del inversionista?.
Ordenando la información de la que disponemos,
mercado A mercado B
desviación población 0.5 0.7
ESTADÍSTICA II
Tema V
523
media muestral 0.8 1.1
tamaño muestral 21 16
Con esto plantearemos las hipótesis:
0<-:H
0=-:H
BA1
BA0
µµ
µµ
contraste unilateral con un 0.05=α , donde el estadístico de
contraste a utilizar sería una Z Normal(0,1), cuya
expresión genérica es
n/+n/
)-(-)x-x(=Z
B2BA
2A
BABA
σσ
µµ
Para el caso que nos ocupa, el estadístico de prueba toma
el siguiente valor
-1.43=/1670.+/2150.
0-1.1)-(0.8=n/+n/
)-(-)x-x(=Z
22B
2BA
2A
BABA
σσµµ
En función del estadístico de contraste definiremos las
regiones de aceptación y rechazo
Función de densidad Normal
Región de aceptación Región de rechazo
-1.645
Contrastación
Tema V 524
Vemos que el estadístico de contraste se encuentra dentro
de la región de aceptación, por tanto, aceptaremos la
Hipótesis Nula que afirma que ambos mercados tienen el
mismo riesgo medio, con un nivel de significación del 5%.
ESTADÍSTICA II
Tema V
525
V.1.4.6.- Contraste para la diferencia de medias de dos poblaciones normales varianzas
desconocidas (muestras grandes).
De las facturas pendientes de cobro de este mes se han tomado
120 al azar, con un importe medio de 112517.8 ptas y una
desviación de 27304.1, y de las facturas que hay que pagar se
eligieron 110 al azar con una media de 107862.6 ptas y una
desviación de 32417.6.
Teniendo en cuenta que se tomaron muestras independientes,
contrastaremos la hipótesis de que las medias de importe de
ambos tipos de facturas son iguales.
Enunciaremos las hipótesis: llamaremos 1 a las facturas
pendientes de cobro y 2 a las que hay que pagar, y µ1 de las
facturas pendientes de cobro y µ2 de las facturas a pagar. En
contraste lo planteamos como
0- :H
0=- :H
211
210
≠µµ
µµ
contraste bilateral con un nivel de significación de 0.05
Calcularemos el estadístico de contraste correspondiente a la
diferencia de medias de dos poblaciones normales de varianza
desconocida, pero de muestras grandes:
Contrastación
Tema V 526
1.1384=/100632417.+/120127304.
107862.6)-(112517.8=
=n/2S+n/1S
)-(-)x-x(=Z
22
22
x12
x
2121 µµ
siendo el criterio de Rechazo de H0 similar al de cualquier
contraste basado en una estadístico de prueba que se
distribuye como una normal. Por tanto, al estar el estadístico
de contraste en la región de aceptación se acepta la hipótesis
nula de igualdad de medias para ambos tipos de facturas, con
un nivel de significación del 5%.
V.1.4.7.- Contraste para la diferencia de medias de dos poblaciones normales varianzas
desconocidas (pero supuestamente iguales).
Utilicemos el caso anteriormente expuesto, pero imaginemos que
no tenemos información acerca de las varianzas poblacionales,
sino que lo único que sabemos es que son iguales, y conocemos
las varianzas muestrales. ¿ Qué podríamos decir acerca de la
opinión del inversionista?.
Ordenando de nuevo la información de la que disponemos,
mercado A mercado B
media muestral 0.8 1.1
varianza muestral 0.4 0.5
tamaño muestral 21 16
Con esto plantearemos las hipótesis:
ESTADÍSTICA II
Tema V
527
0<-:H
0=-:H
BA1
BA0
µµ
µµ
contraste unilateral con un a =0,05,donde el estadístico de
contraste a utilizar sería una t-student, cuya expresión
genérica es
=
2-n+nn
1+
n
1
_n_2S+n_1S
)-(-)x-x(=t
21
212
2x1
2x
21212-n+n 21
µµ
Y, para el caso que nos ocupa, el estadístico de prueba toma
el valor
-2=
2-16+211/16+1/21
x_1650.+_2140.
0-1.1)-(0.8=
=
2-n+nn
1+
n
1
_n_2S+n_1S
)-(-)x-x(=t
22
21
212
2x1
2x
21212-n+n 21
µµ
En función del estadístico de contraste definiremos las
regiones de aceptación y crítica para -1.64=t- ,2-n+n 21 α
Vemos que el estadístico de contraste se encuentra dentro de
la región de rechazo, por tanto, rechazaremos la Hipótesis
Nula que afirma que ambos mercados tienen el mismo riesgo
medio, con un nivel de significación del 5%, y aceptaremos la
alternativa, en la que el mercado A aparece con menor riesgo
que el mercado B.
Contrastación
Tema V 528
V.1.4.8.- Contraste para la igualdad de varianzas de dos poblaciones normales.
Un inversor desea comparar la dispersión que presentan las
cotizaciones de dos títulos bursátiles y para ello ha elegido
13 días de cotizaciones para el primero de ellos, calculando
una desviación estandar de 21.51 y 6 días de cotización para
el segundo con una desviación de 17.09.
Partiendo de la base que las cotizaciones siguen una Ley
Normal, se quiere contrastar que las varianzas de ambas
cotizaciones son iguales.
Para ello llevaremos a cabo un contraste que se plantea bajo
las siguientes hipótesis:
σσ
σσ
22
211
22
210
:H
= :H
≠
contraste bilateral con a = 0,05
Calcularemos entonces el estadístico de contraste:
1.584=0917.5121.=F=2
S1S=F 2
2
13,62
x
2
x-1n-1,n 21
Como el criterio de rechazo H0 es:
F < F /2-2,n-1,n-2n-1,n 2121 α ó F > F /2-2,n-1,n-2n-1,n 2121 α (0.32 , 4.68)
Podemos concluir que al estar el estadístico de contraste en
la región de aceptación, aceptaremos la hipótesis nula de
ESTADÍSTICA II
Tema V
529
igualdad de varianzas en ambas cotizaciones.
V.1.4.9.- Contraste de proporciones.
Hemos visto al estudiar la estimación por intervalos de la
proporción que esta, cuando el tamaño muestral es grande se
comporta como una normal de media la proporción poblacional y
de varianza (p+q)/n, en consecuencia es inmediato demostrar
que
nqppp
Z*
^
−=
se distribuye como una Normal de media cero y varianza 1.
Basándonos en este resultado podemos plantear un contraste de
la forma:
H0: p=p0
H1: p≠p0
Fijamos un nivel de signifiación y, si la hipótesis nula se
cumple el estadístico
nqp
ppZ
^^
0
^
*
−=
se debe comportar como una normal de media cero y varianza 1.
Con este resultado, determinar las zonas de aceptación y
rechazo no presenta ningún problema puesto que se determinan
de la misma forma que para el caso en el cual el estadístico d
contraste se distribuya como una Normal(0,1) bajo el
cumplimiento de la hipótesis nula.
Contrastación
Tema V 530
V.2.- Contrastes no paramétricos
V.2.1.- Introducción
En ocasiones, el supuesto que hemos utilizado en el tema de
contrastes de hipótesis paramétricos sobre el conocimiento de
la distribución que sigue la variable objeto de estudio no se
cumple. Es decir, que no sabemos como se distribuye la
población estudiada. Si esto es así, los contrastes estudiados
hasta ahora puede que no los podamos aplicar o no son los que
nos permiten decidir sobre la hipótesis que nosotros
realmente tenemos. Por ejemplo, nuestro interés puede ser
saber si los datos se ajustan o no a una determinada
distribución, es decir, si nosotros tenemos una muestra de una
variable X podemos estar interesados en saber si los datos de
la muestra ofrecen evidencia empírica o no sobre que la
población de la que se han extraídos es normal. O puede
interesarnos si disponemos de dos muestras, saber si pueden
proceder ambas de la misma distribución, al margen del cual
sea esta. Por ejemplo si dos profesores evalúan a una clase,
podemos estar interesados en saber el nivel de coherencia
entre las dos calificaciones.
Obsérvese que en ningún caso hemos hablado al plantear este
tipo de contrates de valores de los parámetros de las
distribuciones asociadas a nuestra variable en estudio. Es por
esto que a este tipo de contrates se le denominan contrastes
no paramétricos para distinguirlos de los estudiados hasta
ahora que habíamos denominado contrastes paramétricos.
En el presente capítulo nos referiremos solo a cuatro
contrastes no paramétricos, aunque el número de contrastes de
ESTADÍSTICA II
Tema V
531
este tipo es mucha más amplio. En primer lugar abordaremos dos
contrastes para comparar la relación existente entre dos
muestras. El primero de estos contrastes, el contraste de
rangos de Spearman, se realiza para el caso de disponer de
muestras pareadas, es decir, existen dos valores para el mismo
individuo, y el segundo, el de Wilconxon-Mann-Whitney, se
aplica a muestras no pareadas.
En segundo lugar, abordamos el estudio de dos contrates que
tienen como objetivo analizar el nivel de ajuste de los datos
muestrales a una determinada distribución. Por ejemplo, si
nosotros estamos midiendo el volumen de ingresos de las
empresas y no sabemos como se comporta esta variable, pero
creemos que se distribuye como una distribución normal, tanto
el contraste de la chi-cuadrado como el de Kolmogorov-Smirnov,
podrían permitirnos decidir sobre el ajuste de los datos
muestrales a la distribución supuesta.
V.2.2.- Contrastes para el caso de dos muestras.
V.2.2.1.- Contrastes de correlación de rangos de Spearman.
Este contraste se aplica sobre pares de valores los cuales
representan una distinta clasificación sobre la misma
población. Como ejemplo, podemos considerar que dos profesores
distintos evalúan a la misma clase sobre la misma materia. Al
final cada alumno estará representado por dos notas. Este
contraste permitirá decidir si ambos profesores coinciden en
sus calificaciones. Para aplicar este contraste es necesario
que ambos puntúen en la misma escala.
Contrastación
Tema V 532
Supongamos que tenemos una muestra de pares de valores (x,y)
en donde x e y toman los mismos valores (están en la misma
escala) aunque no obligatoriamente en el mismo orden. Es
decir, los dos profesores evalúan entre 1 y 10, por tanto, si
x es la nota del profesor 1 e y la nota del profesor 2, tanto
x como y toman valores entre 1 y 10, pero evidentemente no en
el mismo orden. Si para todos los pares (x,y) x fuese igual a
y ello supondría una total coincidencia entre las
calificadciones de los dos profesores.
El contraste lo que pretende es determinar la coincidencia o
no que existe entre las dos calificaciones mediante el uso de
la correlación de rangos de Spearman definido como:
en donde rs es el coeficiente de correlación de rangos de
Spearman, n es el tamaño muestral y d es la diferencia que hay
entre x e y en cada par posible de valores.
Si la correlación entre los valores de x y de y es perfecta
positiva, entonces el coeficiente de correlación de rangos de
Spearman será igual a uno, puesto que di será siempre igual a
cero. Por el contrario, se puede demostrar que si la
correlación es perfecta pero negativa, es decir cuando un
profesor da una nota más alta el otro pone una nota más baja,
el coeficiente de correlación de rangos de Spearman será igual
a -1. Para el caso de que la relación no existe, el
coeficiente de correlación de rangos de Spearman tomará el
1)-n(n
d6-1=r
2i
n
1=is 2
∑
ESTADÍSTICA II
Tema V
533
valor cero.
Si denotamos por rs al coeficiente de correlación de rangos de
Spearman poblacional, el contraste lo definiremos de la
siguiente manera:
Ho: rs = 0
H1: rs distinto de cero
α nivel de significación
Estadístico de prueba: rs
Si se cumple la hipótesis nula y el tamaño de la muestra es
superior o igual a 10, el estadístico de prueba se distribuye
como una normal de media cero y varianza 1/(n-1).
Obsérvese que aunque hemos definido el contraste bilateral no
habría ningún problema en definir uno unilateral. Es decir,
podemos estar interesados en contrastar que la correlación es
cero frente a que es positiva o negativa por separado.
Recordemos que el contraste unilateral será más potente que el
bilateral.
Ejemplo: Dos controladores de calidad califican la calidad de
12 piezas obteniendo los siguientes resultados:
Piezas
Control 1
Control 2
|d|
d2
1
5
4
1
1
2
8
6
2
4
3
3
1
2
4
4
10
8
2
4
Contrastación
Tema V 534
5
7
9
2
4
6
1
2
1
1
7
9
5
4
16
8
2
7
5
25
9
11
10
1
1
10
4
3
1
1
11
6
11.5
5.5
30.25
12
12
11.5
0.5
0.25
A un nivel de significación del 5% contrastar si los dos
controladores tienen a coincidir en la valoración de la
calidad del producto.
En la tabla anterior ya se han calculado las distancias al
cuadrado, en consecuencia el estadístico de prueba tomará el
valor
En consecuencia, el contraste lo plantearíamos como
Ho: rs ≠ 0
H1: rs > cero
α nivel de significación
Estadístico de prueba: rs
0.68=1)-1212(
91.5*6-1=r 2s
ESTADÍSTICA II
Tema V
535
Si se cumple la hipótesis nula
1-n1
0-r=z s
se distribuye como una N(0,1). Para la muestra z toma el valor
2.25, siendo el punto crítico para un nivel de significación
del 5% (en una cola) de 1.64. Por tanto, se rechaza la
hipótesis nula, es decir, se acepta la alternativa y por tanto
se acepta que existe concordancia entre lo que los
controladores dicen.
V.2.2.2.- Contraste de Wilcoxon-Mann-Whitney.
F. Wilconxon en 1945 propuso un test de suma de rangos, basado
en dos muestras aleatorias independientes entre sí, con el fin
de contrastar la hipótesis de que las dos poblaciones
contínuas tienen la misma distribución, es decir:
Ho: F(z) = G(z) Ho: F(z) ≤ G(z) Ho: F(z) ≥ G(z)
∀ z ∈ R
H1: F(z) ≠ G(z) H1: F(z) > G(z) H1:F(z) < G(z)
Dos años más tarde , en 1947, los estadísticos Mann y Whitney
propusieron otro contraste basado también en la suma de rangos
de las dos muestras, probando que su test era equivalente al
de la suma de rangos de Wilconxon. Razón por la cual en la
literatura estadística se le conoce con el nombre de test de
Wilconxon-Mann-Whitney.
Contrastación
Tema V 536
En este contraste, suponemos que las dos muestras proceden de
dos poblaciones X e Y con funciones de distribución continuas
F(x) y G(y), respectivamente, que son del mismo tipo y por
tanto solo difieren en ubicación. Por este motivo los
contrastes se pueden plantear en función de las medias o de
las medianas.
El procedimiento se inicia combinando las dos muestras y
ordenándolas conjuntamente en orden de su magnitud, obteniendo
una ordenación de n1+ n2 números, a los que se les asigna su
rango es decir un valor de 1, 2 , ....., n1+ n2 para cada
observación. En caso de empates (observaciones idénticas) se
les asigna como rango el promedio de los rangos que les
corresponderían si todas ellas fueran diferentes.
Los estadísticos U de Mann-Whitney están relacionados con los
estadísticos de suma de rangos de Wilconxon mediante la
siguiente expresión:
2122
21
2111
21
02
)1(
02
)1(
nnUWnn
nnU
nnUWnn
nnU
yyy
xxx
≤≤⇒−++=
≤≤⇒−++=
siendo:
Wx = suma de los rangos correspondientes a la muestra de X
(muestra más pequeña), y
Wy = suma de los rangos correspondientes a la muestra de Y
(muestra más grande).
También se verifica que Ux+ Uy= n1 * n2
ESTADÍSTICA II
Tema V
537
Para obtener los valores críticos es necesario conocer la
distribución del estadístico U de Mann-Whitney bajo la
hipótesis nula Ho cierta, pero esto no lo veremos aquí y
únicamente nos limitaremos a la utilización de tablas
estadísticas en donde se da tabulada la función del
estadístico U, donde U = Ux o bien U = Uy .
Teniendo en cuenta que Ux y Uy proporcionan información
complementaria, cualquiera de los dos serviría como
estadístico de prueba. Sin pérdida de generalidad tomaremos Ux
Los tres contrastes que pueden realizarse se resumen en la
siguiente tabla:
Ho H1 Región crítrica utilizando Ux como estadístico de prueba
F(z) ≤ G(z) (µx ≥ µx)
F(z) > G(z) (µx < µx)
α 0 uα n1 n2
F(z) ≥ G(z) (µx ≤ µx)
F(z) < G(z) (µx > µx)
α 0 u′α n1 n2
F(z) = G(z) (µx = µx)
F(z) ≠ G(z) (µx ≠ µx)
α/2 α/2 0 u′α/2 uα/2 n1 n2
En la tabla de Wilconxon-Mann-Whitney, se da la función de
distribución del estadístico U, (que puede ser tanto Ux como
Uy ), obteniéndose la probabilidad de que un valor de la
variable U sea menor que algún valor especificado Uo, es
Contrastación
Tema V 538
decir:
α=≤ )( 0UUP
para n1≤ n2 y n2 = 3, 4, .., 10 y esa probabilidad obtenida es
el valor del nivel de significación, α, para los test de una
cola.
Puede demostrarse que la distribución de probabilidad de Ux es
simétrica respecto a su media [(n1 n2)/2] bajo la hipótesis
nula. Esto, junto con el hecho de que 0 ≤ Ux ≤ n1 n2 nos
permite dar una relación entre los valores críticos uα y u′α
uα = n1 n2 - u′α
que es útil para la búsqueda de regiones críticas mediante la
tabla disponible, en los contrastes unilaterales por la
derecha y en los bilaterales.
APROXIMACIÓN PARA MUESTRAS DE TAMAÑOS SUPERIORES A 10
Para muestras grandes n1 > 10 y n2 > 10, y bajo la hipótesis
nula Ho, se demuestra que el estadístico U de Mann-Whitney, en
donde U = Ux o bien U = Uy, tiene como media y varianza:
121) n (nn n
)(
2n n
)(
2121
21
++=
=
UVar
UE
Y se distribuye asintóticamente según una normal:∼
ESTADÍSTICA II
Tema V
539
++∼12
1) n (nn n,
2n n 212121NU
y en consecuencia el estadístico
)1,0(
12)1n (n n n
2n n
)(
)(
2121
21
NU
UVar
UEUZ →
++
−=−=
para muestras superiores a 10. El valor de U será el de Ux.
Ejemplo:
El contenido en azúcar, medido en gramos, de dos muestras
independientes de naranjas seleccionadas aleatoriamente, en
dos cooperativas citrícolas, viene dado en la tabla adjunta:
Muestra
X
2.1 6.3 4.2 5.5 4.8 3.7 6 3.3
Muestra
Y
4.3 0.9 3.1 2.5 4.2 6.2 1.6 2.2 1.9 5.5
Contrastar, al nivel de significación del 0.05, las siguientes
hipótesis sobre las variedades de procedencia de las dos
muestras de naranjas:
la primera muestra procede de una variedad con más gramos de
azúcar, por término medio, que la segunda
la primera muestra procede de una variedad con menos gramos de
azúcar, por término medio, que la segunda
las dos muestras proceden de variedades con diferentes
Contrastación
Tema V 540
contenidos en azúcar
Solución:
a) el contraste a realizar en este caso es:
Ho: F(z) ≥ G(z) ⇒ Ho: µx ≤ µy
H1: F(z) < G(z) ⇒ H1: µx > µy
b) el contraste a realizar en este caso es:
Ho: F(z) ≤ G(z) ⇒ Ho: µx ≥ µy
H1: F(z) > G(z) ⇒ H1: µx < µy
c) el contraste a realizar en este caso es:
Ho: F(z) = G(z) ⇒ Ho: µx = µy
H1: F(z) ≠ G(z) ⇒ H1: µx ≠ µy
Para resolver estos tres contrastes utilizando el test de
Wilconxon-Mann-Whitney, empezaremos combinando ambas muestras,
ordenándolas conjuntamente en orden de su magnitud y
asignándoles su correspondiente rango.
Y Y Y X Y Y Y X X X Y Y X Y Observaciones
Muestrales 0.9 1.6 1.9 2.1 2.2 2.5 3.1 3.3 3.7 4.2 4.2 4.3 4.8 5.5
Rangos 1 2 3 4 5 6 7 8 9 10.
5
10.
5
12 13 14.
5
n1= 8, n2= 10 y α = 0.05
ESTADÍSTICA II
Tema V
541
Calculamos las sumas de rangos correspondientes a ambas
muestras:
Wx = 4 + 8 + 9 + 10.5 + 13 + 14.5 + 16 + 18 = 93
Wy = 1 + 2 + 3 + 5 +6 + 7 + 10.5 + 12 + 14.5 + 17 = 78
Los valores de los estadísticos U de Mann-Whitney para las
muestras seleccionadas se obtienen utilizando las expresiones:
57782
1110108
2)1(
23932
98108
2)1(
2221
1121
=−∗+∗=⇒−++=
=−∗+∗=⇒−++=
yyy
xxx
UWnn
nnU
UWnn
nnU
Utilizando la tabla, para n1= 8 y n2= 10, se tiene que el
valor crítico es u′α = 20 (el 0.05 está entre el 20 y el 21).
a) Como este es un contraste unilateral por la izquierda, se
acepta la hipótesis nula, porque el estadístico de contraste
toma un valor superior que el valor crítico (23 > 20) y por lo
tanto se rechaza la alternativa, es decir, no es cierto que la
primera muestra procede de una variedad con más gramos de
azúcar, por término medio, que la segunda.
b) Este es un contraste unilateral por la derecha. En este
caso tenemos que utilizar la fórmula: uα = n1 n2 - u′α . uα
= 8*10 – 20 = 60. Al ser el estadístico de contraste 23, es
menor que el valor crítico 60, por lo que se acepta la
hipótesis nula y por tanto se rechaza la alternativa, es
decir, no es cierto que la primera muestra proceda de una
variedad con menos gramos de azúcar, por término medio, que la
segunda.
Contrastación
Tema V 542
c) Este es un contraste bilateral, por lo que los tamaños de
las regiones críticas son igual a α/2 = 0.025. Utilizando las
tablas, vemos que el valor crítico u′α/2 es 17 (está entre el
valor 17 y el 18) y uα = n1 n2 - u′α = 8*10 – 17 = 63. Al
ser el estadístico de contraste 23 cae en la región de
aceptación (17 < 23 < 63), por lo que se acepta la hipótesis
nula, es decir, no hay diferencia en los contenidos en azúcar
entre las dos muestras, luego ambas muestras proceden de la
misma variedad (población).
ESTADÍSTICA II
Tema V
543
V.2.3.- Críticas al modelo. Contrastes asociados.
V.2.3.1.- Contrate de ajuste.
V.2.3.1.1.- El contraste ji-cuadrado de Pearson.
Otra hipótesis habitual en nuestro estudio es partir del hecho
de que nosotros conocemos la distribución que sigue la
característica en estudio. De esta manera decimos que la
estatura es una variable Normal (puede que no conozcamos sus
parámetros), decimos que el tiempo de ocurrencia de la primera
avería de una determinada máquina sigue una ley exponencial,
etc... Pero, ¿cómo podemos tener evidencia empírica para
afirmar que realmente la variable en estudio tiene esta
distribución? Para ello, entre otras cosas, es para lo que se
utiliza el contraste de la ji-cuadrado.
Este contraste tiene como base comparar dos situaciones, una
real y otra teórica. Por real se entiende aquella situación
que pone de manifiesto los datos da la muestra. Por teórica
entendemos aquella situación que se corresponde con el
cumplimiento de la hipótesis de partida. El contraste,
mediante esta comparación, determina si la distancia que
existe entre estas dos situaciones es lo suficientemente
grande como para decir que las dos situaciones no son
compatibles, o por el contrario, esta distancia es lo
suficientemente pequeña como para afirmar que la situación
teórica y la real son iguales.
Para la presentación del contraste partamos primero de una
variable X que sea discreta, pudiendo tomar únicamente k
valores, {x1,x2,..., xn}. Además, conocemos el comportamiento
Contrastación
Tema V 544
probabilístico de esta variable. Denotemos por pi la
probabilidad de xi.
Tomamos una muestra aleatoria de tamaño n. Sea oi la
frecuencia observada de la modalidad xi. Por tanto,
Es decir, tenemos dos situaciones:
a) Situación teórica. Viene dada por la función de cuantía.
Esto es
resto 0
}x,...,x,x{=x si p = f(x)
k21i
b) La situación observada viene dada por la distribución de
frecuencias
X
x1 x2 ... xk
o
o1 o2 ... ok
Suma=n
(1)
De la situación teórica, situación a), podemos deducir la
frecuencia esperada teórica de cada modalidad de X. A esta
frecuencia la denotaremos por Ei
p*n=E nE=p ii
ii ⇒
Por tanto, la situación a), situación teórica vendrá dada por
la distribución de frecuencias
n = oi
k
1=i∑
ESTADÍSTICA II
Tema V
545
X
x1 x2 ... xk
E
E1 E2 ... Ek
Suma=n
(2)
El contraste de la ji-cuadrado lo que hace es comparar las
frecuencias de la tabla (1) con las frecuencias de la tabla
(2). Si cada Ei es muy parecido a oi, ello indica que la
situación teórica de partida es muy parecida a la situación
observada, lo cual nos llevaría a aceptar que la distribución
de la variable en estudio es la que hemos supuesto.
El planteamiento formal del contraste es el siguiente:
H0: La variable X se distribuye de una manera concreta
(Normal, exponencial, etc..)
H1: La hipótesis nula no es cierto.
α, nivel de significación.
Estadístico de prueba:
Si H0 se cumple, la variable Z se distribuye como una ji-
cuadrado de (k-r-1) grados de libertad, en donde k es el
número de modalidades y r es el número de parámetros que hay
que estimar para definir completamente la distribución
teórica.
La regla de decisión es la de todo contraste. Es decir, si el
valor de nuestro estadístico es mayor que el correspondiente
valor de una ji-cuadrado de (k-r-1) grados de libertad que
deja a su derecha una masa probabilística igual a α,
E
)E-o(=Z
i
2ii
k
1=i∑
Contrastación
Tema V 546
rechazaremos la hipótesis nula para un nivel de significación
α. Esto implicaría, que los datos muestrales no nos ofrecen
evidencia de que la población en estudio se comporta como se
supone en la hipótesis nula.
En el caso de que la variable X sea continua el proceso es el
mismo pero hay que realizar los siguientes pasos:
1) Agrupar los datos muestrales en 5 o más clases que cubran
todo el recorrido de la muestra.
2) Calcular la frecuencia observada para cada una de las
clases.
3) Calcular la frecuencia teórica para cada una de las clases
como Ei = n*pi, en donde pi es la probabilidad de la clase i
si se cumple la hipótesis nula.
4) Realizar el contraste de forma similar para el caso de
variables discretas.
Para que este contraste se pueda aplicar es necesario que los
valores de los Ei sean todos ellos mayores o iguales que 3.
Ejercicio: Durante la Segunda Guerra Mundial se dividió el
mapa de Londres en cuadrículas de 0.25 km2 y se contó el
número de bombas caídas en cada cuadrícula. Los resultados
fueron los siguientes
X=N1 de
impactos
0 1 2 3 4 5
o
229 211 93 35 7 1
Suma=576
ESTADÍSTICA II
Tema V
547
¿Podemos afirmar que el número de impactos sigue una
distribución de Poisson?
Solución: Lo primero es estimar el valor λ, que como sabemos
coincide con la media poblacional.
X=N1 de
impactos
0 1 2 3 4 5
o
229 211 93 35 7 1
Suma=576
Xi*oi
0 211 186 105 28 5
Suma=535
Lo segundo es calcular la probabilidad de que X =
{0,1,2,3,4,5}, siendo X una variable de Poisson de parámetro λ
= 0.929, y calcular las frecuencias teóricas Ei
227.52=0.395*576=E 0.395=0!
)(0.929e=0)=P(X=p 0
0-0.929
0 _
211.39=0.367*576=E 0.367=1!
)(0.929e=1)=P(X=p 1
1-0.929
1 _
97.92=0.17*576=E 0.17=2!
)(0.929e=2)=P(X=p 2
2-0.929
2 _
0.929=576535=
o
ox=x=
i
6
1=i
ii
6
1=i
∑
∑ *ˆλ̂
Contrastación
Tema V 548
30.528=0.053*576=E 0.053=3!
)(0.929e=3)=P(X=p 3
3-0.929
3 _
7.06=0.01226*576=E 0.01226=4!
)(0.929e=4)=P(X=p 4
4-0.929
4 _
1.3=0.0022779*576=E 0.0022779=5!
)(0.929e=5)=P(X=p 5
5-0.929
5 _
Esto nos lleva a la siguiente tabla de frecuencias teóricas y
observadas, y a los siguientes cálculos
ESTADÍSTICA II
Tema V
549
Xi
0
1
2
3
4
5
oi
229
211
93
35
7
1
Ei
227.52
211.89
97.92
30.53
7.06
1.3
(oi-Ei)2/Ei
0.0096
0.0004
0.247
0.65
0.051
0.07
1.03
El planteamiento del contraste es el siguiente,
H0: X se distribuye como una distribución de Poisson
H1: H0 no se cumple.
α = 5%
Estadístico de prueba
E
)E-o(=Z
i
2ii
k
1=i∑
Si H0 se cumple, Z se distribuye como una ji-cuadrado de (k-r-
1) = (6-1-1) = 4 grados de libertad
Nuestro estadístico de prueba toma el valor 1.03, el valor
crítico de la ji-cuadrado de 4 grados de libertad para el
nivel de significación del 5% es 9.48, con lo cual concluimos
que la hipótesis nula no se puede rechazar. Es decir, la
muestra nos ofrece evidencia empírica que nos lleva a aceptar
que la población en estudio se distribuye como una
distribución de Poisson. Los resultados se muestran
gráficamente en la figura.
Contrastación
Tema V 550
Ejercicio: La vida de 70 motores ha tenido la siguiente
distribución de frecuencias
Años de �
funcionamiento�(0-1)(1-2)(2-3)(3-4)(4-6)
��������������������������������������������������������������
N1 de motores � 30 23 6 5 6
¿ Puede suponerse, para un nivel de significación del 5%, que
la duración de los motores sigue una distribución exponencial
ESTADÍSTICA II
Tema V
551
?
Solución:Valor del estadístico de prueba: 4.10
Valor crítico χ23,0.05 = 7.81
Por tanto, aceptamos la hipótesis de que la duración de los
motores se comporta como una distribución exponencial.
V.2.3.1.2.- Contraste de Kolmogorov-Smirnov.
El contraste de Kolmogorov-Smirnov es similar al anterior pero
en vez de trabajar con la función de densidad o cuantía
trabaja con las funciones de distribución. En consecuencia,
los pasos a dar para su realización serán los siguientes:
1.- Calcular la función de distribución de la muestra.
2.- Calcular la función de distribución poblacional para los
valores establecidos por la muestra.
3.- Las hipótesis son las mismas que las enunciadas para el
caso del contraste chi-cuadrado.
El estadístico de Kolmogorov-Smirnov viene denotado por Dn y
se define como el valor máximo en términos absolutos que toma
la diferencia entre el valor de la función de distribución
muestral y la poblacional.
La decisión sobre la aceptación o rechazo de la hipótesis nula
se establece en función de los valores críticos de las tablas
de Kolmogorov-Smirnov. En estas tablas, conociendo en tamaño
de la muestra y definido el nivel de significación, obtenemos
el valor crítico. Si Dn es mayor que el valor crítico,
Contrastación
Tema V 552
rechazamos la hipótesis nula, es decir, los datos muestrales
no se ajustan a los datos poblacionales.
En el caso de que n sea superior a 35 los puntos críticos se
obtienen según la fórmula que se indica en la tabla de
Kolmogorov-Smirnov.
Ejemplo. Estamos interesados en saber si un dado es correcto o
no. Para ello lo hemos lanzado 300 veces saliendo cada
resultado en las siguientes proporciones
Resultado
1
2
3
4
5
6
Proporciones
muestrales
0.145
0.208
0.174
0.15
0.166
0.157
Realizar el contraste de Kolmogorov-Smirnov para determinar si
existe evidencia empírica par afirmar que el dado está
trucado.
En este caso la hipótesis nula es que el dado es correcto
frente a la alternativa que dice que no es correcto. Si la
hipótesis nula es correcta, cada resultado del dado tiene una
probabilidad de 1/6 de salir, en consecuencia podemos calcular
las funciones de distribución muestral y teórica para el caso
que nos ocupa.
ESTADÍSTICA II
Tema V
553
Resultado
1
2
3
4
5
6
Función de
distribución
muestral
0.145
0.353
0.527
0.677
0.843
1
Función de
distribución si
se cumple la
hipótesis nula
0.167
0.333
0.5
0.667
0.833
1
Dn
0.022
0.020
0.027
0.01
0.01
0
Como se puede ver el valor máximo, que coincide con el
estadístico de prueba, es 0.027. Si nos vamos a las tablas de
Kolmogorov-Smirnov vemos que para un nivel de significación
del 5% el valor crítico se calcula como 1.36/(n)(1/2). Para
nuestro caso n=300 y, por tanto, el valor crítico es
0.0785196.
Dado que nuestro estadístico de prueba es menor que el valor
crítico, no podemos rechazar la hipótesis nula de que el dado
es correcto.
Contrastación
Tema V 554