Introducción a la Estadística. Tema3

Preview:

Citation preview

TEMA 3

ESTADÍSTICA DESCRIPTIVA PARA DOS VARIABLES CUALITATIVAS

JGM 03/09/04

Índice del tema 3

❚ Objetivo del análisis de tablas de contingencia

❚ Distribución conjunta de frecuencias

❚ Modelo observado

❚ Hipótesis de independencia y modelo esperado

❚ Modelos de residuos (brutos y estandarizados)

❚ La distribución Chi cuadrado

JGM 03/09/04

Objetivo del análisis de tablas de contingencia

❚ Estudiar la posible existencia de

ASOCIACIÓN entre dos variables de

naturaleza cualitativa.

❚ Ejemplo: ¿Existe relación entre el barrio

de residencia y la clase social de las

personas?

JGM 03/09/04

Distribución conjunta de frecuencias

❚ Para estudiar dos variables cualitativas

podemos hacerlo:

❙ Individualmente: Con las frecuencias

absolutas o relativas (frecuencias marginales)

❙ Globalmente: Con la distribución conjunta de

frecuencias

JGM 03/09/04

Distribución conjunta de frecuencias (II)

❚ La distribución conjunta contiene más información que las distribuciones individuales (o marginales).

Recuerda que a partir de la distribución conjunta podemos obtener las distribuciones marginales pero la afirmación recíproca no es cierta

JGM 03/09/04

Distribución conjunta de frecuencias (III)

❚ La distribución conjunta de frecuencias de dos variables cualitativas es una matriz de doble entrada o tabla de contingencia con r filas y c columnas. ¡Ojo!: no confundirla con la tabla de datos.

VARIABLE CUALITATIVA Bc modalidades

VARI

ABL

E CU

ALI

TATI

VA A

r m

odal

idad

es

JGM 03/09/04

Distribución conjunta de frecuencias (IV)

Distribución conjunta

VARIABLE CUALITATIVA Bc modalidades

VARI

ABL

E CU

ALI

TATI

VA A

r m

odal

idad

es

Pies

Manos

Distribuciones marginales

JGM 03/09/04

Proceso en el análisis de tablas de contingencia

Modelo observado Modelo deresiduos brutos

Modelo de resi-duos estandarizados

Modelo esperado

Cálculo del Estad.de contraste (EC)

Comparación conlas tablas de laChi-cuadrado

¿Existeasociación?

¿Qué celdascontribuyen más? FINSÍ

NO

ijO ijE ijij EO −

( ) ijijij EEO −( )[ ]∑∑ −I J

ijijij EEO2

JGM 03/09/04

El modelo observado

❚ Es la distribución conjunta de frecuencias que hemos obtenido en nuestro conjunto de individuos para las dos variables analizadas. Es otra forma de referirse a la tabla de contingencia de la que partimos antes de comenzar el análisis.

representa la frecuencia observada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.

ijO

JGM 03/09/04

El modelo esperado

¿¿Esperado?? ¿Bajo que supuesto?

JGM 03/09/04

El modelo esperado

❚ Es la distribución conjunta que esperaríamos observar si las variables estudiadas fueran perfectamente independientes entre sí.

JGM 03/09/04

El modelo esperado

¡Ya está!…Debo calcular loque esperaría haberme encontradosi el barrio de residencia no tuviera

nada que ver con la clase social

JGM 03/09/04

El modelo esperado

❚ Es la distribución conjunta de frecuencias que esperaríamos obtener en caso de independencia perfecta entre las dos variables.

representa la frecuencia esperada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.

. .

..

i jij

n nE

n

×=

JGM 03/09/04

INDEPENDENCIA❚ El supuesto de partida es la INDEPENDENCIA.

❚ Significa que la probabilidad de pertenencia a las modalidades de una cualquiera de las dos variables permanece constante para todas las modalidades de la otra variable, y viceversa.

❚ Bajo el supuesto de independencia los perfiles-fila son iguales para todas las modalidades de la variable situada en filas (e iguales al perfil-fila global) y los perfiles-columna son iguales para todas las modalidades de la variable situada en columnas (e iguales al perfil-columna global).

JGM 03/09/04

INDEPENDENCIA

O sea, bajo el supuesto deindependencia es igual de probable ser

pobre si vivo en el barrio A que si vivo enel barrio B o en el C. ¡Claro!, el barrio no tiene nada que ver con la clase social

JGM 03/09/04

INDEPENDENCIA

❚ Además, mantendré mi supuesto de partida (mi hipótesis de independencia) salvo que exista ENORME EVIDENCIA en su contra.

❚ Si no me queda más remedio (es decir, si existe enorme evidencia en contra de la independencia) aceptaré que existe ASOCIACIÓN entre las variables.

JGM 03/09/04

El modelo de residuos brutos

❚ Mide la desviación positiva o negativa entre lo observado y lo esperado en cada celda de la tabla.❙ Un residuo positivo en una celda indica que se han

observado más individuos en esa celda de los que cabría esperar si las variables fueran independientes.

❙ Un residuo negativo en una celda indica que se han observado menos individuos en esa celda de los que cabría esperar si las variables fueran independientes

JGM 03/09/04

El modelo de residuos brutos❚ El residuo es la diferencia entre lo que se ha observado

y lo que se esperaba haber observado, es decir

representa el residuo que existe en la modalidad i-ésima de la primera variable y j-ésima de la segunda.

ij ijO E−

JGM 03/09/04

El modelo de residuos brutos

Pero, ¿son todos losresiduos igualmente

relevantes?

OBVIAMENTE, NO

JGM 03/09/04

El modelo de residuos estandarizados

❚ Los residuos brutos en una celda son tanto más relevantes cuanto menor es la frecuencia esperada en esa celda.

❚ Por ese motivo los estandarizamos haciendo:

ij ij

ij

O E

E

JGM 03/09/04

Cálculo del estadístico de contraste

❚ El estadístico de contraste de Pearson se calcula elevando al cuadrado todos los residuos estandarizados y sumándolos.

¡Ojo!: (a+b)2 es distinto de a2+b2. O sea que no es lo mismo “sumar todo y luego elevar al cuadrado” que “elevar al cuadrado y luego sumar todo”. En este caso es la segunda opción.

∑∑= =

−=

r

i

c

j ij

ijij

E

EOEC

1 1

2

JGM 03/09/04

El estadístico de contraste

Entonces, EC es siempreno negativo, ¿no?

Eso es. Al sumar cuadradoslo más pequeño que podemos obteneres un cero. El EC tomará valores entrecero e infinito.

JGM 03/09/04

¿Existe asociación?

Vale, vale, pero ¿existe ASOCIACIÓN?

Intuitivamente vemos que un EC pequeñonos lleva a decir que no existe asociación-los residuos son pequeños- y un EC grandea decir que sí –residuos grandes-. Pero ¿quése entiende por un EC grande?

JGM 03/09/04

¿Existe asociación?

❚ Lo que entendemos por un EC grande depende de dos cosas:❙ El tamaño de la tabla: Las filas “r” y las columnas “c”

determinan los llamados grados de libertad, según la fórmula (r-1)x(c-1). Los grados de libertad expresan el número de celdas de la tabla de contingencia que se pueden fijar libremente. En tablas más grandes aceptaremos EC mayores.

❙ El nivel de significación escogido: normalmente 0,05.

¿Qué es “nivel de significación”?. Lo veremos en el tema 8.

JGM 03/09/04

¿Existe asociación?

O sea, …tengo que comparar mi EC con

el valor que aparece en las tablasde la Chi-cuadrado en la columna0,05 y en la fila que corresponda

a los grados de libertad, ¿no?

Eso es, y si tu EC es mayor o igual que el valor de las tablas, no te quedará más remedio que aceptar que existe asociación.Si tu EC es más pequeño que el valor de las tablas podrás mantener tu hipótesis de independencia.

JGM 03/09/04

¿Qué celdas contribuyen más a la asociación?

Y en caso de que exista asociación,las celdas que contribuyen a ésta en

mayor medida serán aquellas que tengan,en valor absoluto, los mayores residuos estandarizados, ¿no?

¡Exacto!

JGM 03/09/04

Una precaución final

❚ La prueba de la Chi-cuadrado de Pearson se basa en la aproximación de una distribución binomial por una normal.

❚ En caso de que exista alguna celda con un valor esperado menor que 5, esta aproximación no resulta apropiada.

❚ Si este hecho se produce será necesario colapsar unas modalidades en otras de modo que todas las celdas tengan una frecuencia esperada no inferior a 5.

Recommended