13
Curso de Estadística no-paramétrica Sesión 4: Análisis de datos categóricos Facundo Muñoz Grup d’Estadística espacial i Temporal Departament d’Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Homogeneidad e independencia Medidas de Asociación Ejemplo Grupos sanguíneos en regiones de Escocia Ejemplo 2.- Mitchell et al. (1976) estudiaron la distribución de los grupos sanguíneos en varias regiones de Sur-Oeste de Escocia (Annals of Human Biology), obteniendo: Eskdale Annandale Nithsdale Total A 33 54 98 185 B 6 14 35 55 O 56 52 115 223 AB 5 5 5 15 Total 100 125 253 478 ¿Se distribuyen los grupos sanguíneos de igual manera en las diferentes regiones? 2 / 26

Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Curso de Estadística no-paramétricaSesión 4: Análisis de datos categóricos

Facundo Muñoz

Grup d’Estadística espacial i Temporal Departament d’Estadísticaen Epidemiologia i Medi Ambient i Investigació Operativa

Universitat de València

Junio 2013

Homogeneidad e independencia Medidas de Asociación

EjemploGrupos sanguíneos en regiones de Escocia

Ejemplo 2.- Mitchell et al. (1976) estudiaron la distribución de los grupossanguíneos en varias regiones de Sur-Oeste de Escocia (Annals of HumanBiology), obteniendo:

Eskdale Annandale Nithsdale TotalA 33 54 98 185B 6 14 35 55O 56 52 115 223AB 5 5 5 15Total 100 125 253 478

¿Se distribuyen los grupos sanguíneos de igual manera en las diferentesregiones?

2 / 26

Page 2: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

AbstracciónContraste de Homogeneidad

En k grupos de individuos (subpoblaciones) se observa unacaracterística X que puede tomar r valores distintos (categorías)¿Los porcentajes de las r categorías son los mismos en las ksubpoblaciones? ¿La variable X se distribuye idénticamente en las ksubpoblaciones?Tabla de contingencia:

Subp. 1 Subp. 2 . . . Subp. k TotalCateg. 1 O11 O12 . . . O1k O1+

Variable Categ. 2 O21 O22 . . . O2k O2+X . . . . . . . . . . . . . . . . . .

Categ. r Or1 Or2 . . . Ork Or+Total O+1 O+2 . . . O+k N = O++

dondeOij número de observaciones de la categoría i de la variable X quepertenecen a la subpoblación j .Oi+ número de observaciones de la categoría i de la variable X .O+j número de observaciones de la subpoblación j .

3 / 26

Homogeneidad e independencia Medidas de Asociación

Contraste de Homogeneidad

Objetivo: contrastar si la variable X se distribuye igual en las ksubpoblaciones.Si la hipótesis H0 fuera cierta, podemos estimar las probabilidades deesta distribución a partir de los datos observados:

pi+ = P(X = i) = Oi+N

Por lo tanto, el número esperado de observaciones en la celda (i , j),bajo la hipótesis de homogeneidad, y dado que la muestra de lasubpoblación j es de tamaño O+j , es

Eij = p̂i+O+j =Oi+O+j

NPara comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:

χ2s =∑

ij

(Oij − Eij)2

Eij∼ χ2((r − 1)(k − 1))

4 / 26

Page 3: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Contraste de HomogeneidadImplementación

SPSSLa variable debe ser Nominal, con una codificación numéricaSi no es así, utilizar Transformar:Recodificación automática

Analizar:Estadísticos descriptivos:Tablas decontingencia... + Statistics:Chi-square

EjercicioRepresentar visualmente los datos mediante un diagrama de barrasagrupado Gráficos:Generador de gráficos...

Comprobar las homogeneidad de la distribución de los grupossanguíneos por regiones de Escocia con el banco de datosgrupos-escocia.csv

5 / 26

Homogeneidad e independencia Medidas de Asociación

EjemploPendiente del terreno y capa freática

Ejemplo 3.- Para analizar la relación de la pendiente del terreno con lacapa freática, se tomaron datos de 1445 localizaciones en una zona al sury al este de Cambridge. Los datos recogidos corresponden al ángulo de lapendiente del terreno, clasificado en llana, suave y empinada, y a la alturade la capa freática, según sea alta, media o baja. Estos datos se resumenen la tabla:

Pendiente terrenoLlana Suave Empinada Total

Altura Alta 737 231 37 1005Capa Media 110 202 96 441

Freática Baja 14 8 10 32Total 861 441 143 1445

¿Es independiente la altura de la capa freática de la pendiente del terreno?

6 / 26

Page 4: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

AbstracciónContraste de Independencia

Sean ahora X e Y dos variables aleatorias de las que tenemos unamuestra aleatoria de tamaño N.Al igual que en los contrastes de homogeneidad, las observaciones seclasifican en forma de tabla de frecuencias observadas (Oij). Enconcreto, clasificamos la muestra aleatoria según las r categorías dela variable categórica X y las k categorías de la variable categórica Y .

Variable YCateg. 1 Categ. 2 . . . Categ. k Total

Categ. 1 O11 O12 . . . O1k O1+Variable Categ. 2 O21 O22 . . . O2k O2+

X . . . . . . . . . . . . . . . . . .Categ. r Or1 Or2 . . . Ork Or+

Total O+1 O+2 . . . O+k N = O++

dondeOij número de observaciones de la categoría i de la variable X quepertenecen a la categoría j de la variable Y .Oi+ número de observaciones de la categoría i de la variable X .O+j número de observaciones de la categoría j de la variable Y . 7 / 26

Homogeneidad e independencia Medidas de Asociación

Contraste de Independencia

Si la hipótesis H0 de independencia fuera cierta:pi |j = P(X = i |Y = j) = P(X = i) = pi+

Como además pi |j = P(X = i |Y = j) = P(X=i ,Y=j)P(Y=j) =

pijp+j

Tenemos que: pij = P(X = i ,Y = j) = P(X = i)P(Y = j) = pi+p+jEstas probabilidades podemos estimarlas a partir de los datos, por loque el número esperado de casos en la celda (i , j), bajo la hipótesisde independencia es:

Eij = Np̂ij = Np̂i+p̂+j = N Oi+N

O+jN =

Oi+O+jN

Para comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:

χ2s =∑

ij

(Oij − Eij)2

Eij∼ χ2((r − 1)(k − 1))

8 / 26

Page 5: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Test de la razón de verosimilitud

El estudio de la independencia o de la homogeneidad se realizamediante el Estadístico χ2

χ2 =∑

celdas

(Oi − Ei)2

Ei

Alternativamente se puede realizar mediante el Estadístico de la razónde verosimilitud

G2 = 2∑

celdasOi log

(OiEi

)Bajo la hipótesis nula de independencia, también sigue unadistribución Ji-cuadrado con ν = (r − 1)(k − 1) grados de libertad.Basado en la teoría de máxima verosimilitud y, para muestras detamaño grande, da resultados bastante parecidos al test χ2.Sin embargo, es más potente con muestras pequeñas.

SPSSSale por defecto en los resultados cuando se pide un χ2 9 / 26

Homogeneidad e independencia Medidas de Asociación

Contraste de IndependenciaImplementación

SPSSIdéntica!

EjercicioComprobar la independencia de la pendiente del terreno y la altura dela capa freática con el banco de datospendiente-capafreatica.csv

Notar que estos datos no corresponden a casos individuales, sino queestán agrupados por combinaciones de las categorías. En este caso sedebe ponderar los casos Datos:ponderar casos.Representar visualmente los datos mediante un diagrama de barrasagrupado (opción de la ventana de Tablas de contingencia)

10 / 26

Page 6: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Contrastes de Homogeneidad e IndependenciaAspectos en común y diferencias

Los problemas de homogeneidad e independencia básicamente sediferencian en el tipo de muestreo que ha generado los datos, aunqueen general, podemos pensar que el problema es similar: estudiar siexiste alguna relación/asociación entre los niveles de las variablesconsideradas.Ambos problemas comparten el hecho de que tenemos conteos ofrecuencias de clasificación observadas en una tabla de contingencia.Observar que en las tablas de contingencia no se suele distinguir entrevariable respuesta y explicativas, aunque veremos ahora que dichadistinción puede ser de utilidad a la hora de modelar e interpretar.Observar también que el estadístico de contraste es el mismo enambas situaciones ya que las frecuencias esperadas bajo las doshipótesis son las mismas.

11 / 26

Homogeneidad e independencia Medidas de Asociación

Condiciones de aplicabilidad del Test Chi-cuadrado

CondicionesLas frecuencias esperadas en cada celda deben ser suficientementegrandes (al menos 5), ya que el test se basa en una aproximaciónLa muestra o submuestras deben ser aleatoriasEn el caso del contraste de Homogeneidad, las submuestras deben serindependientes

Alternativas para tablas 2× 2El Estadístico χ2 produce valores artificialmente bajos en tablas 2× 2,aumentando la probabilidad del Error tipo I. En este caso, conviene utilizaralguna de las siguientes alternativas.

Test exacto de FisherCorrección de Yates (o corrección por continuidad)

Estas medidas alternativas son proporcionadas automáticamente por SPSScuando la tabla de contingencia es de orden 2× 2 12 / 26

Page 7: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

EjemploActitud de enfermeros y enfermeras

En un pequeño centro de salud se realiza una encuesta para evaluar laactitud de los enfermeros y las enfermeras hacia los pacientes. Finalmente,se reduce la valoración a una actitud positiva o negativa.

Actitud - +

Sexo

Mujer 5 1Hombre 1 4

Ejercicio¿Hay diferencias significativas en la actitud según el sexo?(enfermeros-enfermeras.csv)La tabla es 2× 2 y los valores esperados son todos menores que 5. ElEstadístico χ2 no es válido.

13 / 26

Homogeneidad e independencia Medidas de Asociación

Resumen análisis de datos categóricos

Cuando disponemos de una o dos variables categóricas nos podemosencontrar básicamente ante tres situaciones:

Una variable observada categórica (no necesariamente dicotómica) dela que queremos estudiar si los conteos observados en cada una desus categorías cumplen unas determinadas proporciones: Contrastede bondad de ajuste.Una variable observada categórica (no necesariamente dicotómica) dela que queremos estudiar si se comporta igual en variassubpoblaciones (o muestras): Contraste de homogeneidad.Dos variables observadas de las que queremos analizar si estánrelacionadas o son independientes. Es decir, una muestra aleatoria dedos variables categóricas (no necesariamente dicotómicas): Contrastede Independencia

14 / 26

Page 8: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Medidas de asociación de variables categóricasEjemplo

Si se les pidiera adivinar el grado de solvencia de un cierto paíseuropeo (en una escala de calificación tipo AAA, AA, etc.), ¿cuálsería su estimación?La moda: el grado más común, es el que tiene más chancesAhora, si sabemos que el país está situado en el norte de Europa¿Cambiarían la estimación? (independencia)En los análisis cuantitativos suele interesar predecir el valor de unavariable (dependiente) a partir del conocimiento de una o variascovariablesLa medida de asociación entre las variables es el grado en que lainformación adicional permite mejorar la predicción

15 / 26

Homogeneidad e independencia Medidas de Asociación

Medidas de asociación de variables categóricasPuntos a destacar

Cuantifican el grado de asociación entre dos variables categóricasTambién pueden utilizarse para valorar la independencia, aunquesuelen utilizarse después de establecer la significatividad de laasociaciónHay muchas medidas diferentes, cada una más o menos sensible adeterminado tipo específico de asociaciónNo hay una medida que sea la mejor para todas las situacionesElegiremos una u otra en función del tipo de datos, la hipótesis deinterés y de las propiedades de cada una de las medidasNo es científicamente honesto calcular muchas medidas y elegir aposteriori la que mejor ha funcionadoEstas medidas deben considerarse únicamente como unaaproximación exploratoria inicial para un análisis posterior

16 / 26

Page 9: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Variables nominalesMedidas basadas en χ2

Coef. de contingencia(Pearson, 1904)

C =

√χ2

χ2 + N

V de Cramer (Cramér, 1946)y coeficiente Phi

V =

√χ2

N(m«ın{r , c} − 1)

Rango: [0, 1] (desde no asociación hsata asociación completa)Convención sobre el tamaño del efecto: pequeño = 0,1, medio = 0,3,grande = 0,5No importa cuál variable es fila y cuál es columna, ni tampoco elorden de las categoríasMientras que C varía con el número de filas y columnas, V estádiseñado para comparar tablas con diferentes dimensionesEn el caso de dos variables binarias (tabla 2× 2), la V de Cramer sereduce a φ =

√χ2

N 17 / 26

Homogeneidad e independencia Medidas de Asociación

Variables nominalesMedidas basadas en la reducción proporcional del error

Coeficiente Lambda (Kruskal & Goodman, 1954)

λB =EA − EA|B

EA

Refleja la reducción relativa en el error de predicción cuando se utilizan losvalores de la variable independiente (B) para predecir la dependiente (A)utilizando la moda de la distribución condicional o incondicional.

Hay una versión simétrica λ que toma un valor intermedio entre λA yλB y es útil cuando las variables son intercambiablesSPSS los calcula todos. Hay que usar el adecuadoEl resultado es una cantidad interpretable, que varía entre 0 y 1λB = 0 implica que conocer B no ayuda a reducir en nada el error depredicción de A (e.g., si A y B independientes)λB = 1 implica asociación perfecta: conocer B determinaexactamente la categoría de A

18 / 26

Page 10: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Variables nominalesMedidas basadas en la reducción proporcional de la entropía

Coeficiente de Incertidumbre

U =HA − HA|B

HA

Refleja la reducción relativa en la entropía de la distribución predictivacuando se utilizan los valores de la variable independiente (B) parapredecir la dependiente (A).

La entropía (Shannon, 1963) es una medida inversa de la cantidad deinformación contenida en una distribuciónU compara la distribución completa, y no sólo la modaSPSS también calcula las versiones direccionales y simétricas. Hayque usar la adecuadaEl resultado es una cantidad interpretable, en el mismo sentido que λ,y que también varía entre 0 y 1

19 / 26

Homogeneidad e independencia Medidas de Asociación

EjemploActitud de enfermeros y enfermeras

Hasta ahora hemos conseguido determinar la existencia de una relaciónentre el sexo y la actitud hacia el paciente. Pero el p-valor obtenido en loscontrastes de independencia no mide la magnitud de la asociación.

Actitud - + Total

Sexo

Mujer 5 1 6Hombre 1 4 5Total 6 5 11

EA = 11− 6 = 5EA|B = (6− 5) + (5− 4) = 2

λB =EA−EA|B

EA= 5−2

5 = 0,6El error se reduce en un 60%

EjercicioValorar la magnitud del efecto Sexo utilizando medidas adecuadas.Analizar:Estadísticos descriptivos:Tablas decontingencia + Estadísticos:(Nominales)

20 / 26

Page 11: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Medidas de asociaciónVariables ordinales

Dirección de la asociaciónComo ahora disponemos del orden de las categorías tiene sentido hablarde la dirección de la asociación.

Variables positivamente asociadas: los valores pequeños de Aaparecen con los valores pequeños de B.Variables negativamente asociadas: los valores pequeños de Aaparecen con los valores grandes de B.

Sea un par de observaciones, una perteneciente a la celda (i, j) y la otra ala celda (i’, j”). Todas las medidas de asociación ordinales son simplesfunciones de las siguientes categorías:

C = #{parejas tales que: (i > i ′&j > j ′) ∨ (i < i ′&j < j ′)}D = #{parejas tales que: (i > i ′&j < j ′) ∨ (i < i ′&j < j ′)}TA = #{parejas tales que: i = i ′}TB = #{parejas tales que: j = j ′}T = #{parejas tales que: i = i ′&j = j ′} 21 / 26

Homogeneidad e independencia Medidas de Asociación

Medidas de asociaciónVariables ordinales

La asociación es positiva cuando C −D > 0 y negativa cuando C −D < 0Gamma γ = C−D

C+DNo tiene encuenta los empatesSi los hay, sobreestima la asociación

d de Somers d = 2(C−D)(C+D+TB)(C+D+TA)

τB de Kendall τB = (C−D)√C+D+TB

√C+D+TA

τC de Kendall τC = 2(C−D)m«ın{r ,c}N2 m«ın{r ,c}−1

Todas varían entre −1 y 1 (asociación perfecta negativa o positiva),pasando por 0 (ausencia de asociación)

EjercicioCuantificar el grado de asociación de las variables education y Loan(nivel de educación y si el banco concedió el préstamos solicitado) delbanco de datos Loan.sav

22 / 26

Page 12: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

EjemploVisitas al gimnasio y ritmo cardíaco

La hipótesis de un estudio es que quienes van al gimnasio másfrecuentemente tienen un ritmo cardíaco (en reposo) más bajo.

60

70

80

90

5 10 15NVisitas

Ritm

oC

¿Qué clase de variables están en juego?¿En ese caso, cuál sería el método más natural para analizar larelación entre ellas?Pintar los datos (gimnasio-corazon.csv) y calcular la Correlaciónde Pearson (Analizar:Correlaciones:Bivariadas...)

23 / 26

Homogeneidad e independencia Medidas de Asociación

Ejemplo (cont.)Visitas al gimnasio y ritmo cardíaco

Interpretación de los resultados y replanteamiento del análisis:No hay una correlación lineal significativa entre las variablesSin embargo, la hipótesis es razonablePosibles fallos:

1 La relación existe pero no es lineal (en cuyo caso, podría buscarse unatransformación de los datos adecuada)

2 Las hipótesis del test de significatividad (paramétrico) del coeficientede correlación ρ de Pearson no se cumplen

3 Simplemente hubo mala suerte con la muestraEl número de visitas no necesariamente refleja la duración y laintensidad de la actividadEl ritmo cardíaco puede tener una gran variabilidad entre personas,debido a otros factoresPor tanto, no es raro que la relación lineal no sea muy marcadaLas medidas ordinales pueden detectar relaciones no linealesAnalizar:Estadísticos descriptivos:Tablas decontingencia... + Estadísticos:Correlaciones 24 / 26

Page 13: Curso de Estadística no-paramétrica - Sesión 4: Análisis ...€¦ · HomogeneidadeindependenciaMedidasdeAsociación Variablesnominales Medidasbasadasen χ2 Coef.decontingencia

Homogeneidad e independencia Medidas de Asociación

Medidas de asociaciónVariables ordinales

Rho ρS de SpearmanValoración de la correlación entre dos variables, basándose en laordenación de las categorías.

ρS = 1− 6∑

D2i

N(N2 − 1)

donde N es el número de parejas y Di es la diferencia en el orden queocupa cada observación en los ranking de las dos variables.

Detecta asociaciones monótonas, no sólo lineales.Adecuado cuando las variables tiene muchas (5+) categoríasCuando son cuantitativas, cada valor observado se categoriza segúnsu orden en el ranking

25 / 26

Homogeneidad e independencia Medidas de Asociación

Spearman vs. Pearson

26 / 26