33
METODOLOGÍA DE LA INVESTIGACIÓN I: CLASE XI Magíster Análisis Sistémico Aplicado a la Sociedad Universidad de Chile Gabriela Azócar de la Cruz

Clase Análisis Componentes Principales / Estadística

Embed Size (px)

Citation preview

METODOLOGÍA DE LA INVESTIGACIÓN I: CLASE XI

Magíster Análisis Sistémico Aplicado a la Sociedad Universidad de Chile Gabriela Azócar de la Cruz

Análisis Multivariable

Definición Análisis Multivariable

“Conjunto de métodos que analizan las relaciones entre un número amplio de medidas (variables), tomadas sobre

cada objeto o unidad de análisis, en una o más muestras simultáneamente” (Martínez; 1999)

VE1

VE3 VE6

VE2

VE4 VE5

Relaciones entre Variables

V4

V1

V2

V3

Variables independientes

Variable dependiente

Relaciones de dependencia

Relaciones de interdependencia

Tipos de Variables

Unidad de medida Valores Origen

Nominales

Ordinales

Intervalo

Razón

Cualitativas – No métricas

Escalares-Métricas

Discretas

Continuas

Dicotómicas

Observadas (originales)

Latentes

Ficticias (dummy)

Clasificación Técnicas de Análisis Multivariable

Clasificación casos/variables

Explicación / predicción

Análisis Factorial y Correspondencias

Modelos logarítmicos

lineales

Análisis Discriminante

Análisis de Tipologías

Reducción de datos

FUNCION Y NÚMERO DE VARIABLES

UNIDAD DE MEDIDA DE LAS

VARIABLES

Ecuaciones estructurales

Análisis de Componentes Principales

Introducción: ¿Qué es un factor o componete?

Es una variable latente, que se construye a partir de un conjunto de variables observadas y que representa el

significado sustantivo común que subyace al conjunto de ellas

Las variables observadas deben estar relacionadas teóricamente con un concepto general

Concepto Global

VE1

VE3

VE2

VE4

VE5

VE6

VE7

VE8

COMPONENTE / FACTOR 1

COMPONENTE / FACTOR 3

COMPONENTE/ FACTOR 2

Análisis Factorial / Componentes Principales

Conjunto de métodos multivariados que …

….persiguen explicar los

patrones dependencia de un grupo de variables

observadas…

…identificando con ello un conjunto menor de variables latentes.

Componentes Principales

es uno de los métodos más utilizados entre este tipo de

técnicas

VE1

VE3

VE2

VE4

VE5

VE6

VE7

VE8

COMPONENTE / FACTOR 1

COMPONENTE/ FACTOR 2

COMPONENTE / FACTOR 3

Objetivos de la Técnica

Perspectiva Estadística

• Reducir la información de una matriz de correlaciones a partir de la construcción de funciones lineales

• Descifrar patrones de dependencia a partir del análisis de correlaciones múltiples

Perspectiva Teórica

• Contrastar / generar hipótesis confirmatorias o exploratorias acerca de la cantidad y contenido de las dimensiones de análisis factibles de ser identificadas

• Identificar dimensiones que representen esquemas conceptuales de análisis

Perspectiva Metodológica

• Validar la construcción de instrumentos de medida, dando cuenta de su dimensionalidad

Mala gestión de los empresarios

Comodidad de la gente

Falta preparación trabajador

Pocas ganas de trabajar de la gente

No saber buscar empleo

Que hay mucho pluriempleo

La política de empleo

El trabajo no se reparte bien socialmente

La crisis económica

Ejemplo Análisis Componentes Principales

Causas Atribuidas a

Crisis Laboral

Variables Medidas en una escala de 1 a 5 según grados de acuerdo.

CONCEPTO CENTRAL VARIABLES OBSERVADAS / MEDIDAS VARIABLES LATENTES /

COMPONENTES

Disposición individual

Propiedades distributivas del

mercado laboral

Condiciones político

económicas

Sobre el Tamaño Muestral

•Al menos 10 casos por cada variable •El número de variables no debe exceder de la mitad de los sujetos.

•Según tamaño muestra analizar pertinencia de eliminar o no del análisis los casos perdidos.

Recomendaciones

Optimo más de 1000 casos

Sugerido 200 casos

Mínimo 50 casos

Condiciones de aplicación

Métrica variables

• Óptimo: escalar /ordinal de amplio rango • Esperable: distribución normal • Recomendable: estandarización

Relación entre

variables

• Variables correlacionadas (0,2 mínimo) • Relaciones lineales entre variables

Función de las variables

• Variables independientes pero interdependientes • Variables teóricamente relacionadas con un concepto

Verificación de las Condiciones de Aplicación

Histograma con curva normal de cada variable

Análisis Curtosis

Análisis Asimetría

Distribución normal

Prueba KMO: se esperan valores sobre 0,7

Correlación anti-imagen: se espera valores fuera de diagonal bajos

Prueba Esfericidad Bartlett: se espera nivel significación menor 0,05.

Determinante de la matriz de correlaciones: debe ser cercano a 0

Relación entre

variables

Estimación valores perdidos por variable

Identificación y eliminación de valores aberrantes

Cálculo tamaño muestral efectivo por variable

Tamaño muestral

Principales Pruebas de Verificación de las Condiciones de Aplicación

Prueba Esfericidad de Bartlett: comprueba la correspondencia entre la matriz de correlaciones y la de identidad. Se espera que el valor del nivel de significación sea menor que 0,05. Su cálculo supone la transformación del determinante de la matriz de correlaciones en un valor chi2 . Prueba KMO: índice que compara las correlaciones observadas con las correlaciones parciales dando cuenta del nivel de correlación del conjunto de las variables. Sus resultados varían entre 0 y 1 donde: 0,90 > KMO > 0,80 buenos 0,80 > KMO > 0,70 aceptables 0,70 > KMO > 0,60 mediocres o regulares 0,60 > KMO > 0,50 malos KMO < 0,50 inaceptables o muy malos

Extracción de Factores / Varianza Total

VE1

VE3

VE2

VE4

VE5

VE6

VE7 VE8 Varianza Total

Comunalidad

Unicidad + Error = Especificidad

Rotación

V1

V2 F1

No rotado

F2 No rotado

F1 Rotado

F2 Rotado

Acerca los factores a las variables No afecta varianza total Redistribuye la varianza explicada en los factores Facilita la interpretación

Rotaciones ortogonales comunes: Varimax: reduce n° variables con peso alto en cada factor. Maximiza varianza de los coeficientes cuadrados para cada factor. Aplicación: comunalidades dispares. Quartimax: maximiza la varianza de coeficientes cuadrados para cada variable. Problema: algunas variables presentan coeficientes elevados en más de un factor. Aplicación: cuando se quiere reducir el número de factores a encontrar.

Evaluación Factores ¿Cuántos?

Factor

Autovalor Mayor que 1

% Varianza explicada

Acumulada mayor que 50

Gráfico sedimentación

Punto Inflexión

Matriz de estructura

Interpretabilidad

Evaluación Factores

Tota l Variance Explained

2,449 27,211 27,211 2,449 27,211 27,211 2,274 25,265 25,2651,684 18,714 45,925 1,684 18,714 45,925 1,553 17,252 42,5181,116 12,395 58,320 1,116 12,395 58,320 1,422 15,802 58,320

,848 9,426 67,747,705 7,834 75,580,616 6,842 82,422,597 6,629 89,051,568 6,314 95,365,417 4,635 100,000

Component123456789

Total % of Variance Cumulat ive % Total % of Variance Cumulat ive % Total % of Variance Cumulat ive %Initial Eigenvalues Extraction Sums of Squared Loadings Rotat ion Sums of Squared Loadings

Extraction Method: Principal Component Analysis.

c

Interpretación / Matriz de estructura-saturaciones

Variables

Factores

F1 F2 F3

V1 Coeficiente V1F1

Coeficiente V1F2

Coeficiente V1F3

V2 Coeficiente V121

Coeficiente V2F2

Coeficiente V2F3

V3 Coeficiente V3F1

Coeficiente V3F2

Coeficiente V3F3

V4 Coeficiente V4F1

Coeficiente V4F2

Coeficiente V4F3

V5 Coeficiente V5F1

Coeficiente V5F2

Coeficiente V5F3

Se interpretan como coeficientes de correlación (- 1 a +1) Sobre 0,5 se consideran relevantes Elevados al cuadrado dan cuenta del % de varianza explicada Representa el % Varianza explicada de cada variable en cada factor

Interpretación Gráfico Sedimentación

DIMENSIONALIDAD ESCALA

AUTOCUIDADO DE LA SALUD

Ejemplo Componentes Principales

ANÁLISIS DE DATOS II – Análisis factorial

KMO and Bartlett's Test

,757

880,09678

,000

Kaiser-Meyer-Olkin Measure of SamplingAdequacy.

Approx. Chi-SquaredfSig.

Bartlett's Test ofSphericity

KMO: A un nivel aceptable podemos decir que existen interrelaciones entre las variables posibles de explicar a través de factores o dimensiones

Test de Bartlett´s: Existe diferencia significativa entre la matriz de correlaciones y una matriz de imagen, por ende hay suficientes interrelaciones entre las variables que pueden ser explicadas a través de factores

ANÁLISIS DE CONDICIONES DE APLICACIÓN

EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS DE LAS COMUNALIDADES

Comunalidades: Esta tabla da cuenta del porcentaje de varianza de cada una de las variables que es explicada por el modelo. Aquellas variables poco explicadas por el modelo podrían ser consideradas como alternativa de eliminación en caso de querer mejorar la bondad de ajuste del mismo. Este tipo de decisiones debe ser fundamentada. En este caso una posible candidata a la eliminación podría ser la variable “practico deportes” (si esta variable no se considera como parte del modelo la capacidad explicativa aumenta a un 62%)

Comunalidades

1,000 ,662

1,000 ,580

1,000 ,523

1,000 ,452

1,000 ,601

1,000 ,641

1,000 ,365

1,000 ,649

1,000 ,664

1,000 ,571

1,000 ,546

1,000 ,721

1,000 ,703

p1 Prefiero caminar queandar en autop2 Me vacuno contra lainfluenzap3 Voy al gimnasiop4 Controlo las caloríasque consumop5 Como en formaabundante frutas yverdurasp6 Evito las grasassaturadasp7 Practico deportesp8 Uso productos para elcuidado de la pielp9 Tomo vitaminasp10 Bebo 2 litros deagua a diariop11 Chequeo el estadode salud de mi dentaduraP12 Evito tomarmedicamentos que nome han recetadoP13 Si tengo unadolencia o enfermedadvoy al médico

Inicial Extracción

Método de extracción: Análisis de Componentes principales.

EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS CAPACIDAD EXPLICATIVA DEL MODELO

Total Variance Explained

3,506 26,966 26,966 3,506 26,966 26,9661,845 14,192 41,157 1,845 14,192 41,1571,264 9,725 50,883 1,264 9,725 50,8831,063 8,179 59,061 1,063 8,179 59,061

,904 6,953 66,014,821 6,317 72,331,766 5,894 78,225,590 4,538 82,762,523 4,022 86,784,495 3,810 90,594,460 3,536 94,130,420 3,230 97,361,343 2,639 100,000

Component12345678910111213

Total % of Variance Cumulative % Total % of Variance Cumulative %Initial Eigenvalues Extraction Sums of Squared Loadings

Extraction Method: Principal Component Analysis.

Número de Factores: Se extrajeron 4 factores con poder explicativo superior al de una variable (valor propio mayor que 1)

% de varianza explicada: El modelo a través de los 4 factores seleccionados explica un 59% de la varianza común entre las variables

EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO

Rotated Component Matrixa

,782 ,168 ,002 -,039

,753 ,142 ,045 ,112

,713 -,050 ,187 ,160

,644 ,127 ,068 ,129

,128 ,746 ,252 ,115

,441 ,680 -,069 -,048

,037 ,610 ,454 ,019

-,039 ,170 ,784 ,127

,302 -,087 ,649 -,057

-,003 ,276 ,536 -,028

,236 -,188 ,081 ,778

-,078 ,426 ,019 ,731

,491 ,046 -,087 ,543

Evito las grasas saturadas

Como en forma abundantefrutas y verduras

Bebo 2 litros de agua a diario

Controlo las calorías queconsumo

Uso productos para el cuidadode la piel

Tomo vitaminas

Me vacuno contra la influenza

Prefiero caminar que andar enauto

Voy al gimnasio

Practico deportes

Si tengo una dolencia oenfermedad voy al médico

Evito tomar medicamentosque no me han recetado

Chequeo el estado de saludde mi dentadura

1 2 3 4

Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 6 iterations.a.

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS Y DENOMINACION DE DIMENSIONES

Dimensión 1: Prácticas de autocuidado asociadas a la regulación de la alimentación Dimensión 2: Prácticas de autocuidado asociadas a la utilización de factores de protección Dimensión 3: Prácticas de autocuidado asociadas a la realización de actividades físicas Dimensión 4: Prácticas de autocuidado asociadas al uso recursos médicos

EJEMPLO ANÁLISIS ESCALA AUTOCUIDADO

DIMENSIONES DE LA

CONFIANZA EN

ORGANIZACIONES SOCIALES

Ejemplo Componentes Principales

ANTECEDENTES Fuente: Estudio Mundial de Valores Aplicación: Chile Periodo: 2005-2007 Muestra total: 992 casos Variables: I am going to name a number of organisations. For each one, could you tell me how much confidence you have in them: is it a great deal of confidence, quite a lot of confidence, not very much confidence or none at all? Confidence: Churches Confidence: Armed Forces Confidence: The Press Confidence: Labour Unions Confidence: The Police Confidence: Parliament Confidence: The Civil Services Confidence: Television Confidence: The Government Confidence: The Political Parties Confidence: Major Companies Confidence: The Environmental Protection Movement Confidence: The Women´s Movement Confidence: The United Nations Confidence: Charitable or humanitarian organizations

ANÁLISIS DE DATOS II – Análisis factorial

KMO: El valor de la prueba es alto por lo que podemos decir que existen interrelaciones entre las variables posibles de explicar a través de factores o dimensiones

Test de Bartlett´s: Existe diferencia significativa entre la matriz de correlaciones y una matriz de imagen, por ende hay suficientes interrelaciones entre las variables que pueden ser explicadas a través de factores

ANÁLISIS DE CONDICIONES DE APLICACIÓN

EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS DE LAS COMUNALIDADES

Comunalidades: Esta tabla da cuenta del porcentaje de varianza de cada una de las variables que es explicada por el modelo. Aquellas variables poco explicadas por el modelo podrían ser consideradas como alternativa de eliminación en caso de querer mejorar la bondad de ajuste del mismo. Este tipo de decisiones debe ser fundamentada. En este caso posibles candidatas a la eliminación podrían ser las variables “Confianza en las Iglesias”, “Confianza en los sindicatos”, “Confianza en las grades empresas” y “Confianza en las Naciones Unidas”.

EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS CAPACIDAD EXPLICATIVA DEL MODELO

Número de Factores: Se extrajeron 3 factores con poder explicativo superior al de una variable (valor propio mayor que 1)

% de varianza explicada: El modelo a través de los 3 factores seleccionados explica un 57% de la varianza común entre las variables

EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES

ANÁLISIS DE DATOS II – Análisis factorial

ANÁLISIS Y DENOMINACION DE DIMENSIONES

Dimensión 1: Confianza en organizaciones de interés público

Dimensión 2: Confianza en organizaciones que representan absorción de inseguridad

Dimensión 3: Confianza en organizaciones que representan demandas asociadas a riesgos de exclusión

EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES

ANÁLISIS DE DATOS II – Análisis factorial EJEMPLO ANÁLISIS CONFIANZA EN ORGANIZACIONES