Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
CEDEX - Curso de formacion estadıstica
Tecnicas de analisis multivariante
Andres M. Alonso
Departamento de EstadısticaUniversidad Carlos III de Madrid
Madrid - 19 de diciembre de 2005
2
Estructura
1. Introduccion.
2. Tecnicas de analisis multivariante - I.
Analisis de componentes principales.Analisis factorial.Escalado multidimensional.Analisis de correspondencias.
3. Tecnicas de analisis multivariante - II.
Analisis discriminante lineal.Analisis discriminante logıstico.Analisis cluster.Analisis de correlaciones canonicas.
Tecnicas de analisis multivariante - I Andres M. Alonso
3
Introduccion
Matriz de datos.
Vector de medias y matriz de covarianzas.
Proyecciones y combinaciones lineales.
Representacion grafica de los datos: matriz de diagramas de dispersion,diagramas de estrellas y de caras, diagramas de Andrews.
Tecnicas de analisis multivariante - I
4
Variable (vectorial o multivariante): es un conjunto de caracterısticas o rasgosde los elementos de una poblacion. Notacion: x.
Observacion o dato: valor de una variable multivariante en un elemento de lamuestra. Notacion: xi corresponde al elemento i.
Matriz de datos: representacion de los valores de una muestra de tamano n deuna variable vectorial x.
X =
x11 x12 · · · x1p
x21 x22 · · · x2p... ... ... ...
xn1 xn2 · · · xnp
=
x′1
x′2...
x′n
= [x(1)x(2) · · ·x(p)
],
donde: • xij es el valor de la variable escalar j en el individuo i.• x′
i es un vector fila 1 × p que representa los valores de las pvariables univariantes en el individuo i.• x(j) es un vector columna n× 1 que representa los valores dela variable escalar j en las n observaciones.
Tecnicas de analisis multivariante - I
5
Ejemplo 0. Rectangulos.
Ejemplo 5.9 del libro Analisis de Datos Multivariantes de Daniel Pena.Se tienen 6 observaciones bivariantes, cada observacion corresponde con unrectangulo y las variables univariantes son la longitud de la base y la altura delrectangulo. La matriz de datos es:
X =
2,0 2,0
1,5 0,5
0,7 0,5
0,5 1,5
0,5 0,7
0,7 0,7
.
Tecnicas de analisis multivariante - I
6
Ejemplo 1. Medidas de craneos de cocodrilos.
Codigo Descripcion
cl Longitud del craneo
cw Ancho del craneo
sw Ancho del hocico
sl Longitud del hocico
dcl Longitud dorsal del craneo
ow Ancho maximo orbital
oiw Ancho mınimo inter–orbital
ol Longitud maxima orbital
lcr Longitud del paladar post–orbital
wcr Ancho posterior del paladar craneal
wn Ancho maximo entre orificios nasales
Tecnicas de analisis multivariante - I
7
Ejemplo 2. Medidas o caracterısticas de automoviles.
Codigo Descripcionconsumo Consumo (l/100Km)motor Cilindrada en cccv Potencia (CV)peso Peso total (kg)acel Aceleracion 0 a 100 km/h (segundos)ano Ano del modeloorigen Paıs de origencilindr Numero de cilindros
Tecnicas de analisis multivariante - I
8
Ejemplo 3. Gases contaminantes
En la Tabla siguiente se presentan las 10 primeras observaciones de cincovariables de niveles de gases contaminantes (CO: X3, NO: X4, NO2: X5,O3: X6, y HC: X7) y dos variables relacionadas (Intensidad del viento: X1, yRadiacion solar: X2).
X1 X2 X3 X4 X5 X6 X7
8 98 7 2 12 8 27 107 4 3 9 5 37 103 4 3 5 6 310 88 5 2 8 15 46 91 4 2 8 10 38 90 5 2 12 12 49 84 7 4 12 15 55 72 6 4 21 14 47 82 5 1 11 11 38 64 5 2 13 9 4
Tecnicas de analisis multivariante - I
9
Ejemplo 4. Graficos de control de un proceso industrial.
XXXn×60: 60 Mediciones del proceso en n maquinas.
Tecnicas de analisis multivariante - I
10
Ejemplo 5. Esclerosis multiple.
En un estudio sobre esclerosis multiple se registran las respuestas del ojoizquierdo (I) y del ojo derecho (D) a dos estımulos visuales diferentes. Seconsideran dos grupos, 29 individuos que padecen esclerosis multiple y ungrupo control de 69 individuos que no la padecen. Se registran las siguientesvariables:X1: Edad,X2 = R1L+R1D,X3 = |R1L−R1D|,X4 = R2L+R2D,X5 = |R2L−R2D|.
X1 X2 X3 X4 X5 Paciente/Control
23 148.0 0.8 205.4 0.6 1
25 195.2 3.2 262.8 0.4 1
25 158.0 8.0 209.8 12.2 1
28 134.4 0.0 198.4 3.2 1
29 190.2 14.2 243.8 10.6 1
18 152.0 1.6 198.4 0.0 0
19 138.0 0.4 180.8 1.6 0
20 144.0 0.0 186.4 0.8 0
20 143.6 3.2 194.8 0.0 0
20 148.8 0.0 217.6 0.0 0
Tecnicas de analisis multivariante - I
11
Estadısticos univariantes y bivariantes
Media muestral de la variable xj:
xj =1n
n∑i=1
xij.
Varianza muestral de la variable xj:
s2j = sjj =1n
n∑i=1
(xij − xj)2.
Covarianza muestral entre las variables xj y xk:
sjk =1n
n∑i=1
(xij − xj)(xik − xk).
Tecnicas de analisis multivariante - I
12
Los estadısticos anteriores dependen de las unidades de medidas y por estosuelen utilizarse, como complemento en el resumen numerico, los siguientesestadısticos:
Coeficiente de variacion de la variable xj:
CVj =
√s2jx2
j
,
que podra calcularse siempre que xj sea distinta de cero.
Correlacion muestral entre las variables xj y xk:
rjk =sjk√sjjskk
=sjk
sjsk.
Tecnicas de analisis multivariante - I
13
Estadısticos multivariantes - I
Vector de medias muestral de la variable vectorial x:
x =1n
n∑i=1
xi =
x1
x2...xp
.x es un vector de dimension p × 1. Tambien podemos obtener el vector demedias de la siguiente expresion:
x =1nX′1,
donde 1 es un vector de unos de dimension n× 1.
Tecnicas de analisis multivariante - I
14
Estadısticos multivariantes - II
Matriz de varianzas y covarianzas de la variable vectorial x:
S =
s11 s12 · · · s1p
s21 s22 · · · s2p... ... . . . ...sp1 sp2 . . . spp
.S es una matriz cuadrada simetrica (sjk = skj) de dimension p × p. Tam-bien podemos obtener la matriz de varianzas y covarianzas de las siguientesexpresiones:
S =1n
n∑i=1
(xi − x)(xi − x)′ =1n(X − 1x′)′(X − 1x′) =
1nX′X,
donde la matriz X = X − 1x′ = X − 1n11′X recibe el nombre de
matriz de datos centrados.
Tecnicas de analisis multivariante - I
15
Estadısticos multivariantes - Ejemplo - I
Ejemplo 0. De las siguientes salidas de SPSS podemos obtener el vector demedias y las matrices de covarianzas y de correlaciones del conjunto de datosde rectangulos:
Estadísticos descriptivos
6 ,9833 ,62102 ,386
6 ,9833 ,62102 ,386
6
BASE
ALTURA
N válido (según lista)
N Media Desv. típ. Varianza
Vector de medias:
x =[0,98330,9833
].
Tecnicas de analisis multivariante - I
16
Estadısticos multivariantes - Ejemplo - II
Ejemplo 0.
Correlaciones
1 ,461
,386 ,178
6 6
,461 1
,178 ,386
6 6
Correlación de Pearson
Covarianza
N
Correlación de Pearson
Covarianza
N
BASE
ALTURA
BASE ALTURA
Matriz de covarianzas: S =[0,386 0,1780,178 0,386
].
Matriz de correlaciones: R =[1,000 0,4610,461 1,000
].
Tecnicas de analisis multivariante - I
17
Estadısticos multivariantes - Ejemplo - III
Estadísticos descriptivos
398 5 26 11,23 3,946406 66 7456 3179,73 1724,013400 46 230 104,83 38,522406 244 1713 989,51 283,277
406 8 25 15,50 2,821
406 70 82 75,92 3,749
405 1 3 1,57 ,798405 3 8 5,47 1,710391
Consumo (l/100Km)Cilindrada en ccPotencia (CV)
Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modelo
País de origenNúmero de cilindrosN válido (según lista)
N Mínimo Máximo Media Desv. típ.
La media y la varianza no tienen sentido en la variable “Pais de origen”.
El vector de medias es:
x =[11, 23 3179, 73 104, 83 989, 51 15, 50 75, 92 5, 47
]′.
Tecnicas de analisis multivariante - I
18
Estadısticos multivariantes - Ejemplo - IV
Correlaciones
1 ,837** ,836** ,837** -,490** -,554** ,842**
. ,000 ,000 ,000 ,000 ,000 ,000398 398 392 398 398 398 397,837** 1 ,897** ,933** -,545** -,370** ,952**,000 . ,000 ,000 ,000 ,000 ,000
398 406 400 406 406 406 405,836** ,897** 1 ,859** -,701** -,417** ,844**,000 ,000 . ,000 ,000 ,000 ,000392 400 400 400 400 400 399
,837** ,933** ,859** 1 -,415** -,296** ,895**,000 ,000 ,000 . ,000 ,000 ,000398 406 400 406 406 406 405
-,490** -,545** -,701** -,415** 1 ,314** -,528**
,000 ,000 ,000 ,000 . ,000 ,000398 406 400 406 406 406 405
-,554** -,370** -,417** -,296** ,314** 1 -,357**,000 ,000 ,000 ,000 ,000 . ,000
398 406 400 406 406 406 405,842** ,952** ,844** ,895** -,528** -,357** 1,000 ,000 ,000 ,000 ,000 ,000 .397 405 399 405 405 405 405
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)
NCorrelación de PearsonSig. (bilateral)N
Correlación de PearsonSig. (bilateral)NCorrelación de Pearson
Sig. (bilateral)NCorrelación de PearsonSig. (bilateral)
NCorrelación de PearsonSig. (bilateral)N
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleración 0 a 100km/h (segundos)
Año del modelo
Número de cilindros
Consumo(l/100Km)
Cilindrada encc Potencia (CV)
Peso total(kg)
Aceleración 0a 100 km/h(segundos)
Año delmodelo
Número decilindros
La correlación es significativa al nivel 0,01 (bilateral).**.
Tecnicas de analisis multivariante - I
19
Estadısticos multivariantes - Ejemplo - V
Correlaciones
1 -,101 -,194 -,270 -,110 -,254 ,156. ,523 ,219 ,084 ,489 ,105 ,324
42 42 42 42 42 42 42-,101 1 ,183 -,074 ,116 ,319* ,052
,523 . ,247 ,643 ,465 ,039 ,74442 42 42 42 42 42 42
-,194 ,183 1 ,502** ,557** ,411** ,166,219 ,247 . ,001 ,000 ,007 ,293
42 42 42 42 42 42 42-,270 -,074 ,502** 1 ,297 -,134 ,235,084 ,643 ,001 . ,056 ,398 ,135
42 42 42 42 42 42 42
-,110 ,116 ,557** ,297 1 ,167 ,448**,489 ,465 ,000 ,056 . ,292 ,003
42 42 42 42 42 42 42-,254 ,319* ,411** -,134 ,167 1 ,154
,105 ,039 ,007 ,398 ,292 . ,32942 42 42 42 42 42 42
,156 ,052 ,166 ,235 ,448** ,154 1,324 ,744 ,293 ,135 ,003 ,329 .
42 42 42 42 42 42 42
Correlación de PearsonSig. (bilateral)N
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)
NCorrelación de PearsonSig. (bilateral)N
Correlación de PearsonSig. (bilateral)NCorrelación de Pearson
Sig. (bilateral)NCorrelación de PearsonSig. (bilateral)
N
VIENTO
RADIACIO
CO
NO
NO2
O3
HC
VIENTO RADIACIO CO NO NO2 O3 HC
La correlación es significante al nivel 0,05 (bilateral).*.
La correlación es significativa al nivel 0,01 (bilateral).**.
Tecnicas de analisis multivariante - I
20
Proyecciones y combinaciones lineales
Una forma simple de resumir una variable vectorial, x, es construir unavariable univariante, y, que sea el resultado de una combinacion lineal de lascomponentes de x:
y = a′x,
donde a es un vector de constantes de dimension p× 1.
Si obtenemos las combinaciones lineales de todos los datos tendremos unvector y de dimension n× 1. y puede obtenerse de la siguiente expresion:
y = Xa,
donde X es la matriz de datos de dimension n× p.
Tecnicas de analisis multivariante - I
21
Ejemplo de rectangulos
Ejemplo 0. En el ejemplo de los rectangulos, una variable de interes es elperımetro del rectangulo, 2(base + altura), que podemos obtener mediante:
y = Xa =
2,0 2,01,5 0,50,7 0,50,5 1,50,5 0,70,7 0,7
[2,02,0
]
=
8,004,002,404,002,402,80
0 0.5 1 1.5 2
0
0.5
1
1.5
21
23
4
5 6
Tecnicas de analisis multivariante - I
22
Estandarizacion univariante
Estandarizacion univariante:
y = D−1/2(x − x),
donde D−1/2 es una matriz diagonal de dimension p × p con la siguienteexpresion:
D−1/2 =
s−11 0 · · · 00 s−1
2 · · · 0... ... . . . ...0 0 · · · s−1
p
.Propiedades:
La media de y es cero, i.e., y = 0.
La matriz de covarianzas de y es la matriz de correlaciones de x, i.e.,Sy = Rx.
Tecnicas de analisis multivariante - I
23
Estandarizacion multivariante
Estandarizacion multivariante: Si Sx es la matriz de covarianzas de x podemos
definir su raız cuadrada, S1/2x , por la siguiente condicion:
Sx = S1/2x (S1/2
x )′.
Esto nos permitira definir la estandarizacion multivariante mediante la expre-sion:
y = S−1/2x (x − x).
Propiedades:
La media de y es cero, i.e., y = 0.
La matriz de covarianzas de y es la matriz identidad de dimension p × p,i.e., Sy = I.
Tecnicas de analisis multivariante - I
24
Representacion grafica de datos
El objetivo que perseguimos con la representacion grafica de datos es identificar:
Relaciones (¿debil/fuerte o lineal/no lineal?).Grupos (¿los grupos o conglomerados observados corresponden a grupos ocategorıas conocidas?)Atıpicos.
Estudiaremos los siguientes graficos:
Matriz de diagramas de dispersion.Diagramas de estrellas.Diagramas de caras.Diagramas de Andrews.
Tecnicas de analisis multivariante - I
25
Matriz de diagramas de dispersion - I
Si tenemos p variables podemos con-struir p(p − 1)/2 diagramas de disper-sion diferentes tomando las variables porpares. Una manera de presentar estosgraficos es en forma de matriz.
Ejemplo 1. La Figura muestra la ma-triz de diagramas de dispersion en laque observamos, por ejemplo: (i) rela-ciones lineales entre la mayor parte delas variables, (ii) posible relacion no lin-eal entre las variables oiw y ow, y entreoiw y wn, (iii) posibles atıpicos en lavariable ow.
Gráfico
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
Gráfico
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
Tecnicas de analisis multivariante - I
26
Matriz de diagramas de dispersion - II
Ejemplo 1. (Zoom x2)
Gráfico
SL
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11 DCL
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
OW
cp8
cn9
am11
cp8
cn9
am11
cp8cn9
am11
cp8cn9
am11
cp8cn9
am11
OIW
cp8cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11OL
Tecnicas de analisis multivariante - I
27
Matriz de diagramas de dispersion - III
Ejemplo 1. (Zoom x8)
OIW
100806040200
OW
70
60
50
40
30
20
10
cp8
cn9
am11
am4
Tecnicas de analisis multivariante - I
28
Diagramas de estrellas - I
Cada dato se representara mediante unaestrella que tendra tantos rayos o ejes comovariables se deseen representar.
La longitud del rayo j-esimo en la estrellaque representa al datos i dependera delvalor de la variable j en ese dato, xij.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
cl
cw
sw
sl
dcl
owoiw
ol
lcr
wcr
wn
Tecnicas de analisis multivariante - I
29
Diagramas de estrellas - II
Ejemplo 1. 44 observaciones.
cn1
cn2
cn3
cn4
cn5
cn6
cn7
cn8
cn9
cp1
cp2
cp3
cp4
cp5
cp6
cp7
cp8
ot1
ot2
ot3
ot4
ot5
ot6
ot7
ot8
ot9
ot10
ot11
ot22
ot23
ot24
ot25
ot26
am1
am2
am3
am4
am5
am6
am7
am8
am9
am10
am11
Tecnicas de analisis multivariante - I
30
Diagramas de estrellas - III
Ejemplo 1. Medias por especies.
Crocodylus niloticus
Crocodylus porosus
Osteolaemus tetraspis
Alligator mississippiensis
Tecnicas de analisis multivariante - I
31
Diagramas de caras
Caras de Chernoff: Cada dato se rep-resentara mediante una cara. A cadavariable se asocia un rasgo o carac-terıstica de una cara, por ejemplo:(1) area de la cara, (2) forma de lacara, (3) longitud de la nariz, (4)localizacion de la boca, (5) curva dela sonrisa (6) grosor de la boca, (7)localizacion, separacion, inclinacion,forma y grosor de los ojos, etcetera.
Crocodylus niloticus
Crocodylus porosus
Osteolaemus tetraspis
Alligator mississippiensis
Tecnicas de analisis multivariante - I
32
Diagramas de Andrews - I
Los diagramas de Andrews representanal vector de observaciones x′
i =[xi1 xi2 · · · xip] mediante el grafico de lasiguiente funcion:
fi(t) = xi1√2+ xi2 sin(t) + xi3 cos(t)+
+xi4 sin(2t) + xi5 cos(2t) + · · ·
con −π ≤ t ≤ π.
Es claro que la funcion anterior cambiasi cambiamos el orden de las variables,por lo que se recomienda explorar distintosordenes para decidir cual representa mejorlos datos.
-4 -2 0 2 40
200
400
600
800
1000
Tecnicas de analisis multivariante - I
33
Diagramas de Andrews - II
Ejemplo 1.
-4 -2 0 2 40
200
400
600
800
1000
-4 -2 0 2 40
50
100
150
200
250
300
350
400
-4 -2 0 2 4-1000
-500
0
500
1000
-4 -2 0 2 4-200
-100
0
100
200
300
Tecnicas de analisis multivariante - I
34
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
35
Tecnicas de analisis para la reduccion de la dimension
Analisis de componentes principales:
Interpretacion geometrica.
Obtencion y propiedades de las componentes principales.
Criterios para elegir el numero de componentes.
Interpretacion de las componentes.
Tecnicas de analisis multivariante - I
36
Analisis de componentes principales
Al estudiar una matriz de datos X, es posible que encontremos correlacionesaltas (en valor absoluto) entre varias variables. El caso mas extremo es queuna de las variables sea combinacion lineal de las restantes. Entonces,el investigador puede preguntarse si no serıa mas adecuado estudiar unsubconjunto de las variables originales o combinaciones lineales de estas.
Tambien el numero de variables, p, puede ser grande, lo que dificulta suanalisis conjunto y en tal caso el trabajo del investigador se facilitarıasi existiese un conjunto de dimension menor (r < p) de combinacioneslineales que describiera la matriz de datos X con una “pequena perdida deinformacion”.
⇓
Reduccion de la dimension
Tecnicas de analisis multivariante - I
37
El analisis de componentes principales tiene como objetivo lareduccion de la dimension de p variables preservando en lo posible la es-tructura de varianzas presente en la matriz X. Se intentara explicar la mayorvariabilidad posible con un numero r < p de combinaciones lineales de lasvariables originales. Ası:
La primera componente principal sera la combinacion lineal z1 = Xa1 quetenga varianza maxima.
La segunda componente principal sera la combinacion lineal z2 = Xa2 quetenga varianza maxima y que sea incorrelada con z1.
Las siguientes componentes se definen de manera similar, es decir, se intentaobtener la maxima varianza con combinaciones lineales que sean incorreladascon las componentes previamente calculadas.
¿Cuantas componentes se necesitan para explicar el 100% de la variabilidad?
Tecnicas de analisis multivariante - I
38
Interpretacion geometrica
Tecnicas de analisis multivariante - I
39
Obtencion de las componentes principales
Supuesto inicial: El vector de medias cumple que x = 0.
Obtencion de la primera componente principal: z1 = Xa1.
Varianza de z1: σ2z1= a′
1Sa1, donde S = 1nX′X es la matriz de covarianzas de
x.
¿Que problema debemos resolver para obtener z1?
Maximizar {a′1Sa1}
s.a. ||a1|| = 1.
Tecnicas de analisis multivariante - I
40
Solucion:
Mediante los multiplicadores de Lagrange:
L = a′1Sa1 − λ(a′
1a1 − 1).
Derivamos respecto de a1 e igualamos la derivada a 0:
∂L
∂a1= 2Sa1 − 2λa1 = 0.
La solucion cumple que: Sa1 = λa1.
El vector, a1, que define la primera componente principal es un vectorpropio de la matriz de covarianzas, S.
Pero, σ2z1= a′
1Sa1 = λa′1a1 = λ, Entonces:
El vector, a1, que define la primera componente principal es el vectorpropio asociado al mayor valor propio de la matriz de covarianzas, S.
Tecnicas de analisis multivariante - I
41
Obtencion de la segunda componente principal: z2 = Xa2.
Problema a resolver:Maximizar {a′
2Sa2}
s.a.{ ||a2|| = 1.
a′1a2 = 0.
Que equivale a:
L = a′2Sa2 − λ1(a′
2a2 − 1) − λ2a′1a2.
Derivamos respecto de a2 e igualamos la derivada a 0:
∂L
∂a2= 2Sa2 − 2λ1a2 − λ2a1 = 0.
Tecnicas de analisis multivariante - I
42
Obtencion de la segunda componente principal:
Premultiplicando la expresion anterior por a′1 obtenemos:
2a′1Sa2 − 2λ1a′
1a2 − λ2a′1a1 = 0 + 0 + λ2 = 0,
es decir λ2 = 0. Por lo tanto:
2Sa2 = 2λ1a2.
El vector, a2, que define la segunda componente principal es el vec-tor propio asociado al segundo mayor valor propio de la matriz decovarianzas, S.
Tecnicas de analisis multivariante - I
43
Componentes principales - Ejemplo
Ejemplo 0. En el tema anterior calculamos la matriz de covarianzas de esteejemplo:
S =[0,386 0,1780,178 0,386
].
y sus valores y vectores propios:
λ1 = 0,5633, a1 =[0,70710,7071
], y λ2 = 0,2080, a2 =
[0,7071
−0,7071].
De manera que las componentes principales son:
z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.
Tecnicas de analisis multivariante - I
44
Componentes principales - Ejemplo con SPSS - I
Ejemplo 0. Resultados utilizando SPSS:
Matriz de componentes
,531 -,322 ,855 -,519
,531 ,322 ,855 ,519
BASE
ALTURA
1 2
Componente
1 2
Componente
Bruta Reescalada
Comp. bruta:
b1 =
√λ1a1 =
√0,5633
[0,70710,7071
]=
[0,53070,5307
]
b2 =√λ2a2 =
√0,2080
[0,7071
−0,7071]=
[0,3224
−0,3224].
Tecnicas de analisis multivariante - I
45
Componentes principales - Ejemplo con SPSS - II
Ejemplo 0.
Matriz de componentes
,531 -,322 ,855 -,519
,531 ,322 ,855 ,519
BASE
ALTURA
1 2
Componente
1 2
Componente
Bruta Reescalada
Comp. re-escalada:
c1 =
[b11/σ1
b12/σ2
]=
[0,5307/0,6210,5307/0,621
]=
[0,85510,8551
]
c2 =[b21/σ1
b22/σ2
]=
[0,3224/0,621
−0,3224/0,621]=
[0,5191
−0,5191].
Tecnicas de analisis multivariante - I
46
Componentes principales - Ejemplo - IIIMatriz de componentesa
3,404 ,736 -,523 -1,137 ,095 1,2051714,500 -15,221 ,271 ,002 ,001 ,000
34,415 2,310 -16,596 ,175 ,146 -,027264,193 98,475 ,422 -,008 -,016 -,010
-1,507 ,676 1,445 -,183 1,659 -,095
-1,347 ,419 ,785 3,274 ,118 ,4151,620 ,029 ,054 -,010 -,036 ,068
Consumo (l/100Km)
Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros
1 2 3 4 5 6Componente
Bruta
Método de extracción: Análisis de componentes principales.
Matriz de componentesa
,874 ,189 -,134 -,292 ,024 ,3101,000 -,009 ,000 ,000 ,000 ,000
,899 ,060 -,434 ,005 ,004 -,001,937 ,349 ,001 ,000 ,000 ,000
-,546 ,245 ,524 -,066 ,601 -,034
-,366 ,114 ,214 ,891 ,032 ,113,951 ,017 ,031 -,006 -,021 ,040
Consumo (l/100Km)
Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros
1 2 3 4 5 6ComponenteReescalada
Método de extracción: Análisis de componentes principales.
6 componentes extraídosa.
Tecnicas de analisis multivariante - I
47
Propiedades de las componentes principales - I
1. Conservan la variabilidad inicial: la suma de las varianzas de las p compo-nentes principales es igual a la de las p variables originales:∑p
j=1σ2
xj=
∑p
j=1λj =
∑p
j=1σ2
zj.
2. La proporcion de variabilidad explicada por una componente es igual al valorpropio asociado dividido por la suma de los valores propios de S:
var(σ2zh) =
λh∑pj=1 λj
.
3. Las covarianzas entre la componente principal zh y la variable x es:
Cov(zh,x) = λhah,
donde λh es el h-esimo valor propio de S y ah su vector propio asociado.
Tecnicas de analisis multivariante - I
48
Propiedades de las componentes principales - II
4. La correlacion entre la componente principal zh y la variable univariante xk
es:
Corr(zh, xk) =λhakh√λhs2k
= akh
√λh
sk.
5. La estandarizacion de las componentes principales, Z, permite obtener laestandarizacion multivariante de la matriz de datos, X:
Zu = ZD−1/2 = XAD−1/2,
y recordamos que Ym = XAD−1/2A′. Por lo tanto, Zu y Ym son “iguales”salvo rotaciones.
Tecnicas de analisis multivariante - I
49
Analisis normado de componentes principales
¿Como es la primera componente de S =
100 0 00 2 10 1 2
?Respuesta: a′
1 =[1 0 0
].
Problema: Una variable con “mayor” varianza que el resto de las variables
tendra asociada la primera componente principal. � Ejemplo 2
Solucion: Obtener las componentes principales de la matriz de correlaciones.
R =
1 0 00 1 0,50 0,5 1
Cuyos valores y vectores propios son:
λ1 = 1,5, a′1 =
[0 1/
√2 1/
√2
],
λ2 = 1,0, a′2 =
[1 0 0
],
λ3 = 0,5, a′3 =
[0 1/
√2 −1/√2 ]
.
Tecnicas de analisis multivariante - I
50
Propiedades de las componentes principales - III
6. La proporcion de variabilidad explicada por una componente normada zRh
es:
var(σ2zRh) =
λRh∑p
j=1 λRj
=λR
h
p,
donde λRh es el h-esimo valor propio de la matriz R.
7. Las covarianzas entre la componente principal normada zRh y la variable
vectorial yu (estandarizacion univariante de x) es:
Cov(zRh ,yu) = λR
h aRh ,
donde λRh es el h-esimo valor propio de R y aR
h su vector propio asociado.
8. La correlacion entre la componente principal zRh y la variable univariante yk
(estandarizacion univariante de xk) es:
Corr(zRh , yk) = aR
kh
√λR
h .
Tecnicas de analisis multivariante - I
51
Componentes principales normadas - Ejemplo- I
Observacion: En general, los valores y vectores propios de S y de R no coin-ciden. Esto hace que los resultados del analisis de componentes principalesy de componentes principales normadas sean, en general, diferentes.
Ejemplo 0. Obtenemos los valores y vectores propios de la matriz de correla-
ciones, R =[1,000 0,4610,461 1,000
]:
λR1 = 1,4610, aR
1 =[0,70710,7071
], y λR
2 = 0,5390, aR2 =
[0,7071
−0,7071].
Entonces, las componentes principales son:
{zR1 = 0,7071 y1 + 0,7071 y2,zR2 = 0,7071 y1 − 0,7071 y2.
En este caso los vectores propios de S y R coinciden.
Tecnicas de analisis multivariante - I
52
Componentes principales normadas - Ejemplo - II
Ejemplo 0. Resultados utilizando SPSS:
Matriz de componentes
,855 ,519
,855 -,519
BASE
ALTURA
1 2
Componente
Componentes:
a1 = 1√
λ1b1 = 1√
1,4610
[0,8550,855
]≈
[0,70730,7073
]
a2 = 1√λ2
b2 = 1√0,539
[0,519
−0,519]≈
[0,7069
−0,7069]
Tecnicas de analisis multivariante - I
53
Componentes principales normadas - Ejemplo - III
Matriz de componentesa
,936 -,088 ,195 ,186 -,198 ,064,964 ,161 ,075 -,115 ,052 -,027,951 ,041 -,150 ,148 ,187 ,114
,928 ,233 ,205 ,091 ,032 -,173
-,648 ,120 ,747 ,018 ,072 ,053
-,499 ,845 -,172 ,063 -,047 ,031,934 ,184 ,103 -,262 -,054 ,073
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2 3 4 5 6Componente
Método de extracción: Análisis de componentes principales.
6 componentes extraídosa.
Tecnicas de analisis multivariante - I
54
Criterios de reduccion de la dimension
Grafico de sedimentacion o de “codo”: Obtener el grafico de los valorespropios, λi, frente a i. Buscar un codo en el grafico, i.e., un punto a partirdel cual los valores propios son aproximadamente iguales.
Criterio de la varianza explicada: Seleccionar el numero de componentesnecesario para explicar una proporcion predeterminada de la varianza, porejemplo, el 80% o el 90%.
Criterio del valor propio: Seleccionar los componentes principales asociadosa valores propios superiores a un valor prefijado, por ejemplo, la varianzamedia:∑p
j=1 λj/p en componentes principales,∑pj=1 λ
Rj /p = 1 en componentes principales normadas.
Tecnicas de analisis multivariante - I
55
Reduccion de la dimension - Ejemplo - I
Ejemplo 1. Analisis de componentes principales normadas.
El criterio de la variabilidad expli-cada (> 90%) sugiere utilizar unacomponente.
El criterio del valor propio (> 1)sugiere utilizar una componente.
10,326 93,871 93,871
,383 3,480 97,352
,114 1,038 98,390
6,490E-02 ,590 98,980
4,130E-02 ,375 99,355
3,910E-02 ,355 99,711
1,965E-02 ,179 99,889
7,515E-03 6,832E-02 99,958
3,306E-03 3,005E-02 99,988
1,051E-03 9,556E-03 99,997
3,090E-04 2,809E-03 100,000
Componente1
2
3
4
5
6
7
8
9
10
11
Total% de lavarianza % acumulado
Autovalores iniciales
Tecnicas de analisis multivariante - I
56
Reduccion de la dimension - Ejemplo - II
Ejemplo 1.
Número de componente
1110987654321
Autova
lor
12
10
8
6
4
2
0
• El criterio del grafico de sedimentacion sugiere utilizar una componente.
Tecnicas de analisis multivariante - I
57
Reduccion de la dimension - Ejemplo - III
Ejemplo 2. Analisis de componentes principales.Varianza total explicada
3010511,5 99,661 99,661 3010511,5 99,661 99,6619935,469 ,329 99,990
278,648 ,009 99,99912,078 ,000 100,000
2,798 9,263E-05 100,0001,639 5,426E-05 100,000
,268 8,878E-06 100,000
Componente1234
567
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracción
Método de extracción: Análisis de Componentes principales.
Tecnicas de analisis multivariante - I
58
Reduccion de la dimension - Ejemplo - IV
Ejemplo 2. Analisis de componentes principales normadas.Varianza total explicada
5,112 73,024 73,024 5,112 73,024 73,024,852 12,168 85,192,706 10,085 95,276,151 2,158 97,434
,088 1,264 98,698,057 ,813 99,511,034 ,489 100,000
Componente1234
567
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracción
Método de extracción: Análisis de Componentes principales.
Tecnicas de analisis multivariante - I
59
Reduccion de la dimension - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.Gráfico de sedimentación
Número de componente
7654321
Autov
alor
6
5
4
3
2
1
0
Tecnicas de analisis multivariante - I
60
Interpretacion de las componentes - Ejemplo - I
Ejemplo 0. Las componentes principales:
{z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.
La primera componente, que explica el 73.03% de la variabilidad total,asigna igual peso a las variables base y altura, x1 y x2. Si re–escribimosesta componente como: z1 = 0,7071
2 (2x1+2x2) podemos interpretarla comouna ponderacion del perımetro del rectangulo.
Si ordenamos los datos segun esa componente. obtenemos:
Es decir, los rectangulos quedan ordenados segun su “tamano”.
Tecnicas de analisis multivariante - I
61
Interpretacion de las componentes - Ejemplo- II
Ejemplo 0. Las componentes principales:
{z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.
La segunda componente, que explica el 26.97% de la variabilidad total,asigna igual peso a la base y la altura pero con signo diferente. Ası, porejemplo, un valor de z2 positivo correspondera a un rectangulo con masbase que altura.
Si ordenamos los datos segun esa componente, obtenemos:
Es decir, los rectangulos quedan ordenados segun su “forma”.
Tecnicas de analisis multivariante - I
62
Interpretacion de las componentes - Casos Particulares - I
Componentes principales de una matriz diagonal:ΣΣΣ =
σ2
1 0 · · · 00 σ2
2 · · · 0... ... . . . ...0 0 · · · σ2
p
.Entonces, los pares valor–vector propio son:
σ21 y a1 =
10...0
, σ22 y a2 =
01...0
, · · · , σ2p y ap =
00...1
.
Las componentes principales en matrices diagonales son las variables origi-nales.
En una matriz de covarianzas no necesariamente diagonal, si existe unavariable, xk, incorrelada con el resto de las variables, entonces habra unacomponente principal que dara peso 1 a la variable xk y 0 al resto.
Tecnicas de analisis multivariante - I
63
Interpretacion de las componentes - Casos Particulares - II
Componentes principales de una matriz equicorrelada:R =
1 ρ · · · ρρ 1 · · · ρ... ... . . . ...ρ ρ · · · 1
Entonces, los pares de valor–vector propio son:
λ1 = 1 + (p− 1)ρ a′1 =
[1√p,
1√p,
1√p,
1√p, . . . ,
1√p
],
λ2 = 1− ρ a′2 =
[1√1×2
, −1√1×2
, 0, 0, . . . , 0],
λ3 = 1− ρ a′3 =
[1√2×3
, 1√2×3
, −2√2×3
, 0, . . . , 0],
... ...
λp = 1− ρ a′p =
[1√
(p−1)p, 1√
(p−1)p, 1√
(p−1)p, 1√
(p−1)p, . . . , −(p−1)√
(p−1)p
].
Tecnicas de analisis multivariante - I
64
Interpretacion de las componentes - Casos Particulares - III
Componentes principales de una matriz equicorrelada:
Si ρ > 0, entonces el mayor valor propio es λ1 = 1 + (p − 1)ρ y su vectorpropio asociado a1 define una componente principal que asigna igual pesoa todas las variables: z1 = 1√
p
∑pj=1 xj.
Si ρ > 0, entonces la primera componente principal explica una proporcion1+(p−1)ρ
p = ρ+ 1−ρp . Por ejemplo, si ρ = 0,9 y p = 10, entonces la primera
componente explica el 90.01% de la variabilidad total.
Si ρ es cercano a 1, entonces las restantes p− 1 componentes, explican unapequena proporcion de la variabilidad total.
Tecnicas de analisis multivariante - I
65
Interpretacion de las componentes - Ejemplo - I
Ejemplo 1. La matriz de correlaciones de este ejemplo es aproximadamenteequicorrelada:
1,000 ,991 ,976 ,997 ,999 ,821 ,963 ,929 ,962 ,984 ,900
,991 1,000 ,987 ,986 ,989 ,840 ,965 ,934 ,968 ,993 ,914
,976 ,987 1,000 ,969 ,974 ,859 ,952 ,950 ,956 ,985 ,941
,997 ,986 ,969 1,000 ,998 ,796 ,958 ,917 ,958 ,978 ,890
,999 ,989 ,974 ,998 1,000 ,824 ,961 ,930 ,964 ,983 ,900
,821 ,840 ,859 ,796 ,824 1,000 ,766 ,906 ,858 ,861 ,893
,963 ,965 ,952 ,958 ,961 ,766 1,000 ,895 ,932 ,958 ,833
,929 ,934 ,950 ,917 ,930 ,906 ,895 1,000 ,922 ,945 ,954
,962 ,968 ,956 ,958 ,964 ,858 ,932 ,922 1,000 ,974 ,886
,984 ,993 ,985 ,978 ,983 ,861 ,958 ,945 ,974 1,000 ,908
,900 ,914 ,941 ,890 ,900 ,893 ,833 ,954 ,886 ,908 1,000
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
CL CW SW SL DCL OW OIW OL LCR WCR WN
Tecnicas de analisis multivariante - I
66
Interpretacion de las componentes - Ejemplo - II
Ejemplo 1.
La primera componente principalestara definida por un vectoraproximadamente igual a a′
1 =[1√11, 1√
11, . . . , 1√
11
].
Recordemos que en SPSS aparece√λ1a1, por tanto los coeficientes seran
aproximadamente iguales a√
10,326√11≈ 0,969.
Matriz de componentes
,989
,992
,991
,982
,988
,882
,957
,964
,975
,993
,940
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
1
Componente
Tecnicas de analisis multivariante - I
67
Interpretacion de las componentes - Ejemplo - III
Ejemplo 1. Diagrama de caja de la primera componente.
12578N =
Osteolaemus_tetraspi
Crocodylus_porosus
Crocodylus_niloticus
Alligator_mississipp
3
2
1
0
-1
-2
ot26ot25
am1
Tecnicas de analisis multivariante - I
68
Interpretacion de las componentes - Ejemplo - IV
Ejemplo 1. Matriz de diagramas de dispersion de las tres primeras CP.
CP1
4 4
44 44 44444 4
3
3
3
3
3
2
2
2
2
2
2
2
1
11
11
1
1
1
44
4 444 4 4444 4
3
3
3
3
3
2
2
2
2
2
2
2
1
11
11
1
1
1
4
4
4
4
4
4
4
444
4
4
3
3
3
3
3
2
22
2
22
2
1
1
1
1
1
1
1
1
CP2
4
4
4
4
4
4
4
444
4
4
3
3
3
3
3
2
2 2
2
22
2
1
1
1
1
1
1
1
1
44
4
4
4
4
4
4
4
44
43
3
3
3
3
2
22
2
2
22
1
1
1
1
1
1
11
4 4
4
4
4
4
4
4
4
44
43
3
3
3
3
2
22
2
2
22
1
1
1
1
1
1
11
CP3
Tecnicas de analisis multivariante - I
69
Interpretacion de las componentes - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.Matriz de componentesa
,936 -,088 ,195,964 ,161 ,075,951 ,041 -,150
,928 ,233 ,205
-,648 ,120 ,747
-,499 ,845 -,172,934 ,184 ,103
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2 3Componente
Método de extracción: Análisis de componentes principales.
3 componentes extraídosa.
Tecnicas de analisis multivariante - I
70
Interpretacion de las componentes - Ejemplo - VI
Ejemplo 2. Analisis de componentes principales normadas.
CP 1
CP 2
CP 3
País de origen
Japón
Europa
EE.UU.
Tecnicas de analisis multivariante - I
71
Interpretacion de las componentes - Ejemplo - VII
Ejemplo 5. Esclerosis multiple.
2,917 58,342 58,342
1,227 24,534 82,876
,703 14,056 96,932
9,095E-02 1,819 98,751
6,245E-02 1,249 100,000
Componente1
2
3
4
5
Total% de lavarianza % acumulado
Autovalores iniciales Matriz de componentes
,299 ,734
,878 ,316
,862 -,433
,852 ,336
,766 -,535
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Componente
La primera componente da mayor peso a las variables relacionadas con lasrespuestas a estımulos visuales, y menor peso a la edad.La segunda componente da mayor peso a la edad, y por otra parte con-trapone las variables de tipo respuesta conjunta y respuesta diferencial.
Tecnicas de analisis multivariante - I
72
Interpretacion de las componentes - Ejemplo - VIIII
Ejemplo 5. Esclerosis multiple.
REGR factor score 2 for analysis 1
420-2-4-6
REGR fa
ctor sco
re 1 f
or analy
sis 1
6
5
4
3
2
1
0
-1
-2
1
11
1
1
1
1
11
1 1
1
1
1
1
1
1
11
1
1
1
1 1
1
1
1
1
1
Tecnicas de analisis multivariante - I
73
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
74
Tecnicas de analisis para la reduccion de la dimension
Analisis Factorial:
Modelo factorial.
Estimacion del modelo factorial.
Contraste del modelo factorial.
Rotaciones y puntuaciones factoriales.
Tecnicas de analisis multivariante - I
75
Analisis Factorial
El objetivo del analisis factorial es representar la estructura de covarianzapresente en las variables originales mediante un numero pequeno de variableslatentes o no observadas que denominaremos factores.
Modelo de analisis factorial: Sea x el vector de p variables escalares y sean µµµy ΣΣΣ su esperanza y su matriz de covarianzas. El modelo expresa a x comofuncion dem factores comunes, f = [f1, f2, . . . , fm], y de p factores especıficos,u = [u1, u2, . . . , up]:
x1 = µ1 + λ11f1 + λ12f2 + · · ·+ λ1mfm + u1,x2 = µ2 + λ21f1 + λ22f2 + · · ·+ λ2mfm + u2,... ...xp = µp + λp1f1 + λp2f2 + · · ·+ λpmfm + up.
Tecnicas de analisis multivariante - I
76
Analisis Factorial - Modelo
Modelo de analisis factorial en notacion matricial:
x = µµµ+ΛΛΛf + u,
donde ΛΛΛ =
λ11 λ12 · · · λ1m
λ21 λ22 · · · λ2m... ... ... ...λp1 λp2 · · · λpm
es una matriz de dimension p ×m de
constantes desconocidas que denominaremos matriz de carga.
El elemento λkj recibe el nombre de saturacion de la variable xk en el factorfj.
Tecnicas de analisis multivariante - I
77
Analisis Factorial - Supuestos
El vector de factores comunes tiene media cero y matriz de covarianzas laidentidad, i.e. E [f ] = 0 y E [ff ′] = I. Notemos que esta hipotesis implicaque los factores comunes son incorrelados y estandarizados.
El vector de factores especıficos tiene media cero y matriz de covarianzas
diagonal, i.e. E [u] = 0 y E [uu′] = ΨΨΨ =
ψ2
1 0 · · · 00 ψ2
2 · · · 0... ... . . . ...0 0 . . . ψ2
p
. Notemos
que esta hipotesis implica que los factores especıficos son incorrelados.
Los vectores f y u son incorrelados, i.e. E [fu′] = 0.
Tecnicas de analisis multivariante - I
78
Analisis Factorial - Propiedades - I
1. La matriz de covarianzas de la variable vectorial x verifica que:
ΣΣΣ = ΛΛΛΛΛΛ′ +ΨΨΨ.
Si nos centramos en la diagonal de la matriz ΣΣΣ, tenemos que:
σjj = σ2j =
∑m
k=1λ2
jk + ψ2j ,
donde h2j =
∑mk=1 λ
2jk recibe el nombre de comunalidad o variabilidad
comun y ψ2j recibe el nombre de variabilidad especıfica.
Observacion: En el analisis de componentes principales, la matriz ΣΣΣse descompone en el producto ADA′ que podemos escribir comoAD1/2(AD1/2)′. En SPSS, el analisis de componentes principales puedeobtenerse como un “caso particular” de analisis factorial en el que lamatriz de carga ΛΛΛ = AD1/2.
Tecnicas de analisis multivariante - I
79
Analisis Factorial - Propiedades - II
2. La covarianza entre la variable vectorial, x, y los factores, f , verifica que:
cov(x, f) = E[(x −µµµ)f ′] = ΛΛΛ,
es decir, el elemento λkj de la matriz de carga es la covarianza entre lavariable original xk y el factor fj.
3. No unicidad de la solucion factorial: Si tomamos una matriz ortogonal Hde dimension m×m, es decir HH′ = I, entonces:
x = µµµ+ΛΛΛf + u= µµµ+ (ΛΛΛH)(H′f) + u,
y esto implica que ΛΛΛH y H′f tambien satisfacen el modelo factorial.
Tecnicas de analisis multivariante - I
80
Estimacion del modelo factorial - I
Estimacion por el metodo de las componentes principales: Sea S la matriz decovarianzas de dimension p×p, y sean (d1,a1), (d2,a2), . . . , (dp,ap) sus paresde valor–vector propio que supondremos ordenados d1 ≥ d2 ≥ · · · ≥ dp ≥ 0.Sea m < p el numero de factores comunes en el modelo factorial, entonces:
La estimacion de la matriz de carga es: ΛΛΛ =[√
d1a1...√d2a2
... · · · ...√dmam
].
La estimacion de las varianzas especıficas es: ψ2j = s2j −
∑mk=1 λ
2jm, donde
λjm es el elemento de la fila j y columna m de la matriz estimada ΛΛΛ.
La estimacion de las comunalidades es: h2j =
∑mk=1 λ
2jk.
El metodo de estimacion basado en componentes principales tiene la ventajade que siempre converge a una solucion.
Tecnicas de analisis multivariante - I
81
Estimacion del modelo factorial - II
Estimacion maximo verosımil: Si f ∼ Nm(0, I) y u ∼ Np(0,ΨΨΨ), entonces lavariable vectorial x seguira una normal multivariante y podemos escribir sufuncion de verosimilitud:
L =∏n
i=1|ΣΣΣ|−1/2(2π)−p/2 exp
(−(1/2)(xi −µµµ)′ΣΣΣ−1(xi −µµµ)).
Si sustituimos, en la expresion anterior, µµµ por su estimador x y ΣΣΣ por ΛΛΛΛΛΛ′+ΨΨΨ,no es difıcil comprobar que:
L = |ΛΛΛΛΛΛ′ +ΨΨΨ|−n/2(2π)−np/2 exp(−(n/2)tr((ΛΛΛΛΛΛ′ +ΨΨΨ)−1S)
).
Los estimadores maximo verosımiles, ΛΛΛ, ΨΨΨ y µµµ = x, maximizan L sujeto
a que ΛΛΛ′ΨΨΨ
−1ΛΛΛ sea diagonal. Esta condicion se impone para solventar el
problema de la no unicidad de la solucion.
Tecnicas de analisis multivariante - I
82
Contraste del modelo factorial
Contraste de razon de verosimilitudes: Nos interesa contrastar si el modelofactorial es adecuado:
H0 : ΣΣΣ = ΛΛΛΛΛΛ′ +ΨΨΨ,H1 : ΣΣΣ �= ΛΛΛΛΛΛ′ +ΨΨΨ.
Podemos utilizar el estadıstico obtenido por razon de verosimilitudes:
−2 lnΛ = n ln|ΛΛΛΛΛΛ′
+ ΨΨΨ||S| ,
donde ΛΛΛ y ΨΨΨ son los estimadores maximo verosımil bajo H0. Bajo H0, elestadıstico se distribuye como una χ2
((p−m)2−p−m)/2, y por tanto rechazaremos
la hipotesis nula cuando:
n ln|ΛΛΛΛΛΛ′
+ ΨΨΨ||S| > χ2
((p−m)2−p−m)/2(α).
Tecnicas de analisis multivariante - I
83
Estimacion y contraste - Ejemplo - I
Ejemplo 5.
Estimacion
Matriz de componentes
,299 ,734
,878 ,316
,862 -,433
,852 ,336
,766 -,535
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Componente
Matriz factoriala
,200 ,290
,886 ,462
,886 -,462
,813 ,435
,742 -,538
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Método de extracción: Máxima verosimilitud.
2 factores extraídos. Requeridas 10 iteraciones.a.
Contraste
Modelo con un factor
157,278 5 ,000
Chi-cuadrado gl Sig.Modelo con dos factores
,891 1 ,345
Chi-cuadrado gl Sig.
Tecnicas de analisis multivariante - I
84
Estimacion y contraste - Ejemplo - II
Ejemplo 2.
Matriz factoriala
,895,989,911
,945
-,554
-,384,955
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1Factor
Método de extracción: Máxima verosimilitud.
1 factores extraídos. Requeridas 6 iteraciones.a.
Prueba de la bondad de ajuste
521,732 14 ,000Chi-cuadrado gl Sig.
Matriz factoriala
,501 ,751,573 ,800,720 ,613
,451 ,848
-,999 ,030
-,304 -,256,535 ,787
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2Factor
Método de extracción: Máxima verosimilitud.
2 factores extraídos. Requeridas 7 iteraciones.a.
Prueba de la bondad de ajuste
296,893 8 ,000Chi-cuadrado gl Sig.
Tecnicas de analisis multivariante - I
85
Estimacion y contraste - Ejemplo - III
Ejemplo 2.
Matriz factoriala
,871 ,489 -,029,843 ,307 ,422,913 ,132 ,208
,781 ,439 ,337
-,846 ,532 ,006
-,493 -,231 ,312,804 ,314 ,412
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2 3Factor
Método de extracción: Máxima verosimilitud.
3 factores extraídos. Requeridas 6 iteraciones.a.
Prueba de la bondad de ajuste
96,174 3 ,000Chi-cuadrado gl Sig.
Advertencia
El número de grados de libertad (-1) no es positivo. El análisis factorial podría noser apropiado.
Matriz factoriala
Se han intentado extraer 4 factores. En la iteración 25, el Hessianno ha sido definido positivo. Se ha terminado la extracción.
a.
Tecnicas de analisis multivariante - I
86
Estimacion y contraste - Ejemplo - IV
Ejemplo 2.Correlaciones reproducidas
,999b ,873 ,854 ,885 -,478 -,552 ,842
,873 ,984b ,898 ,936 -,548 -,355 ,948,854 ,898 ,894b ,841 -,701 -,416 ,861,885 ,936 ,841 ,916b -,425 -,381 ,905
-,478 -,548 -,701 -,425 ,999b
,296 -,511
-,552 -,355 -,416 -,381 ,296 ,394b -,340,842 ,948 ,861 ,905 -,511 -,340 ,914b
-1,686E-05 -5,313E-05 8,136E-05 -2,388E-07 ,000 6,609E-05-1,686E-05 -2,407E-05 -,002 5,162E-06 -,013 ,003-5,313E-05 -2,407E-05 ,022 -3,080E-05 ,005 -,0198,136E-05 -,002 ,022 4,254E-05 ,078 -,007
-2,388E-07 5,162E-06 -3,080E-05 4,254E-05 ,000 -3,988E-05
,000 -,013 ,005 ,078 ,000 -,0016,609E-05 ,003 -,019 -,007 -3,988E-05 -,001
Consumo (l/100Km)Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros
Consumo (l/100Km)Cilindrada en ccPotencia (CV)Peso total (kg)
Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros
Correlación reproducida
Residuala
Consumo(l/100Km)
Cilindrada encc Potencia (CV)
Peso total(kg)
Aceleración 0a 100 km/h(segundos)
Año delmodelo
Número decilindros
Método de extracción: Máxima verosimilitud.
Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (4,0%) residuales no redundantes con valores absolutos mayores que 0,05.a.
Comunalidades reproducidasb.
Tecnicas de analisis multivariante - I
87
Rotaciones
Sabemos que la solucion del modelo factorial no era unica. A partir de unasolucion ΛΛΛ y f podemos hallar otra solucion mediante una matriz ortogonalH: ΛΛΛH y H′f son soluciones que tienen la misma matriz residual, varianzasespecıficas y comunalidades.
¿Cual es el resultado de multiplicar por una matriz ortogonal? Una rotacion delos factores.
Metodos de rotacion:
Varimax: minimiza el numero de variables que tienen saturaciones altas encada factor.Quartimax: minimiza el numero de factores necesarios para explicar cadavariable.Equamax: metodo de rotacion que combina los dos metodos anteriores.Rotaciones oblicuas: metodos de rotacion no ortogonal, i.e. H es una matrizno singular general. Los factores resultantes son correlados.
Tecnicas de analisis multivariante - I
88
Rotaciones - Ejemplo - I
Ejemplo 5.
Rotacion Varimax:
Matriz de factores rotadosa
-3,915E-02 ,350
,365 ,930
,972 ,233
,328 ,861
,913 8,082E-02
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser.
La rotación ha convergido en 3 iteraciones.a.
Rotacion Quartimax:
Matriz de factores rotadosa
-5,256E-02 ,348
,329 ,944
,962 ,270
,295 ,873
,909 ,116
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Quartimax con Kaiser.
La rotación ha convergido en 3 iteraciones.a.
Tecnicas de analisis multivariante - I
89
Rotaciones - Ejemplo - II
Rotacion Oblicua Promax:
Matriz de configuración.a
-,174 ,409
5,811E-02 ,968
,990 1,794E-02
4,246E-02 ,899
,981 -,140
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Promax con Kaiser.
La rotación ha convergido en 3 iteraciones.a.
Matriz de correlaciones entre los factores
1,000 ,518
,518 1,000
Factor1
2
1 2
Notemos que en este caso los factores son correlados, sin embargo hemoslogrado la matriz de carga “mas sencilla” y por tanto mas facil de interpretar.
Tecnicas de analisis multivariante - I
90
Rotaciones - Ejemplo - III
Ejemplo 2.
Rotacion Varimax:
Matriz de componentes rotados a
,851 ,192 -,401,925 ,287 -,150,798 ,501 -,206
,962 ,146 -,103
-,279 -,947 ,128
-,191 -,126 ,970,916 ,247 -,127
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2 3Componente
Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.
La rotación ha convergido en 4 iteraciones.a.
Rotacion Quartimax:
Matriz de componentes rotados a
,922 -,266 ,023,979 -,006 -,056,915 -,076 -,293
,973 ,044 ,088
-,512 ,070 ,851
-,357 ,928 ,057,957 ,015 -,020
Consumo (l/100Km)Cilindrada en cc
Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)
Año del modeloNúmero de cilindros
1 2 3Componente
Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Quartimax con Kaiser.
La rotación ha convergido en 4 iteraciones.a.
Tecnicas de analisis multivariante - I
91
Puntuaciones factoriales
En analisis factorial, usualmente, el interes se centra en los parametros delmodelo factorial, en particular en la matriz de carga. Sin embargo, puede serutil obtener los valores de los factores comunes:
Metodo basado en regresion:
fi = ΛΛΛ′ΣΣΣ
−1(xi − x), con i = 1, 2, . . . , n.
Este metodo puede obtener soluciones correladas incluso cuando los factoressean ortogonales.
Metodo de Bartlett o Metodo de mınimos cuadrados ponderados:
fi = (ΛΛΛΨΨΨ−1ΛΛΛ)−1ΛΛΛ
′ΨΨΨ
−1(xi − x), con i = 1, 2, . . . , n.
El metodo de Anderson–Rubin es una modificacion de este metodo queasegura la ortogonalidad de los factores.
Tecnicas de analisis multivariante - I
92
Puntuaciones factoriales - Ejemplo
Ejemplo 5. Esclerosis multiple. Factores rotados.
A-R factor score 2
322110-1-1
A-R fac
tor sco
re 1
10
8
6
4
2
0
-2
111
1
1
1
1
1
11 1
11
1
1
1
1
1
1
1
1
1
1
1
1
1
1
11
Tecnicas de analisis multivariante - I
93
Ejemplo con graficos de control - I
Ejemplo 4. Seis tipos de escenarios.Varianza total explicada
31,479 52,465 52,465 31,479 52,465 52,4655,930 9,884 62,348 5,930 9,884 62,3484,184 6,973 69,322 4,184 6,973 69,3221,989 3,314 72,636 1,989 3,314 72,636
1,846 3,077 75,712 1,846 3,077 75,7121,254 2,090 77,803 1,254 2,090 77,8031,011 1,685 79,488 1,011 1,685 79,488
,957 1,595 81,082
,736 1,226 82,309,715 1,192 83,501
: : :,045 ,076 99,792
Componente1234
5678
910:60
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracción
Método de extracción: Análisis de Componentes principales.
Tecnicas de analisis multivariante - I
94
Ejemplo con graficos de control - II
Ejemplo 4. (AF) Componentes principales normadas.
CP 1
CP 2
CP 3
Tend.Decreciente
Tend. Creciente
Normal
Esc.Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
95
Ejemplo con graficos de control - III
Ejemplo 4. (AF) Componentes principales normadas rotadas.
CP 1 (r)
CP 2 (r)
CP 3 (r)
Tend. Decreciente
Tend. Creciente
Normal
Esc. Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
96
Ejemplo con graficos de control - IV
Ejemplo 4. Interpretacion de las CP - factores.
Variable
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
7
4
1
1,5
1,0
,5
0,0
-,5
-1,0
Coef. CP 1 (r)
Coef. CP 2 (r)
Coef. CP 3 (r)
Tecnicas de analisis multivariante - I
97
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
98
Escalado multidimensional - I
Las tecnicas de escalado multidimensional son una generalizacion de com-ponentes principales cuando en lugar de una matriz de datos, XXX, tenemosuna matriz de distancias o de disimilaridades, DDD, entre los elementos de lamuestra en estudio.
• Similitudes entre n productos fabricados por una empresa.• Distancias percibidas entre n candidatos polıticos.• Diferencias de dificultad entre las n preguntas de un examen.
Las mediciones de estas distancias pueden obtenerse mediante:
• Estimacion directa por expertos: n(n− 1)/2 evaluaciones.• Estimacion por rangos: se selecciona un elemento y se pide a los expertosque ordenen los restantes n−1 segun proximidad al elemento seleccionado.Se continua con el siguiente elemento.
• Estimacion por pares: se forman todos los pares posibles y se pide a losexpertos que los ordene de mayor a menor distancia.
Tecnicas de analisis multivariante - I
99
Escalado multidimensional - II
El objetivo del escalado multidimensional es representar la matriz de distan-cias mediante un conjunto de variables ortogonales tales que las distanciaseuclıdeas entre estas variables sea lo mas proximo posible a DDD.
• DDDn×n �XXXn×p.• Distancias euclıdeas de XXX ≈DDD.
¿Es siempre posible encontrar XXXn×p tal que se verifique la igualdad? No.
Si la matriz de distancias,DDD, es una matriz de distancias euclıdeas entoncesrecuperaremos las componentes principales.
El escalado multidimensional es complementario a componentes principalesen el sentido que CP considera la matriz p × p de covarianzas entre lasvariables mientras que el EM considera la matriz n× n de distancias entrelos individuos.
Tecnicas de analisis multivariante - I
100
Escalado multidimensional metrico - I
A partir de la matriz de datos, XXX, podemos obtener la matriz de datoscentrada:
XXX = (III − n−1111111)XXX = PPPXXX
y a partir de ella las siguientes matrices cuadradas y semidefinidas positivas:
SSS = XXX′XXX/n: Matriz de covarianzas.
QQQ = XXXXXX′: Matriz de “covarianzas” entre individuos.
Las siguientes relaciones permiten obtener DDD a partir de QQQ y viceversa:
d2ij = qii + qjj − 2qij,
y
qij = −12
(d2
ij − d2i· − d2
·j + d2··).
Tecnicas de analisis multivariante - I
101
Escalado multidimensional metrico - II
¿Como obtener XXX a partir de QQQ?
Bajo el supuesto de que QQQ sea de rango p se puede escribir mediante ladescomposicion en valores, Λ, y vectores propios, V:
QQQ = VΛV′ = VΛ1/2Λ′1/2V′.
Tomamos como “matriz de datos” a YYY = VΛ1/2.
YYY son p variables incorreladas medidas en n individuos.
No es posible obtener la matriz de datos original, XXX, pues la matriz dedistancias es invariante ante traslaciones y rotaciones de los datos.
Tecnicas de analisis multivariante - I
102
Escalado multidimensional metrico - III
¿Es siempre posible encontrar YYY n×p tal que las distancias euclıdeas entre suselementos sea igual a DDD? Respuesta 1: En general, no.
Ejemplo: Consideremos la distancia porcarretera:
DDD =
0 1 1√
2
1 0 2 1
1 2 0 1√2 1 1 0
QQQ =
0,390 −0,036 −0,036 −0,316
−0,036 0,536 −0,463 −0,036
−0,036 −0,463 0,536 −0,036
−0,316 −0,036 −0,036 0,390
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
X1
X2
X3
X4
que tiene como valores propios a: 0.0000, 0.1464, 0.7071 y 1.0000.
Tecnicas de analisis multivariante - I
103
Escalado multidimensional metrico - IV
Respuesta 2: Si es posible cuando la matriz QQQn×n = −12PPPDDDPPP es de rango p y
semidefinida positiva.
Ejemplo: Consideremos la distancia por ciudad:
DDD =
0 1 1 21 0 2 11 2 0 12 1 1 0
QQQ =
0,5 0 0 −0,50 0,5 −0,5 00 −0,5 0,5 0
−0,5 0 0 0,5
.
que tiene como valores propios a: 0, 0, 1 y 1.
Tecnicas de analisis multivariante - I
104
Ejemplo: Si tomamos los dos valores propios (positivos) mayores obtenemos:
YYY (1) =
0,5946 0,0000
0,0000 −0,7071
−0,0000 0,7071
−0,5946 −0,0000
e
YYY (2) =
−0,7071 0
0 0,7071
0 −0,7071
0,7071 0
-1 -0.5 0 0.5 1-1
-0.5
0
0.5
1
X1
X2
X3
X4
Y(1)1
Y(1)2
Y(1)3
Y(1)4
Y(2)1
Y(2)2
Y(2)3
Y(2)4
Precision de la aproximacion: (0.7071 + 1)/(0.1464 + 0.7071 + 1) = 92.1%,y 100%, respectivamente.
Tecnicas de analisis multivariante - I
105
Escalado multidimensional metrico - Resumen
1. Construir la matriz QQQn×n = −12PPPDDDPPP .
2. Calcular los valores propios de QQQ. Tomar los p valores propios mayores, demanera que los n− r valores propios restantes sean proximos a cero.
3. Obtener las coordenadas de las variables ortogonales yi = vi
√λi, donde λi
es un valor propio y vi su vector propio asociado.
Este procedimiento equivale a aproximar la matriz QQQ mediante:
QQQr = VrΛ1/2r Λ′1/2
r V′r,
y tomar como matriz de datos (centrados y rotados) a:
YYY r = VrΛ1/2r .
Tecnicas de analisis multivariante - I
106
Ejemplo con graficos de control - I
Ejemplo 4. Distancias euclıdeas entre los casos (n = 600).
Medidas de ajuste y stress
,02315,15214a
,30873a
,02130b
,97685
,98836
Stress bruto normalizadoStress-IStress-IIS-Stress
Dispersión explicada(D.A.F.)Coeficiente decongruencia de Tucker
PROXSCAL minimiza el stress bruto normalizado.
Factor para escalamiento óptimo = 1,024.a.
Factor para escalamiento óptimo = ,972.b. DIM_2
,6,4,2,0-,2-,4-,6-,8-1,0
DIM
_1
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Tend. Decreciente
Tend. Creciente
Normal
Esc. Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
107
Ejemplo con graficos de control - II
Ejemplo 4. Distancias euclıdeas entre las variables (p = 60).
Medidas de ajuste y stress
,05256,22926a
,52979a
,08298b
,94744
,97337
Stress bruto normalizadoStress-IStress-IIS-Stress
Dispersión explicada(D.A.F.)Coeficiente decongruencia de Tucker
PROXSCAL minimiza el stress bruto normalizado.
Factor para escalamiento óptimo = 1,056.a.
Factor para escalamiento óptimo = ,935.b. Número de variable
5855524946434037343128252219161310741
1,0
,5
0,0
-,5
-1,0
DIM_1
DIM_2
Tecnicas de analisis multivariante - I
108
Escalado multidimensional no metrico - I
Supongamos que la matriz de distancias es no euclıdea, entonces la matrizQQQ = −1
2PPPDDDPPP tiene valores propios negativos.
El objetivo de escalado multidimensional no metrico es transformar lasdistancias, di,j, para convertirlas en euclıdeas conservando las relaciones deproximidad originales:
Si di,j ≥ dk,l entonces di,j ≥ dk,l,
donde di,j = ϕ(di,j) y ϕ es una transformacion monotona.
Existen varias posibilidades para la funcion ϕ. Por ejemplo:
ϕ1(di,j) ={
d2i,j − 2a si i �= j0 si i = j
ϕ2(di,j) ={
di,j + c si i �= j0 si i = j
Tecnicas de analisis multivariante - I
109
Escalado multidimensional no metrico - II
Los parametros ay c se seleccionan de manera que se minimice las diferenciasentre las distancias originales y las transformadas:
∑i
∑j(di,j − di,j)2.
Un criterio de ajuste utilizado para evaluar la representacion obtenida es elconocido por STRESS (adecuado si < 5%):
S2 =∑i<j
(di,j − di,j)2∑i<j d
2i,j
.
Otra alternativa es obtener el diagrama de Shepard que consiste en repre-sentar los n(n − 1)/2 puntos (di,j, di,j) y comprobar la monotonıa de lacurva resultante.
Tecnicas de analisis multivariante - I
110
Ejemplo:
YYY (1) =
0,5946 0,0000
0,0000 −0,7071
−0,0000 0,7071
−0,5946 −0,0000
e
YYY (nm) =
−0,1854 0,6118
0,8667 0,2577
−0,8705 −0,2668
0,1796 −0,6213
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Tecnicas de analisis multivariante - I
111
Ejemplo: Si calculamos las matrices de distancias euclıdeas de las matrices dedatos obtenidas, YYY (1) y YYY (nm):
DDD(1) =
0 0,923 0,923 1,189
0,923 0 1,414 0,9230,923 1,414 0 0,9231,189 0,923 0,923 0
DDD(nm) =
0 1,110 1,114 1,285
1,110 0 1,814 1,1151,114 1,814 0 1,1081,285 1,115 1,108 0
y las comparamos con la matriz original: DDD =
0 1 1
√2
1 0 2 11 2 0 1√2 1 1 0
Obtenemos que el STRESS es: 0.0417 y 0.0101 y el S-STRESS es: 0.6414 y0.3827.
Tecnicas de analisis multivariante - I
112
Reconstruccion del mapa de Espana - I
A partir de las distancias entre provincias:
Alicante 171
Almería 369 294
Avila 366 537 663
Badajoz 525 696 604 318
Barcelona 540 515 809 717 1022
Bilbao 646 817 958 401 694 620
Burgos 488 659 800 243 536 583 158
Cáceres 504 675 651 229 89 918 605 447
Cádiz 617 688 484 618 342 1284 1058 900 369
Castellón 256 231 525 532 805 284 607 524 701 873
Ciudad Real 207 378 407 256 318 811 585 427 324 464 463
Córdoba 354 525 332 457 272 908 795 637 319 263 610 201
A Coruña 860 1031 1172 538 772 1118 644 535 683 1072 1026 799 995
Cuenca 142 313 511 282 555 562 562 404 451 708 305 244 445 776
Gerona 640 615 909 817 1122 100 720 683 1018 1384 384 911 1008 1218 662
Granada 363 353 166 534 438 868 829 671 485 335 584 278 166 1043 479 968
Guadalajara 309 480 621 173 459 563 396 238 355 721 396 248 458 667 486 663 492
Albacete
Guadalajara
A Coruña
Cuenca
Gerona
Granada
Cádiz
Castellón
Ciudad Real
Córdoba
Barcelona
Bilbao
Burgos
Cáceres
Alicante
Almería
Avila
Badajoz
...
Tecnicas de analisis multivariante - I
113
Reconstruccion del mapa de Espana - II
Iteration history for the 2 dimensional solution (in squared distances)
Young’s S-stress formula 1 is used.
Iteration S-stress Improvement1 ,091122 ,07500 ,016123 ,07373 ,001274 ,07354 ,00020
Iterations stopped because S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)in the partition (row, matrix, or entire data) which is accounted for bytheir corresponding distances. Stress values are Kruskal’s stress formula 1.
Stress = ,05474 RSQ = ,98449
Tecnicas de analisis multivariante - I
114
Reconstruccion del mapa de Espana - III
Distancias originales
543210
Dis
tanc
ias
tran
sfor
mad
as
5
4
3
2
1
0
Tecnicas de analisis multivariante - I
115
Reconstruccion del mapa de Espana - IV
-600 -400 -200 0 200 400 600 800-800
-600
-400
-200
0
200
400
600
Albacete
Alicante
Almería
Avila
Badajoz
Barcelona
Bilbao
Burgos
Cáceres
Cádiz
Castellón
Ciudad Real
Córdoba
Coruña
Cuenca
Gerona
Granada
Guadalajara
Huelva
Huesca
Jaén
León Lérida
Logroño Lugo
Madrid
Málaga
Murcia
Orense
Oviedo
Palencia
Pamplona Pontevedra
Salamanca
SanSebastiánSantander
Segovia
Sevilla
Soria Tarragona
Teruel
Toledo Valencia
Valladolid
Vitoria
Zamora
Zaragoza
Tecnicas de analisis multivariante - I
116
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
117
Analisis de correspondencias
El analisis de correspondencias es una tecnica analoga a las componentesprincipales para variables cualitativas.
Se utiliza para representar tablas de contingencias. Esto es, la informacionde partida es una matriz de dimension I × J que representa las frecuenciasabsolutas de dos variables cualitativas observadas en n individuos.
X : Y D1 D2 · · · DJC1C2...CI
Tecnicas de analisis multivariante - I
118
Analisis de correspondencias - Ejemplo
Tabla de contingencia del color de los ojos y el pelo de escolares escoceses(R.A. Fisher, 1940).
Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 688 116 584 188 4Azules 326 38 241 110 3
Castanos 343 84 909 412 26Oscuros 98 48 403 681 85
Podemos representar esta tabla en forma de matriz de datos con n = 5387individuos y p = 9 = 4 (ojos) + 5 (pelo) variables dicotomicas.
Representar las variables en un espacio de dimension menor.
Asignar valores numericos a variables cualitativas.
Tecnicas de analisis multivariante - I
119
Analisis de correspondencias - Procedimiento - I
1.- Se obtiene la tabla de contingencia en terminos de frecuencias relativas, FFF :
Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 0.128 0.022 0.108 0.035 0.001Azules 0.061 0.007 0.045 0.020 0.001
Castanos 0.064 0.016 0.169 0.076 0.005Oscuros 0.018 0.009 0.075 0.126 0.016
2.- Se estandarizan las frecuencias relativas respecto a las frecuencias relativas
marginales por filas y columnas, ZZZ =DDD−1/2f FFFDDD
−1/2c :
Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 0.454 0.173 0.318 0.127 0.009Azules 0.319 0.084 0.195 0.110 0.010
Castanos 0.213 0.118 0.467 0.262 0.057Oscuros 0.071 0.078 0.240 0.504 0.216
Tecnicas de analisis multivariante - I
120
Analisis de correspondencias - Procedimiento - II
3.- Se obtiene la matriz ZZZ ′ZZZ y sus valores y vectores propios:
ZZZ ′ZZZ =
0,358 0,136 0,323 0,184 0,0350,136 0,057 0,145 0,101 0,0260,323 0,145 0,415 0,305 0,0830,184 0,101 0,305 0,351 0,1260,035 0,026 0,083 0,126 0,050
Valores propios: 0.001, -0.0001, 0.0304, 0.1998, 0.9998 (1).
Vectores propios:
-0.2195 -0.1024 -0.5219 -0.6317 0.51960.9073 0.3229 -0.0673 -0.1225 0.2303
-0.0554 -0.1593 0.7556 -0.0609 0.6300-0.2028 0.3995 -0.3002 0.6716 0.50810.2907 -0.8368 -0.2492 0.3623 0.1479
Tecnicas de analisis multivariante - I
121
Analisis de correspondencias - Procedimiento - III
4.- Se toman los dos vectores propios, aaa1 y aaa2, ligados a los mayores valorespropios que sean menores que 1.
5.- Calcular las proyecciones ZZZaaa1 y ZZZaaa2 y representarlas graficamente.
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.1
-0.05
0
0.05
0.1
0.15
Ojos claros
Ojos azules
Ojos castaños
Ojos oscuros
Tecnicas de analisis multivariante - I
122
Analisis de correspondencias - Procedimiento - IV
El procedimiento es analogo para las columnas y ambos resultados puedencombinarse.
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.1
-0.05
0
0.05
0.1
0.15
O. claroO. azules
O. oscuros
O. castañoRubio
Pelirrojo
P. castaño
P. oscuroP. negro
Tecnicas de analisis multivariante - I
123
Analisis de correspondencias - Resumen
El procedimiento de Analisis de correspondencias conduce a una representacionde las filas (columnas) de una tabla de consistencia.
1. Caracterizar las filas (columnas) por sus frecuencias relativas condicionadas,y considerarlas como puntos en el espacio. ¿Por que es necesario?
2. Definir una distancia entre puntos que tenga en cuenta que cada fila semide con distinta precision, χ2.
3. Proyectar los puntos sobre las direcciones de maxima variabilidad.
Tecnicas de analisis multivariante - I
124
Analisis de correspondencias - Estandarizacion
Suspenso Aprobado Notable Sobresaliente TotalZona A 0.03 0.06 0.15 0.06 0.3Zona B 0.07 0.14 0.35 0.14 0.7Total 0.1 0.2 0.5 0.2 1.0
Suspenso Aprobado Notable Sobresaliente TotalZona A 0.1 0.2 0.5 0.2 1.0Zona B 0.1 0.2 0.5 0.2 1.0
Aunque las frecuencia relativas de las dos zonas son muy distintas, pero ladistribucion de calificaciones es la misma para ambas zonas.
Tecnicas de analisis multivariante - I
125
Ejemplo: Tipo de fumador vs Categorıa en la empresa - I
Tabla de correspondencias
4 2 3 2 114 3 7 4 18
25 10 12 4 51
18 24 33 13 8810 6 7 2 2561 45 62 25 193
Staff GroupSenior ManagersJunior Managers
Senior EmployeesJunior EmployeesSecretariesTotal
None Light Medium Heavy TotalSmoking
Resumen
,273 ,075 ,878 ,878 ,070 ,020,100 ,010 ,118 ,995 ,076,020 ,000 ,005 1,000
,085 16,442 ,172a 1,000 1,000
Dimensión123
Total
Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada
Proporción de inercia
Desviacióntípica 2
Correlación
Confianza para el Valor propio
12 grados de libertada.
Tecnicas de analisis multivariante - I
126
Ejemplo: Tipo de fumador vs Categorıa en la empresa - II
Dimensión 1
,8,6,4,2,0-,2-,4-,6-,8-1,0
Dim
ensi
ón 2
1,0
,8
,6
,4
,2
-,0
-,2
-,4
-,6
Smoking
Staff Group
Heavy
Medium
Light
None
SecretariesJunior Employees
Senior Employees
Junior Managers
Senior Managers
Tecnicas de analisis multivariante - I
127
Lecturas recomendadas
Analisis de componentes principales: Capıtulo 5 de Cuadras (2004); Capıtulo 8 de Johnson
y Wichern (2002); Capıtulo 2 de McGarigal et al (2000); Capıtulo 5 de Pena (2002);
Capıtulo 7 de Selvin (1995).
Analisis factorial: Capıtulo 6 de Cuadras (2004); Capıtulo 9 de Johnson y Wichern (2002);
Capıtulo 12 de Pena (2002).
Escalado multidimensional: Capıtulo 8 de Cuadras (2004); Capıtulo 12 de Johnson y
Wichern (2002); Capıtulo 6 de Pena (2002).
Analisis de correspondencias: Capıtulo 9 de Cuadras (2004); Capıtulo 12 de Johnson y
Wichern (2002); Capıtulo 7 de Pena (2002).
Cuadras, C. (2004) Analisis multivariante, Universidad de Barcelona.
Johnson, R.A. y Wichern, W.A. (2002) Applied multivariate statistical analysis, Prentice
Hall.
McGarigal, K., Cushman, S. y Stafford, S. (2000) Multivariate analysis for wildlife and
ecology research, Springer.
Pena, D. (2002) Analisis de datos multivariantes, McGraw–Hill.
Selvin, S. (1995) Practical biostatistical methods, Duxbury Press.
Tecnicas de analisis multivariante - I