Download pdf - Material Multivariado

7/21/2019 Material Multivariado

1/128

Dr. Cleto De La Torre - Anlisis multivariado Pgina 1

UNIVERSID D NDIN DEL CUSCO

Escuela de Posgrado

MAESTRIA EN ESTADISTICA E

INVESTIGACION

CURSO: ANALISIS MULTIVARIADO

DR CLETO DE LA TORRE DUEAS

[email protected]


2/128


MAESTRIA EN ESTADISTICA E INVESTIGACION

CURSO: ANALISIS MULTIVARIADO

DR. CLETO DE LA TORRE DUEAS


3/128


CAPITULO I

EL METODO DE ANLISIS POR COMPONENTES PRINCIPALES

1.1INTRODUCCION.El propsito del mtodo de Anlisis por Componentes Principales es:

i).- Generar nuevas variables no correlacionadas y con variables decrecientes que

puedan expresar la informacin contenida en el conjunto, original de datos.

ii).- Reducir la dimensionalidad del problema original que se est estudiando. Como

paso previo para futuros anlisis.

iii).- Eliminar, cuando sea posible, algunas de las variables originales, si ellas aportan

poca informacin.Las nuevas variables generadas se denominan componentes principales y poseen

algunas caractersticas estadsticas deseables tales como: independencia (cuando se

asume multinormalidad) y en todos los casos no-correlacin; esto significa que s las

variables originales no estn correlacionadas, el anlisis por componentes principales no

ofrece ventaja alguna.

Cada componente principal sintetiza la mxima variabilidad residual contenida en los

datos.

1.2 POBLACION DE COMPONENTES PRINCIPALES

Algebraicamente, Componentes principales son combinaciones lineales particulares de

las P variables aleatorias X1, X2,...Xp. Geomtricamente, estas combinaciones lineales

representan la seleccin de un nuevo sistema de coordenadas obtenido por la rotacin

del sistema original con X1, X2,...Xp. Como los ejes de coordenadas. Los nuevos ejes

representan las direcciones con mxima variabilidad y proporciona una descripcin

simple y ms parsimoniosa de la estructura de la covarianza.

Como veremos los componentes principales dependen nicamente de la matriz

covarianza (o la matriz de correlacin ) de X1, X2,...Xp. Su desarrollo no requiere de

la suposicin de la normal Multivariada. Por otro lado componentes principales

derivados para poblaciones Normales Multivariadas tienen tiles interpretaciones en

trminos de las elipsoides de densidad constante Adems, Inferencias pueden ser hechas

de las componentes muestrales como la poblacin es normal multivariada.


4/128


:tenemos1ee'nrestriccilausandoyeporndomultiplicaypositivapartelaTomando iii

1.2.1 OBTENCION DE LAS COMPONENTES PRINCIPALES EN LA

POBLACION

Las componentes principales son obtenidas de la forma siguiente:

De la ecuacin de autovalores:

:ecuacinla

tenemosautovalortalpara,es,matrizladeautovalormximoel(8),enusardedebemos 1

(15)1e'e,0 1111)(

eIpxp

0)()( pxpipxp I

iiiipxpi

iipxpi

eeee

eIe

i

''

0'

)(

)(

(14)'

iii ee

1,e'ey(9)ecuacinlasatisfaceevectorelquesignifica(14)ecuacinlaDonde iii

varianzatalmaximizarparaquemanera,talde,esX'eYdevarianzalaentonces, iii

)16(

e'eX)eV()Var(Y

1e'e

:satisfacequeX'eY

:deciresvarianza,mximaconlinealncombinaciladefineseevectorelcon

11111

11

11

1

supongamoss,principalescomponentelasdeobtencinlaconndoGeneraliza.Y

aortogonalescualelprincipalcomponentesegundadenombreelrecibe,YDonde

1

2


5/128


definidas las i primeras, de la siguiente manera.

Cov (Yj, Yi) = 0 con ij

1.2.2 DEFINICION

Sea el vector aleatorio X=(X1, X2,...Xp) con matriz de covarianza con valores

caractersticos 12...p0

Es posible definir una matriz L como el arreglo de las (P x P) constantes L(jk)

ii ee

1

1e'esatisfaceque' 2222

XeY

2222 ')( eeYV

0''' 12111212 eeeeee

0'),( 1212 eeyyCov

111

1

ee

:cumpleseparteotraporPrincipal,ComponentePrimerdenombreelrecibeYDonde

:deciresresidual,varianzamximadelinealncombinaciladefineSe

eautovectorrespectivosucon,

decirese,decrecientformaenautovalorsiguienteeltomandoformamismalaDe

212

entoncesee 222

:teconsiguienPor

1e'econ ii

Xey ii

(17)e'e)( iii

iyVar

)()2()1(

)2()22()21(

)1()12()11(

pppp

p

p

lll

lll

lll

L


6/128


Y que satisface la condicin de ortogonalidad.

LL = LL = L-1L = I, Esto es:

La matriz ortogonal L, puede expresarse la transformacin lineal de componentes

principales en trminos de esta matriz:

Y(nxp)= X(nxp)L(pxp)

considrese las combinaciones lineales.

Entonces,

Las componentes principales son aquellas combinaciones lineales no correlacionadas

Y1, Y2,...Ypcuyas varianzas en la ecuacin anterior son tan grandes como sea posible.

La primera componente principal es la combinacin lineal con la mxima varianza.

Es decir esta maximiza Var(Yi) = ii ll

' es claro que Var(Yi)= ii ll

' puede ser

incrementada por la multiplicacin por li por cualquier constante. Para eliminar esta

indeterminacin, es conveniente restringir nuestra atencin a vectores coeficientes de

longitud uno.

1.2.3 DEFINICIN

Primera Componente Principal = Combinacin Lineal Xl1

que maximiza:

Segunda Componente Principal = Combinacin Lineal Xl2

que maximiza:

)18(

'

'

'

2211

222211222

122111111

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

p,1,2,i')(

iii llYVar

p,1,2,ki,'),(

kik llYYiCov

1l'lasujetoX)'lVar( 111

p,1,2,ik,

1

0)()(

ik

ikjiljkl


7/128


p

k

21principalcomponentesima-klaa

En la i-sima etapa tenemosi-sima componente principal = combinacin lineal l1X que maximiza

1.2.4 POSTULADO 1

Sea la matriz covarianza asociada con el vector aleatorio X=(X1, X2,...Xp). sea

12... p0 la i-sima componente principal est dada por:

1.2.5 POSTULADO 2Sea la matriz covarianza asociada con el vector aleatorio X=(X1, X2,...Xp). Sea con

sus pares de valores y vectores caractersticos (1, 1), (2, 2),..., (p, p)

donde 12... p0

Sean las componentes principales Y1= 1X, Y2=2X,... Yp= pX

Entonces:

Comentario del Postulado 2

Este postulado 2 nos indica que.

Varianza poblacional Total = 11+ 22+...+pp = 1+2+...+ p

Y consecuentemente, la proporcin de la varianza total debido (explicada por) la

k-sima componente principal es proporcin de la varianza poblacional total debida

(20))()(1 1212211

p

i

p

i ipipp

YVarXVar

lay1l'lasujetoX)'lVar( 222

0X)'lX,'lCov( 21

lay1l'lasujetoX)'lVar( iii

ikpara0X)lX,'lCov( ki

:donde)e,(,),e,(),e,(ticoscaractersy vectoresvaloresdeparessuscon pp2211

ppiiiii XeXeXeXeY

2211'


8/128


(21)p,1,2,ki,, kk

iki

ki

eXY

,x

k= 1, 2,...., p

Por ejemplo el 80 90% de la variacin poblacional total, para P grande puede ser

atribuible a una, dos tres componentes, entonces estas componentes pueden

reemplazar las P variables originales sin mucha prdida de informacin.

Cada componente del vector coeficiente 1=(e11,........, ek1,... ep1), tambin merece

atencin. La magnitud de kimide la importancia de la k-sima variable a la i-sima

componente principal en particular, ki es proporcional al coeficiente de correlacin

entre Yie Xk.

1.2.6 POSTULADO 3

Si: Y1=1X Y2=2X, ... Yp = pX son las componentes principales

obtenidas de la matriz covarianza entonces:

Son los coeficientes de correlacin entre las componentes Yiy las variables Xk.

Donde: (1, 1), (2, 2),... , (p, p) son los autovalores autovectores de los pares

para .

1.3 ANALISIS DE LA VARIACION MUESTRAL POR COMPONENTES

PRINCIPALES

Supongamos que los datos X1, X2,..., Xnrepresentan independientes extracciones de

alguna poblacin P-dimensional con vector promedio y matriz covarianza . Estos

datos producen S y R

1.3.1 ESTIMACION DE LOS POSTULADOS 1,2 y 3

Construir combinaciones lineales no correlacionadas de las caractersticas medidas que

explican una gran proporcin de la variacin de la muestra. Las combinaciones no

correlacionadas con las varianzas ms grandes sern denominadas las componentes

muestrales principales.


9/128


p

i

piiis1

2EstimadaTotalMuestralVarianza

(22)p,2,1,ki,

),(

kk

iki

xkiys

er

Si: S(pxp) es la matriz covarianza muestral con sus pares de valores y vectores

estimados correspondientes.

),(,),,(),,( 2211 pp eee

la i-sima componente principal muestral estimada est

dada por:

Tambin, la varianza muestral estimada kkY )( k=1,2,...,p

Adicionalmente:

k-simos coeficientes de

correlacin muestral

Denotaremos las componentes principales por Y1, Y2, ... Yp sin considerar si ellasfueron obtenidas de S o R. Las componentes construidas de S y R no son las mismas,en general indicndose la matriz que est siendo usada y la notacin simple esconveniente.

p,1,2,iXeXeXeX'ey ppi22i11iii

pp x,x,xvariableslasennobservacicualquierXy0donde 2121

ki0)Y,Y(estimadaMuestralCovarianza ki


10/128


CAPITULO II :

METODO DEL ANALISIS FACTORIAL

2.1 INTRODUCCIN

El Anlisis Factorial es una tcnica Multivariante que nos permite identificar

variables subyacentes con un numero relativamente pequeo de factores que expliquen

la mayora de la varianza observada en un numero mayor de variables manifestantes ,

los que pueden ser utilizados para representar la informacin contenida en la estructura

de la matriz de correlaciones entre un conjunto de variables observadas

El objetivo del Anlisis Factorial es encontrar variables subyacentes no observables ni

medibles directamente pero que se pueden identificar en funcion de las variables

observables, tal es el caso en el rea de Psicologa de la variable subyacente coeficiente

de inteligencia medida por los investigadores a partir de un conjunto de variables .

El mtodo de Anlisis Factorial nos permitir realizar un estudio detallado de la matriz

de correlaciones para su posterior anlisis e interpretacin y por medio de este estudio

construir las variables subyacentes

2.2 EL MODELO FACTORIAL ORTOGONAL

Sea el vector aleatorio observable X, de orden px1, de p componentes, tiene

media y matriz de covarianza . El modelo factorial postula que X es linealmente

dependiente de algunas variables aleatorias no observables F1, F2, ... , Fm llamadas

factores comunes y p fuentes de variaciones adicionales 1, 2, ... , p, llamados

errores o factores especficos relacionados a cada variable en estudio.

El modelo de Anlisis Factorial es:

X - = LF + (2.1)

Xpx1= px1+ LpxmFmx1+ px1

Lo que tambin se puede expresar como:

1121211111 mmFlFlFlX

2222212122

mmFlFlFlX . . (2.2)


11/128


imimiiii FlFlFlX 2211

.

pmpmpppp FlFlFlX 2211

De donde se puede identificar las siguientes matrices:i)

pp

i

1

1

pi ...1

i : media de la i-esima variableii)

mppmp

ij

m

ll

l

ll

L

..

....

...

..

1

111

pi ...1 , mj ...1

La matriz L es la matriz de los factores de carga o coeficientes de aprovechamiento

Donde el coeficiente lijes llamado la cargao peso de la i-sima variable sobre elj-simo factor.

iii)

mj ...1

jF : es el j-esimo factor comun.

iv)

pp

i

1

1

pi ...1

i : i-esimo factor especifico el cual esta relacionado con la i-esima variable

mm

j

F

F

F

F

1

1


12/128


Las p desviaciones X1- 1, X2- 2, ... , Xp- p, estn expresadas en trminos de

p + m variables aleatorias : F1, F2, ... , Fm, 1, 2, ... , p las cuales son no observables.

Con las siguientes suposiciones:

1) Los p factores comunes son no correlacionadas con varianza 1 y esperanza 0

E(F) = 0mx1

................( 2.3)

Cov(F) = Imxm

2) Los factores especificos son independientes con media 0 y varianza pp E() = Opx1

...................( 2.4)

Cov()=

pp

pp

iipxp

..00

.....

....

0..0

0..0

22

11

ii : varianza especifica de la i-esima variable

3) Cada factor no comun es independiente con cada factor comun

Cov(,F) = E(F) = 0pxm .....................( 2.5)

Estas suposiciones y la expresin (1) constituyen el modo factorial ortogonal.

El modelo Factorial es oblicuo cuando los factores F se pueden correlacionar de manera

que Cov(F) es no diagonal . Este modelo presenta algunas dificultades en la estimacin

adicional.

2.2.1 RESULTADOS DEL MODELO FACTORIAL

2.2.1.1 RESULTADO 1El modelo factorial ortogonal implica una covarianza para X tal que:


13/128


= LL + .................( 2.6)

2.2.1.2 RESULTADO 2

La covarianza entre la matriz de datos y la matriz de factores es la matriz de cargas

factoriales.

Cov(X,F) = L .(2.7)

2.2.2 ESTRUCTURA DE LA COVARIANZA PARA EL MODELO

FACTORIAL ORTOGONAL

De los resultados anteriores se puede concluir que la estructura de la covarianza para el

modelo Factorial Ortogonal esta dado por:

1. Cov(X) = LL +

De donde:

Var(Xi) = l2il+ ... + l

2im+ ii

.(2.8)

Cov(Xi,Xk) = lillkl+ ... + limlkm

2. Cov(X,F) = L

De donde:

Cov(Xi,Fj) = lij .....................( 2.9)

El modelo siguiente es lineal en los factores comunes

X - = LF + ................... ( 2.10)

Pero si las p respuestas X estn, relacionadas a los factores fundamentales de manera

no lineal , el modelo factorial estara dado por :

X1- 1=l11F1F3+ 1

...(2.11)

X2- 2=l21F2F3+ 2

.


14/128


entonces la estructura covarianza LL + dada por ( 19) puede ser la no adecuada. La

suposicin muy importante de linealidad es inherente en la formulacin del modo

factorial.

2.2.3 COMUNALIDAD

Se denomina comunalidad 2ih a la proporcin de la varianza de la i-sima variable,

atribuible a los m factores comunes.

La parte de la varianza debida al factor especfico a menudo se llama varianza

especfica. Var(Xi) = Comunalidad + Varianza especfica

ii= hi2

+ ii

ii= lil2+ li2

2+ ... + lim2+ ii =

m

j 1

lij2+ ii

donde : hi2= lil

2+ li22+ ... + lim

2=

m

j 1

lij2

es la comunalidad de la i-esima variable

La comunalidad hi2es la suma de los pesos factoriales al cuadrados de la de la i-sima

variable sobre los factores comunes.

La comunalidad oscila entre 0 y 1 , 0 indica que los factores no explican nada de la

variable y 1 que explica el 100% de la variable , la variabilidad total es igual a :

ii= hi2+ ii

donde:

hi2:comunalidad

ii: variabilidad de acuerdo al factor especifico.

La tcnica del Anlisis Factorial toma los valores de la correlacin mltiple al

cuadrado como los valores iniciales de la comunalidad .

2.2.4 LA NO UNICIDAD DE LAS CARGAS FACTORIALES

Para estudiar la no unicidad de las cargas factoriales , se toma una matriz ortogonal G

tal que

GG = GG = I

La expresin (1) se puede escribir:

X - = LF +


15/128


= LG GF +

X - = L*F*+ ..(( 2.12)

donde L*= LG

y F

*

= GFcomo

E[F*] = TE[F] = 0

y Cov[F*] = GCov[F]G

= GG

Cov[F*] = Imxn ..(( 2.13)

entonces es imposible, sobre la base de las observaciones en X distinguir las cargas L de

las cargas L* . Esto es, los factores F y F* = TF tienen las mismas propiedades

estadsticas y an cuando las cargas L* son, en general, diferentes de las cargas L,

ambas generan la misma matriz de covarianzas . Esto es:

= LL +

= LGGL +

= (L*)(L*) + ...(( 2.14)

Esta ambigedad en la definicin de las cargas factoriales nos proporciona lo razonable

de la rotacin factorial, puesto que las matrices ortogonales corresponden a las

rotaciones del sistema de coordenadas para X.

2.2.1. OBTENCIN DE LAS CARGAS FACTORIALES

Los factores de carga L se determinan nicamente a partir de una matriz

ortogonal G. As, las cargas:

L*= LG y L

nos dan la misma representacin. As mismo las comunalidades, dadas por loselementos diagonales de LL = (L

*)( L*) no estn afectadas por la eleccin de G.

2.3 PRUEBAS ESPECIFICAS PARA EL ANLISIS FACTORIAL

El primer paso en el Anlisis Factorial sera calcular la matriz de correlaciones entre

todas las variables que se toman en el anlisis .

Una vez que se dispone de esta matriz concierne examinarla para comprobar si suscaractersticas son adecuadas para realizar un Anlisis Factorial , uno de los


16/128


requisistos que debe cumplirse para que el Anlisis Factorial tenga sentido es que las

variables esten altamnete correlacionadas.

Pueden utilizarse diferentes metodos para comprobar el grado de asociacin entrelas

variables .

2.3.1 EXAMEN DE LA MATRIZ DE CORRELACIN

El objetivo de analizar la matriz de correlacin es estudiar la caracterstica de los

factores los cuales vienen condicionadas por dicha matriz. Si hay muchas correlaciones

altas entre las variables es indicativo de informacin redundante y pocos factores

explicaran gran parte de la variabilidad total, por el contrario correlaciones pequeas

entre las variables son indicativos de poca informacin redundante por lo tanto

necesitaremos muchos factores para explicar una parte sustancial de la variabilidad.

La correlacin mltiple deber ser alto para realizar un Anlisis Factorial

2.3.2 ANLISIS DE LA DETERMINANTE DE LA MATRIZ DE

CORRELACIN

La determinante de la matriz de correlacin es un ndice de varianza

generalizada de dicha matriz . Un determinante muy bajo indicara altas

intercorrelaciones entre las variables pero no debe ser cero (matriz no singular ), pues

esto indicara que alguna de las variables son linealmente dependientes y no se podra

realizar ciertos clculos necesarios en elAnlisis Factorial.

2.3.3 PRUEBA DE ESFERICIDAD DE BARTLETT

Se utiliza para verificar si la matriz de correlaciones se ajusta a la matrizidentidad (I),

Es decir ausencia de correlaciones significativas entre las variables , esto significa que

la nube de puntos se ajustara a una esfera n-dimensional perfecta , expresando as la

hiptesis nula por:

0H :R=I ...............(29)

Es decir que la determinante de la matriz de correlaciones es igual a 1

1:0 RH


17/128


Para la prueba correspondiente de dicha hiptesis se toma el siguiente estadstico de

Bartlett la cual se distribuye con una chi-cuadrado con 12

1pp

...................(2.15)

Donde:

n : es el tamao muestral

p : es el numero de variables

Si se acepta la hiptesis nula con una confianza del 95% ( p-value >0.05)

Significa que las variables no estan intercorrelacionadas por tanto no tiene mucho

sentido llevar a cabo un anlisis factorial .

En cambio si se rechaza la hiptesis nula ( p-value 0.05) evidencia que no se trata de

una matriz identidad

2.3.4 NDICE DE KAISER- MEYER-OLKIN (KMO)

El ndice KMO nos compara los coeficientes de correlacin de pearson con los

coeficientes de correlacin parcial entre variables .

La formula correspondiente es:

ji ji

ijij

ji

ij

ar

r

KMO22

2

..................(2.16)

Donde :

ijr : es la correlacion simple.

ija : es la correlacion parcial.

Si los coeficientes de correlacion parcial son muy pequeos , esto nos indica que la

relacion entre cada par de las mismas se debe o puede ser explicado por el resto y por

tanto llevara a cabo un anlisis factorial de los datos no deja de ser una buena solucion.

En este supuesto , si la suma de los coeficientes de correlacion parcial al cuadrado es

muy pequea KMO sera un indice muy proximo a la unidad y por tanto el Anlisis

Rpn ln*526112


18/128


Factorial es un procedimiento adecuado ,en cambio valores pequeos en este indice

nos dan a entender todo lo contrario

KMO 0.5 , malos o inaplicables al anlisis factorial

0.5


19/128


Consideremos dos mtodos de estimacin de los parmetros: El mtodo de la

componente principal y el mtodo de mxima verosimilitud. La solucin de uno u otro

mtodo, puede ser rotado a fin de simplificar la interpretacin de los factores.

2.4.1 MTODO DE LA COMPONENTE PRINCIPAL

La descomposicin espectral nos proporciona una factorizacin de la matriz de

covarianzas . Sea , la cual tiene los pares de valor propiovector propio (i, ei), con

12 ... p0 . Entonces:

= 1e1e1 + 2e2e2 + ... +pepep

=

'

.

.

.

'

,...,,

11

2211

pp

pp

e

e

eee

..............(2.18)

Esto adapta la estructura de la covarianza prescrita para el modelo de anlisis factorial,

teniendo tantos factores como variables (m=p) y varianzas especficas ii=0, para todo i.

En la matriz de carga, la j-sima columna est dada por jj e . Esto es, podemos

escribir:

pxp= LpxpLpxp+ Opxp= LL .....................(2.19)

A parte del factor j , los factores de carga del j-simo factor son los coeficientes para

la j-sima componente principal poblacional.

Si bien la expresin (34) es exacta no es de utilidad particularmente. Empleamos tanto

factores comunes como variables hay o no se permite cualquier variacin en los factores

especficos dados en (14) preferimos modelos que expliquen la estructura de la

covarianza en trminos de justamente algunos factores comunes. Una aproximacin

cuando los ltimos p-m autovalores (o valores propios) son pequeos, es omitir la

contribucin de:

m+1em+1em+1+ ... + pepep


20/128


a en la expresin (33), obtenindose:

mxppxm

mm

mm

LL

e

e

ee '

'

.

.

.

'

,...,

11

11

................. (2.20)

Esta representacin aproximada, asume que los factores especficos en (4) son de

importancia secundaria y que tambin se pueden ignorar en la factorizacin de . Si los

factores especficos se incluyen en el modelo, sus varianzas se pueden asumir, ser los

elementos de la diagonal de - LL, donde LL est definido en (12). Considerando los

factores especficos, la aproximacin ser:= LL +

pp

mm

i

mmi

e

e

ee

.00

....

....

0.0

'

.

.

.

'

,...,

11

1

1 .................(2.21)

donde

m

j

iiii ijl

1

2 , i = 1, ..., p

Si deseamos aplicar esta aproximacin a un conjunto de datos x 1, x2, ... , xn, se

acostumbra primero hallar las derivaciones de las observaciones con respecto a su

media muestral X, tal que:

PPj

j

j

PPj

j

j

j

XX

XX

XX

X

XX

X

X

X

XX

.

.

.

.

.

.

.

.

.

22

11

2

1

2

1

, j = 1, ....,n (2.22)

tenga la misma matriz de covarianzas muestral S, como las observaciones originales.

En casos donde, las unidades de las variables no sean conmensurables, por lo comn es

preferible trabajar con las variables estandarizadas.


21/128


pp

ppj

ij

j

S

XX

S

XX

z

.

.

.

11

1

, j = 1,2, ... , n

Cuya matriz de covarianza muestral es la matriz de correlacin muestral R, de las

observaciones X1, X2, ...., Xn. La estandarizacin evita los problemas de que al tener un

problema con varianza grande, indebidamente influya en la determinacin de los

factores de carga.

La expresin en (36), aplicada a la matriz de covarianzas muestral S a la matriz de

correlacin muestral R, se conoce como la solucin de la componente principal.

2.4.1.1 SOLUCIN DE LA COMPONENTE PRINCIPAL DEL MODELO

FACTORIAL

La componente principal del Anlisis Factorial de la matriz de covarianza muestral S,

est especificada en trminos de los pares autovalor-autovector ),(),.....,,( 11 pp ee

donde p .... 21 . Sea m


22/128


La componente principal del anlisis Factorial de la Matriz de correlacin muestral se

obtiene comenzando con R en lugar de S.

Para la solucin de la componente principal, los factores de carga estimados para un

factor dado no varan cuando se incrementa el nmero de factores. Por ejemplo:

11 ~ eL , si m=1.

2211 ,

~eeL , si m=2,

donde:

),(),( 2211 eye son los dos primeros pares autovalor-autovector para S (o para R).

De la definicin de ii~ , los elementos de la diagonal de S son iguales a los elementos de

la diagonal de ~'~~ LL . Sin embargo, los elementos fuera de la diagonal de S no estn

generalmente reproducidos por ~'~~ LL . Entonces Cmo seleccionamos el nmero de

factores m?.

Si el nmero de factores comunes no esta determinado por consideraciones a priori,

tales como por la teora o por trabajos de otros investigadores, la eleccin de m se puede

basar en los autovalores estimados de manera anloga como con las componentes

principales.

Consideremos la matriz residual:

]~'~~

[ LLS (2.26)

resultante de la aproximacin de S mediante la solucin de la componente principal. Los

elementos de la diagonal son ceros si los otros elementos son pequeos tambin.

Podemos considerar subjetivamente apropiado el modelo de m factores. Analticamente

tenemos que:

Suma de cuadrados admitidas de 22 1 .....]~'~~

[ pmLLS (2.27)

Por consiguiente, un valor pequeo para la suma de cuadrados de los auto-valores

omitidos implica un valor pequeo para la suma de cuadrados de los errores de

aproximacin.

Lo ideal es que, las contribuciones de algunos de los primeros factores o las varianzas

muestrales de las variables pudiera ser grande. La contribucin a la varianza muestral s ii


23/128


a partir del primer factor comn es 21~

il . La contribucin a la varianza muestral total, s11

+ s22+ .... + spp = tr(S), del primer factor comn, es entonces:

12211

2

1

2

21

2

11'

~....

~~ eelll p

puesto que el auto-vector 1e tiene longitud unitaria.

proporcin de la varianza muestral , para S

=

.............(44)

total debida al j-simo factorp

j, para un anlisis factorial de R

El criterio (44) se usa frecuentemente como un artculo heurstico para determinar el

nmero apropiado de factores comunes. El nmero de factores comunes reservados en

el modelo se incrementa hasta que una proporcin apropiada de la varianza muestral

haya sido explicada.

Existen otros criterios los cuales se encuentran en los paquetes estadsticos.

2.5 ROTACION DE FACTORES

La finalidad de las Rotaciones Factoriales no es otra cosa sino de ayudarnos a

interpretar en el supuesto que no quede claro en la matriz de pesos factoriales no rotadas

Existen varios procedimientos para las rotaciones factoriales como VARIMAX ,

EQUAMAX y QUARTIMAX que son procedimientos ortogonales es decir que losfactores se mantienen incorrelacionados y los ejes forman angulos rectos .El PROMAX

y EL DIRECT OBLIMIN pertenecen al grupo de los denominados oblicuos o no

ortogonales , sealan a su vez que la rotacin no afecta a la comunalidad y el porcentaje

de varianza explicada por el modelo, aunque si puede cambiar de cada factor.

Lo mas recomendable es la rotacin ortogonal , aunque en el caso que exista razones

para pensar que los factores estn correlacionados ,entonces utilizaremos la rotacin

oblicua .

pp

j

ss .....

11


24/128


En la rotacin oblicua las ponderaciones factoriales no coinciden con las correlaciones

entre el factor y la variable , puesto que los factores estn correlacionados entre si ,por

eso se hace la rotacin oblicua la matriz factorial no rotada se convierte en dos matrices

diferentes : la matriz de ponderaciones (la que se utiliza en la interpretacin ) y la matriz

de correlaciones entre factores y variables .

A continuacin definiremos cada uno de estos mtodos :

2.5.1 MTODOS DE ESTIMACIN

2.5.1.1 VARIMAX

Es el procedimiento ortogonal mas utilizado ,el mismo que trata de minimizar elnumero de variables que hay con pesos o saturaciones elevadas en cada factor

2.5.1.2 QUARTIMAX

Este procedimiento Ortogonal trata de minimizar el numero de factores necesarios para

explicar un conjunto de variables .

2.5.1.3 EQUAMAX

Es un procedimiento Ortogonal el cual es una combinacin de los dos anteriores, es

decir trata de simplificar factores y variables.

2.5.1.4 PROMAX

Es una rotacin oblicua que se utiliza cuando las ponderaciones factoriales no coinciden

con la correlacion entre el factor y la variable .

2.5.1.5 DIRECT OBLIMIN

Es un procedimiento oblicuo similar al anterior , si utilizamos este mtodo al final

tendremos una matriz de correlacin entre los factores pero no ser identidad


25/128


CAPITULO III

ANALISIS DE CORRESPONDENCIAS

3.1 INTRODUCCIN

El anlisis de correspondencia, es un mtodo multivariado que reduce la

dimensin (Tamao de la tabla de contingencia), para el estudio de las relaciones de

interdependencia entre variables categricas. Convierte las categoras de la tabla de

frecuencias (filas y columnas) en un menor nmero de dimensiones, indicando que

porcentaje del valor Chi-cuadrado de la asociacin puede ser explicado por las nuevas

dimensiones. Por ello guarda cierta analoga con la prueba Chi-cuadrado y con elcoeficiente de concordancia de Kendall, Visauta (1998).

Pero el anlisis de correspondencias, adems de analizar la relacin existente

entre variables, permite analizar como est estructurada esta asociacin, describiendo

proximidades que permite identificar categoras causas de asociacin.

Con la prueba de Chi-cuadrado de independencia, se puede observar si dosvariables son independientes o no y se puede determinar el grado de dependencia de las

mismas. Pero, dichas medidas no permite encontrar en que consisten las similitudes

entre las categoras de cualquiera de las dos variables o la dependencia entre ellas.

El anlisis de Correspondencias nos aportar informacin que de ningn modo

nos proporcionaba la Chi-cuadrado y los coeficientes de correlacin (Otros ratios) (en

trminos de existencia o no de relacin entre las variables, su intensidad y nivel de

significacin). El Anlisis de correspondencia calcular; perfiles, inercias,

contribuciones, etc., de las diversas filas y/o columnas de la tabla y adems nos

permitir analizar esta posible relacin entre las variables de un modo grfico en un

espacio bidimensional de modo que, previo clculo por filas y columnas de las

puntuaciones de la tabla, las diversas categoras de las variables estarn representadas

en el grafico ms prximas o alejadas en las diversas dimensiones en funcin de su

grado de similitud o diferencias. De manera que:


26/128


Prximas al origen del espacio bidimensional o pluridimensional estarn las

categoras de las variables que menos discriminan cada una de las dimensiones de la

solucin y en las categoras mas alejadas del origen es mayor la discriminacin.

Mayor o menor proximidad entre las categoras en el plano equivale a un mayor o

menor grado de relacin o interdependencia entre las mismas.

El anlisis de correspondencia, es como realizar dos veces Anlisis de

Componentes Principales (ACP). En el primero, los perfiles filas desempean el papel

de unidades bajo estudio, en el segundo, son los perfiles columnas las que desempean

el papel de unidades bajo estudio. En resumen el AC es un doble ACP cuyas unidades

son representadas simultneamente, el anlisis de correspondencias se divide en dos

campos anlisis de correspondencias simple y mltiple.

Simple: Es el modelo general, se aplica al tratamiento de tablas de contingencia

obtenidas del cruce de dos variables nominales.

Mltiple: Es una generalizacin del caso anterior al caso de dos o ms variables

nominales. Se aplica a tablas de la forma individuos por variables nominales en

codificacin disyuntiva completa.

3.2 OBJETIVOS DEL ANLISIS FACTORIAL DE CORRESPONDENCIA

Permitir estudiar la asociacin mutua entre las categoras de dos o ms variables

cualitativas o cuantitativas categorizadas.

Reducir la dimensin del caso estudiado, de manera que permita un estudio ms

simple del problema investigado.

Visualizar, mediante proyecciones sobre planos, llamados factoriales, las

proximidades entre perfiles lneas, entre perfiles columnas y entre perfiles filas y

columnas.

Permite extraer nuevas variables o factores que resuman de manera organizada la

informacin significativa contenida en las tablas y permite crear grficos que

muestren la identificacin de los objetos en filas y/o en columnas.


27/128


En el presenta trabajo abordaremos solamente el anlisis de correspondencias

simple, con su respectiva aplicacin en desnutricin infantil, en nios menores de 5

aos.

3.3 TABLA DE CONTINGENCIA

Una tabla de contingencia resume la observacin simultanea de dos

caractersticas Xe Y.

Donde la variable cualitativa X est dividida en n categoras mutuamente

excluyentes y la variable Ydividida en p categoras.

Tabla N 3.1

Tabla de contingencia

Caractersticas

Variable Y

1 j p Total

Variable X

1 11k jk1 pk1 .1k

i 1ik ijk ipk .ik

n 1nk njk npk .nk

Total1.k jk. pk. ..k

Donde:

ijk : Frecuencia absoluta Y, representa la cantidad de individuos observados quepresentan simultneamente la categora i de la variable Xy la categora j de la

variable Y.

.i

k : Es la frecuencia marginal de X, y est dado por:

p

j

iji kk1

.

jk. : Es la frecuencia marginal de Y, definida por la expresin:


28/128


n

i

ijj kk1

.

..k : Es el tamao de la muestra:

Con el propsito de realizar un anlisis descriptivo, frecuentemente se considera la

tabla de frecuencias relativas, para tal propsito previamente se define.

Tabla N 3.2

Tabla de frecuencias relativas

Caractersticas

Variable Y

1 j p Total

Variable X

111f jf1 pf1 .1f

i 1if ijf ipf .if

n 1nf njf npf .nf

Total1.f jf. pf. ..f

La frecuencia relativa conjunta ijf se define mediante la relacin:

..k

kf

ij

ij

El valor de cada celda corresponde a la proporcin de individuos observados en la

poblacin que presentan simultneamente la categora i de la variable Xy la categoraj de la variable Y.

Frecuencias Marginales

p

j

ij

p

j

ijii f

k

k

k

kf

11 ....

.

. ppi ,...,2,1

..

1 1.. ..

n nijJ

j ij

i i

kkf f

k k nnj ,...,2,1

p

j

j

n

i

n

i

i

p

j

ij kkkk1

.

1 1

.

1

..


29/128


La suma total o la suma de las mrgenes es evidentemente igual a uno, puesto

que la tabla de frecuencias relativas se obtiene dividiendo la tabla de

contingencia por ..k .

11

1 ..

..

1..

..1 1 ..

..

n

i

p

j

ij

n

i

p

j

ij

kkk

kkkf

3.4 ANLISIS ESTADSTICO DE UNA TABLA DE CONTINGENCIA

El anlisis estadstico ms conocido para tablas de contingencia es la prueba de

Chi cuadrado, la misma que tienen principalmente tres aplicaciones, prueba de

independencia, prueba de homogeneidad y bondad de ajuste; en el presente trabajo

abordaremos la prueba de independencia.

3.5 ANLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLE (ACS)

El Anlisis de correspondencias simple es una tcnica para representar las

categoras de las dos variables en un espacio de pequea dimensin que permita

interpretar las similitudes entre categoras de una variable respecto a las categoras de la

otra, las relaciones entre las categoras de ambas variables.

Igual que el anlisis de componentes principales, el ACS trata de explicar la

dispersin de la matriz de varianzas - covarianzas (aunque en este caso se denomina

matriz de inercia) a travs de un nmero menor de variables (factores), pero este anlisis

debe realizarse tanto para las filas como para las columnas. Por tanto es un caso

particular del anlisis de componentes principales y se tienen que llevar acabo dos

anlisis de componentes principales, uno para el espacio que definen las filas y otro para

el espacio que definen las columnas.

En muchos estudios es frecuente que el investigador precise utilizar

simultneamente variables medidas tanto en escalas no mtricas como mtricas. En tal

caso, resulta interesante transformar las variables mtricas en otras que no sean de este

modo, todas las variables estarn medidas en la misma escala (no mtrica) y ser

posible operar con ellas conjuntamente aplicando ACS o Anlisis de Correspondencia

Mltiple (ACM).


30/128


3.5.1 Tabla de perfiles filas y columnas

Reflejan las proporciones que el nmero de individuos de cada celda

representan sobre el total de la fila y sobre el total de la columna respectivamente. El

grado de similitud entre estos perfiles tanto por filas como por columnas quedar

reflejado en cada grfico en trminos de proximidad o lejana entre las categoras de las

variables.

La tabla inicial no se analiza directamente, si no mediante tabla perfiles fila y

columna:

a) Perfil Fila

En el estudio de las filas, la tabla de datos se transforma dividiendo cada trmino ijf de

la fila ipor la marginal .if de esta fila i . La nueva fila se denomina perfil-fila.

Tabla N 3.3

Perfiles fila

pn /

Variable Y

1 j p Total

Variable X

1 .111 /ff .11 /ffj .11 /ffp 1

i .1

/ ii ff ./ iij ff ./ iip ff 1

n .1/ nn ff ./ nnj ff ./ nnp ff 1

Donde:

.i

ij

f

fRepresenta el porcentaje de elementos de la poblacin que cumplen la categora j

sabiendo que poseen la condicin i de la primera variable.

Se denomina perfil fila i a la distribucin de frecuencias de las categoras del

factor Xcondicionadas a las categoras del factor Y, esto est dado por:

nif

f

ff

ffH

i

ip

i

i

i

ii ,...3,2,1,,...,,

..

2

.

1


31/128


b) Perfil Columna

En el estudio de las columnas, la tabla de datos se transforma dividiendo cada

trmino ijf de la columna j por la marginal jf. de esta columna j . La nueva columna

se denomina perfil-columna.

Tabla N 3.4

Perfiles columna

pn /

Variable Y

1 j p

Variable X

11.11 /ff 1.1 /ffj 1.1 /ffp

i 1 .

/i jf f ./ij jf f ./ip jf f

n 1 .

/n pf f ./nj pf f ./np pf f

Total 1 1 1

Donde:

j

ij

f

f

.

Representa el porcentaje de elementos de la poblacin que cumplen la categora i

sabiendo que poseen la condicin j de la primera variable.

Se denomina perfil de la columna j a la distribucin de frecuencias de las

categoras del factor Ycondicionadas a las categoras del factor X.

pj

f

f

f

f

f

fF

j

nj

j

j

j

j

j ,...,3,2,1,...,,..

2

.

1

Los perfiles columnas pueden compararse con la distribucin de las frecuencias

del factor X.

El resultado de la asociacin se da en doble sentido y representa lo mismo, si los

perfiles fila o columna de categoras distintas tienen igual comportamiento las variables

son independientes, en caso contrario estn asociados. Este proceso es un anlisis de

componentes principales por filas y columnas.


32/128


3.5.2 Distancia entre los elementos fila y columna

En cualquier espacio multidimencional puede definirse una distancia entre dos

puntos (categoras), para analizar la semejanza entre ellos.

Para ello es necesario introducir el tipo de distancia a usarse.

a) Distancia Euclidiana

La expresin general de esta distancia en el marco de las tablas de contingencia,

entre dos elementos fila de una tabla de contingencias es.

',1

2

'', iikkd

p

j

jiijii

La distancia entre dos elementos columna de una tabla de contingencia es la

siguiente.

',1

2

'', jjkkd

n

i

ijijjj

Propiedades de Distancia Euclidea

Cuando comparamos dos elementos fila o columna de una tabla establecemos una

relacin de similitud o desimilitud de diferencias entre dos categoras de X, si

esta distancia es cerca de cero entonces las categoras son similares, caso contrario

son diferentes.

',,0)',( iid ii ',,0)',( jjd jj

Si los elementos comparados por fila son idnticos, para todo par de elementos de la

tabla, entonces

'0', iiiid , Similarmente para el caso de columnas '0', jjjjd

',,,'', iiiidiid y ',,,'', jjjjdjjd

Si consideramos tres elementos de una tabla de frecuencias, se verifica que:

mjjmjdmjdjjd

kiikidkidiid

,',,,',',

,',,,',',


33/128


b) Distancia Chi cuadrado

Establecer la semejanza entre dos perfiles fila, vendra determinado por

establecer la distancia eucldea entre los dos perfiles, sin embargo si procedemos as la

diferencia solo reflejara la diferencia entre las frecuencias marginales.i

f oj

f.

manifestando el efecto talla, lo que va a caracterizar al anlisis de correspondencias

simple es la ponderacin que supone los denominadores de las expresiones de los

perfiles.

Si introducimos las ponderacionesjf.

1 o

.

1

if en caso de filas o columnas

estamos equilibrando los perfiles y dando la misma importancia a cada uno de ellos,

aumenta los trminos a priori ms dbiles, referente a las categoras raras, juega un

papel analgico al de la divisin de la desviacin tpica en el caso de las variables

numricas. En definitiva, supone tomar como referencia el perfil medio.

El carcter cualitativo de las variables obliga a usar una distancia distinta a la euclidea,

en nuestro caso para medir la distancia entre dos filas o entre las dos columnas se

recurre a la denominada distancia 2 . En realidad es una distancia eucldea ponderada

por la inversa del peso de la simaj columna en caso de que estemos midiendo la

distancia entre dos filas o ponderada por la inversa del peso de la simai fila, en casode que estemos midiendo la distancia entre dos columnas. La expresin de distancia

entre dos filas i e i es igual a:

2

.1 .

2 .1

),(

i

ji

i

ijp

j j f

f

f

f

fiid

Similarmente, la distancia entre dos columnas jyj se obtiene aplicando la

siguiente expresin es:

2

..1 .

2 .1

),(

j

ji

j

ijn

i i f

f

f

f

fjjd

De acuerdo con esta distancia, las categoras de los perfiles fila estn

representadas por una configuracin de j puntos en un espacio euclideo pR , de

coordenadas.

....

,...,:

ip

ip

ij

ij

i

ff

f

ff

fp


34/128


Las categoras de los perfiles columna est representada por una configuracin i

de puntos en un espacio euclideo de nR , de coordenadas.

jn

nj

ji

ij

j

ff

f

ff

fp

....

,...,:

3.5.3 Nube de puntos

Cada perfil-fila es un conjunto de p valores numricos y puede ser representado

por un punto en el espacio pR en el que cada uno de las p dimensiones est asociado a

una categora de la segunda variable.

La distancia 2 que define la semejanza entre perfiles-fila posee las

propiedades de una distancia eucldea y confiere a pR la estructura de espacio eucldeo.

Esta distancia conduce a asignar a la simaj dimensin del pR el peso jf. .

La suma de las coordenadas de cada perfil-fila vale 1; resultando que la nube de

puntos fila ( IN ) pertenece a un hiperplano denotado por IH . En caso de3R

tendramos la siguiente figura:

Grafico N 3.1Representacin de la nube en el espacio tridimensional

En la figura:

El punto i tiene por coordenada sobre el eje j ,.i

ij

f

f

Su peso es .if


35/128


La distancia entre dos perfiles es la distancia 2

El baricentro ( G ) de la nube IN tiene por coordenadas sobre el eje j la

frecuencia marginal jf. .

La nube IN pertenece a un hiperplano IH

En el anlisis de correspondencias los pesos de cada punto de la nube vienen

impuestos, el punto i tiene un peso igual a la frecuencia marginal .if , este peso es

proporcional al efectivo de la clase de individuos que representa.

El baricentro de los puntos IN dotados de estos pesos se denota por IG . Su

simaj coordenada es la media ponderada de las simasj coordenadas de los

puntos IN .

jn

i

i

n

i

i

i

ij

I f

f

ff

f

G .

1

.

1

.

.

)(

IG es el centro de gravedad y se interpreta como el perfil medio.

As al estudiar en qu medida y de qu manera una clase de individuos i difiere

del conjunto de poblacin, conduce a estudiar la desviacin entre el perfil de esta clase y

el perfil medio.

Similarmente la nube de perfiles columna es:

.

1

.

1

.

.

)(

ip

j

j

p

j

j

j

ij

J f

f

ff

f

G

La distancia de cada columna y de cada fila al centro de gravedad se expresa

como sigue:

2

1

.

..

2

.

.1 .

2 1,

p

j

j

ji

ij

j

i

ijp

j j

I fff

ff

f

f

fGid Para filas (1)

2

1

..

..

2

.

.1 .

2 1,

n

i

i

ij

ij

i

j

ijn

i i

J fff

ff

f

f

fGjd Para columnas (2)


36/128


3.6 EL AJUSTE DE LAS NUBES

Desde el punto de vista del anlisis de datos, interesa reducir la nube de puntos

de manera que se obtenga una representacin a la vez accesible a nuestra visin y fiel,

en el sentido de que la representacin de la nube mantenga la mayor informacin que

ella contiene.

La representacin ser accesible si se proyecta la nube sobre un subespacio de

pequea dimensin y ser completa si la dispersin de la nube proyectada es casi igual a

la de la nube propiamente dicha.

En general se trata de buscar un subespacio de dimensin q en pqRp , la

misma que nos permite encontrar un sistema de vectores quu ,...,1 y 'q es el tamao

del sub espacio generado en el espacio nqRn

', , encontrando el sistema de vectores

'1 ,..., qvv ortonormado para la mtricapn RR , que tiene el subespacio de manera que

sea mxima la inercia de las nubes sobre los subespacios.

3.6.1 AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES-FILA

IN . ANLISIS EN PR .

En pR , el ajuste trata de obtener un conjunto de imgenes planas aproximadas

de la nube IN , donde iI ,...,3,2,1 , dotados de pesos ii ffp .1. ,..., . Al igual

que en anlisis de componentes principales, el anlisis de correspondencias simples

consiste en buscar un conjunto de ejes ortogonales sobre los que ser proyectada la nube

(Grfico N 3.1).

Las imgenes planas de IN deben ser tales que las distancias entre los puntos

de la imagen se asemejen lo ms posible a las distancias entre los puntos de IN . Este

objetivo es completamente anlogo al del ajuste de la nube de individuos en anlisis decomponentes principales, en la prctica implica que la nube analizada sea centrada, es

decir, que su baricentro sea elegido como origen de los ejes.

En la nube centrada de la clase definida por la categora i est representada por

un punto cuya coordenada sobre el simoj eje es.

.

ij

j

i

ff

f (diferencia entre la

coordenada del perfil fila y IG Baricentro de IN ).

La posicin de este punto expresa la diferencia entre la distribucin de la clase i y de la poblacin total sobre el conjunto de las categoras de la segunda variable.


37/128


Determinar las direcciones de la inercia mxima de la nube centrada es obtener

las clases, que ms se desvan del perfil del conjunto de la poblacin, esto es:

iinerciaINInercian

i 1...

p

j ij

ijijn

i ff

fffINInercia

1 ..

2

..

1 ....

Similarmente el ajuste y representacin de la nube de perfiles-columna en la

nube centrada, de la clase definida por la categora j est representada por un punto

cuya coordenada sobre el simoi eje es.

.

ij

i

ff

f j

(diferencia entre la coordenada del

perfil fila y JG Baricentro de JN ).

La posicin de este punto expresa la diferencia entre la distribucin de la

categora j y la de la poblacin total sobre el conjunto de las categoras de la segunda

variable.

Determinar las direcciones de la inercia mxima de la nube es generar las clases,

que ms se desvan del perfil del conjunto de la poblacin, esto es:

jinerciaJNInerciap

j

1

...

2

. .

1 1 . .

....

pnij i j

i j i j

f f fInercia N J

f f

La inercia es una medida de dispersin total de la nube de puntos respecto a su

centro de gravedad.

Cada perfil est dotado de un peso igual a su frecuencia marginal .if . Este peso

interviene en primer lugar en el clculo del centro de gravedad de la nube y tambin

interviene en la inercia y, por tanto, en el criterio de ajustes de los ejes.

Si consideramos la informacin proporcionada en una tabla de contingencia;

cada perfil tiene unas caractersticas dadas por la fila que le corresponde.

Los p valores de los perfiles fila configuran un vector ipi xxx ,...,1 que se

representa como un punto en el espacio pR y los n perfiles fila forman una nube de n

puntos enp

R .


38/128


Un conjunto de perfiles fila puede caracterizarse por su gravedad e inercia. La

inercia de una nube de puntos es una medida resumida de dispersin, se define como la

suma para todo los puntos del producto de sus masas por los cuadrados de sus distancias

al centro de gravedad, y esta dado por:

n

i

fi GidfInercia1

2 ,

La inercia es el punto que seala la posicin central de la nube, caracterizando al

perfil medio respecto a los perfiles fila.

Uno de los objetivos del anlisis de correspondencias es reducir la nube de

puntos, es decir, encontrar un sistema de vectores en pR , de manera que el ajuste trate

de obtener un conjunto de imgenes planas aproximadas de la nube IN .

Al igual que en anlisis de componentes principales, el anlisis de

correspondencia simple consiste en buscar un conjunto de ejes ortogonales sobre los

que ser proyectada la nube, geomtricamente se tiene:

Grfico N 3.2

Representacin de la inercia en los ejes ortogonales

Representacin de IN .

La representacin de las categoras de la primera variable (perfil fila) en

dimensin reducida, determinadas por las ip coordenadas con referencia a las

Inercia baja

Eje factorial

Eje factorial

Inercia alta


39/128


categoras de la segunda variable (perfil columna), se puede interpretar como un

problema de representacin de datos mediante anlisis de componentes principales.

Sea:

.. ij

ij

ff

fX (3)

Una matriz de orden pn cuyas filas son las coordenadas ip , las medias de las

variables - calculadas sobre la matriz de datos X, ponderadas por las frecuencias

relativas ..1 ,..., nff , se tienen el vector de medias

nffffM .3.2.1. ...,,,,

. . ..

. .21 1. . . . .

.

n nj j jij ij j

i j

i ij i j j jj

f f ff f fM f f

f f f f f f

jfM . (4)

La covarianza entre las categoras j y 'j , ponderado por las frecuencias relativas es:

'

' . . . '1 . . . ' .

.n

ij ij

j j i j ji j i j i

f fC f f f

f f f f

' . . '

1. . ' .

nij ij

j j j j

ij j i

f fC f f

f f f

(5)

En trminos matriciales la covarianza es:

'' MMXDXC np (6)

Donde:

..1 ,..., nn ffdiagonalD

Se verifica entonces:

1.

Mes el autovector de pC para el autovalor 0 , esto es:

En efecto: basta probar que

1 ' . ' .,..., 0 ' 1,...,j i nj nC f C f j n entonces:


40/128


Reemplazando las ecuaciones (6) y el valor M se tiene:

.1 .2 .3 .' ' , , ,...,p n nC M X D X MM f f f f

00.. MMCp

2. Los autovectores de pC son tambin vectores propi os de XDX n' .

Si Ves vector propio de pC distinto de M de valor propio , entonces V es

ortogonal a 'M , es decir: 0'. VM

VVCp . (7)

Sustituyendo la ecuacin (5) en (7) se tiene:

VVMMXDX n ''

Operando llegamos a

VVMMVXDX n '.'

Como:

VVXDXVMn

.'0'.

3. Mes autovector de

n

i ijj

ijij

nfff

ffXDX

1 .'..

'' para el autovalor 1

Donde

MMXDX n ..'

Sustituyendo,

tenemos:

j

p

j

n

i ijj

ijijf

fff

ff.

1 1 .'..

'.

'.

'.

'.

1 1.'.

'

j

j

jp

j

n

iij

ijijf

f

f

ff

ff

Luego como:

' .1 .2 .3 .1 . . ' .

. , , ,...,n

ij ij

k

i j j i

f fM f f f f

f f f


41/128


1.'.

Mfj

Como consecuencia de estas propiedades, bastara diagonalizar XDX n' y

considerar solo los vectores propios de valor propio distinto de uno. Como el valor

propio uno corresponde al valor propio cero de pC , los dems valores propios de

XDX n' son menores que 1.

Diagonalizando XDX n' cuyo trmino general es:

n

i jji

ijij

jj

fff

fft

1 '...

'

'

.

.

Obtenemos los valores propios, de pdiagonalD ,...,,1 2 , donde cada

valor propio (inercia) tiene asociado un vector propio u , como consecuencia

obtendremos la matriz de vectores propios U, de manera que a 2u se le llama primer

eje factorial o primer eje principal de inercia 2 .

3.6.2 TASAS DE INERCIA

Las tasas de inercia permite evaluar la calidad global del ajuste y esta asociada al

eje factorial ( ) indica la parte de la inercia total de la nube proyectada sobre este eje.

En forma general ser:

El porcentaje de la inercia explicada por el segundo y tercer eje factorial ser:

2

2

...

...p

P

El nmero de ejes factoriales de la IN no puede superar a la menor de las dos

cantidades 1 , 1n p .

1,1min pnq


42/128


El subespacio obtenido por los q - ejes factoriales se denomina soporte de IN

3.6.3 COORDENADAS FACTORIALES DE LOS PUNTOS PERFILES - FILA

Las coordenadas de los perfiles-fila vendrn dadas a partir del producto de lamatriz de los perfiles transformados por la matriz de los vectores propios, es decir:

UXF . Donde el trmino general es:

p

j

j

ji

ij

i uff

fF

1 ..

. (8)

n

i

i

ij

ijj v

fffF

1 ..

. (9)

3.6.4 AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES -

COLUMNA JN ANLISIS EN nR .

Debido al papel simtrico que juegan las filas y las columnas en el anlisis de

correspondencias, el ajuste ennR se plantea en los mismos trminos y posee las mismas

propiedades que el ajuste enpR `. Es decir:

Las imgenes planas de JN deben ser tales que las distancias entre los perfiles

proyectados se asemejen lo ms posible a las distancias entre los perfiles enpR . De

ah se deriva la necesidad de analizar la nube JN con relacin a su baricentro JG .

La inercia total de JN con respecto a JG proviene de las diferencias entre losperfiles de las diferentes clases y el perfil conjunto de la poblacin.

Las coordenadas de los puntos j esjf

fij

.

El peso de los puntos j es jf.

El centro de gravedad G tiene de coordenadas jfg .

La matriz de perfiles columna transformadas y centradas es:


43/128


ji

ij

ff

fX

..

~ (10)

La proyeccin de un punto j sobre el eje cuyo vector director de v es:

i

n

i ji

ij

i vff

fG

.

1 ..

(11)

Similarmente para proyeccin de perfil fila se tiene, cuyo vector director de u es:

j

p

j ij

ij

j uff

fG

.

1 ..

(12)

Matricialmente las coordenadas de los puntos perfiles columna ser:

VXG .~

Recordemos que tambin se puede obtener las coordenadas de los puntos

perfiles columna a travs de las relaciones de transicin; trabajadas en el anlisis de

componentes principales. Es decir:

jiji uXv

..1

(13)

(14)

Es decir que:

j

j

i uf

GjCoord

.),(

.

Demostracin:

Sustituyendo en la ecuacin (14) el valor de1 . .

'n

ij

iji i j

fX

f f se tiene:

1 . .

1. .

.

nij

j i

i i j

fu v

f f

Multiplicando en el numerador y denominador por jf.

.

1 . . .

1 . ..

njij

j i

i i j j

ffu vf f f

iijj vXu

'..1


44/128


.

1 ..

1. .

njij

i

i ji

ffv

ff

ji

n

i ji

ijfv

ff

f.

1 ..

...1

Sustituyendo por la ecuacin (11) se tiene:

jij fGu ...1

DespejandoiG llegamos a la expresin: j

j

i uf

G

.

.

Sin embargo, lo que nos interesa con fines de una interpretacin ms importante

de las nubes es representar las dos nubes en un mismo plano.

3.6.5 REPRESENTACIN DE LAS NUBES EN UN MISMO PLANO

Las relaciones existentes entre los dos subespacios permiten representar

simultneamente las dos nubes en un mismo plano.

As partiendo de:

i

n

i ji

ij

i vff

fG

.

1 ..

y.

..1

iii fFv

Sustituyendo se tiene:

.

1 ..

..1

. ii

n

i ji

ij

j fFff

fG

n

i

ii

ji

ijFf

ff

f

1

.

..

...1

n

i

i

j

ij

j Ff

fG

1 .

..1

(15)

Similarmente, sustituyendo la ecuacinjjj

fFu.

..1

en la ecuacin (12) se

tiene:

jj

p

j ij

ij

i fF

ff

fG

.

1 ..

..1

.


45/128


jj

p

jij

ijFf

ff

f

...

1.

1..

p

j

j

i

ij

i F

f

fG

1 .

..1

(16)

Esto significa que la proyeccin de los puntos i sobre el espacio formado por los

factores es igual a la proyeccin de los puntos j ponderados por un coeficiente.

ij

i

f

fque

es el peso que tiene cada fila y por un coeficiente que es la raz del autovalor. Para el

caso de las proyecciones de los puntos j , las relaciones permiten representar

simultneamente sobre el mismo plano los puntos fila y columna, permitiendo la

interpretacin de las relaciones entre lneas y columnas.

3.6.6 DEFINICIN DE LOS EJES E INTERPRETACIN DE LA INERCIA

En anlisis de componentes principales, para asignar un nombre a los factores,

se debe tomar en cuenta las correlaciones entre las variables (contribuciones). En el

anlisis de correspondencias simples, una vez obtenidas las coordenadas del perfil fila y

perfil columna, representados los puntos en el mismo plano se debe conocer quecategoras son las que ms han contribuido en la construccin de los ejes, es decir el

peso que tiene cada categora en la definicin de cada eje.

Por otro lado, la inercia de una nube de puntos se descompone sobre toda base

ortogonal, es la suma de sus inercias sobre cada uno de los ejes de esa base.

El ajuste de las nubes IN y JN descompone su inercia segn lasdirecciones principales, debido a la ortogonalidad de los ejes, la suma de las inercias de

una nube sobre cada uno de los ejes es igual a la inercia total de la nube.

Contrariamente al caso del anlisis de componentes principales, en el que la

inercia de las nubes es igual al nmero de las variables, en el anlisis de

correspondencias simples esta inercia expresa la estructura de la tabla.


46/128


La inercia de cada una de las dos nubes de perfiles fila y perfiles columna es

igual al estadstico 2 . El anlisis de correspondencias simples es por tanto, una

descomposicin de este estadstico y cada factor representa una parte de la relacin

entre las variables.

3.6.7 CONTRIBUCIN ABSOLUTA Y RELATIVA DE LOS PERFILES FILA

a) Contribuciones absolutas por filas.- Expresan la proporcin de la varianza

explicada por un eje debida a un perfil ji, . Es decir, permiten saber que variables

son las responsables de la contribucin de un factor, determina cuanto aporta el

punto ji, en la inercia (variabilidad) de la proyeccin de un factor.Las contribuciones absolutas representan porcentualmente la importancia que tiene

cada categora en la definicin de cada eje, que est definido por cada categora de la

variable y permite interpretar los ejes. La contribucin absoluta se define:

iFficoordfiCta ii

2

.

2

. .,),(

Puesto que:

n

i

i icoordf1

2. ),(.

Dado que la contribucin absoluta de una fila o columna es un porcentaje de la

inercia que explica un factor, la suma de las contribuciones absolutas para todas las filas

o todas las columnas en un determinado factor debe ser 1 o expresar el 100% de la

inercia del eje. No solo depende de la distancia a la que se encuentra el punto, sino

tambin de su peso o ponderacin.

b) Contribucin relativa por filas.- Expresan la contribucin de un factor en la

explicacin de la dispersin de un elemento, esta medida nos proporciona la calidad

de la representacin de la categora.

Las contribuciones relativas muestran cuales son las caractersticas exclusivas de ese

factor, cuantifica la parte del punto ji, en la inercia explicada por el eje factorial.

GidiF

Gid

icoordiCtr

,,

,,

2

2

2

2

Como


47/128


48/128


Las filas o las columnas tendrn mayor contribucin relativa en un factor a

medida que ese factor sea responsable de la distancia que separa a la misma del origen

de coordenadas.

Mientras las contribuciones absolutas permitan saber que variables son las

responsables de la contribucin del eje, las contribuciones relativas consideran cuales

son las caractersticas exclusivas de ese factor.


49/128


CAPITULO IV:

ANALISIS DISCRIMINANTE

El Anlisis Discriminante es una tcnica estadstica cuya finalidad es analizar si existen

diferencias significativas entre grupos de objetos respecto a un conjunto de variables

medidas sobre los mismos. En el caso de que existan, explicar en qu sentido se dan y

proporcionar procedimientos de clasificacin sistemtica de nuevas observaciones de

origen desconocido en uno de los grupos analizados.

La finalidad del anlisis discriminante es clasificar individuos u objetos en grupos

mutuamente excluyentes, previamente establecidos, llevando en cuenta los valores

observados de un conjunto de variables independientes..

Por otra parte, esta tcnica tambin sirve para:

Analizar si existen diferencias entre los grupos en cuanto a su comportamiento

con respecto a las variables consideradas y averiguar en qu sentido se dan

dichas diferencias

Elaborar procedimientos de clasificacin sistemtica de individuos de origen

desconocido, en uno de los grupos analizados.

El anlisis discrimnate se utiliza para clasificar individuos en grupos o

poblaciones alternativos a partir de valores de un conjunto de variables sobre los

individuos a los que se pretende clasificar.

Para estos sirve el anlisis discriminante. Dada una poblacin que tenemos

dividida en grupos, el anlisis discriminante encuentra una funcin que permite,

con un determinado grado de acierto, explicar esa divisin en grupos (visin

explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos

individuos en alguno de los grupos (visin predicativa)

4.1 ANALISIS DISCRIMINANTE

El anlisis discriminante (DA) es una tcnica orientada a encontrar aquellos

factores (o combinaciones lineales de las variables de partida) que mejor separan o

discriminan entre varios grupos homogneos. El anlisis discriminante no supone


50/128


ningn modelo a priori, tratando de encontrar las proyecciones ms idneas a efectos

de la separacin entre losg grupos existentes en la poblacin.

4.1.1 PLANTEAMIENTO DEL PROBLEMA

El problema que vamos resolver en el presente trabajo de investigacin es el

siguiente:

Sabiendo que un objeto, individuo o persona Xprocede de uno de los grupos iG

de una poblacin P debemos de clasificarlo a uno de estos grupos, en base a las p

medidas asociadas (variables) a cada individuo. Debemos de construir una regla de

clasificacin ptima en algn sentido, por ejemplo que minimice los costos de mala

clasificacin.

La solucin al problema planteado es la siguiente:

Si los ggrupos concurrentes gGG ,,1 de la poblacin P, podemos pensar de

una observacin X como un punto en el espacio de dimensin p , pR .

Tal espacio muestral se divide en gregiones disjuntas

pg RRgRRRR 211 ,, . Si la observacin Xcae en la regin kR ,

el individuo es clasificado como procedente de kG .

Cuando tratamos de construir una regla para clasificar individuos, se debe

distinguir las cuatro posibles situaciones.

1. La distribucin de Xes completamente conocida.

2. Se conoce la distribucin de Xpero no se conocen los parmetros.

3. La distribucin de Xes parcialmente conocida.

4. La distribucin de Xes completamente desconocida.


51/128


4.1.2 PROCEDIMIENTOS DE CLASIFICACIN

Existen varios mtodos de clasificacin dependiendo del nmero de grupos a

clasificar (dos o ms grupos),de las hiptesis hechas acerca del comportamiento de las

variables en cada grupo (normalidad conjunta, homocedasticidad) as como del criterioutilizado para llevar a cabo dicha clasificacin.

La clasificacin puede desarrollarse bajo diferentes perspectivas, que en algunos

casos dan lugar a la misma regla de decisin, la clasificacin se resuelve construyendo

ciertas funciones de variables ),( 1 nXXgf llamadas funciones discriminantes, la

decisin se toma a partir de ellas.

4.2 REGLAS GENERALES DE CLASIFICACIONEl propsito bsico de un anlisis discriminante (AD) puede describirse como

sigue: Suponga que nosotros tenemos las muestras de k poblaciones de tamao gn

kg ,,1 , con p medidas en cada uno. Usando los datos queremos determinar de

cual de las Kpoblaciones es ms probable seleccionar la unidad (N+1) asumiremos

que la forma de las funciones de densidad es el mismo para todas las poblaciones de k:

por ejemplo, que ellos son todas normal multivariantes. Denotemos con f a la funcin

de densidad comn. Entonces la regla de mxima probabilidad es:

Asigne la unidad ua la poblacin gsi la probabilidad del vector observacin,

,X . Es mayor para el grupo gque para cualquier otro grupo. Esta regla puede

declararse como sigue:

ggparagXfgXf )()( (4.1)

La regla puede darse en trminos de algunas condiciones llamadasprobabilidades Resulta que )( gXP es, en el lmite, proporcional a )( gXf ,por

consiguiente, una segunda regla de mxima probabilidad puede darse por lo que se

refiere a estas probabilidades tpicas:

ggparagXPgXP )()( (4.2)

Otra regla se toma considerando la probabilidad de la unidaduque pertenece al

grupo g esto dado que la unidad tiene un vector observacin particular, X . Esta

probabilidad, denotado por )/( XgP ,se llama la probabilidad posterior de el nmero


52/128


de miembros en la poblacing, "posterior" en el sentido que sta es una probabilidad

condicional de mala clasificacin enX . Con esta visin asumimos, que la unidad a ser

clasificada pertenece de hecho a una de las kpoblaciones.

4.2.1 REGLA DE DISCRIMINACION DE MAXIMA PROBABILIDAD

Denotamos las densidades de cada poblacin j por )(xfi . La regla de

discriminacin de probabilidad mxima (regla de ML) es dada por la asignacin de x a

j maximizando la probabilidad. )(max)()( xfxfxL iijj

Si varios iif tienen el mismo mximo entonces cualquiera de ellos puede ser

seleccionado. Matemticamente la coleccin jR dado por la regla de discriminacin de

probabilidad mxima se define como sigue:

jiJixLxLxR ijj ,,1),()(: (4.3)

Clasificando las observaciones dentro de cierto grupo nosotros podemos

encontrar un error de mala clasificacin:

Para J=2 grupos la probabilidad de poner x dentro del grupo 2 aunque este sea de

la poblacin 1 puede calcularse como:

2

)()( 11212R

dxxfRXPP (4.4)

Similarmente la probabilidad condicional de clasificar un objeto como

perteneciente a la poblacin 1aunque esta realmente venga de la poblacin 2es:

1

)()( 22121R

dxxfRXPP (4.5)

Las observaciones con un error de mala clasificacin crean un costo )/( jiC

cuando una observacin j es asignada a iR .

La matriz de costos esta dado por:

Asignado \ verdadero G1 G2

G1 0 C(1/2)

G2 C(2/1) 0


53/128


Cuadro 1: Costos de Clasificacin

Permitamos que j sea la probabilidad anterior de la poblacin j , donde la

media de una probabilidad anterior sea seleccionar un individuo al azar de j (esto

es antes de parecer el valor x) Las probabilidades anteriores pueden considerarse si es

claro que una observacin provenga probablemente de una poblacin j .

El costo esperado por error de mala clasificacin (ECM) esta dada por:

221112)21()12( PCPCECM (4.6)

Nosotros estamos interesados en las reglas de clasificacin que guardan los

ECM que minimizan encima de una clase de reglas. Las reglas de discriminacin que

minimizan el ECM (2.11) para dos poblaciones esta dada por:

TEOREMA 1.-Para dos poblaciones dadas, la regla que minimiza el ECM se da por

1

2

2

1

1)12(

)21(

)(

)(:

C

C

xf

xfxR

1

2

2

12

)12()21(

)()(:

CC

xfxfxR (4.7)

La regla de discriminacin ML es as un caso especial de la regla de ECM para el error

de mala igual y los costos y las probabilidades anteriores iguales. Para su simplicidad

del caso de costo de la unidad C(1/2) = C(2/1) = 1, y las probabilidades anteriores

iguales, 12 .

CASO 1: Supongamos que 1 representa la poblacin de 1 que crean el costo C (2/1)

si ellos son clasificados como los elementos de la poblacin 2 . Anlogamente, se

define C (1/2) como el costo de clasificar mal a un elemento de la poblacin 1 como

perteneciente a la poblacin 2

Denotemos la ganancia para la correcta clasificacin de elementos

La ganancia total es entonces:


54/128


dxxfRxIdxxfRxICdxxfRxICRG )()()()(1)21()()()12()( 2222221212

dxxfCxfCRxIC )()21()()12()()12(21122

(4.8)

Desde el primer trmino en esta ecuacin es constante, el mximo se obtiene

obviamente para:

0)()21()()12(: 22112 xfCxfCxR (4.9)

Esto es equivalente a

2

1

1

2

2

)21(

)12(

)(

)(:

C

C

xf

xfxR (4.10)

Qu corresponde al 2R fijo en el Teorema 12.1 para una ganancia de = 0:

CASO 2: Supongamos que 1,0x

2/1)1()0(:1 XPXP

)1(14/1)0(:2 XPXP (4.11)

El espacio muestral es {0,1}

La regla de discriminacin ML asigna:

2

1

1

0

x

y

x

Definiendo los grupos tenemos

1,0

1,0

21

21

RR

Y

RR

1,00 211 RRyR

CASO 3: Consideremos dos poblaciones normales

),(:

),(:

2

222

2

111

N

N

Luego


55/128


2

2/12

2

1exp)2()(

i

iii

xxL

(4.12)

De x se asigna a:

)( 11 Rx

Si:

)()( 21 xLxL

Es equivalente a

xx

12

1exp

2

2

2

2

1

1

1

2

1

2

2

2

2

2

2

1

1

2

2

2

2

2

1

1

2

2

2

1

2 log2211

xx (4.13)

Al simplificar la situacin en el caso de varianzas iguales21 la regla de

discriminacin (12.5) esta dada (para21 )

,1x Si )(2/1: 211 xxRx (4.14)

,2x Si )(2/1: 212 xxRx (4.15)

El teorema 1 nos muestra que las reglas de discriminacin ML para las

observaciones multinormales estn ntimamente conectadas con la distancia de

Mahalanobis. Las reglas de discriminacin estn basadas en las combinaciones

lineales y pertenecen a la familia de los mtodos de Anlisis de Discriminacin

Lineal (LDA).

TEOREMA 2Supongamos que:

),( ipi N

(a) La regla de ML asigna x a j j dnde Jj ,....1 es el valor que minimiza la

distancia al cuadrado de Mahalanobis entre x i i :

Jixxx iT

ii ,,1)()(),(12 (4.16)

(b) En el caso deJ=2

0)(1 xRx T (4.17)

Donde


56/128


)(2

1)( 2121

1 y (4.18)

4.2.2 CLASIFICACION CON DIFERENTES MATRICES DE COVARIANZA

El ECM mnimo depende de la proporcin de las densidades)(

)(

2

1

xf

xf

equivalentemente en la diferencia:

)(ln)(ln 21 xfxf (4.19)

Cuando la covarianza para ambos funciones de densidad difiere, la regla de

asignacin se vuelve ms complicada:

1

21

22

1

11

1

2

1

11)12(

)21(ln)()(

2

1:

C

CkxxxxR TTT (4.20)

1

21

22

1

11

1

2

1

12)12(

)21(ln)()(

2

1:

C

CkxxxxR

TTT (4.21)

Donde:

2

1

221

1

11

2

1

(2

1

ln2

1

TT

k (4.22)

Las regiones de clasificacin estn definidas por funciones cuadrticas. Por

consiguiente ellos pertenecen a la familia de los Mtodos del Anlisis de

Discriminacin Cuadrtico (QDA). Esta regla de clasificacin cuadrtica coincide

con las reglas usadas cuando21

, cuando desaparece el trmino

xxT )(2

1 12

1

1

(4.23)

4.3 CRITERIOS DE CLASIFICACION PARA DOS GRUPOS.

La misin del anlisis discriminante es obtener un criterio de clasificacin que reduzca

el error. Es decir, encontrar una funcin discriminante que separe lo mejor posible las

dos poblaciones

Anlisis Discriminante en dos grupos

'p21 x,.....x,xX , cada grupo tendr ( i , i ) ; i = 1, 2


57/128


Supongamos que tenemos 2 poblaciones

1G , con proporcin p(G1)= 1

2G , con proporcin P(G2)= 12 1

X es un nuevo vector de datosSi 1Rx 1Gx , el individuo es clasificado como procedente

del grupo 1G

Si 2Rx 2Gx , clasificado en 2G

Las regiones cumplen:

P21 RRR

21 RR

)x(fg funcin de densidad de probabilidad de x si proviene del grupo gG

gR : Regin de clasificacin de gG

R : Regla de clasificacin particular.

R;j/iP : Probabilidad de clasificar una observacin en la poblacin i,

siendo que procede de j segn la Regla R.

R;j/iP : Probabilidad de mala clasificacin.

RiiP ;/ :Probabilidad de clasificacin correcta

g :Probabilidad a priori, de que la observacin x procede del grupo gG .

Para g = 2

P(clasificacin correcta en G1)=P(XR1/ G1)P(G1)=P(1/1) 1

P(clasificacin correcta en G2)=P(XR2/ G2)P(G2)=P(2/2) 2

P(clasificacin incorrecta en G1)=P(XR1/ G2)P(G2)=P(1/2) 2

P(clasificacin incorrecta en G2)=P(XR2/ G1)P(G1)=P(2/1) 1

P(2/1)= P(XR2/ G1)= dxxfR

)(

2

1

P(1/2)= P(XR1/ G2)= dxxfR

)(

1

2

de donde :

P(Total de mala clasificacin) =

2

1i

i )GgrupoalxmenteequivocadaAsignar(P

P(Total de mala clasificacin) = 12 1/2P2/1P


58/128


4.3.1 CRITERIO QUE MINIMIZA PROBABILIDAD DE MALA

CLASIFICACION

P(Total de mala clasificacin) =

2

1i

i )GgrupoalxmenteequivocadaAsignar(P

12 1/22/1in)clasificacmaladeP(Total PP (4.24)

TPM = 12 1/2P2/1P

TPM = 12

)()( 2211RR

dxxfdxxf (4.25)

Se trata de hallar R1 y R2 que hace mnima a TPM

TEOREMA 3

Sea 1 y 2probabilidades a priori de que un individuo provenga de G 1 Y G2 condensidades f1(x) y f2(x) entonces las regiones de clasificacin R1y R2 satisfacen las

condiciones:

R1:1

2

2

1

)(

)(

xf

xf

R2:1

2

2

1

)(

)(

xf

xfregiones que minimizan la probabilidad total de mala Clasificacin

(TPM)

La regla de clasificacin es

)(2 xf)(1 xf

1R2R

1G

2G

)2/1(p

)1/2(p


59/128


Regla1

Xes clasificado en G1 cuando1

2

2

1

)(

)(

xf

xf

(2.35)

En caso contrario en G2

4.3.1.1DISTRIBUCIONES ESPECIALES

A) Poblaciones normales homocedsticos.

La regla de clasificacin optima basada en la regla 1 tenemos las funciones de

densidad.

Poblacin 1: ),u(N~x 11 Poblacin 2: ),u(N~x 22

Previamente H01: 21 No rechazar

H02: 21 Rechazar

Donde matriz de covarianza poblacional y iu vector de medias i = 1, 2

As

)x(f

)x(f

2

1

21'

21

1'

1

2

1

2

1exp uxuxuxux (4.26)

Desarrollando

2

1'

22

11'

2

1

1

1'

11

11'

1

1

2

1'

2

1

2

1'

2

1

2

1'

2

1

2

1'

2

1 xxxxxxxx

Como

1

11'

1 ' xx

1

1'

22

1'

1

De donde se tiene

)()'(2

1)(' 21

1

2121

1 x

remplazando se tiene:

)x(f

)x(f

2

1

211'

21

1'

212

1exp uuuuxuu (4.27)

Tomando logaritmos y usando la regla (1) tendremos la siguiente regla de

clasificacin.

Asignar x a la poblacin 1G si


60/128


D(x) =

1

2

21log

2

1'

uux (4.28)

y en caso contrario a 2G

donde =

211 uu

Observacin

La ecuacin

1

2log)x(D define un hiperplano que se para los dos grupo