ANÁLISIS DE CLUSTERS (CLUSTERING)

UNIVERSIDAD TECNICA PARTICULAR DE LOJA

“La Universidad Católica de Loja”

INTELIGENCIA ARTIFICIAL AVANZADA

CLUSTERS

Verónica RamírezRaquel Solano

CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)

INTRODUCCION Es una colección de métodos estadísticos que

permiten agrupar casos sobre los cuales se miden diferentes variables o características

Jerárquicos: la pertenencia a un grupo (Cluster) en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior (matriz de distancia o similaridad) Aglomerativos Divisivos

No Jerárquicos: obtienen una única partición de los datos mediante la optimización de alguna función adecuada (matriz de datos)

Análisis de clusters

Jerárquicos

No jerárquicos

Distancias y similaridades

Métodos jerárquicos

aglomerativos

divisivos

ABC

ACmínimo

máximo

K-medias

MÉTODOS JERÁRQUICOS

DISTANCIA Y SIMILARIDADES

Objetivo : hallar clusters de casos similares.

Medir las similitudes o las distancias que hay entre los casos.

Definición: una distancia sobre un conjunto Ω es una función de:

d: Ω* Ω R (i,j) d(i,j)=dij

Cumpla las siguientes propiedades1. D(i,j) >= 0,2. D(i,i) = 0,3. D(i,j) = d(j,i),

SimilaridadDefinición: una similaridad sobre un

conjunto Ω es una funcion s:s: Ω* Ω R

(i,j) s(i,j)=sij

ji ,

i

ji ,

Tal que:1. 0 <=s(i,j)<=1,2. 1=s(i,j)>=s(i,j),3. S(i,j)=s(j,i),

Transformación de Gower:

Distancia complemento:La raiz del complemento del cuadrado:

ji ,

ji ,

ji ,

.22

ijsjjiiij ssd

)1(21 ijijjjii sdss

ijij sd 121 ijij sd

Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de distancias y similaridades.

1. Distancia Euclidea

Distancias para variables continuas

21

),(

yxyxyxd

2

1

1

2

n

iii yx

2. Distancia de Minkowsky (q >=1)

q=2distancia euclidea

q=1distancia ciudad

3. Distancia Valor Absoluto

qq

iiM yxyxd

1

),(

n

iiiABS yxyxd

1

),(

q=1 Minkowsky

4. Distancia Mahalanobis:

Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas

21

1 )(),(

yxyxyxdMH

EJEMPLO

Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)`

Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`

7.1

7.1

1.1

9.0

)7.1,7.1,1.1,9.0(),(2 yxdE

79.2),(

8.7

89.289.221.181.0

yxdE

Distancia Minkowsky para q=1 y q=3Con q=1:

Con q=3:

Distancia del Valor absoluto:

4,57,17,11,19,0),( yxdM

28.289.1189,117,17,11,19,0),( 333333 yxdM

32,24,5),( yxd ABS

Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianzas dada por:

Distancia de Mahalanobis entre x,y:

0002

0040

0400

2000

21000

04100

00410

00021

1

875.2

7,1

7,1

1,1

9,0

21000

04100

00410

00021

)7.1,7.1,1.1,9.0(),(2

yxdMH

70.1),( yxdMH

Similaridades para variables binarias

(0,1) es mas facil calcular similaridades y luego transformarlas a distancias

0 característica en estudio no esta presente

1 presencia de característica

Caso i

1 0

1Caso j

0

a b

c d

a+b

c+d

a+c b+d n

Definición de similaridades en base a,b,c,d1. Similaridad de Sokal-Michener

2. Similaridad de Jaccard

n

dajisSM

),(

cba

ajisJ

),(

EJEMPLO: supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1,0,1,1,1,1,0,1)

Calcular tabla de coincidencias

Caso i

1 0

1

Caso j

0

3 3

1 3

6

4

4 6 10

Coeficiente de similaridad

Distancia con transformacion de gower:

6,010

33),(

yxsSM 7

3

133

3),(

yxsJ

)1(22xyxy Sd

SMS

89,0

)6,01(22

xy

xy

d

d

JS

07,1

)731(22

xy

xy

d

d

Similaridad para variables mixtas Si tenemos n1 variables cuanttativas,n2

binarias, y n3 cualitativas (n=n1+n2+n3) La distancia gower :

21

)1( ijij sd

321

1

)(

/11

ndnn

aRyxS

n

lll

ij

EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien nacidos

X1:altura(cm) X2: peso(kg) X3: sexo(1: niña, 0: niño) X4:tiempo gestacion(1:mas de 35 sem, 0: menos de

35 sem). X5: grupos sanguineo(1:0,2:A,3:B,4:AB) X6: raza(1:blanca,2:negra,3:otros).

Calcular la distancia de gower entre los casos 2 y 7 la distancia entre x2=(50,2,2,9,0,1,1,1)`y x7=(52,3,3,7,1,1,1,2)`

continuas

binarias

cualitativas

Caso

X1 X2 X3 X4 X5 X6

1 52.5 3.8 1 1 1 1

2 50.2 2.9 0 1 1 1

3 53.4 4.2 0 1 3 2

4 49.8 2.8 0 0 1 1

5 53.4 3.9 1 1 2 2

6 54.1 4.6 0 1 1 1

7 52.3 3.7 1 1 1 2

8 53.8 3.9 0 1 4 1

9 50.7 2.6 1 0 2 1

10 51.6 3.5 1 1 1 3

Calcular rango: X1 max=54.1 min=49.8

R1=54.1-49.8=4.3

X2 max 4.6 min= 2.6

R2=4.6-2.6=2

X3y x4(2,7) a=1, d=0

X5 y x6 α=1 coincidencia sobre(2,7)

69.0519.01

519.02)02(2

112

7.39.21

3.4

3.522.501

27

27

d

S

MÉTODOS JERÁRQUICOS

Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters

Ejemplo:

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

Metodos aglomerativos: los nuevos clusters se crean uniendo clusters Ventaja

RapidezSon los mas habituales

Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos) Ventaja

Parten de la información global que hay en los datos

El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster

Dendograma: son diagramas bidimensional es utilizados para representar clasificaciones jerárquicas

Muestra como ha sido el proceso de unión o división de los clusters

divisivo

Aglomerativo

Algoritmo básico de clasificación (ABC)

1. Cada caso formara un clusterP0=1….m

2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster (iUj=i,j) y se actualizara la matriz

u`(k,i,j)=u(k,i) =u(k,j)3. Una vez obtenida la particion P1=1,..

i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster

EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre Ω=1,2,3,4,5 calculemos cual es la jerarquia indexada que nos da el algoritmo ABC

0......................................

1,0.......0...........................

35,0...35,0......0.................

35,0...35,0...15,0.....0........

35,0....35,0....2,0....2,0....0

U

4,15,4,1 uu

35,0

)5,1(

u

5,4

3

2

1

0...........................

35,0......0.................

35,0...15,0.....0........

35,0....2,0....2,0....0

U

5,4,25,4,3,2 uu

35,0

)5,4,3(

u

5,4

3,2

1

0.................

35,0.....0........

35,0....2,0....0

U

5,4

3,2,1

0.........

35,0.....0

U

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

DENDOGRAMA

Algoritmo de clasificación (AC)

1. Cada caso formara un clusterP0=1….m

2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster (iUj=i,j) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j)

d`(l,i,j)= f(d(l,i),d(l,j), l <>i,j

3. Una vez obtenida la particion P1=1,..i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster

MÉTODO DEL MÍNIMO La distancia entre dos clústeres

mínima de las distancias entre los casos de cada clúster

Ejemplo: Supongamos que tenemos la siguiente matriz de distancias D definida sobre Ω=1,..5 calcular cual es la jerarquía indexada de método del mínimo.

0........................

7...0...................

8...2...0.............

8...4...4...0........

7...4....3....1....0

D

PASOS

1. Cada caso forma un clúster2. Los casos i, j más cercanos

Formamos el clúster 1,2Definimos la distancias de un caso al nuevo clúster

5,4,3,2,10 P

1)2,1(),(min , dlkdlk

)2,3(),1,3(min2,1,3 ddd

3

4,3min

5

4

3

2,1

0...................

7....0.............

8...2....0.......

7....4....3....0

Matriz de distancias

3. Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster3,4 rehacer distancia

4. Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d(1,2,3,4) nuevo cluster1,2,3,4 rehacer matriz

)4,2,1(),3,2,1(min4,3,2,1 ddd

3

4,3min

5

4,3

2,1

0.............

7.....0......

7....3....0

5

4,3,2,1

0......

7....0

Jerarquía aglomerada indexada

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

MÉTODO DEL MÁXIMO

Este método es conocido como Complete Linkage o “vecino más lejano”, .

La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.

),(),,(),,( jkdikdmáxjikd

,),(),( jiji CjCijidmáxCCd

EJEMPLO

Inicialmente la partición es: 1, 2,3,4,5 y los casos más próximos son 1 y 2

La nueva matriz de distancia es:

Los casos 3 y 4 forman la siguiente matriz

…EJEMPLO

Cálculo para sacar el máximo

Por lo tanto se unen 1,2 con 3,4DENDOGRAMA

MÉTODO DE WARD

Se calculan las distancias como medida de similitud entre los objetos.

El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible.

El proceso termina cuando todos los casos forman un único clúster.

Mide heterogeneidad

Suma distancias

Vector de medias

EJEMPLO

Hay 6 casos con dos variables

Cada caso forma un clústerP0=1,2,3,4,5,6

Perdida mínima de heterogeneidad

P1=1,2,3,4,5,6

…EJEMPLO

Luego la pérdida mínima se obtiene uniendo 1 y 3

Por lo tanto:

Se calcula el centro de 1,3

P2=1,3,2,4,5,6

La siguiente perdida mínima de heterogeneidad al unir 1,3 y 2 es:

P3=1,2,3,4,5,6

…EJEMPLO

Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades:

Calculando cada uno de los centros y la pérdida mínima queda:

…EJEMPLO

Quedando como perdida mínima de heterogeneidad uniendo los clúster 4 y 5,6 con un valor de 2,21.

P4=1,2,3,4,5,6

APLICACIONES DE LOS MÉTODOS JERÁRQUICOS

LOS COCHES Y SUS DIFERENTES GAMASLas características consideradas en el estudio

son:1. Consumo: millas por galón2. Numero de cilindros3. Cilindrada del motor: pulgadas públicas4. Potencia: caballos de vapor5. Peso: libras6. Tiempo de aceleración: de 0 hasta 60 millas

por hora

EJEMPLO: Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994)

Ciclo anual Rivera 1914-1997 Ciclo anual Melo 1914-1997

---EJEMPLO Se utilizaron datos mensuales de 100 estaciones

pluviométricas en Uruguay en el período 1933-1978. Cada estación se caracterizó por su ciclo anual

promedio en ese período (un vector de R12 para cada estación).

Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 variables.)

Se realizó una partición de Uruguay según el área de influencia de cada estación.

Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional.

---EJEMPLO Para ello, primero se obtuvo la matriz de anomalías, es

decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una.

Las series no fueron normalizadas ya que era de interés tanto la forma del ciclo anual como su intensidad.

Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100).

Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total (ver figuras)

Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno.

Se utilizó el método de agrupamientos aglomerativos nucleados.

---EJEMPLO

Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales)

Se determinó a priori en 4 el número de clusters finales.

Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final)

Correlaciones entre los ciclos anuales medios de las 4 regiones

Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters.

Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos.

Los ciclos anuales medios para cada una de las 4 regiones (ver figura) muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos.

GRACIAS!!

Education

ANÁLISIS DE CLUSTERS (CLUSTERING)