Upload
raquel-solano
View
23.044
Download
2
Embed Size (px)
DESCRIPTION
Trata sobre los principales métodos jerarquicos para la agrupación de datos (cluster)
Citation preview
UNIVERSIDAD TECNICA PARTICULAR DE LOJA
“La Universidad Católica de Loja”
INTELIGENCIA ARTIFICIAL AVANZADA
CLUSTERS
Verónica RamírezRaquel Solano
CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)
INTRODUCCION Es una colección de métodos estadísticos que
permiten agrupar casos sobre los cuales se miden diferentes variables o características
Jerárquicos: la pertenencia a un grupo (Cluster) en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior (matriz de distancia o similaridad) Aglomerativos Divisivos
No Jerárquicos: obtienen una única partición de los datos mediante la optimización de alguna función adecuada (matriz de datos)
Análisis de clusters
Jerárquicos
No jerárquicos
Distancias y similaridades
Métodos jerárquicos
aglomerativos
divisivos
ABC
ACmínimo
máximo
K-medias
MÉTODOS JERÁRQUICOS
DISTANCIA Y SIMILARIDADES
Objetivo : hallar clusters de casos similares.
Medir las similitudes o las distancias que hay entre los casos.
Definición: una distancia sobre un conjunto Ω es una función de:
d: Ω* Ω R (i,j) d(i,j)=dij
Cumpla las siguientes propiedades1. D(i,j) >= 0,2. D(i,i) = 0,3. D(i,j) = d(j,i),
SimilaridadDefinición: una similaridad sobre un
conjunto Ω es una funcion s:s: Ω* Ω R
(i,j) s(i,j)=sij
ji ,
i
ji ,
Tal que:1. 0 <=s(i,j)<=1,2. 1=s(i,j)>=s(i,j),3. S(i,j)=s(j,i),
Transformación de Gower:
Distancia complemento:La raiz del complemento del cuadrado:
ji ,
ji ,
ji ,
.22
ijsjjiiij ssd
)1(21 ijijjjii sdss
ijij sd 121 ijij sd
Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de distancias y similaridades.
1. Distancia Euclidea
Distancias para variables continuas
21
),(
yxyxyxd
2
1
1
2
n
iii yx
2. Distancia de Minkowsky (q >=1)
q=2distancia euclidea
q=1distancia ciudad
3. Distancia Valor Absoluto
iiM yxyxd
1
),(
n
iiiABS yxyxd
1
),(
q=1 Minkowsky
4. Distancia Mahalanobis:
Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas
21
1 )(),(
yxyxyxdMH
EJEMPLO
Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)`
Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`
7.1
7.1
1.1
9.0
)7.1,7.1,1.1,9.0(),(2 yxdE
79.2),(
8.7
89.289.221.181.0
yxdE
Distancia Minkowsky para q=1 y q=3Con q=1:
Con q=3:
Distancia del Valor absoluto:
4,57,17,11,19,0),( yxdM
28.289.1189,117,17,11,19,0),( 333333 yxdM
32,24,5),( yxd ABS
Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianzas dada por:
Distancia de Mahalanobis entre x,y:
0002
0040
0400
2000
21000
04100
00410
00021
1
875.2
7,1
7,1
1,1
9,0
21000
04100
00410
00021
)7.1,7.1,1.1,9.0(),(2
yxdMH
70.1),( yxdMH
Similaridades para variables binarias
(0,1) es mas facil calcular similaridades y luego transformarlas a distancias
0 característica en estudio no esta presente
1 presencia de característica
Caso i
1 0
1Caso j
0
a b
c d
a+b
c+d
a+c b+d n
Definición de similaridades en base a,b,c,d1. Similaridad de Sokal-Michener
2. Similaridad de Jaccard
n
dajisSM
),(
cba
ajisJ
),(
EJEMPLO: supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1,0,1,1,1,1,0,1)
Calcular tabla de coincidencias
Caso i
1 0
1
Caso j
0
3 3
1 3
6
4
4 6 10
Coeficiente de similaridad
Distancia con transformacion de gower:
6,010
33),(
yxsSM 7
3
133
3),(
yxsJ
)1(22xyxy Sd
SMS
89,0
)6,01(22
xy
xy
d
d
JS
07,1
)731(22
xy
xy
d
d
Similaridad para variables mixtas Si tenemos n1 variables cuanttativas,n2
binarias, y n3 cualitativas (n=n1+n2+n3) La distancia gower :
21
)1( ijij sd
321
1
)(
/11
ndnn
aRyxS
n
lll
ij
EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien nacidos
X1:altura(cm) X2: peso(kg) X3: sexo(1: niña, 0: niño) X4:tiempo gestacion(1:mas de 35 sem, 0: menos de
35 sem). X5: grupos sanguineo(1:0,2:A,3:B,4:AB) X6: raza(1:blanca,2:negra,3:otros).
Calcular la distancia de gower entre los casos 2 y 7 la distancia entre x2=(50,2,2,9,0,1,1,1)`y x7=(52,3,3,7,1,1,1,2)`
continuas
binarias
cualitativas
Caso
X1 X2 X3 X4 X5 X6
1 52.5 3.8 1 1 1 1
2 50.2 2.9 0 1 1 1
3 53.4 4.2 0 1 3 2
4 49.8 2.8 0 0 1 1
5 53.4 3.9 1 1 2 2
6 54.1 4.6 0 1 1 1
7 52.3 3.7 1 1 1 2
8 53.8 3.9 0 1 4 1
9 50.7 2.6 1 0 2 1
10 51.6 3.5 1 1 1 3
Calcular rango: X1 max=54.1 min=49.8
R1=54.1-49.8=4.3
X2 max 4.6 min= 2.6
R2=4.6-2.6=2
X3y x4(2,7) a=1, d=0
X5 y x6 α=1 coincidencia sobre(2,7)
69.0519.01
519.02)02(2
112
7.39.21
3.4
3.522.501
27
27
d
S
MÉTODOS JERÁRQUICOS
Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters
Ejemplo:
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
4
3
2
1
0
P
P
P
P
P
Metodos aglomerativos: los nuevos clusters se crean uniendo clusters Ventaja
RapidezSon los mas habituales
Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos) Ventaja
Parten de la información global que hay en los datos
El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster
Dendograma: son diagramas bidimensional es utilizados para representar clasificaciones jerárquicas
Muestra como ha sido el proceso de unión o división de los clusters
divisivo
Aglomerativo
Algoritmo básico de clasificación (ABC)
1. Cada caso formara un clusterP0=1….m
2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster (iUj=i,j) y se actualizara la matriz
u`(k,i,j)=u(k,i) =u(k,j)3. Una vez obtenida la particion P1=1,..
i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre Ω=1,2,3,4,5 calculemos cual es la jerarquia indexada que nos da el algoritmo ABC
0......................................
1,0.......0...........................
35,0...35,0......0.................
35,0...35,0...15,0.....0........
35,0....35,0....2,0....2,0....0
U
4,15,4,1 uu
35,0
)5,1(
u
5,4
3
2
1
0...........................
35,0......0.................
35,0...15,0.....0........
35,0....2,0....2,0....0
U
5,4,25,4,3,2 uu
35,0
)5,4,3(
u
5,4
3,2
1
0.................
35,0.....0........
35,0....2,0....0
U
5,4
3,2,1
0.........
35,0.....0
U
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
4
3
2
1
0
P
P
P
P
P
DENDOGRAMA
Algoritmo de clasificación (AC)
1. Cada caso formara un clusterP0=1….m
2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster (iUj=i,j) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j)
d`(l,i,j)= f(d(l,i),d(l,j), l <>i,j
3. Una vez obtenida la particion P1=1,..i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
MÉTODO DEL MÍNIMO La distancia entre dos clústeres
mínima de las distancias entre los casos de cada clúster
Ejemplo: Supongamos que tenemos la siguiente matriz de distancias D definida sobre Ω=1,..5 calcular cual es la jerarquía indexada de método del mínimo.
0........................
7...0...................
8...2...0.............
8...4...4...0........
7...4....3....1....0
D
PASOS
1. Cada caso forma un clúster2. Los casos i, j más cercanos
Formamos el clúster 1,2Definimos la distancias de un caso al nuevo clúster
5,4,3,2,10 P
1)2,1(),(min , dlkdlk
)2,3(),1,3(min2,1,3 ddd
3
4,3min
5
4
3
2,1
0...................
7....0.............
8...2....0.......
7....4....3....0
Matriz de distancias
3. Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster3,4 rehacer distancia
4. Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d(1,2,3,4) nuevo cluster1,2,3,4 rehacer matriz
)4,2,1(),3,2,1(min4,3,2,1 ddd
3
4,3min
5
4,3
2,1
0.............
7.....0......
7....3....0
5
4,3,2,1
0......
7....0
Jerarquía aglomerada indexada
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
5,4,3,2,1
4
3
2
1
0
P
P
P
P
P
MÉTODO DEL MÁXIMO
Este método es conocido como Complete Linkage o “vecino más lejano”, .
La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.
),(),,(),,( jkdikdmáxjikd
,),(),( jiji CjCijidmáxCCd
EJEMPLO
Inicialmente la partición es: 1, 2,3,4,5 y los casos más próximos son 1 y 2
La nueva matriz de distancia es:
Los casos 3 y 4 forman la siguiente matriz
…EJEMPLO
Cálculo para sacar el máximo
Por lo tanto se unen 1,2 con 3,4DENDOGRAMA
MÉTODO DE WARD
Se calculan las distancias como medida de similitud entre los objetos.
El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible.
El proceso termina cuando todos los casos forman un único clúster.
Mide heterogeneidad
Suma distancias
Vector de medias
EJEMPLO
Hay 6 casos con dos variables
Cada caso forma un clústerP0=1,2,3,4,5,6
Perdida mínima de heterogeneidad
P1=1,2,3,4,5,6
…EJEMPLO
Luego la pérdida mínima se obtiene uniendo 1 y 3
Por lo tanto:
Se calcula el centro de 1,3
P2=1,3,2,4,5,6
La siguiente perdida mínima de heterogeneidad al unir 1,3 y 2 es:
P3=1,2,3,4,5,6
…EJEMPLO
Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades:
Calculando cada uno de los centros y la pérdida mínima queda:
…EJEMPLO
Quedando como perdida mínima de heterogeneidad uniendo los clúster 4 y 5,6 con un valor de 2,21.
P4=1,2,3,4,5,6
APLICACIONES DE LOS MÉTODOS JERÁRQUICOS
LOS COCHES Y SUS DIFERENTES GAMASLas características consideradas en el estudio
son:1. Consumo: millas por galón2. Numero de cilindros3. Cilindrada del motor: pulgadas públicas4. Potencia: caballos de vapor5. Peso: libras6. Tiempo de aceleración: de 0 hasta 60 millas
por hora
EJEMPLO: Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994)
Ciclo anual Rivera 1914-1997 Ciclo anual Melo 1914-1997
---EJEMPLO Se utilizaron datos mensuales de 100 estaciones
pluviométricas en Uruguay en el período 1933-1978. Cada estación se caracterizó por su ciclo anual
promedio en ese período (un vector de R12 para cada estación).
Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 variables.)
Se realizó una partición de Uruguay según el área de influencia de cada estación.
Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional.
---EJEMPLO Para ello, primero se obtuvo la matriz de anomalías, es
decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una.
Las series no fueron normalizadas ya que era de interés tanto la forma del ciclo anual como su intensidad.
Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100).
Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total (ver figuras)
Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno.
Se utilizó el método de agrupamientos aglomerativos nucleados.
---EJEMPLO
Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales)
Se determinó a priori en 4 el número de clusters finales.
Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final)
Correlaciones entre los ciclos anuales medios de las 4 regiones
Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters.
Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos.
Los ciclos anuales medios para cada una de las 4 regiones (ver figura) muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos.
GRACIAS!!