Clase 6 Clustering K-Means

Profa. Ma. de Lourdes Soto Corts

1/14

Clustering: (clasificacin no supervisada, aprendizaje no supervizado): Es similar a la clasificacin (di i i l ifi i (discriminacin), excepto que l i ) t los grupos no son predefinidos. El objetivo d fi id bj ti es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori, el experto debe dar una interpretacin de los grupos que se forman. Mtodos: Cl ifi Clasificacin J i Jerrquica ( i (grupos di j disjuntos). ) Nubes Dinmicas k-means (grupos disjuntos). Clasificacin Piramidal (grupos NO disjuntos).


2/14


3/14

Las nubes dinmicas se forman con base a los grupos que se van generando. El primer grupo se genera aleatoriamente, una vez que este es conformado, se obtiene una l t i t t f d bti media, tambin aleatoria, de cada grupo. Posteriormente se forman nuevos grupos con la primer media obtenida y los datos son reacomodados en ellos, una vez que se tiene el nuevo grupo se calcula la nueva media dentro de ellos. Este proceso permite que los datos vayan variando de un grupo a otro, es por ello que se generan nubes dinmicas.


4/14


5/14

Este es un ejemplo simple del algoritmo de k-medias. Este puede ser visto como un algoritmo voraz para particionar en k cmulos, el cual es l suma d l l it ti i l l l la de las di t distancias al i l cuadrado, al centro de cada cmulo. Pero este algoritmo tiene algunas debilidades. La manera de inicializar no se especifica. Una forma comn es comenzar seleccionado aletoriamento k medias de los ejemplos. Los resultados dependern del valor inicial de las medias y frecuentemente pasa que particiones subptimas son encontradas. La solucin estndar es calculada atizando diferentes puntos d arranque. dif de Puede pasar que un conjunto de ejemplos cercano a una media este vaco, por lo que no puede ser modificada. Esto es un inconveniente del mtodo y debe ser manejado en la implementacin, pero puede ser ignorado. Los resultados depende de la mtrica utilizada para medir || x - mi ||. Una solucin popular es normalizar cada variable por la desviacin estndar, aunque no siempre es deseable. La solucin d l depende d l nmero d cmulos seleccionado. d del de l l d


6/14


7/14

Para resolver el algoritmo k-means utilizaremos excel que es una herramienta que se puede conseguir f il d i fcilmente y en l cual t t l tenemos f frmulas que nos permiten resolver l it l dicho algoritmo. A continuacin se describe la resolucin de este problema con excel.


8/14


9/14


10/14


11/14


12/14


13/14


14/14


15/14


16/14


17/14

Documents

Clase 6 Clustering K-Means