54

Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe
Page 2: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Introduccion a Aprendizaje no Supervisado

Felipe Suarez, Alvaro Riascos

25 de abril de 2017

2 / 33

Page 3: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Contenido

1. Motivacion

2. k-MediasAlgoritmosImplementacion

3. Definicion

4. Motivacion

5. Aproximacion

6. Implementacion

3 / 33

Page 4: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Problema

Considere la siguiente imagen medica.

4 / 33

Page 5: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Problema

Considere la siguiente imagen medica.

4 / 33

Page 6: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Problema

Considere la siguiente imagen medica.

4 / 33

Page 7: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Historia

Hugo Steinhaus, 1887 - 1972

5 / 33

Page 8: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Historia

Hugo Steinhaus, 1887 - 1972

5 / 33

Page 9: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Definicion

El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.

6 / 33

Page 10: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Definicion

El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.

6 / 33

Page 11: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Definicion

El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.

6 / 33

Page 12: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Definicion

Definition

Sea X = {x1, . . . , xn} ⊆ Rd un conjunto de n observaciones numericas. El agrupamiento pork−medias consiste de particionar X en k subconjuntos X = S1 ∪ · · · ∪ Sk por medio de kcentroides µ1, . . . , µk que minimizan la varianza:

k∑i=1

∑x∈Si

||x− µi||2, donde µi =1

|Si|∑x∈Si

x.

Propiedades

I Estimacion de grupos con simetrıa esferica.

I Las variables tienen la misma varianza.

I Se asume apriori que todos los grupos son de igual tamano.

7 / 33

Page 13: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Definicion

Definition

Sea X = {x1, . . . , xn} ⊆ Rd un conjunto de n observaciones numericas. El agrupamiento pork−medias consiste de particionar X en k subconjuntos X = S1 ∪ · · · ∪ Sk por medio de kcentroides µ1, . . . , µk que minimizan la varianza:

k∑i=1

∑x∈Si

||x− µi||2, donde µi =1

|Si|∑x∈Si

x.

Propiedades

I Estimacion de grupos con simetrıa esferica.

I Las variables tienen la misma varianza.

I Se asume apriori que todos los grupos son de igual tamano.

7 / 33

Page 14: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplos

8 / 33

Page 15: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplos

8 / 33

Page 16: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Estado del Arte

Quien lo utiliza? Todavıa se investiga?

9 / 33

Page 17: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Algoritmo

El problema de optimizacion no es computacionalmente facil de resolver: es NP-Dificil! Existenheurısticas que aproximan la solucion a un mınimo local muy rapido.

Definition

Input: Datos numericos X = {x1, . . . , xn} ⊆ Rd, Numero de grupos k > 0.Output: Subgrupos (x1, y1), . . . , (xn, yn), con yi ∈ {1, . . . , k}.Algoritmo:

1. Inicialice los centros µ1, . . . , µk aleatoriamente.

2. Repita2.1 Calcula el subgrupo de cada observacion:

yi = arg minj||xi − µj ||

2.2 Actualiza los centros:

µi =1

|Si|∑x∈Si

x.

10 / 33

Page 18: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Algoritmo

El problema de optimizacion no es computacionalmente facil de resolver: es NP-Dificil! Existenheurısticas que aproximan la solucion a un mınimo local muy rapido.

Definition

Input: Datos numericos X = {x1, . . . , xn} ⊆ Rd, Numero de grupos k > 0.Output: Subgrupos (x1, y1), . . . , (xn, yn), con yi ∈ {1, . . . , k}.Algoritmo:

1. Inicialice los centros µ1, . . . , µk aleatoriamente.

2. Repita2.1 Calcula el subgrupo de cada observacion:

yi = arg minj||xi − µj ||

2.2 Actualiza los centros:

µi =1

|Si|∑x∈Si

x.

10 / 33

Page 19: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

11 / 33

Page 20: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

12 / 33

Page 21: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

13 / 33

Page 22: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

14 / 33

Page 23: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

15 / 33

Page 24: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Casos Problematicos

16 / 33

Page 25: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Casos Problematicos

17 / 33

Page 26: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Casos Problematicos

18 / 33

Page 27: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Alternativas

Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.

1. Estandarizar variables para evitar sesgos de escala.

2. Fuzzy k-means:

f(X,S) =

k∑i=1

∑x∈Si

ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r

3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).

4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.

5. Metricas no euclidianas: l1, l∞, lp.

19 / 33

Page 28: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Alternativas

Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.

1. Estandarizar variables para evitar sesgos de escala.

2. Fuzzy k-means:

f(X,S) =

k∑i=1

∑x∈Si

ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r

3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).

4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.

5. Metricas no euclidianas: l1, l∞, lp.

19 / 33

Page 29: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Alternativas

Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.

1. Estandarizar variables para evitar sesgos de escala.

2. Fuzzy k-means:

f(X,S) =

k∑i=1

∑x∈Si

ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r

3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).

4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.

5. Metricas no euclidianas: l1, l∞, lp.

19 / 33

Page 30: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Alternativas

Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.

1. Estandarizar variables para evitar sesgos de escala.

2. Fuzzy k-means:

f(X,S) =

k∑i=1

∑x∈Si

ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r

3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).

4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.

5. Metricas no euclidianas: l1, l∞, lp.

19 / 33

Page 31: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Alternativas

Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.

1. Estandarizar variables para evitar sesgos de escala.

2. Fuzzy k-means:

f(X,S) =

k∑i=1

∑x∈Si

ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r

3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).

4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.

5. Metricas no euclidianas: l1, l∞, lp.

19 / 33

Page 32: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 33: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 34: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:

3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 35: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada

3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 36: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala

3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 37: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos

3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 38: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?

3.5 Convergencia a optimo local

20 / 33

Page 39: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 40: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Garantıas

1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).

2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.

3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local

20 / 33

Page 41: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Reglas de Asociacion

21 / 33

Page 42: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Motivacion

I Las reglas de asociacion son muy usadas en bases de datos comerciales.

I Tenemos ”canastas” de bienes que son vectores (muy grandes)

I ¿Podemos encontrar bienes que sean comprados juntos con mucha frecuencia?

I ¿Para que podrıa servir algo ası?

22 / 33

Page 43: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Motivacion

I Un almacen puede organizar mejor sus repisas para mejorar sus ingresos.

I Hacer mercadeo cruzado de ciertas promociones que tengan que ver la una con la otra.

I Segmentar clientes de acuerdo a sus patrones de consumo.

I Disenar experiencias para usuarios en paginas web.

I Recomendar pelıculas en Netflix? Productos en Amazon?

23 / 33

Page 44: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Motivacion

24 / 33

Page 45: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Aproximacion al problema

I Quisieramos encontrar algunas canastas v1, . . . , vn tales que su densidad de probabilidadPr(vi) sea ”alta”.

I Este problema se llama Mode Finding o Bump Hunting.

I Sin embargo hay muchısimas canastas posibles (¿Cuantos productos tiene Exito en susrepisas?)

I Una estimacion de la densidad de estas canastas siempre dara algo muy pequeno como paraser confiable.

I Ademas calcular esas densidades es incomputable! ¿Cuantas canastas hay?

25 / 33

Page 46: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

¿Cuantos productos vende Amazon?

26 / 33

Page 47: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Simplificar

I Podemos dejar de buscar canastas prototipos y buscar ”regiones” en el consumo.

I Probablemente sea mucho mas interesante y facil de interpretar una relacion entre dos opocos productos.

I Podrıamos agrupar tipos de productos en una sola variable dummy.

I Podemos pensar en la probabilidad de todas las canastas que contienen el artıculo ω.

27 / 33

Page 48: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Con variables dummy

I Considerando un elemento de cada clase (posiblemente binaria) la ecuacion se simplifica

P [∩k∈K(zk = 1)] = P

[∏k∈K

zk = 1

]= T (K)

I Esto implica segmentar variables continuas que pueda haber en el analisis.

I El conjunto K se conoce como conjunto de bienes o item set.

28 / 33

Page 49: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Algoritmo Crecimiento de Arbol de patrones

Queremos encontrar reglas X → Y con buenas garantıa probabilısticas (confianza). Estimamos lasprobabilidades de las canatas con la frecuencia en las base de transacciones:

supp(X) :=T (X)

T, conf(X → Y ) =

supp(X y Y )

supp(X).

Queremos tener en cuenta solo aquellas transacciones con un soporte mınimimo t y confianzamınima s. El algoritmo del arbol busca reglas aprovechando:

1. X → Y y X → Z implican X → Y ∪ Z2. X ⊆ Y implica supp(X) ≥ supp(Y )

El algoritmo realiza:

1. Saca las items con soporte < t.

2. Ordena los items descendientemente por soporte.

3. Orden las transacciones descendientemente por tamano.

4. Construye un arbol con pesos en el que cada camino hacia la raız es una transaccion.

5. Para cada hoja del arbol, Y , la rama que la contiene es el antecedente que la implica X.

29 / 33

Page 50: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Algoritmo Crecimiento de Arbol de patrones

Queremos encontrar reglas X → Y con buenas garantıa probabilısticas (confianza). Estimamos lasprobabilidades de las canatas con la frecuencia en las base de transacciones:

supp(X) :=T (X)

T, conf(X → Y ) =

supp(X y Y )

supp(X).

Queremos tener en cuenta solo aquellas transacciones con un soporte mınimimo t y confianzamınima s. El algoritmo del arbol busca reglas aprovechando:

1. X → Y y X → Z implican X → Y ∪ Z2. X ⊆ Y implica supp(X) ≥ supp(Y )

El algoritmo realiza:

1. Saca las items con soporte < t.

2. Ordena los items descendientemente por soporte.

3. Orden las transacciones descendientemente por tamano.

4. Construye un arbol con pesos en el que cada camino hacia la raız es una transaccion.

5. Para cada hoja del arbol, Y , la rama que la contiene es el antecedente que la implica X.

29 / 33

Page 51: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

I Se buscan reglas de asociacion entre 9409 cuestionarios de compradores de un Mall en SanFrancisco.

I Se buscan relaciones entre las variables demograficas.

I Se parten las variables ordinales como ”Dummies” por la mediana.

I El algoritmo encuentra 6288 reglas de asociacion (difıcil de interpretar) con soporte mayor a10 %

30 / 33

Page 52: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Ejemplo

31 / 33

Page 53: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe

Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion

Limitaciones

I Esta sesgado hacia observaciones mas frecuentes que otras.

I Nunca encontrarıa Vodka ⇒ Caviar. A pesar de tener un lift alto.

I Esto es porque intrınsicamente se esta comparando con una distribucion de referenciauniforme.

I Esto se puede solucionar en conjuntos pequenos con una estimacion de la densidad basada enuna distribucion de referencia acorde a las probabilidades marginales.

I Se usa aprendizaje supervisado para ajustar una densidad relativa a esa distribucion (porejemplo una logıstica).

32 / 33

Page 54: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe