Sistemas de recomendación basados en modelo y en grafos ...ir.ii.uam.es/saul/wp-content/uploads/2011/06/presentacion_eit1.pdf · Sistemas de recomendaci on basados en modelo y en

Sistemas de recomendacion basados en modelo y en grafos

Sistemas de recomendacion basados en modelo yen grafos

Estudio Independiente Tutelado I

Saul Vargas Sandoval

3 de febrero de 2011


Introduccion

Introduccion

Sistemas basados en modeloModelo de semantica latente: pLSAModelo de factorizacion de matricesProcesos de decision de MarkovOtras propuestas

Sistemas basados en grafosTipos de grafosProbabilidad estacionaria en caminos aleatoriosSimilitudes sobre caminos aleatoriosProyeccion espacial del grafoPuenteamientoMetodos espectralesTecnicas de recuperacion asociativa

Conclusiones

Referencias


Introduccion

Los sistemas de recomendacion se pueden clasificar segun dospropiedades basicas:

I Que tipo de informacion se usa:I el contenido del ıtem (recomendacion basada en contenido),I las preferencias de una comunidad de usuarios (filtrado colaborativo)I o una combinacion de ambas (recomendacion hıbrida).

I Como se usa la informacion:I si esta se usa directamente (basada en memoria o heurıstica)I o se genera un modelo (estadıstico, jerarquico, sobre red neuronal)

sobre el que se crean las recomendaciones.


Introduccion

Definicion (Metodos heurısticos o basados en memoria)Son sistemas de recomendacion que hacen prediccion de puntuaciones apartir de la coleccion entera de los ıtems puntuados por los usuarios.

r(u, i) = aggru′∈U r(u′, i) (basado en usuario)

r(u, i) = aggri ′∈I r(u, i ′) (basado en ıtem)


Introduccion

Definicion (Metodos basados en modelo)Son sistemas de recomendacion que generan, a partir de las puntuacionesconocidas, un modelo (probabilıstico, vectorial, etc.) que es el que seusara para hacer predicciones.

r(u, i) = E [r(u, i)] =n∑

i=0

v · P(r(u, i) = v |r(u, i ′), i ′ ∈ Iu)


Introduccion

Definicion (Metodos basados en grafos)Son sistemas que extraen estructuras de grafos a partir de los datosconocidos y que aplicaran diversos algoritmos de grafos para generarpredicciones. Veremos tres tipos de grafos:

I Grafo bipartito de ıtems y usuarios.

I Grafo de ıtems.

I Grafo con informacion social y de etiquetado.


Introduccion

Problemas tıpicos de los metodos heurısticos o basados en memoria:

I tener un acierto sub-optimo,

I no “aprender” de los datos de los usuarios,

I no escalar bien, en general, en cuanto a uso de memoria y tiempo deproceso,

I y no tener capacidad de moldearse o adaptarse a problemasespecıficos.

La familia de algoritmos basados en modelo intentara, por tanto, afrontarlos problemas anteriores al comprimir los datos en un modelo compactoque permita calcular predicciones.


Sistemas basados en modelo

Introduccion



Conclusiones

Referencias



Modelo de semantica latente: pLSA

Introduccion



Conclusiones

Referencias




Hofmann [5] introduce el probabilistic Latent Semantic Analysis (pLSA).

I En el caso mas sencillo se busca calcular las probabilidades P(y |u).

I Se define una funcion de perdida para cuantificar el acierto de unaprediccion:

L((u, y), θ) = − log P(y |u; θ)

I La funcion de riesgo empırica medira el error global:

Remp(θ) =1

N

∑〈u,y〉

L((u, y), θ)

I El objetivo del modelo θ sera por tanto minimizar el riesgo R. Estose hara con Expectation Maximization.




I Se introduce un conjunto Z de estados que intentaran modelizar un“causas ocultas”.

θ = ({P(z |u)} , {P(y |z)})

P(y |u; θ) =∑z

P(y |z)P(z |u)

Rc(θ) = − 1

N

∑〈u,y ,z〉

log P(y |z) + log P(z |u)

I La distribucion de probabilidad variacional Q(z ; u, y) modelara elconocimiento sobre las variables latentes dados los parametrosactuales. Define una nueva funcion de riesgo que es una cotasuperior de la anterior:

R(θ,Q) = − 1

N

∑〈u,y〉

∑z

Q(z ; u, y) [log P(y |z) + log P(z |u)]




I Expectation: a partir de un modelo inicial θ, encontrar unadistribucion Q∗ optima en cuanto que minimice la cota superior deR(θ):

Q∗(z ; u, y ; θ) =P(y |z)P(z |u)∑z′ P(y |z ′)P(z ′|u)

donde la notacion P indica probabilidades segun el modelo θ.

I Maximization: encontrar un nuevo modelo θ que minimice R(θ,Q∗).La solucion sera la siguiente:

P(y |z) =

∑〈u,y ′〉y ′=y Q∗(z ; u, y ; θ)∑〈u,y〉Q∗(z ; u, y ; θ)

P(z |u) =

∑〈u′,y〉u′=u Q∗(z ; u, y ; θ)∑

z′∑〈u′,y〉u′=u Q∗(z ; u, y ; θ)




Con uso de ratings se tienen cuatro posibilidades:



Modelo de factorizacion de matrices

Introduccion



Conclusiones

Referencias




Koren et al. [8] utiliza un metodo de factorizacion matricial.

I Se caracteriza al conjunto de usuarios e ıtems a partir de unconjunto de factores inferidos a partir de los patrones de preferencia.

I El objetivo del modelo sera encontrar para cada usuario un vectorpu ∈ Rk y qi ∈ Rk para cada ıtem tales que expresen cuanto de cadafactor tienen cada uno.

I La interaccion entre usuario e ıtem vendra dada por el productoescalar de sus vectores:

r(u, i) = qti · pu

I Lo que se busca es minimizar el error cuadratico medio sinsobreajuste:

mınq,p

∑r(u,i)6=∅

(r(u, i)− qti · pu)2 + λ(‖qi‖2 + ‖pu‖2)




Descenso por gradiente estocasticoBasicamente consiste de un bucle que itera sobre los datos deentrenamiento proporcionados, sobre los que se calcula el error deprediccion asociado en un paso:

eui = r(u, i)− qti · pu

En base a este error se modificaran los parametros en la direccionopuesta al gradiente, resultando:

qi ← qi + γ(euipu − λqi )

pu ← pu + γ(euiqi − λpu)




Mejoras:

I Anadir sesgos por usuario, por ıtem y global:

r(u, i) = µ+ bu + bi + qti · pu

mınq,p,b

∑r(u,i) 6=∅

(r(u, i)−µ−bu−bi−qti ·pu)2 +λ(‖qi‖2 +‖pu‖2 +b2

u +b2i )

I Fuentes de informacion adicionales.

I Dinamicas temporales.

I Niveles de confianza:

mınq,p,b

∑r(u,i)6=∅

cui (r(u, i)−µ−bu−bi−qti ·pu)2+λ(‖qi‖2+‖pu‖2+b2

u+b2i )



Procesos de decision de Markov

Introduccion



Conclusiones

Referencias




Shani et al. [12] proponen un modelo de recomendacion basado enProcesos de Decision de Markov (MDP).

I Prediccion o decision.

I Beneficio para el usuario y para el sistema.

I Beneficio a corto y largo plazo.

I Naturaleza secuencial de la recomendacion: importa el orden.




Procesos de decision de Markov (MDP)

I S de estados posibles, acciones A disponibles para todos los estados.

I Recompensa Rwd : S × A −→ RI Transicion tr(s, a, s ′)

I Objetivo: obtener una polıtica µ : S −→ A que maximice larecompensa.

I Algoritmo: iteracion de polıtica mediante la funcion de valor:

V µ(s) = Rwd(s, µ(s)) +∑sj∈S

tr(s, µ(s), sj)V µ(sj)

Observacion: un MDP sin acciones es una cadena de Markov.




Modelo predictivo

I A partir de los datos de entrenamiento se construye un modelo decadenas de Markov sobre el que se aplicara el MDP.

I Cada estado s ∈ S sera una secuencia ordenada de valoraciones deun usuario a los ıtems.

I La funcion de transicion de un estado a otro se aproximara porverosimilitud:

trMC (s, s ′) =count(s)

count(s ′)




Configuracion del MDP

I Acciones: se considerara una accion como la recomendacion de unoo mas elementos.

I Recompensa: expresara la utilidad de vender un ıtem (o cualquierotro fin esperado del sistema de recomendacion). Por ejemplo, sepuede usar el beneficio neto de la transaccion.

I Transicion: se definira la transicion como la probabilidad de que elusuario haga una de las siguientes acciones:

I El usuario acepta la recomendacion.

trMDP(s, r , s · r) = αs,r trMC (s, s · r) αs,r > 1

I El usuario selecciona otro elemento.

trMDP(s, r ′, s · r) = βs,r trMC (s, s · r) r 6= r ′ βs,r < 1

I El usuario no selecciona ningun elemento, es decir, no hace unatransicion.

trMDP(s, r , s) = 1−∑r

trMDP(s, r , s · r)



Otras propuestas

Introduccion



Conclusiones

Referencias



Otras propuestas

Metodo de clusteringUngar et al. [13] sugieren un metodo de recomendacion basada enclustering sobre valoracion binaria (el ıtem es util o no).

Pk = probabilidad de que un usuario al azar este en la clase k

Pl = probabilidad de que un ıtem al azar este en la clase l

Pkl = probabilidad de que un usuario en la clase k

haya valorado un ıtem en la clase l .

La estimacion de grupos se hara mediante K-means o Gibbs sampling.



Otras propuestas

Metodo bayesianoChen et al. [3] asumen que los usuarios pueden ser divididos en grupos enlos cuales sus miembros comparten la distribucion de probabilidad deratings.

f (ykl|x) =

∫p,q

f (ykl|p,q)f (x|p,q)π(p)π(q)dpdq


Sistemas basados en grafos

Introduccion



Conclusiones

Referencias



Tipos de grafos

Introduccion



Conclusiones

Referencias



Tipos de grafos

I Grafo de ıtems:I Enlaces ponderados cuando tienen usuarios en comun.I Mayor peso a mayor numero de usuarios en comun.

I Red de blogs: enlaces correspondientes a hiperenlaces no ponderadoscon informacion de preferencias de usuarios.

I Grafo bipartito usuarios-ıtems: Enlaces ponderados respecto a lavaloracion de un usuario para un ıtem, numero de reproducciones

I Grafo con informacion social y de etiquetado:

S =

UU UTr UTgUTr t 0 TrTgUTg t TrTg t 0



Probabilidad estacionaria en caminos aleatorios

Introduccion



Conclusiones

Referencias




Abbassi et al. [1] aplican a la red de blogs PageRank personalizado conun componente de “vagancia”, cuya matriz de transicion es:

Aij =

1−α−ldeg(i) + α r(j) (i , j) ∈ E

l + α r(j) i = j

α r(j) (i , j) /∈ E

La personalizacion se basara en los blogs favoritos del usuario. Para evitarsumideros, se adapta la probabilidad de teleportacion y el peso de osarcos.




Otras propuestas que usan PageRank u otro camino aleatoriopersonalizado son:

I Konstas et al. [7] con la informacion de red social y etiquetado,personalizando en los ıtems reproducidos por el usuario.

I Onuma et al. [10] calculan probabilidades estacionarias usando lanormalizacion laplaciana de la matriz del grafo A = D−1/2AD−1/2 ypersonalizacion respecto al nodo del usuario.

I Y. Zhang [15] usan caminos aleatorios absorbentes.I L. Zhang et al. [16] proponen usar una variante de Topical

PageRank sobre el grafo de ıtems:

Ru = dαMRu + d(1− α)MF u + (1− d)I uRui,g (0) = 1

|I ||G |

F ui,g (t) =

(∑|G |g=1 Ru

i,g (t − 1))

Pi,g

Ru(t) = dαMRu(t − 1) + d(1− α)MF u(t) + (1− d)I u

I u =I u

|I u|I ui,g = r(u, i)Pi,g

TRu,i =

|G |∑g=1

Rui,gPi,g




Mei et al. [9] presentan DivRank, un algoritmo que pretende captardiversidad. Para ello hace un camino aleatorio con refuerzo detransiciones.

p0(u, v) =

{β w(u,v)

deg(u) si u 6= v

1− β si u = v ,

pT (u, v) = αp∗(v) + (1− α)p0(u, v)NT (v)

DT (v)

DT (u) =∑v∈V

p0(u, v)NT (v)

El efecto de NT (v) es que los nodos adyacentes competiran entre sı poruna mayor puntuacion, donde los nodos mayores tenderan a absorber lapuntuacion de sus vecinos menores, y a su vez de los vecinos de estos.Finalmente, los nodos con mayor puntuacion estaran, en general,debilmente conectados y, con ello, se mejora la diversidad de losresultados.



Similitudes sobre caminos aleatorios

Introduccion



Conclusiones

Referencias




Fouss et al. [4] no usan las probabilidades estacionarias de caminosaleatorios, sino los tiempos de transito entre nodos de la red bipartitapara calcular similitudes entre usuario e ıtem, entre usuarios y entre ıtems.

Definicion (Matriz laplaciana de un grafo)La matriz laplaciana se un grafo se define como L = D− A donde D esuna matriz diagonal con los grados de los nodos del grafo y A es lamatriz de adyacencia del mismo. Es facil ver que, si el grafo es conexo, Ltiene rango n − 1. Ademas es doblemente centrada, simetrica ysemidefinida positiva.

Definicion (Pseudoinversa de Moore-Penrose)

La pseudoinversa de Moore-Penrose de L es una matriz L+ que cumple:

1. LL+L = L

2. L+LL+ = L+

3. (LL+)t = LL+

4. (L+L)t = L+L

Tambien es doblemente centrada, simetrica y semidefinida positiva.




Definicion (Tiempo medio de primer paso){m(k|k) = 0

m(k |i) = 1 +∑N

j=1 pijm(k |j) si i 6= k

Definicion (Coste medio de primer paso){o(k |k) = 0

o(k|i) =∑N

j=1 pijc(j |i) +∑N

j=1 pijo(k |j) si i 6= k

Definicion (Tiempo medio de transicion)

n(i , j) = m(j |i) + m(i |j)




m(k |i) =n∑

j=1

(l+ij − l+

ik − l+kj + l+

kk)deg(j)

o(k |i) =n∑

j=1

(l+ij − l+

ik − l+kj + l+

kk)bj bi =n∑

j=1

aijc(j |i)

n(i , j) =VG (l+ii + l+

jj − 2l+ij ) VG =

n∑k=1

deg(k)



Proyeccion espacial del grafo

Introduccion



Conclusiones

Referencias




Distancia de tiempo de conmutacion euclıdea (ECTD).

n(i , j) = VG (l+ii + l+

jj − 2l+ij ) VG =

n∑k=1

deg(k)

Se define ei = (01. . . 0

i−11i

0i+1

. . . 0n)t como el vector asociado al nodo i ,

por tanto:n(i , j) = VG (ei − ej)

tL+(ei − ej)√n(i , j) define una distancia euclıdea.




I Mediante la descomposicion de Jordan de la matriz L+ = UΛUt sepueden hacer la transformacion xi =

√ΛUtei de modo que:

n(i , j) = VG‖xi − xj‖2

I Ademas, estos vectores estan centrados y la matriz de sus productosescalares es precisamente L+, esto es, l+

ij = xti xj , con lo que L+ sepuede considerar como una matriz de similitud.

I Por otro lado, se puede aproximar L+ tomando los m < (n − 1)primeros autovectores de su descomposicion espectral:

L+ = UΛUt



Puenteamiento

Introduccion



Conclusiones

Referencias



Puenteamiento

Onuma et al. [10] combinan puntuaciones de caminos aleatorios concoeficientes de puenteamiento sobre la red bipartita usuarios-ıtems paraencontrar sorpresa.

I Puntuacion de “puenteamiento” (bridging score BRS), basada endetectar elementos que unen grupos por otra parte disjuntos.

I Para cada nodo n, la subred de elementos adyacentes a este. Tomaentonces la media de puntuaciones de relevancia ~ri,j entre nodos i yj de la subred, cuya inversa bn sera la BRS.

bn =1

avgi,j∈adj(n)~ri,j

I Idea: un nodo que una grupos disjuntos producira una subred conmenos enlaces entre elementos.



Metodos espectrales

Introduccion



Conclusiones

Referencias



Metodos espectrales

Abbassi et al. [1] emplean tecnicas de clustering espectral junto concaminos aleatorios sobre la red de blogs:

1. Sean 1 = λ1 ≥ λ2 ≥ . . . ≥ λn los autovalores de P, se computan losautovectores v2, v3, . . . , vt correspondientes a λ2, λ3, . . . , λt .

2. Se determinan un conjunto de pesos c2, . . . , ct para cada autovector.

3. Para cada blog u y autovector vi se define la diferenciadi (u) = |vi (w)− vi (u)|.

4. Se ordenan los nodos en un orden creciente segun el valorqu =

∑2≤i≤t cidi (u).

El vector q es el conjunto de distancias al nodo w .



Tecnicas de recuperacion asociativa

Introduccion



Conclusiones

Referencias



Tecnicas de recuperacion asociativa

Z. Huang et al. [6] se centran en el uso de tecnicas de recuperacionasociativa para afrontar el problema de la dispersion de datos.

I Uso de la red bipartita usuarios-ıtems para explorar relaciones detransitividad.

I Longitud maxima de camino usuario-ıtem M.

I Penalizacion por longitud de camino α < 1.

AMα =

{αA si M = 1

α2(AAt)AM−2α si M = 3, 5, 7, . . .

I Esta aproximacion matricial es costosa, existen alternativas maseficientes:

I Constrained Spread Activation: Leaky Capacitor Model,Branch-and-Bound y Hopfield Networks.


Conclusiones

Introduccion



Conclusiones

Referencias


Conclusiones

I De las cinco propuestas basadas en modelo, tres de ellas ([3],[5] y[13]) tienen el concepto de crear grupos.

I La mayorıa de los modelos propuestos sobre grafos se basa encaminos aleatorios en sus multiples variantes, ya sea conteleportacion (personalizada o no), nodos absorbentes, refuerzo dearcos o uso de topicos.

I La mayorıa de ellos usa las probabilidades estacionarias de loscaminos aleatorios como estimadores de utilidad de los ıtems paralos usuarios, Fouss et al. [4] usa tiempos de transito entre nodos delgrafo para estimar similitudes entre usuarios e ıtems.

I Otras tecnicas sobre grafos son activacion y busqueda depuenteamiento.


Referencias

Introduccion



Conclusiones

Referencias


Referencias

Z. Abbassi and V. S. Mirrokni, “A recommender system based on localrandom walks and spectral methods,” in Proceedings of the 9th WebKDDand 1st SNA-KDD 2007 workshop on Web mining and social networkanalysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 102-108.(2007)

G. Adomavicius, A. Tuzhilin, “Toward the Next Generation ofRecommender Systems: A Survey of the State-of-the-Art and PossibleExtensions” on IEEE Trans. Knowl. Data Eng. 17(6): 734-749 (2005)

Y.-H. Chen and E. I. George, “A Bayesian Model for CollaborativeFiltering,” in Proceedings of the 7th International Workshop on ArtificialIntelligence and Statistics, 1999.

F. Fouss, A. Pirotte, J.-m. Renders, and M. Saerens, “Random-WalkComputation of Similarities between Nodes of a Graph with Application toCollaborative Recommendation,” IEEE Transactions on Knowledge andData Engineering, vol. 19, no. 3, pp. 355-369, March 2007.

T. Hofmann, “Latent Semantic Models for Collaborative Filtering” onACM Transactions on Information Systems, Vol. 22, No. 1. (January2004), pp. 89-115.


Referencias

Z. Huang, H. Chen, and D. Zeng, “Applying associative retrievaltechniques to alleviate the sparsity problem in collaborative filtering,”ACM Transactions on Information Systems (TOIS), vol. 22, no. 1, pp.116-142, January 2004.

I. Konstas, V. Stathopoulos, and J. M. Jose, “On social networks andcollaborative recommendation,” in SIGIR ’09: Proceedings of the 32ndinternational ACM SIGIR conference on Research and development ininformation retrieval. New York, NY, USA: ACM, 2009, pp. 195-202.

Y. Koren, R. Bell, and C. Volinsky. 2009. Matrix Factorization Techniquesfor Recommender Systems. Computer 42, 8 (August 2009), 30-37.

Q. Mei, J. Guo, and D. Radev, “DivRank: the interplay of prestige anddiversity in information networks,” in Proceedings of the 16th ACMSIGKDD international conference on Knowledge discovery and datamining, ser. KDD ’10. New York, NY, USA: ACM, 2010, pp. 1009-1018.

K. Onuma, H. Tong, and C. Faloutsos, “TANGENT: a novel, ‘Surpriseme’, recommendation algorithm,” in KDD ’09: Proceedings of the 15thACM SIGKDD international conference on Knowledge discovery and datamining. New York, NY, USA: ACM, 2009, pp. 657-666.


Referencias

A. Pucci, M. Gori, and M. Maggini, “A random-walk based scoringalgorithm applied to recommender engines,” in WebKDD’06: Proceedingsof the 8th Knowledge discovery on the web international conference onAdvances in web mining and web usage analysis. Berlin, Heidelberg:Springer-Verlag, 2007, pp. 127-146.

G. Shani, D. Heckerman, and R. I. Brafman, “An MDP-BasedRecommender System,” Journal of Machine Learning Research, vol. 6, pp.1265-1295, 2005.

L. Ungar and D. Foster, “Clustering Methods For Collaborative Filtering,”in Proceedings of the Workshop on Recommendation Systems. AAAIPress, Menlo Park California, 1998.

H. Yildirim and M. S. Krishnamoorthy, “A random walk method foralleviating the sparsity problem in collaborative filtering,” in RecSys ’08:Proceedings of the 2008 ACM conference on Recommender systems. NewYork, NY, USA: ACM, 2008, pp. 131-138.

Y. Zhang, J.-Q. Wu, and Y.-T. Zhuang, “Random walk models for top-Nrecommendation task,” Journal of Zhejiang University - Science A, vol.10, no. 7, pp. 927-936, July 2009.


Referencias

L. Zhang, K. Zhang, and C. Li, “A topical PageRank based algorithm forrecommender systems,” in SIGIR ’08: Proceedings of the 31st annualinternational ACM SIGIR conference on Research and development ininformation retrieval. New York, NY, USA: ACM, 2008, pp. 713-714.

X. Zhu, A. B. Goldberg, J. Van, and G. D. Andrzejewski, “Improving

diversity in ranking using absorbing random walks,” in Physics Laboratory

– University of Washington, 2007, pp. 97-104.

Documents

Sistemas de recomendación basados en modelo y en grafos ...ir.ii.uam.es/saul/wp-content/uploads/2011/06/presentacion_eit1.pdf · Sistemas de recomendaci on basados en modelo y en