51
Miner´ ıa de Sesiones en Motores de B´ usqueda Web Marcelo Mendoza Yahoo! Research Latin America 2009

Mineria de Sesiones en Motores de Busqueda Web

Embed Size (px)

DESCRIPTION

Se describen metodos de mineria de datos aplicados a query logs de motores de busqueda los cuales permiten mejorar el ranking de documentos asi como recomendar consultas o mantener automaticamente directorios.

Citation preview

Page 1: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones enMotores de Busqueda Web

Marcelo MendozaYahoo! Research Latin America

2009

Page 2: Mineria de Sesiones en Motores de Busqueda Web

Como buscar en la Web?

Page 3: Mineria de Sesiones en Motores de Busqueda Web

Como buscar en la Web?

Page 4: Mineria de Sesiones en Motores de Busqueda Web

Los usuarios nos dan feedback

Los motores de busqueda registran la actividad delusuario en logs (consultas, clicks, navegacion).

Podemos usar los logs para mejorar la efectividad delmotor de busqueda.

Page 5: Mineria de Sesiones en Motores de Busqueda Web

El feedback de los usuarios

Page 6: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios: consultas

Page 7: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios: consultas

Page 8: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios: directorios

Page 9: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios: directorios

Page 10: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios

Motor de consulta: (q, (URL, r , t)∗)

Directorio: (c , (URL, r , t)∗)

q: consulta (terminos que la componen).

c : categoria del directorio (texto del path).

URL: documento seleccionado (pagina / sitio).

r : ubicacion del documento en la lista derecomendaciones.

t: tiempo que el usuario permanece revisando eldocumento.

Page 11: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones como proceso

Page 12: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones como proceso

Page 13: Mineria de Sesiones en Motores de Busqueda Web

Actividad en la Web

Page 14: Mineria de Sesiones en Motores de Busqueda Web

Relacion terminos documentos / consultas

| Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692

Page 15: Mineria de Sesiones en Motores de Busqueda Web

Modelos de Sesiones de Usuarios

[BYHMD05]

Page 16: Mineria de Sesiones en Motores de Busqueda Web

Modelos de Sesiones de Usuarios

[BYHMD05]

Page 17: Mineria de Sesiones en Motores de Busqueda Web

Modelos de Sesiones de Usuarios

[BYHMD05]

Page 18: Mineria de Sesiones en Motores de Busqueda Web

Modelos de Sesiones de Usuarios

[BYHMD05]

Page 19: Mineria de Sesiones en Motores de Busqueda Web

Las sesiones de los usuarios: Que sabemos?

Las consultas son cortas (2 a 3 terminos en promedio).

No siempre un termino frecuentemente usado enconsultas es frecuentemente usado en documentos.

Los clicks se concentran preferentemente en las primerasposiciones del ranking.

En general, los usuarios no revisan exhaustivamente losresultados (se concentran en los top-10).

Los directorios son poco usados pero son muy efectivos.

Page 20: Mineria de Sesiones en Motores de Busqueda Web

Relaciones entre consultas

[DM06]

q2 puede mejorar q1!!! (se induce un grafo dirigido)

Page 21: Mineria de Sesiones en Motores de Busqueda Web

Relaciones entre consultas

[DM06]

Page 22: Mineria de Sesiones en Motores de Busqueda Web

Relaciones entre consultas

[DM06]

Page 23: Mineria de Sesiones en Motores de Busqueda Web

Grupos de consultas (clustering)

Construir representaciones vectoriales de sesiones deconsultas.

Introducir una funcion de distancia entre vectores yagrupar usando un algoritmo de clustering estandar (e.g.k-means).

Explotar las relaciones definidas en cada grupo:

consulta ←→ consultaconsulta ←→ documentodocumento ←→ documento

Usar caracterısticas de las sesiones para construir vectores.

Vectores basados en terminos de consultas, terminos dedocumentos, ranking de documentos clickeados, numerode clicks, tiempo de permanencia en documento, etc...

Page 24: Mineria de Sesiones en Motores de Busqueda Web

Relaciones entre documentos / consultas

Page 25: Mineria de Sesiones en Motores de Busqueda Web

Vectores de consultas

Terminos de consultas: q[i ] = Tfi ,q · Idfi ,Q

Tfi ,q: numero de ocurrencias de ti en q (normalizado).

Idfi ,Q : log(NQni

).

Limitacion: q generalmente tiene pocos terminos (i.e.Tfi ,q = 0).

Version suavizada: q[i ] = (0.5 + 0.5 · Tfi ,q) · Idfi ,Q .

Page 26: Mineria de Sesiones en Motores de Busqueda Web

Vectores de consultas

Co-citacion: dos consultas son similares si haycoincidencias entre los docs clickeados en sus sesiones.

Alternativas para los pesos: booleanos, ranking, clicks.

Page 27: Mineria de Sesiones en Motores de Busqueda Web

Vectores de consultas

Consultas: usamos variables generadas en las sesionesdonde q ha sido formulada (que reflejan la actividad delusuario).

Tf-Pop

q[i ] =∑

URLs u Tfi ,u · C (u, s),

C (u, s): numero de clicks a u (sobre total de clicks).

[BYHM04a]

Page 28: Mineria de Sesiones en Motores de Busqueda Web

Vectores de sesiones de consultas

Sesiones: usamos variables generadas en cada sesion (quereflejan la actividad del usuario).

No usamos clicks (C (u, s) es 1 o 0 en la sesion).

Usamos tiempo (tu: tiempo en el doc u, ts : duracion dela sesion).

Tf-Idf-Timeqs[i ] =

∑URLs u Tfi ,u · Idfi ,Q · tu

ts.

[BYHM07]

Page 29: Mineria de Sesiones en Motores de Busqueda Web

Distribucion de distancias

Usamos distancia coseno.

[BYHM07]

Page 30: Mineria de Sesiones en Motores de Busqueda Web

Clusters de consultas

[BYHM04b]

Page 31: Mineria de Sesiones en Motores de Busqueda Web

Usando clusters de consultas

Mejorar el ranking! (usar los documentos mas clickeadosdel cluster).

Clasificacion de palabras:

Terminos en el cluster: sinonimia.Mismo termino en distintos clusters: polisemia.

Recomendar consultas (usar las consultas que retornan losdocumentos con mas clicks y en mejores posiciones).

Page 32: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones en Directorios

Los directorios estan limitados en su crecimiento.

Idea: usando sesiones de usuario, producirautomaticamente recomendaciones de documentos en eldirectorio 7−→ crecimiento.

Usamos el log del directorio para construirrepresentaciones vectoriales de sesiones en el directorio.

Las asociamos a sesiones de consultas 7−→ recomendamosdocumentos seleccionados en las sesiones de consultas enel directorio 7−→ tambien asociamos consultas.

Categorias de Directorios

vc [i ] =∑

cs∈c vcs [i ]× 1r

Page 33: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones en Directorios

Page 34: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones en Directorios

MinSupp Relevant Recommended Precision Recall F-measure0.1 356 499 71.34% 63.46% 67.17%0.2 386 437 88.33% 68.81% 77.35%0.3 378 401 94.26% 67.38% 78.59%0.4 331 352 94.03% 59.01% 72.51%0.5 290 302 96.03% 51.69% 67.21%

Set Relevant Recommended Precision Recall F-measureA 378 401 94.26% 67.38% 78.59%H 470 500 94.01% 83.78% 88.61%

H ∩ A 289 297 97.31% 51.52% 67.37%H - A 181 203 89.16% 32.26% 47.38%A - H 89 104 85.58% 15.86% 26.77%

Page 35: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones en Directorios

Category Queries Recommended

literature poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added taxmuseums Bellas Artes museum, Historical museum, San Francisco church,

Claudio Bravo, Pablo Nerudaarchitecture architecture, architects, architecture’s information,

history of the Chilean architecture, Maipu templeAstronomy observatory, telescope, Paranal, pisco, wine tourBiology native plants, birds, flora and fauna, Chilean flora, insectsGeology Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremorHistory history of Chile, local history, naval battle of Iquique, Chilean folkloretechnologies nuclear physics, birds, telescopes, energy, Chilean climatehardware printers, optic fiber, lexmark, toner, CPUInternet e-business, e-commerce, P2P, web development, hostagesoftware free software, software errors, bar code’s sofware, sofwareinformatics computer networks install, networks, used notebooks, tutorialsreal estate properties, apartments, sales, rentals in Chile, housesarts master, tatoos, photography, Violeta Parra, Violeta Parra biographyphotography photography, digital photography, Chilean photography, photos,

Photography’s coursesrestaurants Vegetarian food, Mexican food, Japanese food, chiken, Chinese foodcommerce duty free Iquique, duty free Punta Arenas, duty free areas, taxestoys & games games, board games, PC games, PS2 tricks, PS2 gamesvideo & dvd DVD, DVD R, movie sales, DVD recording, CD R

Page 36: Mineria de Sesiones en Motores de Busqueda Web

Intensiones detras de las consultas

Los usuarios manifiestan intensiones detras de susconsultas.

Quiero aprender acerca de algo:

batalla naval del Iquique

Quiero ir a una pagina / sitio especıfica:

Amazon

Quiero realizar una accion en particular:

Accesar un servicio: codigo postal de SantiagoDownload: mp3 King CrimsonComprar / vender: memorias RAM oferta

Page 37: Mineria de Sesiones en Motores de Busqueda Web

Intensiones detras de las consultas

Broder ’02: informacion, navegacion, transaccion.

Informacion: el texto del documento es lo masimportante para la consulta.

Navegacion: la URL del documento es lo mas importantepara la consulta.

Transaccion: la funcionalidad del sitio es lo masimportante.

RankingSi conocemos la intension de la consulta, le damos masrelevancia al texto, URL u otro tipo de caracterısticas deldocumento.

Page 38: Mineria de Sesiones en Motores de Busqueda Web

Identificacion automatica usando SVMsMethod Measures

TP Rate FP Rate Precision F-Measure

Informational - Other(0) tf-idf 0.6538 0.0292 0.9623 0.7786(1) tf-pop 0.58576 0.13281 0.84186 0.69084(2) tf-idf-time 0.92614 0.05141 0.89071 0.90808(3) tf-idf-pop-time 0.65000 0.23711 0.31138 0.42105Navigational - Other(0) tf-idf 0.9655 0.2597 0.6109 0.7483(1) tf-pop 0.92131 0.13475 0.88088 0.90064(2) tf-idf-time 0.99485 0.06870 0.87727 0.93237(3) tf-idf-pop-time 0.45455 0.01603 0.83333 0.58824Transactional - Other(0) tf-idf 0.91 0.0165 0.9192 0.9146(1) tf-pop 0.75692 0.05344 0.94615 0.84103(2) tf-idf-time 0.98438 0.05316 0.90000 0.94030(3) tf-idf-pop-time 0.70000 0.13153 0.41880 0.52406

[MZ09b]

Page 39: Mineria de Sesiones en Motores de Busqueda Web

Identificacion automatica usando C 4.5

[MZ09a]

Page 40: Mineria de Sesiones en Motores de Busqueda Web

Intensiones detras de las consultas

Que hemos aprendido?

Es posible identificar intensiones tras las consultas (esmas difıcil en el caso de transaccionales).

Lıneas de investigacion: mejorar el ranking.

Page 41: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

Page 42: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

Query routing

Page 43: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

Query routing

[MFM+09a]

Page 44: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

0) HIT, a) Contencion exacta, b) Contencion aproximada, c)Contencion por region, d) Diferencias de n-terminos.

[MFM09b]

Page 45: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

Caching + Machine LearningUsar el location cache como training set para una maquina deaprendizaje.

Cuan probable es la maquina para una consulta enparticular?

P(y = ±1 | x, w) =1

1 + e−y(wT x+w0),

x : terminos de las consultas, y : id de los procs, w :modelo.

minw

1

2wT w + C

l∑i=1

log(1 + e−yi (wT xi +w0)),

Page 46: Mineria de Sesiones en Motores de Busqueda Web

Minerıa de sesiones para distribucion de

documentos

INTER5%

8 16 32 64 128RANDOM 6.21 12.51 24.81 49.81 100PCAP 16.48 23.58 36.64 64.03 100SEMCACHE 11.68 19.17 32.55 57.66 100LOGRES 16.81 24.46 37.72 65.88 100

INTER10%

8 16 32 64 128RANDOM 6.20 12.51 24.85 49.88 100PCAP 14.56 21.36 34.34 62.31 100SEMCACHE 11.24 18.65 31.97 57.24 100LOGRES 15.11 22.27 34.82 63.90 100

INTER20%

8 16 32 64 128RANDOM 6.19 12.48 24.84 49.89 100PCAP 13.21 19.83 32.81 61.06 100SEMCACHE 11.01 18.37 31.65 56.97 100LOGRES 13.56 20.16 31.94 61.90 100

Page 47: Mineria de Sesiones en Motores de Busqueda Web

Conclusiones

Podemos aprender del pasado!Las sesiones de los usuarios son muy utiles para mejorar laeficacia de los motores de busqueda

Ranking de documentos

Recomendacion de consultas

Mantencion de directorios

Clasificacion de consultas segun intension

Query routing

Page 48: Mineria de Sesiones en Motores de Busqueda Web

Referencias I

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Query clustering for boosting web page ranking.

In AWIC ’04, 2004.

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Query recommendation using query logs in search engines.

In CLUSWEB ’04, 2004.

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Improving search engines by query clustering.

In Journal of the American Society for Information Systemsand Technology, 58(12):1793-1804, 2007.

Page 49: Mineria de Sesiones en Motores de Busqueda Web

Referencias II

R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret.

Modeling user search behavior.

In LA-WEB ’05, 2005.

G. Dupret and M. Mendoza.

Automatic query recommendation using click-through data.

In WCC ’06, 2006.

M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, andV. Gil-Costa.

Location cache for web queries.

In CIKM ’09, 2009.

Page 50: Mineria de Sesiones en Motores de Busqueda Web

Referencias III

M. Mendoza, F. Ferrarotti, and M. Marin.

A last-resort semantic cache for web queries.

In SPIRE ’09, 2009.

M. Mendoza and J. Zamora.

Building decision trees to identify the intent of a user query.

In KES ’09, 2009.

M. Mendoza and J. Zamora.

Identifying the intent of a user query using support vectormachines.

In SPIRE ’09, 2009.

Page 51: Mineria de Sesiones en Motores de Busqueda Web

Gracias!