50
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil, Argentina. 1 de Julio, 2011 Clasificación de Documentos Web Clasificación de Documentos Web utilizando Marcadores Sociales utilizando Marcadores Sociales Tesis de Grado Tesis de Grado . Ingeniería de Sistemas . Ingeniería de Sistemas

Clasificación de Páginas web usando Marcadores sociales

Embed Size (px)

Citation preview

Page 1: Clasificación de Páginas web usando Marcadores sociales

Facultad de Ciencias ExactasUniversidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN)

Nicolás A. Tourné

Directora: Dra. Daniela Godoy

Tandil, Argentina. 1 de Julio, 2011

Clasificación de Documentos Web Clasificación de Documentos Web utilizando Marcadores Socialesutilizando Marcadores SocialesTesis de GradoTesis de Grado. Ingeniería de Sistemas. Ingeniería de Sistemas

Page 2: Clasificación de Páginas web usando Marcadores sociales

1. Introducción

2. Marcadores sociales

3. Recursos utilizados

4. Desarrollo de la investigación

5. Conclusiones

Agenda

Page 3: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales

1 IntroducciónIntroducción

Page 4: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales

1 IntroducciónIntroducción

Page 5: Clasificación de Páginas web usando Marcadores sociales

Marco teórico• Nuevo medio de comunicación: INTERNET.• Crecimiento exponencial de páginas web a fines de los 90’.• Creación de directorios web.• Se comienza a pensar en “categorización automática”.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 6: Clasificación de Páginas web usando Marcadores sociales

Data mining• Extracción no trivial de información.• Data mining = estadísticas + IA + machine learning• A partir del rotundo crecimiento de la web, se habla de

web mining.• La clasificación es una técnica muy utilizada.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 7: Clasificación de Páginas web usando Marcadores sociales

• Colaboración e intercambio ágil de información entre los usuarios.

• Nuevos servicios: blogs, wikis, redes sociales, etc.

• Surgimiento de los marcadores sociales.

La Web 2.0

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 8: Clasificación de Páginas web usando Marcadores sociales

Propuesta

¿Los marcadores sociales sonútiles para ser empleados en la

clasificación automática de documentos web?

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

categorizaciónautomática

marcadoressociales

a mayor información,mejores predicciones+ +

Page 9: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks

2 Marcadores socialesMarcadores sociales

Page 10: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks

2 Marcadores socialesMarcadores sociales

Page 11: Clasificación de Páginas web usando Marcadores sociales

Etiquetas (tags)• Palabras claves asignadas a un recurso escogidas

libremente.• No siguen regla formal de escritura.• Significado social y oculto.• Comportamiento “power law”.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 12: Clasificación de Páginas web usando Marcadores sociales

Tagging colaborativo (1)

• Sistemas de clasificación colaborativa por medio de etiquetas simples.

• Surgen de la participación de varios usuarios.

• Comúnmente se produce en entornos de software social.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 13: Clasificación de Páginas web usando Marcadores sociales

Tagging colaborativo (2)

• Folcsonomía, clasificación gestionada por el pueblo.

• Se compone de 3 entidades vinculadas.

• Folcsonomías amplias y estrechas.

• Varias deficiencias.

Usuario 1 Usuario 2

Recurso NRecurso 1 Recurso 3 Recurso 4Recurso 2

Tag 1Tag 2

Tag 4

. . .

Tag 3

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 14: Clasificación de Páginas web usando Marcadores sociales

¿Qué son los marcadores sociales?• Forma sencilla de almacenar, clasificar

y compartir enlaces en internet.

• Los usuarios guardan una lista derecursos que consideran útiles.

• Los recursos son categorizadosmediante etiquetas o tags.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 15: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser

Recursos utilizadosRecursos utilizados3

Page 16: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser

Recursos utilizadosRecursos utilizados3

Page 17: Clasificación de Páginas web usando Marcadores sociales

Colección de datos CABS120k08• Consiste en casi 120 mil URLs con metadatos adicionales

presentado en formato XML, basados en la intersección de:

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

500k random queries

Tags

Categorías

Anchors text

Page 18: Clasificación de Páginas web usando Marcadores sociales

Weka• Software para aprendizaje automático y data mining

escrito en Java. Licencia GNU-GPL.

• Soporta varias tareas de data mining como clasificación,clustering, pre-procesamiento de datos, regresión, etc.

• En la investigación se utilizaron los algoritmos de clasificación Naive Bayes y SMO.

• Formato de archivo plano ARFF.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 19: Clasificación de Páginas web usando Marcadores sociales

Parser: CABS120k08 » ARFF• Se ha construido en Java para convertir CABS120k08 a ARFF.

• Filtros aplicados a cada documento:

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

Documentofiltrado

Page 20: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries

Desarrollo investigaciónDesarrollo investigación4optimización, baseline, WordNet, spell-check

Page 21: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries

Desarrollo investigaciónDesarrollo investigación4optimización, baseline, WordNet, spell-check

Page 22: Clasificación de Páginas web usando Marcadores sociales

Resumen• Procedimiento utilizado:

Generaciónde datasets

Pre-procesam.de c/ dataset

ClasificaciónAnálisis de resultados

Optimizaciones

datasetsCABS120k08.xml datasetspre-procesados

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 23: Clasificación de Páginas web usando Marcadores sociales

Generación de datasets• Cada dataset está compuesto por los mismos 19.583

documentos, representados a partir de distintas fuentes de información:

queries anchor text tags

queries +anchor text

queries + tags

anchor text +tags

queries +anchor text +

tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 24: Clasificación de Páginas web usando Marcadores sociales

Análisis de resultados• Primero, se decide cuál es el mejor clasificador:

- Naive Bayes- SMO (PolyKernel)- SMO (RBFKernel)

• Se utiliza la configuración por defecto para cada clasificador: Percentage split (66%) y Cross-validation (10 folds).

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 25: Clasificación de Páginas web usando Marcadores sociales

Resultados » Naive Bayes

0%

10%

20%

30%

40%

50%

60%

70%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

57,92% 60,38%

Page 26: Clasificación de Páginas web usando Marcadores sociales

Resultados » SMO (PolyKernel)

0%

10%

20%

30%

40%

50%

60%

70%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

64,34% 65,40%

Page 27: Clasificación de Páginas web usando Marcadores sociales

Resultados » SMO (RBFKernel)

0%

10%

20%

30%

40%

50%

60%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

49,67% 51,48%

Page 28: Clasificación de Páginas web usando Marcadores sociales

Selección del clasificador• La performance de los clasificadores evaluados es la

siguiente:SMO

(PolyKernel)

NaiveBayes

SMO (RBFKernel)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 29: Clasificación de Páginas web usando Marcadores sociales

Elección del dataset ideal• Pruebas realizadas con distintos % de entrenamiento.

anchortext+tags85% inst. = 64,96%

• Pocas instancias de entrenamiento, pobres resultados

• Los tags son el recurso de mayor aporte a la clasif.

• Las queries perjudican la clasificación

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags

anchortext+tags

query+anchortext+tags

queries

Page 30: Clasificación de Páginas web usando Marcadores sociales

Optimizaciones• Llevar a cabo una serie de cambios para lograr mejorar los

resultados de la clasificación.

• Se utiliza el categorizador SMO (PolyKernel) y Percentage split como modo de entrenamiento.

• Se define un baseline.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 31: Clasificación de Páginas web usando Marcadores sociales

#1 - Sin aplicar stemming (1)

• No se aplica stemming en la generación del dataset.

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

Documentofiltrado

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 32: Clasificación de Páginas web usando Marcadores sociales

#1 - Sin aplicar stemming (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

baseline85% inst. = 64,96%

no stemming85% inst. = 59,89%

Page 33: Clasificación de Páginas web usando Marcadores sociales

#1 - Sin aplicar stemming (3)

• Existen casos como:

Se descarta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

no stemming computer (28) compute (16) computadora (8) computation (1)

baseline compute (53)

Page 34: Clasificación de Páginas web usando Marcadores sociales

#2 - Sinónimos (WordNet) (1)

• Encontrar sinónimos a cada término del dataset.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento Documentofiltrado

Generarsinónimos

Page 35: Clasificación de Páginas web usando Marcadores sociales

#2 - Sinónimos (WordNet) (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

baseline85% inst. = 64,96%

sinónimos 85% inst. = 56,22%

Page 36: Clasificación de Páginas web usando Marcadores sociales

#2 - Sinónimos (WordNet) (3)

• Si bien hubo casos donde los sinónimos fueron ventajosos, se incorporó demasiada información para muchos otros términos.

“computer” = “computing machine”, “computing device”, “data processor”, “electronic computer”

Se descarta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 37: Clasificación de Páginas web usando Marcadores sociales

#3 - Spell-check (1)

• Corrección de los errores ortográficos encontrados.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento Documentofiltrado

Aplicarspell-check

para cadatérmino

Page 38: Clasificación de Páginas web usando Marcadores sociales

#3 - Spell-check (2) » Tumba

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check Tumba85% inst. = 70,12%

baseline85% inst. = 64,96%

Page 39: Clasificación de Páginas web usando Marcadores sociales

#3 - Spell-check (3) » JaSpell

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check JaSpell85% inst. = 71,25%

baseline85% inst. = 64,96%

Page 40: Clasificación de Páginas web usando Marcadores sociales

#3 - Spell-check (4) » Hunspell

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check Hunspell85% inst. = 69,12%

baseline85% inst. = 64,96%

Page 41: Clasificación de Páginas web usando Marcadores sociales

#3 - Spell-check (5)

• Los 3 spell-checkers mejoran los resultados del dataset baseline.Es JaSpell quien logra una pequeña diferencia con respecto a sus pares.

Se acepta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 42: Clasificación de Páginas web usando Marcadores sociales

#4 - Spell-check mejorado (1)

• La idea es mejorar el spell-check anterior. Evitar la pérdida de términos cuando no existen sugerencias.

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

DocumentofiltradoAplicar

Spell-check

para cada término

¿Traducción?

¿Abreviación?

términotraducido

si

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

incorrectos y sin sugerencias

términosoriginales

si

se descarta el término

Page 43: Clasificación de Páginas web usando Marcadores sociales

#4 - Spell-check mejorado (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check mejorado85% inst. = 72,35%

Page 44: Clasificación de Páginas web usando Marcadores sociales

#4 - Spell-check mejorado (3)

• Los resultados mejoran al spell-check anterior.La mejora se debe a los nuevos términos presentes en el dataset que antes eran descartados.

Se acepta esta optimización(y reemplaza la anterior)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 45: Clasificación de Páginas web usando Marcadores sociales

tags: marcadores sociales, beneficios, clasificación, búsqueda web

ConclusionesConclusiones5

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 46: Clasificación de Páginas web usando Marcadores sociales

tags: marcadores sociales, beneficios, clasificación, búsqueda web

ConclusionesConclusiones5

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 47: Clasificación de Páginas web usando Marcadores sociales

Conclusiones generales

os marcadores sociales efectivamente aportan valor a la clasificación automática de documentos web

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 48: Clasificación de Páginas web usando Marcadores sociales

¿Preguntas?

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Page 49: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¡Muchas gracias!

Page 50: Clasificación de Páginas web usando Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¡Muchas gracias!