Upload
raul-larios
View
648
Download
2
Embed Size (px)
DESCRIPTION
Charla sobre Web Semántica, Linked Data, NLP y Minería de Opinión. Presentación del proyecto de I+D EUROSENTIMENT, financiado por la UE y a cargo de un consorcio industrial/universitario. Explicación de la metodología, proceso y herramientas utilizadas en la elaboración de un recurso lingüístico y su uso en un servicio de análisis de sentimiento.
Citation preview
Recursos Linguísticos,Análisis de Sentimiento y APIs
APIdays Mediterranea, 29-30 Mayo, 2014
:
1. EUROSENTIMENT2. Web Semántica3. Bases de conocimiento4. WordNet5. Caso Práctico 1
6. Procesamiento del Lenguaje Natural
7. Análisis de Sentimientos8. Caso Práctico 29. Conclusiones y Futuro
Índice
Raúl [email protected]
Mario Muñ[email protected]
Autores
Esther [email protected]
EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
1
• Cada vez se vuelca más y más información en la Web.• Muy copiosa y muy diversa.• Las opiniones son especialmente valiosas.
“Con la ayuda de herramientas NLPy conociendo los recursos lingüísticos
disponibles, podemos sacar mucho valor de esos datos”
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
•Dispersión de recursos• Ausencia de estándares• Limitaciones de uso
“Todo ello dificulta laInteroperabilidady la Reutilización”
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
•Desarrollo a medida
• Long Tail
• REST + JSON
• Third Party Integration
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
• Plataforma: cloud-based, escalable…
• Subscripciones y Beneficios
• IPR y Licencias
• Seguridad
•QA y SLAs
1 EUROSENTIMENT
Recursos Lingüísticos, Análisis de Sentimiento y APIs
MULTI-IDIOMAORIENTADO A
DOMINOINTEROPERABILIDAD
SEMÁNTICABASADO EN LINKED
DATA
Web Semántica
Recursos Lingüísticos, Análisis de Sentimiento y APIs
2
2 Web Semántica
Recursos Lingüísticos, Análisis de Sentimiento y APIs
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> a lemon:LexicalEntry .
_:node18h8ttlh3x11 a lemon:CanonicalForm ;lemon:writtenRep "room"@en .
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:canonicalForm _:node18h8ttlh3x11 .
<http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> a lemon:Sense ;lemon:reference "04105893" ;lexinfo:partOfSpeach lexinfo:noun .
<http://www.eurosentiment.com/hotel/en/lexicalentry/room> lemon:sense <http://www.eurosentiment.com/hotel/en/lexicalentry/sense/room_0> .
<http://www.eurosentiment.com/hotel/en/lexicon/paradigma> lemon:entry <http://www.eurosentiment.com/hotel/en/lexicalentry/room> .
PREFIX lemon: <http://www.monnet-project.eu/lemon#>SELECT ?entry WHERE {<http://www.eurosentiment.com/electronics/en/lexicon> lemon:entry ?entry.}
Bases de Conocimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
3
3 Bases de Conocimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
WordNet
Recursos Lingüísticos, Análisis de Sentimiento y APIs
4
WordNet: Base de datos léxica
● Synset● PoS-tagging● Palabras● Significado● Ejemplos● Relaciones (hiperonimia, meronimia, …)
4 Wordnet 3.0
Recursos Lingüísticos, Análisis de Sentimiento y APIs
4 Wordnet 3.0
Recursos Lingüísticos, Análisis de Sentimiento y APIs
factoría
n#00017222:Organismo vivo
carente del poder de
locomoción
n#05577190:La parte
inferior del pie
n#03365991:Una estructura que
consiste en una habitación o conjunto
de habitaciones en una única posición a lo largo de una escala
vertical
n#03956922:Edificios para la realización del
trabajo industrial
planta
fábrica
n#05563266:La parte de la pierna
de un ser humano por debajo de la articulación del
tobillo
parte de
● WN-Domains
● WN-Affect
● Multi-WordNet
● SentiWordNet
● TempoWordNet
● ImageNet
4 Wordnet Extensions
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Caso Práctico 1
Recursos Lingüísticos, Análisis de Sentimiento y APIs
5
Hotel 12345678Muy 12487456Mucho 12425478Personal 12114578Bien 12111354Situación 12108451Totalmente 11687451Excelente 11549846Desayuno 10067874Limpieza 9861212….
WordNet
5 Caso Práctico 1
Recursos Lingüísticos, Análisis de Sentimiento y APIs
04105893 n habitación 07387509 n ruido -0’75
03579355 n internet 00980527 a lento -0’5
07575726 n comida 02343110 a excelente 1
08439955 n personal 01459422 n amabilidad 0’75
02818832 n cama 00476663 a estrecho -0,75
04446276 n baño 01391351 a pequeño -0’5
07574602 n desayuno 00106456 a escaso -0’5
01053617 n estancia 01800349 a grato 0’625
Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
6
NLP = Informática + Lingüísitica
1) Tokenización
2) Lematización
3) POS-tagging (morfosintaxis)
4) Semántica
5) Conocimiento (Linked-Data)
6 Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Reputación Online
Extracción de información, análisis de sentimientos y emociones, NER
Categorizador, recomendador, NER (basado en Wikipedia), moderación de comentarios (análisis de sentimiento)
6 Aplicaciones del Procesamiento del Lenguaje Natural
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Análisis de Sentimiento
Recursos Lingüísticos, Análisis de Sentimiento y APIs
7
“Actividad que analiza un texto de acuerdo un algoritmo para identificar y cuantificar las opiniones que contiene acerca de entidades
(productos, servicios, personajes...)”
• Tipos: document-level, entity-level, feature-level
• Frase por frase
•Detección del Dominio
Recursos Lingüísticos, Análisis de Sentimiento y APIs
7 Análisis de Sentimiento
Caso Práctico 2
Recursos Lingüísticos, Análisis de Sentimiento y APIs
8
Recursos Lingüísticos, Análisis de Sentimiento y APIs
8 Caso práctico 2
NLP: Análisis de sentimiento
1) Tokenización
2) Lematización
3) PoS-tagging (morfosintaxis)
4) Semántica
La conexión a internet era lenta.
Como punto más positivo destacaría la amabilidad del personal
El cuarto de baño pequeño.
Las camas son estrechas.
ART NC VBO ADJ
Como punto más positivo destacar el amabilidad del personal
CSUB NC ADV ADJ VBO ART NC PDEL NC
El cama ser estrecho.
ART NC PREP NC VBO ADJ
El cuarto de baño pequeño.
ART NC PREP NC ADJ
El conexión a internet ser lento.
03579355 n internet 00980527 a lento -0’5
08439955 n personal 01459422 n amabilidad 0’75
02818832 n cama 00476663 a estrecho -0,75
04446276 n baño 01391351 a pequeño -0’5
-1’0
+0’75
-0’75
-0’5
-0’5
Conclusiones y Futuro
Recursos Lingüísticos, Análisis de Sentimiento y APIs
9
Recursos Lingüísticos, Análisis de Sentimiento y APIs
9 Conclusiones y Futuro
• SaaS negocio al alza
•Web de datos interconectados
•Good research needs good resource!!
• Aplicaciones: Social TV (2nd screen), RL multimedia
• Develop a Sentiment Analysis tool for your brand in 10 minutes!, http://textalytics.com/blog/build-sentiment-analysis-in-twitter/
• Linked Data => Web of Data => Semantic Web, http://tomheath.com/blog/2009/03/linked-data-web-of-data-semantic-web-wtf/
• Linked Open Data, Tim Berners Lee, http://www.w3.org/2008/Talks/0617-lod-tbl/#(1)
• Red temática española de Linked Data, http://red.linkeddata.es/web/guest• TED Talk, 2009: Tim Berners Lee: The next web
http://www.ted.com/talks/tim_berners_lee_on_the_next_web#t-343422• “Linguistic Linked Data for Sentiment Analysis”, P. Buitelaar• “Linked-Data based Domain-Specific Sentiment Lexicons”, G. Vulcu
Related Projects:
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Referencias
Preguntas?
Recursos Lingüísticos, Análisis de Sentimiento y APIs
Esther Peinado – [email protected]
Mario Muñoz – [email protected]
Raúl Lario – [email protected]
?