Upload
leduong
View
221
Download
0
Embed Size (px)
Citation preview
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Procesam
iento delLenguaje N
aturalJosé M
aría Góm
ez Hidalgo
http://www.esp.uem.es/~jmgomez/
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Índice
•D
efinición y aplicaciones
•H
istoria e hitos•
Ingeniería y evaluación
•A
nálisis superficial y comprensión
–C
omprensión
–A
nálisis estadístico
•E
l problema de la am
bigüedad
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Definición y aplicaciones
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Definición y aplicaciones
•E
l lenguaje es un aspecto humano
fundamental
•R
elacionado con la inteligencia
•M
edio de–
Com
unicación–
Alm
acenamiento del conocim
iento humano
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Definición y aplicaciones
•P
LN =
tratamiento com
putacional de los lenguajes naturales (vs. form
ales) para–
Desarrollar p
rog
ram
as
que realicen tareas relacionadas con el lenguaje
–D
esarrollar mo
delo
sque ayuden a com
prender los m
ecanismos hum
anos relacionados con el lenguaje
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Definición y aplicaciones
•Lingüística com
putacional–
Especificar m
odelos que aproximen la capacidad
humana en tareas lingüísticas com
o leer, e
scrib
ir, escuch
ar
y hab
lar
•Ingeniería del lenguaje (U
nión Europea)
–D
esarrollar sistemas plenam
ente funcionales y utilizables que realicen tareas relacionadas con el lenguaje
i+
D
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Definición y aplicaciones
•C
arácter multidisciplinar
–Lingüística y psicolingüística
•Lexicografía y term
inología
–Lenguajes form
ales y compiladores
–Inteligencia artificial
•R
epresentación del conocimiento
–Lógica
–Ingeniería del softw
are
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Definición y aplicaciones
•T
raducción automática
•R
ecuperación de información
•Interfaces a bases de datos, y sistem
as de respuesta a preguntas
•E
xtracción de información
•E
xtracción de resúmenes
•R
esolución cooperativa de problemas
•T
utores inteligentes
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Historia e hitos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Historia e hitos
•P
rimeros tiem
pos (1950-65)–
Traducción autom
ática =>
ALP
AC
–G
ramática transform
ativa (Chom
sky)–
Recuperación de inform
ación
•A
mpliación de perspectivas (1960-70)
–S
istemas de respuesta a preguntas (B
AS
EB
ALL)
–R
esolución de problemas (S
TU
DE
NT
)–
Consulta (E
LIZA
)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Historia e hitos
•D
esarrollo de formalism
os (1965-70)–
Augm
ented Transition N
etwork, A
TN
(1960)–
Gram
ática de casos (1975)–
Dependencia conceptual (1972)
–S
emántica procedim
ental (1968)–
Red sem
ántica (1968)
•H
itos de los 70–
SH
RD
LU (1972)
–LU
NA
R (1972)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Historia e hitos
•E
xpansión de dominios de aplicación (1970-
85)–
Interfaces a BD
s(LA
DD
ER
/LIFE
R, 1977)
–A
prendizaje asistido por computadora
(SC
HO
LAR
, 1970)–
Autom
atización de oficinas (SC
HE
D, 1978)
–P
rogramación autom
ática (NLP
Q, 1976)
–P
rocesamiento de textos científicos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Historia e hitos
•T
endencias actuales (1985-)–
Implem
entaciones independientes del dominio
–R
esurgimiento de la traducción autom
ática•
ME
TE
O (1977)
–C
omercialización del P
LN•
RO
BO
T/IN
TE
LLEC
T (1977)
•IN
QU
ER
Y (1990), O
racle ConT
ext Cartridge
(1997)•
BA
BY
LON
(1997)•
VIA
VO
ICE
(1998)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Historia e hitos
•T
endencias actuales (1985-)–
Proliferación de form
alismos (1970-)
•S
intaxis (gramáticas basadas en restricciones)
•S
emántica (gram
ática de Montague)
–Intensificación del em
piricismo
•A
plicación del aprendizaje automático
–N
uevos dominios de aplicación
•Internet/W
eb =>
traducción automática, recuperación de
información
•B
ibliotecas digitales
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Ingeniería y evaluación
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•T
écnicas genéricas de Ingeniería del S
oftware
•R
eutilización de herramientas y m
ódulos–
Lenguajes declarativos (Prolog, D
CG
)–
Recursos léxicos -
WordN
et, EuroW
ordNet
–O
racle ConT
ext Cartridge
–S
mart
•N
osotros usaremos
–Java, P
rolog Cafe, W
eka
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•E
valuación–
Objetivo =
> determ
inar la calidad de un sistema
de PLN
–M
ala fama desde A
LPA
C (1966)
–E
valuación desde la Ingeniería del Softw
are•
International Standard
ISO
/IEC
9126•
Caja negra vs. caja de cristal
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•E
AG
LES
(1992)–
Expert A
dvisory Groups for Language E
ngineering S
tandards-
Evaluation W
orking Group
–E
valuación de progreso, ad
ecu
ac
ión
y diagnóstico
–E
nfoque “informe del consum
idor”–
Definición de una m
etodología de evaluación
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•E
AG
LES
(1992)–
Características de calidad (IS
O 9126)
Subcaracterísticas
Funcionalidad
Fiabilidad
Adecuación, precisión, interoperabilidad, conform
idad, seguridad
Características
Facilidad de uso
Facilidad de m
ant.
Eficiencia
Transportabilidad
Madurez, tolerancia a fallos, recuperabilidad
Com
prensibilidad, facilidad de aprendizaje, facilidad de operación
Com
portamiento respecto al tiem
po y mem
oria
Analizabilidad, capacidad de m
odificación y prueba, estabilidad
Adaptabilidad, facilidad de instalación y m
antenimiento,
capacidad de ajuste
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•A
RP
A/D
AR
PA
(1985-)–
(Defense) A
dvanced Research P
rojects Agency
–A
portan recursos–
Dependientes de la tarea•
Traducción autom
ática•
Acceso B
Ds
con habla (AT
IS)
•R
ecuperación de textos (TR
EC
)•
Extracción de inform
ación (MU
C)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Ingeniería y evaluación
•R
ecursos para la evaluación–
Córpora
(Brow
nC
orpus)•
Colecciones de textos de origen natural en form
ato electrónico
–C
onjuntos de casos de prueba•
Conjunto de entradas construidas artificialm
ente para probar un sistem
a respecto a un fenómeno
–C
olecciones de evaluación (Ohsum
ed)•
Conjunto de entradas en lenguaje natural y las
correspondientes respuestas deseables
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Análisis superficial y com
prensión
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis superficial y com
prensión
•P
LN =
traducción a lenguaje interno de representación
Sistem
ade P
LNT
exto
Acción
Resultado
Representación
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis superficial y com
prensión
•C
omplejidad de la representación
–A
lta (ej. lógica de primer orden) =
> com
prensión–
Baja (ej. Listas de térm
inos) =>
análisis superficial
•C
orresponde a dos corrientes históricas–
Corriente form
alista = com
prensión = P
LN basado
en conocimiento
–C
orriente empiricista
= análisis superficial =
PLN
estadístico
•A
ctualidad =>
tendencia a la integración
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis superficial y com
prensión
•C
aracterísticas de los sistemas
Com
prensiónA
nálisissuperficial
Dom
inio
Coste de
desarrollo
Efectividad
De
pe
nd
ien
tes
Ind
epe
nd
ien
tes
Alto
Ba
jo
Alta
Me
dia
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Análisis superficial y com
prensión
Com
prensión
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónN
iveles del lenguaje
•N
ivel fonológico–
Trata de cóm
o las palabras se relacionan con los sonidos que las representan
•N
ivel morfológico
–T
rata de cómo las palabras se construyen a partir
de unas unidades de significado más pequeñas
llamadas m
orfemas
–P
or ejemplo: rápida +
mente =
> de m
anera rápida
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónN
iveles del lenguaje
•N
ivel sintáctico–
Trata de cóm
o las palabras pueden unirse para formar
oraciones, fijando el papel estructural que cada palabra juega en la oración y que sintagm
as son parte de otros sintagm
as
•N
ivel semántico
–T
rata del significado de las palabras y de cómo los
significados se unen para dar significado a una oración–
Se refiere al significado independiente del contexto, es decir,
de la oración aislada
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónN
iveles del lenguaje
•N
ivel pragmático
–T
rata de cómo las oraciones se usan en distintas
situaciones y de cómo el uso afecta al significado
de las oraciones–
Se suele reconocer un subnivel: discursivo•
Trata de cóm
o el significado de una oración se ve afectado por las oraciones inm
ediatamente anteriores
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónA
rquitectura de un sistema de P
LN
•A
nálisis = traducción de un lenguaje a otro
•C
ada nivel se corresponde con un tipo de conocim
iento y por tanto un lenguaje
•S
eparación en fases
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónA
rquitectura de un sistema de P
LN
Análisis
morfo-
sintácticoE
xpresiónen LN
Análisis
semántico
Análisis
pragmático
Ejecución
Árbol
sintáctico
Form
a lógica
Expresión
finalR
esultado
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónA
rquitectura de un sistema de P
LN
•S
eparación en fases favorece la m
od
ula
rida
d
•Integración de fases favorece la e
ficie
nc
ia
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónR
epresentación del conocimiento
•S
e han propuesto numerosos form
alismos de
representación (len
gu
aje
s fo
rma
les)
–G
ramáticas de estructura de frase (sintaxis)
–G
ramáticas basadas en restricciones (sintaxis,
semántica)
–Lógica de prim
er orden y otras (semántica)
–S
istemas de m
arcos -fram
es(sem
ántica, pragm
ática)–
Dependencias conceptuales (sem
ántica)–
Scripts, planes y objetivos (pragm
ática)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónR
epresentación del conocimiento
•T
ipos de conocimiento
–C
onocimiento lingüístico
–C
onocimiento del m
undo•
Situación del discurso o de la historia
•C
onocimiento de la aplicación
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Com
prensiónR
epresentación del conocimiento
•E
l papel del Prolog
como m
arc
o u
nific
ad
or
–C
apacidad para representar conocimiento m
orfo-sintáctico (G
ramáticas de C
láusulas Definidas)
–C
apacidad para representar conocimiento
semántico y del m
undo (Lógica de primer orden)
–O
peratividad (como lenguaje de program
ación)•
Sim
ultáneamente form
alismo y analizador
•E
jecución
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
Análisis superficial y com
prensión
Análisis estadístico
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Motivación
•E
ra de la información (electrónica)
–C
recientes cantidades de información y otros
recursos en formato electrónico
•E
mpresas, agencias gubernam
entales, individuos enfrentados a un problem
a de so
bre
carg
a d
e
info
rma
ció
n
•W
WW
-270 m
illones de páginas (mediados 1998)
•D
e 1970 a 1980 se pusieron en circulación 2000000 de inform
es anuales (7000 diarios)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Motivación
–C
arencia de métodos efectivos de procesam
iento de inform
ación para sistemas prácticos
•P
LN basado en conocim
iento efectivo sólo en dominios
limitados
–D
isponibilidad de recursos•
Grandes cantidades de texto en form
ato electrónico =>
posibilidad de realizar estudios estadísticos efectivos del uso del lenguaje
•D
iccionarios y datos en formato electrónico
–P
or todo ello, cre
cie
nte
inte
rés e
n té
cnic
as
esta
dís
ticas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
¿Q
ué es?
•E
nfoque simplista
–T
écnicas basadas fundamentalm
ente en contar palabras
•E
nfoque general–
Sistem
as prácticos de efectividad razonable basados en técnicas sim
ples (tareas de clasificación)
–D
escubrimiento de generalizaciones (teorías)
sobre el uso del lenguaje a partir de datos contrastables em
píricamente
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
¿Q
ué es?
•Intersección de varios cam
pos
–R
ecuperación de información
–A
prendizaje automático (m
ach
ine le
arn
ing)
–T
eoría de la probabilidad–
Estadística
–T
eoría de códigos–
Teoría de la inform
ación–
etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Tareas de clasificación
•C
asi todas las tareas resueltas por técnicas estadísticas adm
iten una formulación com
o “clasificación de texto”
•C
lasificación = agrupam
iento de entidades•
Clasificación de texto =
agrupamiento de
expresiones en lenguaje natural
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Tareas de clasificación
•B
ásicamente dos tipos de tareas
–C
lasificación de documentos
•E
xpresiones en LN =
documentos / casi docum
entos•
Grano grueso
–C
lasificación de términos
•E
xpresiones en LN =
palabras / expresiones muy cortas
•G
rano fino
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Tareas de clasificación
•T
areas de clasificación de documentos
–R
ecuperación de documentos (IR
-in
form
atio
n
retrie
val)
–C
ategorización de documentos (te
xt
cate
goriz
atio
n)–
Agrupam
iento de documentos (c
luste
ring)
–F
iltrado/enrutamiento de docum
entos (SD
I -sele
ctiv
e d
isse
min
atio
n o
f info
rmatio
n)–
Alineam
iento de texto–
Segm
entación de texto
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Tareas de clasificación
•T
areas de clasificación de términos
–C
ategorización de términos
•E
tiquetado sintáctico (PO
Sta
gg
ing
-pa
rt-of-s
pe
ech
tag
gin
g)•
Desam
biguación (WS
D -
wo
rd s
en
se
dis
am
big
ua
tion)
–A
grupamiento de térm
inos•
Creación de th
esa
uri-
diccionarios de sinónimos/cam
pos sem
ánticos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•T
res tipos de recursos–
Colecciones de texto•
Co
rpora
•C
olecciones de evaluación
–R
ecursos léxicos•
Diccionarios electrónicos y th
esa
uri
•B
ases de datos léxicas
–P
rogramas
•R
ecuperación de información
•A
prendizaje automático
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•C
orpora(sing. corpus)
–C
olecciones de texto, no necesariamente
documentos
–P
uede tener las siguientes características•
Representatividad (orientado al estudio de la lengua)–
El corpus constituye una m
uestra representativa del (fragm
ento del) lenguaje que se trata de representar
–B
rown
Corpus -
muestra representativa del inglés
americano m
oderno -1M
pal, elaborado 1960-70 a partir de reportajes periodísticos, ficción, texto científico y legal, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•A
notación–
El corpus poseen anotaciones (etiquetas) que
proporcionan algún tipo de información
–P
enn Treebank
-etiquetado con m
arcas sintácticas que indican el árbol de análisis de cada oración -
extraído del W
all Street Journal
•M
ultilingualidad–
El corpus puede tener textos en varios idiom
as
–C
anadian Hansards
-bilingüe inglés francés alineado
(mism
os textos en dos idiomas) -
actas del parlamento
canadiense
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•C
olecciones de evaluación–
Conjunto de textos en lenguaje natural y las
correspondientes respuestas deseables para la tarea elegida
–R
ecup
era
ció
n d
e d
ocu
me
nto
s
•U
n conjunto de documentos +
un conjunto de solicitudes de inform
ación (consultas) + un conjunto de juicios de
relevancia (qué documentos deberían recuperarse para
cada consulta)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•A
lgunos ejemplos (colecciones clásicas)
–C
AC
M -
resumenes
de artículos de Com
munications of the
AC
M -
3204 docs, 52 consultas
–C
RA
N -
aerodinámica e Ingeniería A
eronáutica -1398
docs, 225 consultas
–M
ED
LINE
-M
edicina -1033 docs, 30 consultas
–LIS
A, N
PL, C
RA
N, T
ime, etc.
•M
ás ejemplos (recientes)
–O
HS
UM
ED
-E
xtraidasdel canal M
ED
LINE
-348566 docs,
106 consultas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
–C
ategorización de documentos
•U
n conjunto de documentos +
un conjunto de categorías +
un conjunto de juicios de relevancia (qué documentos
están en cada categoría)•
Algunos ejem
plos–
Reuters-21578 -
noticias de la agencia Reuters, categorías
basadas en el contenido -21578 docs, 135 categorías
–O
HS
UM
ED
-categorías M
edical Subject H
eadings(M
eSH
) -cerca de 3000 categorías
–Y
ahoo! Science, Industry
Sector, N
ewsgroups, W
ebKB
, S
pambase, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
–D
esambiguación (W
SD
)•
Un conjunto de docum
entos + un diccionario +
un conjunto de juicios de relevancia (cuál es el significado de cada aparición de una palabra respecto al diccionario)
•A
lgunos ejemplos
–S
emcor
-subconjunto del B
rown
Corpus y “T
heR
ed B
adge of Courage” -
250000 palabras, etiquetadas con significados de W
ordNet
–Interest-
2369 oraciones con la palabra “interest”, etiquetadas con significados de W
ordNet
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•D
iccionarios electrónicos–
Diccionarios tradicionales en form
ato electrónico–
Algunos ejem
plos•
LDO
CE
-Longm
an Dictionary of C
ontemporary E
nglish•
Internet Dictionary
Project
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•T
hesauri(sing. thesaurus)–
Tradicionalm
ente, diccionarios de sinónimos
–E
n la actualidad, colecciones de palabras organizadas en grupos relacionados sem
ánticamente
–A
lgunos ejemplos
•R
oget’s Thesaurus
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•B
ases de datos léxicas–
Sistem
as con información relativa al léxico de uno
o varios idiomas
–D
iccionarios estructurados conceptualmente
–A
lgunos ejemplos
•W
ordNet -
inglés•
EuroW
ordNet-
ingles, español, italiano, holandés, etc.•
ED
R -
inglés y japonés
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•P
rogramas de recuperación de inform
ación–
Diseñados para la tarea de recuperación de
documentos
–F
recuentemente, útiles para otras tareas com
o categorización, filtrado, etc.
–A
lgunos ejemplos
•S
mart-
modelo del espacio vectorial
•Inquery
-redes bayesianas
de inferencia•
Oracle C
onText-
tecnología propietaria
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Recursos disponibles
•P
rogramas de aprendizaje m
áquina–
Construyen clasificadores a
uto
mátic
am
ente
–A
plicables a multiples
tareas (categorización, desam
biguación, etiquetado sintáctico, filtrado...)–
Algunos ejem
plos•
Rainbow
-aprendizaje bayesiano
•S
VM
light(SupportV
ector Machines) -
aprendizaje de funciones lineales con um
bral•
Ripper
-aprendizaje inductivo de reglas
•C
4.5 -aprendizaje de árboles de decisión
•W
EK
A -
múltiples m
étodos en Java
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Evaluación
•D
os criterios básicos–
Efic
iencia
•C
ómo es de rápido el sistem
a (pruebas empíricas,
complejidad teórica)
–E
ficacia
o e
fectiv
idad
•C
uál es la calidad de la clasificación (métricas de
efectividad)•
Suele ser el único aspecto considerado
–S
e suelen ignorar otros aspectos (p. ej. facilidad de uso) aunque en general, las técnicas son porta
ble
sy e
scala
ble
s
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Análisis estadístico
Evaluación
•M
étricas de efectividad–
Típicam
ente provenientes del campo de la
recuperación de información y del aprendizaje
automático
–B
asadas en contar el número de aciertos o fallos
al asignar categorías a expresiones
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Introducción al PLN
El problem
a de la ambigüedad
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•U
no de los grandes problemas en el P
LN
•S
e produce cuando una expresión en LN
posee más de una interpretación (es decir,
cuando en el lenguaje de destino se le pueden asignar dos o m
ás expresiones distintas)
•S
e presenta en todos los niveles del lenguaje
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•A
mbigüedad sintáctica
–C
ategoría sintáctica•
"Lloro" = N
,V
–E
structural•
"Juan vio (a María (con el telescopio))"
•"Juan vio (a M
aría) (con el telescopio)"
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•A
mbigüedad sem
ántica–
Significado de las palabras (polisem
ia)•
"Banco"–
Entidad financiera.
–A
siento en un parque.
–A
cumulación de arena en un río.
–Á
mbito de los cuantificadores
•"T
odo chico ama a un perro"
–∀
X (perro(X
) & ∃Y
(chico(Y) →
ama(X
,Y)))
–∃Y
(chico(Y) →
∀X
(perro(X) →
ama(X
,Y)))
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•A
mbigüedad sem
ántica–
Roles o casos•
"Pedro corrió los m
il quinientos en (los Juegos O
límpicos/tres m
inutos y medio)"
•"E
n" expresa tiempo y lugar
•A
mbigüedad pragm
ática–
Am
bigüedad referencial•
"Cogí la tarta de la m
esa y me la com
í"•
¿"la" se refiere a la tarta o a la m
esa?
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•A
mbigüedad pragm
ática–
Am
bigüedad en el discurso (Literalidad)•
"(1) ¿P
uedes abrir la puerta? (2) Tengo frío"
•¿
Interpretamos (1) literalm
ente o como acto expresivo
indirecto?•
Literalmente: A
l volver de un paseo por la calle y llegar a casa, (1) es una pregunta "sí/no" y la respuesta (2) no es adecuada
•Indirectam
ente: En una habitación con calefacción, (1)
es una solicitud, y (2) es una respuesta adecuada
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•La am
bigüedad en un nivel del lenguaje se puede resolver usando conocim
iento de otro nivel–
Am
bigüedad estructural•
"Pedro m
ató (al ciervo (con el rifle))"•
"Pedro m
ató (al ciervo) (con el rifle)"•
Se puede resolver usando conocim
iento semántico (un
rifle sólo puede ser un instrumento) o conocim
iento del m
undo (los ciervos no usan rifles)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
–A
mbigüedad referencial
•"M
etí la camiseta en la lavadora y la lavé"
•¿
"la" se refiere a la camiseta o a la lavadora?
•S
e puede resolver usando conocimiento sem
ántico (la lavadora es un instrum
ento y la camiseta el objeto) o
conocimiento del m
undo (las lavadoras no se lavan, se lim
pian)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El problem
a de la ambigüedad
•D
isminución de la efectividad en todas las
aplicaciones–
Traducción autom
ática•
“car” =>
automóvil/vagón
–R
ecuperación de información
•B
anco =>
documentos financieros o sobre geología o
etc.