36
Gómez Guinovart, Xavier (2000): “Lingüística computacional”. En Ramallo, Fernando, Gabriel Rei-Doval e Xoán Paulo Rodríguez (eds.), Manual de ciencias da linguaxe, cap. 6 (pp. 221-268). Vigo: Xerais. LINGÜÍSTICA COMPUTACIONAL Xavier Gómez Guinovart Universidade de Vigo 1. ÁMBITO DA LINGÜÍSTICA COMPUTACIONAL 1.1. Liñas de investigación A lingüística computacional constitúe un eido científico interdisciplinario vinculado á lingüística e á informática, e encamiñado a incorporar nos ordenadores a habilidade no manexo da linguaxe natural humana e a facilita-lo tratamento informatizado das linguas e do seu estudio. A pesar de constituír unha disciplina relativamente recente, unha aproximación tentativa á delimitación do seu campo de estudio esixe o recoñecemento dun mínimo de tres liñas principais de investigación e desenvolvemento: a lingüística computacional teórica, a lingüística computacional aplicada e a informática aplicada á lingüística. A primeira vertente da disciplina, a lingüística computacional teórica, está constituída pola que se considera a lingüística computacional por antonomasia. Dentro desta liña de investigación cómpre distinguirmos alomenos tres obxectivos complementarios: a elaboración de modelos lingüísticos en termos formais e implementables, a aplicación destes modelos a calquera nivel de descrición lingüística e a comprobación automatizada da congruencia dunha teoría lingüística e das súas prediccións. A confección de modelos computacionais da linguaxe mediante formalismos lingüísticos axeitados e a utilización destes modelos na descrición lingüística facilitan a detección de erros e incoherencias na descrición dos fenómenos lingüísticos e ofrecen un medio práctico e efectivo para observa-la interacción de tódolos compoñentes do modelo lingüístico teórico postulado. Na segunda sección do capítulo, trataremos de presentar algúns dos aspectos máis cultivados desta faceta do estudio. En segundo lugar, a orientación máis tecnolóxica da lingüística computacional, a lingüística computacional aplicada, diríxese ó deseño e elaboración de sistemas informáticos capaces de comprender, producir e traducir enunciados orais e escritos en linguas naturais; e concrétase no desenvolvemento de aplicacións lingüísticas da informática nas que se poden distinguir catro grandes categorías: os sistemas de comprensión e xeración de enunciados (como os programas de consulta en linguaxe natural a bases de datos e os sistemas automáticos de diálogo por liña telefónica), as aplicacións das tecnoloxías da fala (como os programas de dictado e os sistemas de

Linguistica Computacional- Guinovart J

  • Upload
    camila

  • View
    33

  • Download
    5

Embed Size (px)

DESCRIPTION

Texto sobre lingüística computacional

Citation preview

  • Gmez Guinovart, Xavier (2000): Lingstica computacional.En Ramallo, Fernando, Gabriel Rei-Doval e Xon Paulo Rodrguez (eds.),

    Manual de ciencias da linguaxe, cap. 6 (pp. 221-268). Vigo: Xerais.

    LINGSTICA COMPUTACIONALXavier Gmez Guinovart

    Universidade de Vigo

    1. MBITO DA LINGSTICA COMPUTACIONAL

    1.1. Lias de investigacin

    A lingstica computacional constite un eido cientfico interdisciplinariovinculado lingstica e informtica, e encamiado a incorporar nos ordenadores ahabilidade no manexo da linguaxe natural humana e a facilita-lo tratamentoinformatizado das linguas e do seu estudio. A pesar de constitur unha disciplinarelativamente recente, unha aproximacin tentativa delimitacin do seu campo deestudio esixe o recoecemento dun mnimo de tres lias principais de investigacin edesenvolvemento: a lingstica computacional terica, a lingstica computacionalaplicada e a informtica aplicada lingstica.

    A primeira vertente da disciplina, a lingstica computacional terica, estconstituda pola que se considera a lingstica computacional por antonomasia. Dentrodesta lia de investigacin cmpre distinguirmos alomenos tres obxectivoscomplementarios: a elaboracin de modelos lingsticos en termos formais eimplementables, a aplicacin destes modelos a calquera nivel de descricin lingstica ea comprobacin automatizada da congruencia dunha teora lingstica e das sasprediccins. A confeccin de modelos computacionais da linguaxe medianteformalismos lingsticos axeitados e a utilizacin destes modelos na descricinlingstica facilitan a deteccin de erros e incoherencias na descricin dos fenmenoslingsticos e ofrecen un medio prctico e efectivo para observa-la interaccin detdolos compoentes do modelo lingstico terico postulado. Na segunda seccin docaptulo, trataremos de presentar algns dos aspectos mis cultivados desta faceta doestudio.

    En segundo lugar, a orientacin mis tecnolxica da lingstica computacional, alingstica computacional aplicada, dirxese deseo e elaboracin de sistemasinformticos capaces de comprender, producir e traducir enunciados orais e escritos enlinguas naturais; e concrtase no desenvolvemento de aplicacins lingsticas dainformtica nas que se poden distinguir catro grandes categoras: os sistemas decomprensin e xeracin de enunciados (como os programas de consulta en linguaxenatural a bases de datos e os sistemas automticos de dilogo por lia telefnica), asaplicacins das tecnoloxas da fala (como os programas de dictado e os sistemas de

  • XAVIER GMEZ GUINOVART

    2

    conversin de texto a voz), as ferramentas de procesamento documental para aelaboracin, xestin e revisin de documentos textuais (como os programas deverificacin da correccin lingstica dos textos, os programas de xeracin automticade resumos, os sistemas de extraccin de informacin, os sistemas de recuperacin dainformacin textual e os programas de catalogacin documental automatizada) e, enderradeiro lugar, as ferramentas de procesamento plurilinge, na sa dobre vertente deaplicacins didcticas para o ensino de linguas (como os mtodos de aprendizaxe deidiomas asistida por ordenador e os programas de creacin de exercicios de lingua) e deferramentas de axuda traduccin (como os programas de traduccin automtica, asbases de datos terminolxicos e as utilidades de memoria de traduccin). Dependendoda faciana desta actividade que se pretenda salientar, este campo de traballo recibe asdenominacins de procesamento da linguaxe natural, tecnoloxas da lingua ouenxeera lingstica. Na alnea terceira do captulo, examinaremos algunhas dasaplicacins mis desenvolvidas nesta direccin, como son o recoecemento e a snteseda fala, a extraccin da informacin textual, a verificacin da correccin lingstica dostextos e a traduccin automtica.

    Por ltimo, o campo de traballo caracterizado pola aplicacin dos ordenadores investigacin lingstica, dicir, estudio cientfico da linguaxe e das linguas, adoitarecibi-lo nome de informtica aplicada lingstica ou, con maior concisin, delingstica informtica. O termo pode aplicarse en sentido amplo a tdalassubdisciplinas da lingstica que empregan ferramentas informticas, anda que en xeralse reserva o seu emprego para as reas de investigacin onde estas ferramentas teenunha maior incidencia, como a lingstica de corpus ou a lingstica histricacomputacional, das reas especficas de estudio que se revisarn na cuarta alnea destecaptulo.

    1.2. Dimensins interdisciplinaria e social

    Desde o punto de vista da sa vinculacin coa informtica, e tamn por motivoshistricos, a lingstica computacional est considerada unha subdisciplina daintelixencia artificial, unha especialidade da informtica que se ocupa da comprensinda intelixencia e do deseo de mquinas intelixentes, dicir, de mquinas e programasque presentan caractersticas asociadas co entendemento humano, como o raciocinio, acomprensin da linguaxe falada e escrita, a aprendizaxe ou a toma de decisins.

    As mesmo, desde o punto de vista da sa ligazn coa lingstica, a lingsticacomputacional debe considerarse tamn unha subdisciplina da lingstica terica, xaque un dos seus obxectivos a elaboracin de modelos formais e implementables dalinguaxe humana. Neste sentido, a lingstica computacional est estreitamenterelacionada coa psicolingstica e coa lingstica cognitiva, polo seu interesecompartido na descricin e modelado da actividade mental implicada no procesamentolingstico.

    Finalmente, como disciplina lingstica experimental, a lingsticacomputacional constite a rea de traballo da lingstica aplicada especificamenteinteresada en aplica-los resultados e mtodos da investigacin lingstica elaboracinde productos comerciais e de investigacin no marco das industrias da lingua. O amploabano de aplicacins lingsticas da informtica enlaza a lingstica computacional coasdiferentes disciplinas lingsticas e non lingsticas relacionadas con cada unha dasaplicacins, como a enxeera de telecomunicacins (en relacin coas aplicacins das

  • Lingstica computacional

    3

    tecnoloxas da fala), as ciencias da documentacin (cos sistemas de xestindocumental), a traductoloxa (coas ferramentas de axuda traduccin), a didctica daslinguas (co ensino de linguas asistido por ordenador), a anlise do discurso (cossistemas de dilogo) ou a lexicografa (cos diccionarios electrnicos).

    Xunto a esta dimensin interdisciplinaria da disciplina, cmpre tamnsalientrmo-la sa dimensin social, nun contorno configurado por unha sociedade dainformacin cada vez mis global e mis entretecida polas telecomunicacins e polosintereses culturais e comerciais que estas sustentan. As aplicacins actuais da lingsticainformtica s telecomunicacins manifestan unha clara tendencia a permitiren o uso dalingua propia de cadaqun para acceder a tdalas posibilidades de informacin,comunicacin e consumo postas disposicin das persoas habitantes do denominado"primeiro mundo" polas novas tecnoloxas. Pola sa grande incidencia social, apresencia dunha lingua neste mbito ha ser determinante para acadar ou para conserva-lo estado de lingua normalizada (Comisin Europea 1998, 14-15).

    2. MODELOS E FORMALISMOS LINGSTICOS

    A implementacin informtica de teoras lingsticas e a elaboracin de modeloscomputacionais da linguaxe constiten intereses centrais da investigacin en lingsticacomputacional. Presntanse a continuacin algunhas das orientacins mis salientablesdestas das lias de traballo complementarias, limitndonos s niveis lingsticos dolxico e da sintaxe, e s modelos simblicos e formalismos de unificacin. Outras liasdestacadas de traballo en lingstica computacional na actualidade son a fonoloxacomputacional (Bird 1995), as redes lxico-semnticas (Wanner 1996, Alonge et al.1998), a semntica computacional (Rosner e Johnson 1992) e os modelos lingsticosprobabilsticos (Charniak 1993).

    2.1. Modelos lingsticos computacionais

    Un dos obxectivos fundamentais da lingstica computacional odesenvolvemento de teoras lingsticas formais e implementables informaticamente.Estas teoras constiten as modelos computacionais do funcionamento da linguaxe,razn pola que se denominan modelos lingsticos (Shieber 1988). Dentro desta lia deinvestigacin, deben mencionarse modelos lingsticos computacionais como agramtica lxica funcional ou LFG (Bresnan 1999), a gramtica sintagmticaxeneralizada ou GPSG (Gazdar, Klein, Pullum e Sag 1985, Bennett 1995), a gramticasintagmtica dirixida polo ncleo ou HPSG (Pollard e Sag 1994, Borsley 1996) e agramtica categorial (Solias 1996), modelos agrupados xenericamente baixo adenominacin de gramticas de unificacin (Shieber 1986, Ruiz 1996, Balari 1999)polo recurso a este procedemento matemtico nas sas descricins lingsticas.

    Na maiora destes modelos, os obxectos lingsticos estn representados enforma de obxectos matemticos denominados estructuras de trazos (ET) e osfenmenos lingsticos descrbense formulando ecuacins con estas ET. A unificacin a operacin matemtica que permite resolver estes sistemas de ecuacins, combinandoas informacins lingsticas codificadas nas ET asociadas. Cada ET est formada porunha matriz de trazos, e cada trazo consiste nunha parella [Atributo=Valor] queespecifica un parmetro lingstico e o valor que adopta ese parmetro, por exemplo:

  • XAVIER GMEZ GUINOVART

    4

    [nmero=singular] ou [persoa=terceira]. As, un xeito de representa-la informacinlingstica asociada co pronome ela sera mediante a ET da figura 1.

    nm = sing pers = 3 xn = fem cat = pron fon = /'ela/

    Figura 1. Estructura de trazos para o pronome ela.

    O valor dun trazo pode ser outro trazo, convertndose daquela nun trazocomplexo. Por exemplo, a oracin "o neno come a sopa" pdese representar coa ET dafigura 2, onde os trazos para o suxeito e para o complemento directo son trazoscomplexos.

    ncleo = comer tempo = presente polaridade = afirmativa modalidade = declarativa suxeito = ncleo = neno nm = sing xn = masc determ = def directo = ncleo = sopa nm = sing xn = fem determ = def

    Figura 2. Estructura de trazos oracional con trazos complexos.

    A unificacin unha operacin que combina das ET e produce como resultadooutra ET que pose toda a informacin contida nas das ET orixinais, sempre que ainformacin non sexa contradictoria. Se a informacin contida nunha das ET resultacontradictoria coa contida na outra, non pode realizarse a unificacin. Por exemplo, nafigura 3, a ET1 e a ET2 unifican en ET4, pero a ET3 non pode unificar con ET1 nin conET2.

  • Lingstica computacional

    5

    ET1 [ suxeito = [nmero = plural] ] ET2 suxeito = [persoa = 3] tempo = presente ET3 suxeito = [persoa = 2] tempo = pasado ET4 suxeito = persoa = 3 nmero = plural tempo = presente

    Figura 3. Exemplo de unificacin de estructuras de trazos.

    Por outra banda, na formalizacin de modelos lingsticos, o procedemento misespallado de descricin das estructuras de constituntes admitidas nunha lingua son asregras sintagmticas (tamn denominadas regras de estructura de constituntes ou regrasde reescritura). Estas regras adoptan a forma AB, onde A representa unha categorasintctica e B son os constituntes inmediatos de A. Por exemplo, unha regra queexpresara a estructura sintagmtica de moitas oracins do galego podera serOSN^SV ("unha oracin est formada por un sintagma nominal seguido dunsintagma verbal"). Basicamente, unha gramtica de estructura sintagmtica unconxunto de regras sintagmticas que describen as estructuras sintcticas aceptablesnunha lingua. O exemplo da figura 4 podera constitur un fragmento dunha gramticasintagmtica do galego que describira, entre outras, a estructura de constituntesrepresentada mediante un diagrama arbreo na figura 5.

    O SN SVSN Det NSV V SN

    Det oDet os

    N ordenadorN ordenadores

    N textoN textos

    V procesaV procesan

    Figura 4. Fragmento de gramtica de estructura sintagmtica.

  • XAVIER GMEZ GUINOVART

    6

    O

    SN SV

    Det N V SN

    Det N

    o ordenador procesa os textos

    Figura 5. Estructura de constituntes descrita pola gramtica.

    As regras sintagmticas aumentadas permiten caracteriza-los constituntes eestablecer condicins de igualdade entre as sas propiedades. Por exemplo, pdeseaumentar con condicins o fragmento anterior de gramtica sintagmtica do galego,para incorpora-la obrigatoriedade da concordancia de nmero e persoa entre o verbo e oseu suxeito, modificando a primeira regra como se mostra na figura 6.

    O SN SV = =

    Figura 6. Regra sintagmtica aumentada.

    A interpretacin desta regra indicara que unha oracin est formada por un SNseguido dun SV, e que o nmero e a persoa do SN e do SV coinciden. Substitundo ossmbolos categoriais indivisibles por estructuras de trazos, como na figura 7, pdenseredefinir estas ecuacins en forma de igualdade de variables.

    cat = SN cat = SV [cat = O] nm = , nm = per = per =

    Figura 7. Estructuras de trazos e regras sintagmticas aumentadas.

    Finalmente, asignndolle SN a funcin de suxeito e SV a de predicado, eempregando estas das funcins como atributos de trazos complexos, poderase reduci-la regra a unha simple estructura de trazos (Figura 8).

  • Lingstica computacional

    7

    cat = O cat = SN suxeito = nm = per = cat = SV predicado = nm = per =

    Figura 8. Estructura de trazos con variables.

    Esta perspectiva esttica da manipulacin dos obxectos lingsticos permitesimplifica-lo compoente sintctico e desprazar cara lxico a informacin lingsticatradicionalmente tratada na gramtica, o que redunda nunha maior complexidade daorganizacin e contido do compoente lxico. O resultado prctico deste desprazamento que nos modelos de orientacin lexicista as regras sintagmticas son inexistentes(como na gramtica categorial) ou de natureza moi xeral (como na HPSG), o que implicahabitualmente a adopcin dalgunha das versins da teora da X-barra, onde o ncleo doconstitunte, caracterizado xa no lxico, proporciona practicamente toda a informacinsobre as propiedades sintcticas e semnticas dos seus complementos. Unhasimplificacin adicional da gramtica consiste en distinguir entre as regras querepresentan a orde secuencial dos constituntes (regras de precedencia lineal) e as querepresentan as sas relacins de dependencia estructural ou xerrquica (regras dedominio inmediato), distincin practicada e difundida pola GPSG e a HPSG.

    O compoente lxico destes modelos organzase como unha rede de nsxerarquizada con herdanza mltiple, onde cada n est formado por unha estructura detrazos correspondente a un lexema ou a unha clase de lexemas. Os ns para as clases delexemas conteen tdalas propiedades lingsticas compartidas pola clase. Por exemplo,a clase "verbos regulares da primeira conxugacin" do lxico galego podera conte-lainformacin morfolxica necesaria para flexiona-los verbos desta clase; a clase "verbostransitivos", a especificacin do contexto sintctico caracterstico dos verbos destacategora; e a clase "verbos", a adscricin categorial compartida por tdolos verbos doidioma. Os ns das redes lxicas poden herdar unha parte das sas propiedades dos nsda xerarqua dos que dependen. Por exemplo, o n da clase "verbos transitivos" podeherda-la sa categora sintctica do n da clase "verbos", e o n do lexema tomar podeherda-las sas propiedades categoriais e de subcategorizacin do n da clase "verbostransitivos". Ademais, a herdanza pode vir de diferentes ns, sempre que as propiedadesherdadas non sexan contradictorias. As, o n do lexema tomar podera herda-las sascaractersticas sintcticas do n da clase "verbos transitivos" e as sas caractersticasmorfolxicas da clase "verbos regulares da primeira conxugacin" (Figura 9). Destexeito, consguese eliminar do lxico a informacin lingstica redundante, xa que non necesario repeti-la descricin da subcategorizacin transitiva en tdalas entradas dosverbos transitivos, nin o comportamento flexivo da primeira conxugacin en tdalasentradas dos verbos deste paradigma morfolxico.

  • XAVIER GMEZ GUINOVART

    8

    Clase Verbos

    [sint = [ cat = v ] ]

    Clase Verbos Transitivos Clase Verbos 1 Conx. [sint = [subcat = sn1_sn2 ] ] [morf = ip1 = ei ip2 = aches ip3 = ou ...

    Lexema Amar [morf = [ raz = am ] ]

    Entrada virtual de Amar (trala herdanza)

    sint = cat = v subcat = sn1_sn2 morf = raz = am ip1 = ei ip2 = aches ip3 = ou ...

    Figura 9. Representacin da informacin lxica.

    2.2. Formalismos lingsticos

    Os formalismos lingsticos (ou sistemas de programacin lingstica) sonlinguaxes artificiais deseadas para representa-la informacin lingstica. Algnsformalismos lingsticos como DCG (Pereira e Warren 1980), FUG (Kay 1982), PATR(Shieber 1986), DATR (Evans e Gazdar 1996), a morfoloxa de dous niveis(Koskenniemi 1983) ou ALE (Carpenter e Penn 1997) tamn son entendidos (ou, conmaior exactitude, interpretados) polos ordenadores, polo que son especialmenteadecuados para a implementacin informtica e a comprobacin automtica das teoraslingsticas. Nestas actividades, como complemento ou substituto dos formalismoslingsticos, emprganse tamn linguaxes de programacin de propsito xeral e, enparticular, a linguaxe de programacin Prolog (Gazdar e Mellish 1989). Presntanseseguidamente das aplicacins simples, ilustrativas dos mtodos de programacin

  • Lingstica computacional

    9

    lingstica nos niveis de anlise sintctica e morfolxica, mediante os formalismosPATR e DATR.

    PATR est deseado para escribir gramticas de estructura sintagmticaaumentadas con estructuras de trazos sobre as que opera a unificacin. PC-PATR1 unprograma que permite implementar informaticamente gramticas escritas nesteformalismo. Por exemplo, para converter a PC-PATR o fragmento anterior de gramticade estructura sintagmtica do galego (co engadido dalgunhas comprobacins daconcordancia nominal e verbal), primeiro cmpre crear un ficheiro que contea agramtica, ficheiro que debe te-la extensin .grm, como en patr01.grm (Figura 10).

    Rule O -> SN SV =

    Rule SV -> V SN =

    Rule SN -> Det N = = =

    Figura 10. Gramtica patr01.grm en PC-PATR.

    En PC-PATR, as regras deben ir precedidas da palabra inglesa Rule. A primeiraregra do exemplo define unha estructura de constituntes aumentada con trazos, na queopera a unificacin sobre os trazos de nmero nominal e verbal (Figura 11). Se estestrazos fosen contradictorios, non se podera aplica-la unificacin e, por tanto, non sepodera realiza-la anlise da secuencia.

    O [cat = O]

    SN SV cat = SN cat = SV num = num =

    unificacin

    Figura 11. Unificacin do nmero nominal e verbal.

    Na estructura sintctica definida pola segunda regra, a unificacin aplcase strazos de nmero verbal, de maneira que o nmero do verbo sexa tamn o nmero doseu sintagma verbal (Figura 12). Mediante esta elevacin do valor de nmero de V a

    1 ftp://ftp.sil.org/software/dos/pcp099b5.zip.

  • XAVIER GMEZ GUINOVART

    10

    SV, obtense un SV co nmero de acordo co seu ncleo, o que permite a comprobacinda concordancia co suxeito expresada na primeira regra.

    SV cat = SV num = V SN cat = V [ cat = SN ] num =

    Figura 12. Elevacin de nmero por unificacin.

    Finalmente, na terceira regra, constrese a estructura de constituntes do SN,elvase o valor de nmero do ncleo nominal SN resultante, e comprbase aconcordancia de xnero e nmero entre o determinante e o nome (Figura 13).

    SN cat = SN num = Det N cat = Det cat = N xen = xen = num = num =

    Figura 13. Concordancia e elevacin de nmero.

    Unha vez elaborada a gramtica e almacenada en patr01.grm, deben definirse asregras que introducen as pezas lxicas terminais nun ficheiro coa extensin .lex, porexemplo, patr01.lex (Figura 14).

    \w o\c Det\f = m = s

    \w texto\c N\f = m = s

    \w os\c Det\f = m = p

    \w textos\c N\f = m = p

  • Lingstica computacional

    11

    \w ordenador\c N\f = m = s

    \w procesa\c V\f = s

    \w ordenadores\c N\f = m = p

    \w procesan\c V\f = p

    Figura 14. Lxico patr01.lex en PC-PATR.

    A partir destas definicins cranse unhas estructuras de trazos dispostas para asa insercin nunha estructura sintagmtica. Estas ET lxicas contern a informacindeclarada en PC-PATR tralo cdigo \w (por word "palabra") convertida no valor de lex(por lexema), a declarada tralo cdigo \c convertida no valor de cat, e mais tdolosoutros trazos especificados tralo cdigo \f (por features "trazos"), como se mostra na ETda figura 15 para a palabra ordenadores.

    lex = ordenadores cat = N xen = m num = p

    Figura 15. Estructura de trazos lxica en PC-PATR.

    Dada a gramtica de patr01.grm e o lxico de patr01.lex, unha interaccin tpicaco sistema pode se-la que se recolle na figura 16, onde PC-PATR realiza a anlisesintctica automtica da secuencia "o ordenador procesa os textos" e, como resultado,constre a sa estructura de constituntes e indica as ET asociadas con cada n(numerado, para maior claridade) da rbore sintctica.

    PC-PATR>load grammar patr01Loading grammar from patr01.grmPC-PATR>load lexicon patr01Loading lexicon from patr01.lex 8 lexicon entries loaded from patr01.lexPC-PATR>parseSentence: o ordenador procesa os textos1: O_1 _________|__________ SN_2 SV_5 ____|_____ _____|_____ Det_3 N_4 V_6 SN_7 o ordenador procesa ___|____ Det_8 N_9 os textos

  • XAVIER GMEZ GUINOVART

    12

    O_1:[ cat: O ]SN_2:[ cat: SN num: s ]Det_3:[ cat: Det xen: m lex: o num: s ]N_4:[ cat: N xen: m lex: ordenador num: s ]SV_5:[ cat: SV num: s ]V_6:[ cat: V lex: procesa num: s ]SN_7:[ cat: SN num: p ]Det_8:[ cat: Det xen: m lex: os num: p ]N_9:[ cat: N xen: m lex: textos num: p ]1 parse found

    Figura 16. Anlise sintctica automtica con PC-PATR.

    Por outra banda, cara programacin lingstica de lxicos computacionais, alinguaxe formal DATR permite implementar informaticamente redes de estructuras detrazos lxicas (de lexemas e clases de lexemas) xerarquizadas e con herdanza depropiedades mltiple ( dicir, herdanza que pode vir de diferentes ns, como se explicana alnea anterior). As, a figura 17 recolle o exemplo de rede lxica do galego ilustradona figura 9, convertido a DATR e almacenado nun ficheiro (aqu denominadoherdanza.dtr) para o seu posterior procesamento.

    Verbos: == v.

    Verbos_Transitivos: == Verbos == sn1_sn2.

    Verbos_1Conx: == ei == aches == ou.

  • Lingstica computacional

    13

    Tomar: == tom == Verbos_Transitivos == Verbos_1Conx.

    #show .#hideVerbos Verbos_Transitivos Verbos_1Conx.

    Figura 17. Ficheiro de lxico herdanza.dtr en DATR.

    De acordo coas convencins de DATR, en herdanza.dtr os nomes dos ns vanseguidos de dous puntos (:), os trazos da sa ET aparecen entre os dous puntos e unpunto final (.), os atributos (ou cadeas de atributos) das estructuras de trazos van entrecorchetes triangulares () e os seus valores indcanse con dous signos de igual (==). Apresencia do nome dun n como valor dun atributo sinala a orixe da herdanza; porexemplo, o trazo ==Verbos_1Conx do n Tomar indica que este n herda doprimeiro as propiedades do atributo . Os atributos baldeiros () emprgansepara establece-la herdanza de tdolos trazos includos no n especificado como valor;as, a lia ==Verbos do n Verbos_Transitivos significa que este n herda tdolostrazos da ET do n Verbos (neste caso, ==v). Finalmente, tralo cdigo #showaparecen os nomes dos atributos que se pretenden visualizar como resultado dotratamento do ficheiro, e tralo cdigo #hide xusto o contrario, pero en referencia snomes dos ns. Con esta definicin do lxico e esta configuracin, e utilizando unprograma como Q-DATR2 para o seu procesamento informtico, o ordenador poderealiza-la avaliacin automtica da herdanza de propiedades especificada no lxico, epresentar seguidamente os trazos dos ns da rede solicitados (Figura 18). Estdispoible unha implementacin completa en DATR da morfoloxa flexiva verbal dogalego, distribuda en Internet polo Seminario de Lingstica Informtica daUniversidade de Vigo3.

    >> cp(c:\datr\herdanza.dtr)compiling c:\datr\herdanza.dtr6 sentences compiled>> datr_theoremTomar: = v = sn1_sn2 = tom = ei = aches = ou.

    Figura 18. Resolucin da herdanza con Q-DATR.

    2 ftp://ftp.cogs.sussex.ac.uk /pub/nlp/DATR/qdatr200.exe.3 http://www.uvigo.es/webs/sli/.

  • XAVIER GMEZ GUINOVART

    14

    3. APLICACINS DA LINGSTICA COMPUTACIONAL

    3.1. Comprensin e xeracin de linguaxe natural

    Un dos obxectivos centrais da lingstica computacional aplicada permiti-louso oral da lingua materna como medio de comunicacin entre os ordenadores e aspersoas, coa finalidade de que as persoas poidan acceder a tdalas facilidades ofrecidaspolos ordenadores mediante ordes vocais expresadas espontaneamente co vocabulario ea sintaxe da sa propia lingua e, mesmo tempo, que os ordenadores presenten osresultados das sas aplicacins nesa mesma lingua de maneira natural e inmediatamentecomprensible para as persoas. Os sistemas de comprensin de linguaxe natural son osprogramas informticos que se encargan de deduci-lo significado dos enunciadoslingsticos de entrada que procesan, mentres que os sistemas de xeracin da linguaxenatural son os responsables de presenta-los resultados das aplicacins informticas enforma de enunciados lingsticos (Allen 1995, Reiter e Dale 1997). A combinacin dastcnicas de comprensin e xeracin permite o establecemento dunha interaccinlingstica entre persoa e ordenador en situacins comunicativas ben delimitadas, comoas que se dan nos programas de consulta en linguaxe natural a bases de datos ou nossistemas automticos de dilogo por lia telefnica (Figura 19).

    Enunciado oral Sada vocal Recoecemento da fala Sntese da fala Texto de entrada Texto de sada Comprensin da linguaxe Xeracin da linguaxe Significado da entrada Resultado da aplicacin

    Aplicacin informtica

    Figura 19. Interaccin lingstica oral persona-ordenador.

    A xeracin e a comprensin da linguaxe natural son tarefas complexas queimplican a aplicacin conxunta de moi diversas tcnicas de anlise e produccinlingstica automtica. Deixando marxe o procesamento do nivel fnico, queexaminaremos no seguinte apartado (dedicado especificamente recoecemento esntese da fala), o procesamento da comprensin lingstica realzase habitualmente encatro etapas sucesivas, correspondentes anlise morfolxica (etiquetado categorial elematizacin), a anlise sintctica, a anlise semntica oracional e a anlise pragmticae discursiva; mentres que a tarefa da xeracin de linguaxe percorrera o camio inverso,

  • Lingstica computacional

    15

    seguindo as etapas de planificacin semntica, planificacin sintctica, seleccin lxicae xeracin morfolxica (Figura 20).

    Texto de entrada Texto de sada Anlise morfolxica Xeracin morfolxica Secuencia de lexemas Secuencia de lexemas Anlise sintctica Seleccin lxica Representacin sintctica Representacin sintctica Anlise semntica Planificacin sintctica Forma lxica Forma lxica Anlise pragmtico-discursiva Planificacin semntica Significado contextualizado Significado da resposta

    Figura 20. Compoentes da comprensin e xeracin da linguaxe.

    A utilidade operativa das aplicacins de comprensin e xeracin da linguaxeest actualmente circunscrita a mbitos de interaccin moi ben delimitados desde unpunto de vista temtico e lingstico, como pode se-la consulta telefnica da base dedatos dos horarios dos voos dunha compaa area concreta mediante dilogos dirixidospolo ordenador. Cmpre seguir traballando para que o procesamento da comprensin dalinguaxe acade uns niveis elevados de cobertura e precisin capaces de manexaraxeitadamente os enunciados que aparecen nas interaccins lingsticas espontneas.Un nivel de cobertura alto implica que o programa de comprensin non deixe caseningn enunciado sen analizar, mentres que un grao alto de precisin supn que amaiora dos enunciados analizados reciben unha anlise correcta. Unha coberturaapropiada evitara que a persoa usuaria do sistema tivese que repetir de distintasmaneiras un enunciado por indicacin do programa, mentres que unha boa precisinevitara os erros de interpretacin por parte do sistema.

    No eido da xeracin da linguaxe, a investigacin est centrada sobre todo naxeracin de linguaxe escrita e nos contornos comunicativos de interactividade baixa.Para poder dispoer nun futuro de sistemas con interaccin lingstica oral espontneapersoa-ordenador, ser preciso orienta-los esforzos de investigacin cara xeracin delinguaxe oral en dilogos interactivos, nos que o programa de xeracin tea en conta o

  • XAVIER GMEZ GUINOVART

    16

    contido dos enunciados previos e adapte a sa produccin lingstica s intervencinsda persoa interlocutora.

    3.2. Tecnoloxas da fala

    As tecnoloxas da fala ocpanse do procesamento dos aspectos fnicos dalinguaxe, co obxectivo de permitiren a comunicacin oral entre as persoas e osordenadores. Segundo a direccin da comunicacin considerada, o tratamentoinformtico da fala afronta das tarefas ben diferenciadas: o procesamento dapercepcin acstica ou recoecemento da fala, e o procesamento da produccin fonticaou sntese da fala (Dutoit 1997, Llamas e Cardeoso 1997).

    O recoecemento da fala consiste en converter un enunciado oral nunha cadeade smbolos, por exemplo, nun texto escrito. A popularizacin das tecnoloxas derecoecemento dbese s sistemas de dictado para procesamento de texto enordenadores persoais. Estes programas de dictado, comercializados por empresas comoIBM e Dragon Systems, ofrecen versins para fala fragmentada, nas que se debe facerunha pausa entre as palabras, e versins para fala continua, que permiten dictar textosen necesidade de facer pausas entre as palabras.

    Unha das caractersticas mis desexables nun sistema de recoecemento aresistencia rudo do ambiente, coa finalidade de podelo utilizar en contornos ruidosos(como nunha fbrica, para controlar vocalmente o brazo dun robot) ou a travs dotelfono (por exemplo, para dictarlle a unha central telefnica automatizada o nmerodo abonado que se pretende chamar). Polo de agora, malia o interese evidente que estacuestin suscita entre os provedores de servicios de telecomunicacins, anda non haiunha solucin definitiva para a baixa fiabilidade do recoecemento en contornosruidosos (Tapias 1999).

    Outra das dificultades do recoecemento irrestricto da fala continua consiste enrecoece-la fala con independencia da persoa. Un recoecedor irrestricto candorecoece o vocabulario xeral dunha lingua. Isto imprescindible nun sistema dedictado, anda que outras aplicacins, como as centrais telefnicas automatizadas,poden limitarse a recoecer unhas poucas palabras. As mesmo, unha centralautomatizada dun sistema pblico de consulta telefnica debe ser capaz de recoece-lafala de calquera que chame, mentres que un sistema de dictado pode especializarse nascaractersticas da fala dunha persoa concreta. Como o recoecemento irrestricto de falacontinua con independencia da persoa anda non atinxiu un grao de fiabilidadeaceptable para a sa comercializacin, os sistemas de dictado para fala continuarequiren unha fase de adestramento, consistente nunha media hora de lectura individualdun texto preparado, na que o sistema adquire os datos necesarios sobre ascaractersticas acsticas da voz e sobre a pronunciacin particular dos sons da lingua.

    A sntese da fala fai o camio inverso do recoecemento: a conversin decadeas de smbolos en enunciados orais. Por exemplo, nun sistema de sntese parainvidentes que vocalice o texto da pantalla dun ordenador persoal, a cadea de smbolosconvertida polo sintetizador son as letras agrupadas en palabras e acompaadas porsignos de puntuacin.

    No estado actual do desenvolvemento tecnolxico, a intelixibilidade da emisinsonora, premisa bsica da voz sintetizada, un problema xa resolto de maneira case quedefinitiva. Sen embargo, anda cmpre soluciona-la cuestin da naturalidade dapronuncia, dicir, conseguir que a fala xerada polo ordenador non soe a voz de robot. A

  • Lingstica computacional

    17

    clave para acadar este obxectivo podera se-la curva de entoacin adoptada na xeracindos enunciados, un dos aspectos da sntese vocal onde mis se est a investigar naactualidade (Fernndez Rei 1999).

    3.3. Procesamento documental

    O mbito do procesamento documental abrangue unha categora moi ampla deaplicacins da lingstica computacional concibidas para a elaboracin, xestin erevisin de documentos textuais. Neste apartado examinarmo-las caractersticasprincipais dos programas de verificacin da correccin lingstica dos textos, dosprogramas de xeracin automtica de resumos, dos sistemas de extraccin deinformacin, dos sistemas de recuperacin da informacin textual e dos programas decatalogacin documental automatizada.

    A revisin automtica da correccin lingstica dos textos coa axuda doordenador constite unha das utilidades do procesamento de textos con maior incidenciana calidade dos documentos producidos. Entre estas utilidades, as ferramentas misutilizadas e mellor consideradas son os correctores ortogrficos, mentres que osprogramas de verificacin gramatical e estilstica (moitos anda en fase dedesenvolvemento) posen un nivel de aceptacin moito menor e unha eficacia enocasins cuestionable. A continuacin, analizarmo-lo funcionamento destas utilidadesde verificacin lingstica automatizada, centrndonos na descricin formal dos seusobxectivos e na anlise crtica das tcnicas de revisin empregadas (Mitton 1996,Gmez Guinovart 1999).

    Os erros de ortografa que se cometen durante a escritura dun documento coordenador pdense orixinar por descoecemento da norma lingstica vixente ou pordistraccin; os primeiros reciben a denominacin tcnica de erros de competencia e ossegundos, de erros de actuacin. Mentres que, nos erros de competencia, a causa doerro radica en que a persoa non sabe cmo se escribe a palabra, nos erros de actuacin apersoa si sabe cmo se escribe a palabra pero, por algn motivo, ten un descoido ouconfusin que provoca o erro.

    Anda que os erros de competencia varan moito segundo as persoas, existendeterminados factores lingsticos que favorecen a sa aparicin, como a falta decorrespondencia entre a ortografa e a fontica dunha palabra (pnsese, por exemplo,nas causas que contriben o erro de *borcalladas por vorcalladas), as discrepanciasentre a normativa e o uso (*lbido por libido) ou a interferencia con outras normativastpica das situacins de plurilingismo (*hirmn por irmn, por interferencia co castelnhermano). Por outra parte, os erros de actuacin poden reflecti-los erros da fala(*desmolarizar por desmoralizar), poden se-lo resultado dun erro mecanogrfico(*escritutra por escritura, debido pulsacin das das letras t e r, vecias no teclado)ou poden orixinarse nunha distraccin da atencin (*problemente por probablemente,co segmento -lemente colocado trala letra b equivocada).

    Sen embargo, malia as sas diferentes causas, e con vistas seu tratamentoinformtico, a maiora dos erros ortogrficos poden ser descritos mediante catromecanismos formais: insercin dunha letra (*escritutra por escritura), elisin dunhaletra (*hirmn por irmn), substitucin dunha letra por outra (*borcalladas porvorcalladas) ou transposicin de das letras adxacentes (*lingtsica por lingstica).Ademais, segundo se ten comprobado de maneira emprica, na prctica da escrituraasistida por ordenador comtense moi poucos erros na primeira letra dunha palabra.

  • XAVIER GMEZ GUINOVART

    18

    Como veremos inmediatamente, estas caractersticas formais dos erros ortogrficostpicos da escritura asistida por ordenador estn na base do deseo dos programasinformticos que serven para corrixilos.

    Os correctores ortogrficos proporcionados polos procesadores de textos tentanidentifica-los erros ortogrficos do documento e suxeri-la sa posible correccin. Atcnica informtica mis habitual para detectar estes erros consiste en compara-laspalabras do documento cunha lista de palabras correctas almacenada no ordenador. Estalista pode concibirse como un diccionario ortogrfico normativo da lingua que incletdalas formas flexivas das palabras, con tdalas sas formas complexas, derivadas ecompostas. O corrector ortogrfico indicar un erro simplemente cando unha palabra dotexto non se atope nesta lista.

    Con respecto correccin, a tcnica informtica clsica aplicada neste casoconsiste en partir da palabra que contn o erro ortogrfico identificado e inverte-losdevanditos catro mecanismos formais de erro. Deste xeito, cando o corrector identificaunha palabra con erro no texto, trata de buscar no diccionario as posibles formascorrectas entre as palabras que comecen pola mesma primeira letra (onde xeralmentenon se producen erros) e que s supoan un tipo de erro (insercin, elisin, substitucinou transposicin). Se a busca resulta infructuosa, o corrector pode amplia-lo seu mbitode busca s palabras que comecen por unha letra distinta (*sberta por aberta) ou s quesupoan mis dun tipo de erro (*aetra por aberta, con elisin e transposicin).

    Estas tcnicas simples de identificacin das palabras ortograficamente errneaspoden fallar por diversos motivos. s veces, o programa corrector indica un erro ondenon o hai porque a palabra buscada, a pesar de ser correcta, non est na lista de palabrasutilizada polo programa. Esto acostuma suceder cos nomes propios, os neoloxismos, ostecnicismos e as palabras pouco usuais, e normalmente queda resolto mediante aampliacin individual do diccionario ortogrfico normativo empregado poloprocesador. Noutras ocasins, a solucin non tan sinxela, xa que o erro ortogrficocometido d lugar a unha palabra ortograficamente correcta, diferente da pretendida,que si se atopa no diccionario do sistema (*arde por orde). Se a secuencia resultantevulnera as regras sintcticas do idioma (*a arde por a orde), o erro poder seridentificado polo corrector sintctico; en cambio, se non as vulnera, o mis fcil que aincorreccin pase desapercibida para o ordenador.

    Os correctores sintcticos son os programas encargados de recoecer e corrixi-los erros gramaticais presentes nos enunciados do documento. En comparacin coscorrectores ortogrficos, o seu mbito de aplicacin moito mis impreciso. Mentresque sempre se pode determinar se unha secuencia de caracteres respecta ou infrinxe asregras ortogrficas institudas pola normativa dunha lingua, non sempre fcil para oordenador decidir de maneira automtica se unha secuencia de palabrasortograficamente correctas contn un erro sintctico ou non, xa que as indicacinsrecollidas nas gramticas normativas das linguas nunca son tan exhaustivas coma paraabranguer tdolos tipos de enunciados que debe manexar un procesador de textos.

    A tcnica informtica mis utilizada para a identificacin dos erros gramaticaisten un enfoque casustico e basase no recoecemento de certos patrns de erropreviamente establecidos. Isto significa que o corrector sintctico percorrer o textoanalizado tratando de detecta-las secuencias de palabras que sigan unhas determinadaspautas. Estas pautas ou patrns de erro adoitan limitarse nivel grfico e podenincorporar unha suxestin de correccin. Por exemplo, un patrn simple de errosintctico para o galego podera ser "che se > se che". Este patrn serviralle programa

  • Lingstica computacional

    19

    corrector para identifica-la secuencia errnea *mira que che se apaga e para suxeri-lasa substitucin pola secuencia correcta mira que se che apaga. A tcnica poderefinarse introducindo abreviaturas e smbolos nos patrns de erro. Por exemplo, ocorrector pode utilizar un patrn como "DICIR de que > DICIR que" para detectar ecorrixi-lo uso dequesta do verbo dicir en tdalas sas formas flexivas; ou un patrncoma "se ... IMPSUBX ... FUTIND > se ... IMPSUBX ... COND" (onde IMPSUBXsimboliza calquera verbo en imperfecto de subxuntivo, e os puntos suspensivosrepresentan calquera secuencia de palabras dentro do enunciado) para identificarcorrelacins temporais incorrectas como *se vieses, eu tamn irei e para propoe-laversin correcta se vieses, eu tamn ira.

    Obviamente, os resultados desta tcnica dependern da amplitude e precisindos patrns establecidos para o programa. O corrector sintctico s detectar un errocando este se corresponda con algn dos patrns previstos, e non tdolos errosgramaticais son facilmente previsibles. Xa que logo, a verificacin sintctica porpatrns precisa complementarse con outras tcnicas de maior complexidade, como aanlise sintctica automtica ou o tratamento probabilstico da coaparicin lxica.

    Outra ferramenta da escritura asistida por ordenador para a revisin dacorreccin lingstica no mbito do procesamento de textos son os correctoresestilsticos. En xeral, este tipo de correctores realiza a funcin de comprobar se ostrazos lingsticos do documento analizado son afns ou non coas caractersticasatribudas xnero textual que se adscribe o documento. Antes de que o programacorrector efecte a revisin do documento, a persoa usuaria do sistema debe indicar aqu variedade estilstica pertence o texto examinado. Deste xeito, o ordenador levar acabo a revisin comparando as caractersticas do documento cos trazos lingsticosestablecidos como preceptivos para a categora textual seleccionada. Normalmente, estacategora textual pode seleccionarse a partir dun nmero de modelos estilsticospredefinidos polo programa. Cada un destes modelos est definido mediante unconxunto de trazos lingsticos formais, como o nmero mximo de palabras pororacin, a presencia ou ausencia de determinados xiros, ou o nmero mximo desintagmas preposicionais consecutivos. As mesmo, algns correctores permiten que apersoa usuaria do sistema elabore os seus propios modelos estilsticos, asignando osvalores desexados s caractersticas lingsticas propostas polo programa. Para que estatcnica informtica de verificacin estilstica atinxa un grao considerable de eficienciacmpre establecermos desde o principio cles son as variantes estilsticas ou xnerosdunha lingua, e cles son os trazos lingsticos que caracterizan cada unha das variantesestablecidas; das esixencias de difcil cumprimento s que hai que engadi-ladificultade de que os trazos lingsticos empregados na caracterizacin resultenmanexables informaticamente.

    Outra das tcnicas mis comns de verificacin estilstica na escritura asistidapor ordenador consiste na avaliacin do nivel de lexibilidade do texto, dicir, do graode dificultade de comprensin do sentido do texto determinado por certos factoreslingsticos cuantificables, como a extensin das oracins, a lonxitude das palabras ou acantidade de preposicins dentro dunha frase. As tcnicas de avaliacin da lexibilidadebasanse nas regularidades estatsticas que presentan os textos neste tipo de factores, enfuncin do seu grao de dificultade de lectura. Partindo de estudios empricos, elabransemediante mtodos estatsticos frmulas ou ecuacins de lexibilidade que, combinandoos valores dun conxunto de factores lingsticos cuantificables no texto, serven parapredicir parmetros estimativos do seu grao de dificultade. O procedemento clsico para

  • XAVIER GMEZ GUINOVART

    20

    a elaboracin destas frmulas instite que, en primeiro lugar, se estableza o conxunto detrazos lingsticos obxectivables que hipoteticamente inciden no nivel de lexibilidadedun texto; a continuacin, cmpre obter mediante enquisas os ndices de dificultade dostextos dun corpus, elaborado como modelo da variedade lingstica a exame; en terceirolugar, hase calcula-la correlacin estatstica existente entre os trazos estilsticospreestablecidos e os ndices de dificultade obtidos empiricamente; finalmente, cos datosobtidos, hase elaborar una frmula de lexibilidade, a modo de ecuacin, cos parmetrosestilsticos de maior capacidade predictiva e menor grao de correlacin mutua. Portanto, a fiabilidade que podemos outorgar s resultados proporcionados por cada unhadestas frmulas depender da solidez dos seus alicerces estatsticos e da adecuacin dotexto analizado variedade estilstica utilizada como modelo para a elaboracin dafrmula.

    Deixando marxe a revisin automtica da correccin lingstica dos textos,outra das aplicacins da lingstica computacional no eido do procesamento documental a extraccin da informacin, que consiste en converter textos en informacinestructurada, por exemplo, en rexistros dunha base de datos. As, o resultado daextraccin da informacin dun artigo de xornal sobre unha accin terrorista poderaconsistir nunha ficha onde constase o tipo de incidente, a data do suceso, o lugar no queaconteceu, a identificacin dos seus responsables, os obxectivos da accin, as sasconsecuencias e os medios empregados, como mostra a figura 21 (adaptacin galegosimplificada dun exemplo citado en Grishman 1997).

    19 de marzo.- Esta ma un comando da guerrilla urbanasalvadorea fixo estoupar unha bomba preto dunha centralelctrica de San Salvador. O artefacto causou estragos dediversa consideracin, deixando unha grande parte dapoboacin sen electricidade, anda que non se rexistrarondanos persoais.

    TIPO DE INCIDENTE explosinDATA 19 de marzoLUGAR San SalvadorRESPONSABLES comando da guerrilla urbanaOBXECTIVOS MATERIAIS central elctricaOBXECTIVOS HUMANOS ---DANOS MATERIAIS estragosDANOS PERSOAIS nonINSTRUMENTO bomba

    Figura 21. Exemplo de extraccin de informacin: texto e rexistro.

    Xa que logo, o proceso de extraccin da informacin supn localizar unconxunto de datos concretos no texto analizado, e construr con eles unharepresentacin estructurada. A tcnica bsica utilizada para a localizacin dos datosconsiste en identificar no texto os patrns lxico-sintcticos nos que se considera que sepoden concretar lingisticamente as informacins buscadas. Esta tcnica derecoecemento de patrns vai precedida habitualmente da anotacin morfosintctica daspalabras do texto, e dunha anlise sintctica parcial centrada na identificacin dosgrupos nominais e verbais dos enunciados (Grishman 1997, Appelt 1999).

    A diferencia da comprensin da linguaxe natural (Allen 1995), a extraccin dainformacin non pretende representar toda a informacin dun texto, senn unicamente a

  • Lingstica computacional

    21

    informacin seleccionada, coa finalidade de ofrecer unha va eficiente de consulta sgrandes volumes de datos escritos en linguaxe natural nas noticias dos xornais, nosinformes mdicos hospitalarios ou nas sentencias xudiciais.

    As mesmo, cmpre distinguirmos tamn a extraccin da informacin dastcnicas de catalogacin documental automatizada, de xeracin automtica de resumose de recuperacin da informacin textual. As tcnicas de catalogacin documentaltratan de determinar automaticamente o contido xeral dos textos analizados, para poderclasificalos dentro dunha tipoloxa semntica preestablecida. Por exemplo, un textobancario pode ser catalogado como "dbito por domiciliacin" e outro como "contratode conta". O ndice bibliogrfico obtido da clasificacin documental constite unha vade acceso simple e directa informacin contida nos textos.

    A xeracin automtica de resumos permite presenta-la informacin dosdocumentos de maneira sinptica, o que facilita a posibilidade de realizar unhaavaliacin visual rpida da sa pertinencia para unha necesidade concreta deinformacin. A tcnica bsica empregada para a xeracin de resumos consiste naextraccin das frases consideradas mis significativas do texto orixinal. As frases sonseleccionadas por inclur certas palabras (por exemplo, palabras moi frecuentes no textoou palabras que aparecen no ttulo), ou por aparecer nun contexto determinado (porexemplo, cando a frase aparece a primeira do documento). Outras tcnicas de raizamemis lingstica, aplicadas polo de agora s en dominios temticos restrinxidos,implican a interpretacin semntica do contido do documento orixinal e a posteriorxeracin do texto do resumo.

    A recuperacin da informacin textual unha tecnoloxa orientada xestin debases de datos documentais (Strzalkowski 1999). O obxectivo selecciona-losdocumentos mis relevantes en relacin cuns determinados requisitos de informacinexpresados nunha consulta. As consultas poden combina-los termos buscados medianteoperadores lxicos e condicins de proximidade. Para a seleccin dos documentos,utilzanse das listas de palabras: unha formada por tdalas palabras que aparecen nosdocumentos xunto coa sa localizacin nos textos, e outra coas palabras consideradasirrelevantes para as buscas documentais (Codina 1993). A consulta dunha base de datostextual mediante un sistema de recuperacin da informacin ofrece como resultado alista de documentos da base de datos que o sistema considera relevantes para satisface-la consulta. Por exemplo, o resultado de buscar na base de datos de noticias da axenciaEFE as empresas que asinaron contratos relacionados coas telecomunicacins durante opasado ano consistira nunha lista de noticias que se debera repasar visualmente paraextrae-la informacin desexada. En contraste, un sistema de extraccin da informacinofrecera directamente a lista das empresas.

    3.4. Traduccin automtica

    A traduccin automtica por ordenador constite asemade unha das aplicacinsda lingstica computacional de maior complexidade intrnseca e un dosdesenvolvementos de maior interese para o pblico non especialista. En sentido amplo,o campo da traduccin automtica abrangue o conxunto de ferramentas informticasdeseadas para a sa incorporacin no proceso da traduccin humana. As aplicacinsque forman parte deste conxunto poden agruparse segundo distintos criterios: o nmerode pares de linguas entre os que o sistema traduce (sistemas bilinges ou plurilinges),se traduce os pares de linguas nunha soa direccin ou tamn quen de facer traduccin

  • XAVIER GMEZ GUINOVART

    22

    inversa (sistemas unidireccionais ou bidireccionais), se est limitado ou non no seumbito lingstico a unha rea temtica concreta ou a un determinado tipo de linguasimplificada (traduccin de linguaxe en xeral ou traduccin de sublinguaxes), segundo omodelo de traduccin aplicado (traduccin directa, por transferencia ou medianteinterlingua), ou segundo o grao de automatizacin da traduccin (traduccin automticaou traduccin asistida por ordenador) (Hutchins e Somers 1992, Whitelock e Kilby1995).

    O termo traduccin automtica, en sentido estricto, refrese s programas detraduccin que non requiren intervencin humana para realiza-la sa tarefa. Ata agoraeste tipo de aplicacins s ofrece un nivel de fiabilidade aceptable na traduccin desublinguaxes, particularmente en dominios de coecemento moi restrinxidos (linguaxessectoriais) ou cando o texto de partida est escrito seguindo unhas normas moi estrictasorientadas simplificacin do seu lxico e sintaxe (linguaxes controladas). Porexemplo, o programa TAUM-MTO, empregado intensivamente polo Departamento deMedio Ambiente de Canad desde 1977, traduce os partes meteorolxicos do ingls francs sen a penas necesidade de revisin humana.

    Dentro da categora da traduccin asistida por ordenador, debe distinguirseentre a traduccin semiautomtica (con intervencin humana) e a traduccin (humana)con axuda do ordenador. Os programas informticos de traduccin semiautomticaofrecen unha traduccin en borrador do texto orixinal que debe ser revisada aconciencia para acadar unha calidade de traduccin similar profesional humana. Nombito da informtica persoal, os programas deste tipo mis populares arestora son oscomercializados con diversas denominacins pola empresa Globalink, mentres que paraestacins de traballo o sistema mis utilizado SYSTRAN, adoptado desde 1981 polaComisin das Comunidades Europeas para as sas traduccins de uso interno.

    Os programas de traduccin con axuda do ordenador estn concibidos paracolaboraren como asistentes na traduccin humana dun texto. Por exemplo, oscontornos integrados de traballo con memoria de traduccin comoTRANSLATIONMANAGER (de IBM) integran nun nico producto informtico unprocesador de textos especialmente deseado para traducir, un conxunto de diccionariosbilinges, ferramentas de xestin das bases de datos lxicas e unha memoria detraduccin. A memoria de traduccin unha base de datos onde se almacenan a versinorixinal e traducida de cada unha das frases que se traducen. Cando se est a traducirunha frase, o programa detecta automaticamente se esa mesma frase ou outra frasesimilar xa foi traducida con anterioridade, co obxecto de que se poida reutiliza-latraduccin sen necesidade de reescribila completamente, facendo as modificacins quese consideren mis oportunas.

    A estratexia ou modelo de traduccin aplicada polos programas de traduccinautomtica e semiautomtica pode ser directa, por transferencia ou medianteinterlingua. Na traduccin directa, o procesamento do texto fonte produce directamenteo texto traducido, sen que exista ningn tipo de anlise semntica ou sintcticaintermedia. Na sa versin mis simple, pode caracterizarse como unha traduccinpalabra a palabra, onde a traduccin se realiza substitundo cada palabra do orixinalpola palabra correspondente no diccionario bilinge consultado polo sistema. Comocomplemento adoita engadirse un certo procesamento morfolxico das palabras do textoorixinal que permita utilizar un diccionario mis reducido de formas non flexionadas,ou algunha reorganizacin sinxela das categoras lxicas do texto da traduccin (por

  • Lingstica computacional

    23

    exemplo, na traduccin entre galego e ingls, inverte-la orde das palabras cando seidentifique unha secuencia formada por un nome seguido dun adxectivo) (Figura 22).

    Texto orixinal

    Anlise morfolxica das formas flexionadas

    Diccionario de lexemas categorizados

    Xeracin das formas flexionadas

    Reorganizacin das categoras lxicas

    Texto traducido

    Figura 22. Estratexia de traduccin directa ampliada.

    Na traduccin mediante interlingua, analzase o texto orixinal para construrunha representacin intermedia a partir da que se xera directamente o texto datraduccin. A representacin intermedia unha formalizacin do significado conceptualdo texto, polo que constite unha representacin abstracta tanto do texto orixinal comado texto traducido. O termo interlingua alude a que esta representacin semnticapretende ser neutral respecto s linguas traducidas e, nalgunhas das sas formulacins,mesmo universal ( dicir, neutral respecto a tdalas linguas naturais). A estratexia moiaxeitada para os sistemas plurilinges xa que, unha vez definida a interlingua, s esixedous mdulos de programacin para cada lingua L incorporada bidireccionalmente sistema: un mdulo de anlise (ou traduccin de L interlingua) e un de xeracin (outraduccin de interlingua L) (Figura 23).

    L1 Anlise Xeracin L1 L1 L1

    L2 Anlise Interlingua Xeracin L2 L2 L2

    L3 Anlise Xeracin L3 L3 L3

    Figura 23. Estratexia de traduccin mediante interlingua.

  • XAVIER GMEZ GUINOVART

    24

    No mtodo de traduccin por transferencia, a traduccin realzase en tres fases: afase de anlise do texto orixinal, que produce como resultado unha representacinsintctico-semntica dependente da lingua analizada; a fase de transferencia, na que sesubstiten as palabras da lingua do orixinal polas palabras da lingua da traduccin e seconverte a estructura sintctico-semntica propia da lingua orixinal nunha estructuraequivalente na lingua da traduccin; e a fase de xeracin, na que se transforma arepresentacin sintctico-semntica froito da transferencia nun texto na lingua datraduccin. Con respecto modelo da interlingua, esta estratexia ten a vantaxe de queos seus mdulos de anlise e xeracin son menos complexos, xa que traballan conrepresentacins moi prximas s linguas representadas. Por contra, o seu principaldefecto o nmero de mdulos necesarios para construr un sistema plurilinge: paratraducir bidireccionalmente entre n linguas, cmpre elaborar un total de n2 + n mdulos,fronte s 2 n mdulos necesarios na aproximacin interlingstica. Por exemplo, nunsistema trilinge por transferencia os mdulos ascenden a 12 (6 de transferencia, 3 deanlise e 3 de xeracin), fronte s 6 esixidos nun sistema de interlingua (3 de anlise e 3de xeracin) (Figura 24).

    Transfer. L1-L3

    Transfer. L1 Anlise L2-L3 Xeracin L3 L1 L3

    Transfer. L1-L2

    L2 Anlise Xeracin L2 L2 Transfer. L2 L3-L2

    L3 Anlise Transfer. Xeracin L1 L3 L2-L1 L1

    Transfer. L3-L1

    Figura 24. Estratexia de traduccin por transferencia.

  • Lingstica computacional

    25

    4. INFORMTICA APLICADA LINGSTICA

    A denominacin de informtica aplicada lingstica (ou simplementelingstica informtica) abarca, na sa acepcin mis xeral, toda a variedade de estudioslingsticos que utilizan ferramentas informticas para a sa investigacin e, de maneiramis especfica, aqueles onde a aplicacin da informtica pose unha maior influenciana obtencin dos seus resultados. Nesta alnea examinaremos de forma resumida dousexemplos ilustrativos da investigacin neste campo, centrando a nosa atencin nalingstica comparada diacrnica e na lingstica de corpus. Outras lias deinvestigacin salientables da lingstica informtica son a informtica aplicada lingstica antropolxica (Antworth e Valentine 1998), a informtica aplicada lexicografa (Boguraev e Briscoe 1989, Ooi 1998, Mart, Castelln e Fernndez 1998,lvarez Lugrs 1999, Prez, Moreno e Faber, 1999) e a informtica aplicada sociolingstica (Moreno Fernndez 1994, Lorenzo 1999, Ramallo 1999).

    4.1. Lingstica de corpus

    A lingstica de corpus unha disciplina dedicada estudio emprico dalinguaxe a partir dos datos que proporcionan os corpus lingsticos (Badia 1996,Llisterri 1996, McEnery e Wilson 1996, Prez Guerra 1998). Un corpus lingsticoconsiste nunha coleccin de textos reais escritos ou falados, almacenados en soporteinformtico, compilados para os efectos dalgunha investigacin ou aplicacinlingstica, e representativos dunha variedade lingstica determinada (por exemplo, doingls escrito do sculo XV ou dos noticiarios radiofnicos emitidos en galego noperodo comprendido entre 1975 e 1995).

    A seleccin dos textos que han formar parte dun corpus vai depender dos seusobxectivos. Os corpus xerais pretenden abranguer tdalas variedades e rexistros dunhalingua, co fin de acadaren a mxima representatividade lingstica, mentres que oscorpus especializados (monolinges ou plurilinges) prefiren cinguirse a unhavariedade lingstica concreta (por exemplo, o Corpus Legebiduna incle textosadministrativos e xurdicos bilinges publicados en lingua vasca e castel polasinstitucins do Pas Vasco) (Abaitua, Casillas e Martnez 1997). Cando os textosplurilinges recompilados son as versins traducidas dos mesmos documentos flase decorpus de textos paralelos; nos corpus de textos aliados, ademais, estn identificadasas equivalencias de traduccin entre os segmentos (palabras, frases ou unidades detraduccin) de cada unha das versins traducidas (Hallebeek 1999).

    Os corpus crus, dicir, os corpus que conteen exclusivamente as palabras esignos de puntuacin dos textos orixinais, teen unha utilidade bastante limitada para ainvestigacin lingstica de corpus. As, nun corpus cru sera complicado localizarautomaticamente (e sen ningunha anlise previa) os sintagmas nominais, os tonemasdescendentes ou as oracins nas que o suxeito non est en posicin inicial. Parafacilitaren estas buscas e outras semellantes, os corpus anotados acompaan o texto dosdocumentos orixinais de diversos tipos de informacin lingstica elaborada de maneiramanual, semiautomtica ou completamente automtica.

    Na actualidade, a anotacin morfosintctica dicir, o proceso de asignar unhaindicacin da sa categora gramatical a cada palabra dun texto pode efectuarse cunalto grao de automatizacin. Os programas informticos de marcaxe gramaticalautomtica analizan as secuencias de palabras para produciren as etiquetas

  • XAVIER GMEZ GUINOVART

    26

    morfosintcticas correspondentes. A lista de etiquetas depender das caractersticaslingsticas do corpus, dos obxectivos da sa anotacin, dos lmites do programa e dospresupostos tericos aplicados (Garside, Leech e McEnery 1997). A figura 25 mostra unexemplo de anotacin gramatical real (lixeiramente modificada) do Corpus LOB, cotexto cru orixinal e o texto producto da marcaxe (apud McEnery e Wilson 1996, 37).

    Joanna stubbed out her cigarette with unnecessary fierceness.Her lovely eyes were defiant above cheeks whose colour haddeepened at Noreen's remark.

    Joanna_NP stubbed_VBD out_RP her_PP$ cigarette_NN with_INunnecessary_JJ fierceness_NN ._. Her_PP$ lovely_JJ eyes_NNSwere_BED defiant_JJ above_IN cheeks_NNS whose_WP$ colour_NNhad_HVD deepened_VBN at_IN Noreen's_NP$ remark_NN ._.

    Figura 25. Exemplo de marcaxe morfosintctica: texto cru e anotado.

    Os etiquetadores morfosintcticos automticos actuais poden utilizar regraslingsticas ou modelos probabilsticos como mecanismo de asignacin de etiquetas.Tamn hai sistemas etiquetadores hbridos que combinan estas das estratexias enfuncin das sas necesidades. A maiora dos etiquetadores probabilsticos os misestudiados e difundidos asignan as etiquetas utilizando a informacin morfolxica econtextual de tipo estatstico derivada automaticamente dun corpus inicial amplo,etiquetado previamente, que constite o modelo de actuacin lingstica no que sebasearn as anlises morfosintcticas efectuadas polo programa. As, o etiquetadorfundamentar a sa actuacin en das estimacins estatsticas: a probabilidade lxica,baseada na frecuencia relativa coa que unha palabra recibiu unha etiqueta determinadano corpus inicial; e a probabilidade contextual, baseada na frecuencia relativa coa queunha determinada etiqueta aparece antes das n seguintes etiquetas e/ou despois das nanteriores etiquetas no corpus inicial. O valor de n ha depender do deseo concreto doetiquetador, anda que parece haber consenso en que a sa maior eficiencia se obtnasignndolle variable n o valor de 1 ou de 2.

    A marcaxe das palabras descoecidas ( dicir, as que non constan no corpusinicial) un dos principais problemas para os etiquetadores probabilsticos. A solucinmis habitual consiste en etiqueta-la palabra descoecida en funcin do seu contexto (deacordo co modelo probabilstico derivado do corpus inicial empregado poloetiquetador), ponderando este factor contextual con outras claves deducibles da grafada palabra. Por exemplo, a presencia dunha maiscula inicial aumentara aprobabilidade de asignacin da etiqueta correspondente s nomes propios, e o seu finalen -cin incrementara as sas posibilidades de recibi-la etiqueta destinada ssubstantivos deverbais.

    Os corpus anotados morfosintacticamente son moi tiles para a investigacinlingstica e para o desenvolvemento de aplicacins de procesamento da linguaxenatural, xa que proporcionan textos con palabras non ambiguas respecto sa categoragramatical. As, nun corpus de galego con anotacin morfosintctica, sera doadolocaliza-las perfrases de pasiva, os pronomes preverbais ou os casos de artigo seguidode adxectivo, por mencionarmos tres exemplos ilustrativos do seu uso nos estudioslingsticos.

  • Lingstica computacional

    27

    Certamente, un corpus anotado con informacin sintctica dicir, un corpusanalizado sintacticamente e etiquetado con esta informacin resulta anda misvalioso. Nembargantes, os corpus amplos anotados sintacticamente son escasos, xa quedeben ser elaborados de maneira manual ou semiautomtica por mor das dificultades daautomatizacin completa do proceso da anlise sintctica. Vxase na figura 26 unexemplo de marcaxe sintctica do Lancaster Parsed Corpus, co texto orixinal e acontinuacin o texto etiquetado (apud Prez Guerra 1998, 37).

    I can n't make a club pay a player so much a week.

    [S[Na I_PP1A Na] [V can_MD n't_XNOT make_VB V][N a_AT club_MMN][Tb[V pay_VB V] [N a_AT player_NN N][N[D so_QL much_AP D][Na_AT week_NN N]N]Tb]._. S]

    Figura 26. Exemplo de marcaxe sintctica.

    Outros tipos de anotacin lingstica que se poden atopar ocasionalmente noscorpus dispoibles na actualidade son a anotacin prosdica (indicacins sobre pausasna pronuncia, curvas de entoacin, grupos fnicos, indicacins de nfase, etctera), aanotacin semntica (indicacins sobre caractersticas semnticas dos elementos lxicosou sobre a sa pertenza a un campo semntico), a anotacin discursiva (comoindicacins sobre a referencia dos pronomes) e a anotacin dos fenmenos propios daconversacin (por exemplo, indicacins sobre as quendas de fala o sobre os elementosfticos).

    En canto formato de marcaxe, existen moitas maneiras de representa-lainformacin lingstica nos textos. A nica norma de representacin xeralmenterespectada que tdalas etiquetas empregadas se poidan suprimir con facilidade. Asanotacins da figura 1, por exemplo, poden ser eliminadas con pouco esforzo borrandoas secuencias de caracteres situados entre un guin e un espacio.

    Outro formato de anotacin cada vez mis habitual na marcaxe de corpus oformato SGML (sigla de Standard Generalised Markup Language) e, en particular, unsubconxunto de SGML coecido como formato TEI (Text Encoding Initiative)(Sperberg-McQueen e Burnard 1994). Sen entrarmos en moitos detalles, xa que unhapresentacin exhaustiva das normas TEI excedera os lmites deste captulo, cmpresaber que estas directrices proporcionan un conxunto normalizado de etiquetas eabreviaturas para a representacin descritiva e estructurada da informacin textualcontida nos corpus. As etiquetas TEI deben escribirse entre parnteses triangulares(como en ) e poden ser dobres para delimitaren unha porcin de texto entre e , mentres que as abreviaturas (codificadas como&abreviatura;) permiten condensa-la informacin incorporada no texto e representa-loscaracteres e signos grficos con dificultades de traduccin entre os distintos sistemasinformticos. Os documentos en formato TEI divdense en das partes: a sa cabeceirae o propio texto anotado. A cabeceira contn as informacins bibliogrficas e decodificacin relativas documento electrnico: autora, data de publicacin, ttulo,edicin, procedencia da versin electrnica, observacins sobre o formato de anotacinutilizado, etctera. Por outra banda, o texto estructrase en tres seccins: ospreliminares (datos da primeira pxina, prefacio, limiar, dedicatoria, ndice, etc.), ocorpo (subdividido xerarquicamente en diversos elementos) e a parte final (apndices,

  • XAVIER GMEZ GUINOVART

    28

    notas, bibliografa, glosario, etc.). A modo de ilustracin, a figura 27 contn un exemplode anotacin textual con TEI dun fragmento do conto "Tinta chinesa" de GonzaloNavaza.

    Fragmentos doconto "Tinta chinesa", de Gonzalo Navaza: un exemplo decodificacin TEI preparadopor Xavier Gmez Guinovart Edicins Xerais de Galicia GonzaloNavaza Tinta chinesa Erros e Tnatos Edicins Xerais de Galicia Vigo 1996 pp.43-56

    Tintachinesa A Arthur M. Morgan, inmemoriam .

    En setembro de 1993, durante os preparativos da celebracin docongreso do PEN Club Internacional enSantiago de Compostela, os coitados mozos e menos mozosaspirantes a ingresarmos en tan ilustre asociacin deescritores recibimos da organizacin a encomenda derecoller no aeroporto algns dos asistentes econducilos ata o hotel. Tratbase en xeral deescritores de segunda fila, pois os pesos pesados anser atendidos directamente polos organizadores. O encargoinclua a posibilidade de facer de cicerone polasras e monumentos da cidade e obrigaba a estar sempredisposto para resolver calquera problema que puidesepresentrselles s convidados. texto elidido (dous pargrafos) Daquela despedida quero evocar tamn,se se me permite, outro detalle. Cando xa se retiraran osfotgrafos e o resto dos acompaantes,mster Morgan coleunos parte a MarceloCardalda e mais a min e, obrigndonos a coloca-laspalmas das mans coma no xuramento dos tres mosqueteiros,berrou en francs Un pourtous, tous pour un! , coa sa voz debfalo e o seu curioso acento. Logo deunos un abrazoefusivo e antes de perderse polo corredor de embarqueentregounos un pequeno obsequio: a Carralda A Touch of Class , nunha edicin ilustrada por Bacon, e a min os Forgettable Tales , na edicin de Planet, encadernada en pel. resto de texto elidido

    Figura 27. Exemplo de marcaxe TEI.

  • Lingstica computacional

    29

    4.2. Lingstica histrica computacional

    A lingstica histrica estudia os cambios que se producen nas linguas nunhadimensin temporal ou diacrnica. Un dos seus obxectivos consiste en reconstrurdeductivamente os estados hipotticos anteriores dunha lingua, a partir das formaslingsticas posteriores testemuadas. Cando estas formas pertencen a diferentesvariedades lingsticas, presumiblemente relacionadas entre si, a reconstruccin daprotolingua dicir, da lingua comn hipottica da que se orixinaron procedesegundo o denominado mtodo comparativo. O proceso de reconstruccin lingsticacomeza coa identificacin dos conxuntos de palabras derivadas dun mesmo timo nasdiversas linguas (como o ingls father, o grego pater e o snscrito piter) e, a partirdestes grupos de cognados, reconstrense os timos (por exemplo, *pAter) e formlanseas regras diacrnicas que describen os cambios fonticos observados (en ingls, *p > f).

    O programa PHONO4 permite comproba-los efectos das teoras postuladas,sempre que se lle forneza dun conxunto ordenado de regras fonolxicas e dunhadescricin dos trazos distintivos das vocais e consoantes que compoen o alfabeto. Apartir dun timo da protolingua, PHONO xerar automaticamente a cadea derivativaprevista na teora, manipulando as matrices de trazos de acordo coas regras establecidas(Figura 28).

    ETYMON --> mensa HOMORGANIC: => mnSa -ante-dist PRENASAL_LONG: => mnSa +long/-ante-dist NS_S: => mSa +long UNLONG: => mSa VOICING: => mZa UNVOICE: => mSa

    Figura 28. Derivacin de mensa do latn casteln con PHONO.

    Outros programas informticos, como COGNATE5 (Guy 1994) e WORDSURV6,ofrecen a posibilidade de calcula-lo grao de parentesco entre palabras de diferenteslinguas, basendose exclusivamente na probabilidade estatstica das sascorrespondencias fonticas (Figura 29).

    a p p l ea 93 32 32 78 68p 21 83 83 66 14f 34 86 86 52 70e 49 63 63 30 91l 44 54 54 97 41

    apfel/apple (word pair #3, pass #1)I am 39% sure that they ARE related.I allowed only for matches >= 50.The best I found were: apfel app le

    Figura 29. Probabilidades de cognacin entre apple e apfle con COGNATE.

    4 http://www.siu.edu/~nmc/phono33.zip.5 ftp://garbo.uwasa.fi/pc/linguistics/cognate.zip.6 ftp://ftp.sil.org/software/dos/wrdsrv25.zip.

  • XAVIER GMEZ GUINOVART

    30

    Finalmente, existen utilidades como RECONSTRUCTION ENGINE (Lowe eMazaudon 1994), para a reconstruccin das formas dunha protolingua a partir dos datoslingsticos de calquera grupo de linguas do mundo, e como GLOTTO7, capaz deelaborar automaticamente rbores xenealxicas de familias lingsticas a partir de listasde palabras e da sa anlise lxico-estatstica. Na figura 30 ofrcese un exemplo dosresultados de GLOTTO, a partir de datos de oito linguas austronsicas de Vanuatu, ondeas cantidades expresan a proporcin de vocabulario (por cada mil palabras) que semantn en cada nova divisin da familia (por exemplo, o sakao e o fortsenal manteranrespectivamente o 56,7% e o 75,9% do lxico do seu antepasado comn que, pola sabanda, conservara un 88,3% da sa lingua antecesora).

    Toga -830-----:-919-----:-972-----:-947-----: Mosina -770-----' | | | Peterara -----829-----------' | | Nduindui -----795-----------:-949-----' | Raga -----755-----------' | Sakao -----567-----------:-883-----:-895-----'Fortsenal -----759-----------' | Malo ----------772----------------'

    Figura 30. rbore xenealxica lxico-estatstica elaborada por GLOTTO.

    5. CONCLUSINS

    Neste captulo procuramos presentar, desde unha perspectiva didctica e global,algunhas das lias de traballo mis salientables da lingstica computacional. Con esteobxectivo, na primeira parte do traballo, tratamos de delimita-lo campo de estudio destadisciplina e de establece-las sas relacins coas outras reas da lingstica e coasociedade. A continuacin, no segundo apartado, considermo-lo campo de traballo dalingstica computacional terica, atendendo particularmente s modelos lingsticossimblicos e s formalismos lingsticos de unificacin. Na terceira alnea do captulo,presentmo-lo estado da cuestin das tecnoloxas da lingua nos eidos da comprensin exeracin da linguaxe, do recoecemento e a sntese da fala, da extraccin dainformacin textual e da traduccin automtica. Por ltimo, na seccin final,examinamos algns empregos da informtica na investigacin lingstica, centrndonosna sa aplicacin lingstica histrica e, de maneira especial, anlise textual decorpus lingsticos. Mediante a lectura atenta deste captulo e mis das referenciasbibliogrficas propostas, as persoas interesadas podern obter unha visin panormicaxeral dun dos campos da lingstica con mis posibilidades de investigacin edesenvolvemento e con maior incidencia social.

    6. EXERCICIOS

    1. [1.1] Sinalar algunhas aplicacins da lingstica computacional que poidanservir para mellora-la calidade de vida das persoas con discapacidades motoras ousensoriais.

    7 ftp://garbo.uwasa.fi/pc/linguistics/glotto02.zip.

  • Lingstica computacional

    31

    2. [1.2] Describi-las relacins existentes entre a intelixencia artificial, alingstica computacional, a lingstica cognitiva e a psicolingstica.

    3. [2.1] Enumerar algunhas das vantaxes tericas e descritivas que supn paraunha gramtica incorpora-la distincin postulada pola GPSG e a HPSG entre regras dedominio inmediato e regras de precedencia lineal. Suxestin: considera-lo fenmeno daorde libre de constituntes na lingua vasca. Claves bibliogrficas: Borsley 1996, 44-64;Ruiz 1996, 45-50.

    4. [2.2] Escribir no formalismo gramatical empregado por PC-PATR as regrassintcticas e o lxico necesarios para representa-los enunciados (a, b) e bloquea-losenunciados agramaticais de (c, d): (a) she breathes; (b) they breathe; (c) *she breathe;(d) *they breathes. Clave orientativa: a figura 31 amosa un resultado posible de analiza-lo enunciado (a) en PC-PATR cun lxico e un conxunto de regras sintcticas axeitadascomo resposta.

    O_1 ____|____ SN_2 SV_4 | |Pron_3 V_5 she breathes

    O_1:[ cat: O ]SN_2:[ cat: SN num: sg ]Pron_3:[ cat: Pron lex: she num: sg ]SV_4:[ cat: SV num: sg ]V_5:[ cat: V lex: breathes num: sg ]

    Figura 31. Anlise sintctica de she breathes en PC-PATR.

    5. [2.2] Representar no formalismo DATR a morfoloxa dun paradigma flexivosimple, por exemplo, a flexin regular de xnero e nmero dos adxectivos en galego.Clave bibliogrfica: Evans e Gazdar 1996.

    6. [3.3] A frmula de lexibilidade mis utilizada para o ingls a proposta porFlesh (1948), que determina o ndice de lexibilidade (IL) dun texto a partir da media deslabas por cada 100 palabras (SP) e a media de palabras por oracin (PO), segundo oseguinte clculo: IL = 206,835 (0,846 x SP) (1,015 x PO). Os resultados debeninterpretarse mediante a seguinte tboa de equivalencias (Figura 32), que se acompaa

  • XAVIER GMEZ GUINOVART

    32

    dos patrns estilsticos regulares respecto s valores de SP e PO en cada grao dedificultade. Considerar cl sera o resultado de aplica-la frmula de Flesh a textosescritos en lingua galega e explica-las razns das posibles diferencias. Clavebibliogrfica: Gmez Guinovart 1999.

    IL Grao de dificultade SP PO

    0-30 Moi difcil 192 ou mis 29 ou mis30-50 Difcil 167 2550-60 Mis ben difcil 155 2160-70 Estndar 147 1770-80 Mis ben fcil 139 1480-90 Fcil 131 1190-100 Moi fcil 123 ou menos 8 ou menos

    Figura 32. ndice de lexibilidade de Flesh para o ingls.

    7. [4.1] Enumerar algunhas aplicacins concretas da anlise de corpus estudioda linguaxe, indicando o tipo de anotacin necesaria en cada caso. Exemplo: paradetermina-los diferentes contextos sintcticos nos que pode aparecer unha determinadapalabra nos textos, cmpre dispoer dun corpus anotado gramaticalmente. Clavebibliogrfica: McEnery e Wilson 1996, 87-116.

    8. [4.2] Utilizando o programa COGNATE, comproba-lo grao hipottico deparentesco lxico entre os datos lingsticos da figura 33, calculado a partir daprobabilidade estatstica das correspondencias fonticas entre as palabras de cadalingua. Clave bibliogrfica: Guy 1994.

    Dans Vasco Fins Snscrito Bretn Romans1 en bat yksi eka unan unu2 to bi kaksi dva daou doi3 tre hiru kolme tri tri trei4 fire lau nelj catur pevar patru5 fem bost viisi paca pemp cinci6 seks sei kuusi s1as1 c'hwec'h s1ase7 syu zazpi seitsemn sapta seizh s1apte8 otte zortzi kahdeksan as1t1a eizh opt9 ni bederatzi yhdeksan nava nav noua(10 ti hamar kymmenen das@a dek zece

    Figura 33. Nmeros cardinais (1-10) en diferentes linguas.

  • Lingstica computacional

    33

    7. BIBLIOGRAFA COMENTADA

    Allen, James (1995), Natural Language Understanding, 2 ed. Redwood:Benjamin/Cummings.

    Monografa acadmica dedicada estudio dos sistemas de comprensin dalinguaxe. Analiza con profundidade, desde unha perspectiva computacional, osproblemas sintcticos, semnticos e pragmticos implicados na conversin dun textonunha representacin do seu significado.

    Borsley, Robert (1996), Modern Phrase Structure Grammar. Cambridge: Blackwell.Introduccin gramtica sintagmtica xeneralizada (GPSG) e gramtica

    sintagmtica dirixida polo ncleo (HPSG), das das teoras lingsticas contemporneasde maior implantacin no mbito da lingstica computacional. Contn exerciciosprcticos de afianzamento dos conceptos desenvolvidos en cada captulo.

    Dutoit, Thierry (1997), An Introduction to Text-to-Speech Synthesis. Dordrecht: KluwerAcademic Publishers.

    Manual sobre os sistemas de conversin de texto a voz, dirixido a estudiantesdesta materia en lingstica computacional e enxeera de telecomunicacins. Presentaas tcnicas de procesamento da linguaxe natural e de procesamento do sinal sonoroempregadas actualmente na sntese da fala.

    Gazdar, Gerald e Mellish, Chris (1989), Natural Language Processing in Prolog: AnIntroduction to Computational Linguistics. Wokingham: Addison-Wesley.

    Manual de lingstica computacional concibido como libro de texto deorientacin prctica. Contn unha extensa seleccin de exemplos e exercicios deprogramacin en Prolog que ilustran os conceptos e tcnicas de procesamentosintctico, semntico e pragmtico expostos no texto.

    Grishman, Ralph (1986), Computational Linguistics: An Introduction. Cambridge:Cambridge University Press. (Trad. cast.: Introduccin a la lingstica computacional,Visor, Madrid, 1991.)

    Obra clsica introductoria eido da lingstica computacional. A sa lectura recomendable para un primeiro achegamento a esta disciplina, malia as limitacinsderivadas da falta de actualizacin dos seus contidos.

    Hutchins, John e Somers, Harold (1992), An Introduction to Machine Translation.Londres: Academic Press. (Trad. cast.: Introduccin a la traduccin automtica, Visor,Madrid, 1995.)

    Completo manual de traduccin automtica. Incle unha ampla introduccin sfundamentos lingsticos e computacionais da traduccin automtica, e unha descricinminuciosa das caractersticas de deseo de diferentes sistemas.

    McEnery, Tony e Wilson, Andrew (1999), Corpus Linguistics, 2 ed. Edimburgo:Edinburgh University Press.

    Manual sobre as tcnicas e fundamentos bsicos da investigacin lingstica decorpus textuais asistida por ordenador. Est concibido como un libro de texto conexemplos, exercicios e lecturas.

  • XAVIER GMEZ GUINOVART

    34

    Shieber, Stuart (1986), An Introduction to Unification-Based Approaches to Grammar.Stanford: CSLI. (Trad. cast.: Introduccin a los formalismos gramaticales deunificacin, Teide, Barcelona, 1989.)

    Introduccin concisa a algns dos modelos lingsticos (LFG, GPSG, HPSG) eformalismos (PATR, DCG, FUG) mis espallados que traballan con estructuras de trazos eunificacin. O libro presta particular atencin explicacin dos conceptos lingsticos ecomputacionais bsicos, e sa formalizacin en PATR.

    Varile, Giovanni e Zampolli, Antonio (eds.) (1997), Survey of the State of the Art inHuman Language Technology. Cambridge: Cambridge University Press.

    Presentacin polifnica exhaustiva dos mtodos e aplicacins da lingsticacomputacional contempornea, con especial atencin s vertentes mis relacionadascoas industrias da lingua.

    Whitelock, Peter e Kilby, Kieran (1995), Linguistic and Computational Techniques inMachine Translation System Design. Londres: UCL Press.

    Anlise, comparacin e avaliacin crtica de seis destacados sistemas detraduccin automtica. Na introduccin, os autores do estudio discuten diversosaspectos relacionados cos problemas lingsticos da traduccin automtica, e presentanas tcnicas bsicas para o seu tratamento informtico.

    8. BIBLIOGRAFA COMPLEMENTARIA

    Abaitua, Joseba; Casillas, Arantza e Martnez, Raquel (1997), "Segmentacin de corpusparalelos para memorias de traduccin". Revista de la Sociedad Espaola parael Procesamiento del Lenguaje Natural, 21, 17-30.

    Alonge, Antonietta; Calzolari, Nicoletta; Vossen, Piek; Bloksma, Laura; Castelln,Irene; Mart, M. Antonia e Peters, Wim (1998), "The Linguistic Design of theEuroWordNet Database". Computers and the Humanities, 32, 91-115.

    lvarez Lugrs, Alberto (1999), "Tcnicas de representacin en la lexicografaplurilinge". En: Gmez Guinovart, Javier et al. (eds.), 215-245.

    Antworth, Evan e Valentine, Randolph (1998), "Software for Doing Field Linguistics".En: Lawler, John e Dry, Helen Aristar (eds.) (1998), Using Computers inLinguistics: A Practical Guide. Londres: Routledge, 170-196.

    Appelt, Douglas (1999), "Introduction to Information Extraction". AI Communications,12, 161-172.

    Badia, Toni (1996), "El processament computacional de corpus: tcniques automtiquesd'anlisi morfolgica i sintctica". En: Payrat, Llus et al., 217-254.

    Balari Ravera, Sergi (1999), "Formalismos gramaticales de unificacin y procesamientobasado en restricciones". En: Gmez Guinovart et al. (eds.), 117-151.

    Bennett, Paul (1995), A Course in Generalized Phrase Structure Grammar. Londres:UCL Press.

    Bird, Steven (1995), Computational Phonology: A Constraint-Based Approach.Cambridge: Cambridge University Press.

    Boguraev, Bran e Briscoe, Ted (1989), Computational Lexicography for NaturalLanguage Processing. Londres: Longman.

  • Lingstica computacional

    35

    Bresnan, Joan (1999), Lexical-Functional Syntax. Oxford: Blackwell.Carpenter, Bob e Penn, Gerald (1997), ALE: The Attribute Logic Engine. Pittsburgh:

    Universidade Carnegie Mellon.Charniak, Eugene (1993), Statistical Language Learning. Cambridge: The MIT Press.Codina Bonilla, Llus (1993), Sistemes d'informaci documental. Barcelona: Prtic.Comisin Europea (1998), The Euromap Report: Challenge and Opportunity for

    Europe's Information Society. Luxemburgo: Linglink.Evans, Roger e Gazdar, Gerald (1996), "DATR: A Language for Lexical Knowledge

    Representation". Computational Linguistics, 22, 167-216.Fernndez Rei, Elisa (1999), "Tecnologas del habla y sntesis de voz en gallego". En:

    Gmez Guinovart, Javier et al. (eds.), 103-116.Garside, Roger; Leech, Geoffrey e McEnery, Tony (eds.) (1997), Corpus Annotation:

    Linguistic Information from Computer Text Corpora. Londres: Longman.Gazdar, Gerald; Klein, Ewan; Pullum, Geoffrey e Sag, Ivan (1985), Generalized Phrase

    Structure Grammar. Oxford: Blackwell.Gmez Guinovart, Javier (1999), La escritura asistida por ordenador: problemas de

    sintaxis y de estilo. Vigo: Universidade de Vigo (Servicio de Publicacins).Gmez Guinovart, Javier; Lorenzo Surez, Anxo M.; Prez Guerra, Javier e lvarez

    Lugrs, Alberto (eds.) (1999), Panorama de la investigacin en lingsticainformtica. Monografa de Revista Espaola de Lingstica Aplicada.

    Grishman, Ralph (1997), "Information Extraction: Techniques and Challenges". En:Pazienza, Teresa (ed.), Information Extraction: A Multidisciplinary Approach toan Emerging Information Technology. Berln: Springer-Verlag, 10-27.

    Guy, Jacques (1994), "An Algorithm for Identifying Cognates in Bilingual Word-listsand its Applicability to Machine Translation". Journal of QuantitativeLinguistics, 1, 35-42.

    Hallebeek, Jos (1999), "El corpus paralelo". Revista de la Sociedad Espaola para elProcesamiento del Lenguaje Natural, 24, 49-55.

    Kay, Martin (1982), "Parsing in Functional Unification Grammar". En: Dowty, David;Kartunnen, Lauri e Zwicky, Arnold (eds.), Natural Language Parsing.Cambridge: Cambridge University Press, 251-278.

    Klavans, Judith (1997), "Computational Linguistics". En: O'Grady, William,Dobrovolsky, Michael e Katamba, Francis (eds.), Contemporary Linguistics: anIntroduction. Londres: Longman, 664-702.

    Koskenniemi, Kimmo (1983), Two-level morphology: A general computational modelfor word-form recognition and production. Helsinki: Universidade de Helsinki.

    Llamas, Csar e Cardeoso, Valentn (1997), Reconocimiento automtico del habla:tcnicas y aplicacin. Valladolid: Universidade de Valladolid.

    Llisterri, Joaquim (1996), "Els corpus lingstics orals". En: Payrat, Llus et al., 27-70.Lorenzo Surez, Anxo M. (1999), "Sociolingstica cualitativa y lingstica

    informtica". En: Gmez Guinovart et al. (eds.), 247-261.Lowe, John e Mazaudon, Martine (1994), "The Reconstruction Engine: A Computer

    Implementation of the Comparative Method". Computational Linguistics, 20,381-417.

    Mart, M. Antonia; Castelln, Irene e Fernndez, Ana (1998), "Extraccin deinformacin de corpus diccionariales". En: Gmez Guinovart, Javier e Palomar,Manuel (eds.), Lengua y tecnologas de la informacin. Monografa deNovtica: Revista de la Asociacin de Tcnicos de Informtica, 133, 4-10.

  • XAVIER GMEZ GUINOVART

    36

    Mitton, Roger (1996), English Spelling and the Computer. Londres: Longman.Moreno, Lidia; Palomar, Manuel; Molina, Antonio e Ferrndez, Antonio (1999),

    Introduccin al procesamiento del lenguaje natural. Alicante: Universidade deAlicante.

    Moreno Fernndez, Francisco (1994), "Status quaestionis: sociolingstica, estadstica einformtica". Lin