Cristea Prelegeri

  • Upload
    cyp

  • View
    261

  • Download
    0

Embed Size (px)

Citation preview

  • 7/24/2019 Cristea Prelegeri

    1/23

    Resurse lingvistice i tehnologiile limbajului natural.Cazul limbii romne

    Dan CristeaFacultatea de Informatica Universitii Al. I. Cuza Iai

    Institutul de InformaticTeoretic, Academia Romn, filiala Iai

    Lingvistica Computaional (LC) i sora ei cu predispoziie pentru experiment iaplicaii Tehnologia Limbajului Uman (TLU) se preocupde studiul limbajuluiuman din douperspective: unul teoretic, pentru a aduga metodelor de investigare alimbajului, utilizate de lingvistica clasic, aparatul teoretic i experimental alinformaticii i unul experimental, pentru realizarea dezideratului ca omul s poatcomunica cu maina n limbaj natural, modul cel mai natural pentru el.

    n multe mesaje schimbate ntre oameni, coninutul strict informaional estecodificat pe o purttoare care transporto ncrcturemoional. Ca urmare, se pune

    problema dacpreocuparea de a descifra coninutul semantic al mesajului trebuie sfie completat cu strduina de a trezi n main o reacie la ncrctura luiemoional. Poate aceastcomponentrezona n vreun fel n main, sau e un balast

    inutil care va fi, inevitabil, ignorat de main? ntrebri de acest fel, cu toataparentalor apropiere de domeniul science fiction, i preocuppe cercettori. Desigur, nu neintereseazsfacem calculatorul ssuspine la un text melancolic, dar implantareaabilitii de a recunoate latura emoionalntr-un mesaj n limbaj natural poate ajutamaina ssesizeze mai uor inteniile unui interlocutor uman ntr-un dialog cu acestai i pot, de asemenea, atribui performana de a produce texte care sproducemoiintr-un receptor uman. Un comportament care simuleaz sensibilitate din parteamainii pot face dialogul dintre om i mainmult mai natural, omul poate chiar signore cvorbete cu un calculator, un obiect insensibil i apatic, ceea ce l va facemult mai deschis la colaborare i i va insufla ncrederea cpoate gsi n interlocutor,om ori main, soluiile cele mai adecvate la cererile lui.

    Aplecndu-se asupra limbajului uman, cu o rigoare a metodelor motenit dinoriginea matematica domeniului, informatica nu-i uzurpmisterul, ambiguitatea oridimensiunea lui poetic. Ea caut s identifice sursele ambiguului, fr a brusca oclaritate artificial atunci cnd limbajul este inerent ambiguu, i poate descoperistructur i regularitate n zonele unde un poet desluete doar un desfru alimaginaiei transpus n cuvinte.

    Trebuie sexiste o structurn alambicul divers i aparent dezordonat al irului decuvinte. Aceast structur e relevat de teoriile sintaxei. Cum se compune sensulexprimrii prin mbinarea sensurilor elementare ale cuvintelor, fiecare n parte att delabil n semnificaii cnd e rupt de context? Iato problempentru semanticieni. icum se adun apoi sensurile propoziiilor n povestea comunicatde text, care suntlegile ce fundamenteaz discursul? Aceasta sunt ntrebri crora le caut rspuns

    teoriile computaionale ale discursului. Investigaia modern asambleaz, la fiecarenivel, ingredientele teoretice cu cele experimentale, facilitate de mijloaceleinformatice. n plus, cercetarea contemporann domeniu cpto tot mai nsemnat

    pondere aplicativ.

    1. Istoric, prezent i perspective

    Istoria domeniului se ntinde pe aproximativ o jumtate de secol, nceputul luiputndu-se identifica ncercrilor de prelucrri automate asociate cercetrilor din

  • 7/24/2019 Cristea Prelegeri

    2/23

    2

    lingvistica matematic i apoi lingvistica computaional din anii 60 ai secoluluitrecut. Pentru unii ns, nceputul domeniului se identific cu publicarea de ctreWarren Weaver n 1949 a unui memorandum adresat oamenilor de tiinamericani,n care prezicea c traducerea automat este posibil, i care a produs imediat oemulaie n cercetarea american, i mai apoi n cea sovietici vest-europeanpentruabordarea de probleme dintre cele mai diverse, precum: cercetri lexicografice

    asistate de calculator, modele de traducere direct, analiza sintactic, analizestatistice asupra limbajelor naturale, propuneri de reprezentri interlinguale, gramaticide dependen, lingvistica matematic etc. Dup aproximativ 15 ani, rezultatele aufost totui puin satisfctoare, raportul ALPAC n Statele Unite artnd c pentruobinerea de rezultate ntr-adevr utile un progres substanial trebuie realizat ndomenii fundamentale, dintre care cele mai importante sunt analiza sintactic,dezambiguizarea sensurilor i alegerea lexical. Pentru o perioadde 10 ani aproape,nimeni nu a mai riscat sfinaneze proiecte de anvergurn traducere automat, dardomeniul, dei ajuns ntr-un aparent impas, a continuat s se dezvolte prin cercetricolaterale scopului iniial. Progrese n aceste arii au contribuit la relansarea traduceriiautomate la mijlocul deceniului 70 i realizarea sistemului Systran, folosit i azi deComisia European. Ulterior, domeniul traducerii automate a evoluat att n direcia

    procesrii simbolice, atractiv pentru lingviti, care pot regsi n aceste metodepropriile intuiii lingvistice, ct i n cea al procesrii statistice. Interesant este faptulcWeaver, matematician probabilist i statistician, care n timpul celui de al DoileaRzboi Mondial a primit sarcina de a descifra cu calculatorul mesajelor inamicului,

    prefera metodele statistice, ce sunt actualmente revigorate de rezultate foartepromitoare, dupo perioadn care abordrile simbolice au fost prioritare.

    Eforturile de cercetare ntreprinse iniial n acest domeniu au fost de naturteoretic, potenate de necesitatea de a proba teoriile elaborate asupra limbajuluinatural prin metode cantitative. Odat cu rspndirea Internetului a aprut i uninteres comercial, cel al crerii i exploatrii aplicaiilor care utilizeaz limbajuluman. Aplicaiile informatice ncep din ce n ce mai mult s se deplaseze dincalculatorul aflat pe biroul clientului n telefonul lui portabil sau n dispozitivul mobil(PDA sau laptop, conectate la reelele de comunicaii fr fir). Cele mai atractiveaplicaii se configureaz n sfera serviciilor oferite prin telefon (centre de informaretelefonic automat) unde noile tehnologii bazate pe recunoaterea i interpretareavorbirii n apeluri telefonice par a fi de 8-10 ori mai ieftine dect serviciile clasicecare impuneau existena unui operator uman. Ca exemplu, putem aminti bancalondonezLloyds TSB care a introdus servicii de informare asupra conturilor, princomenzi vocale transmise telefonic, ncdin 1999. n momentul de faclienii pot sfac uz de propoziii n locul cuvintelor izolate. Un alt sector public deschiscomunicaiilor n limbaj natural este cel al turismului, n care au nceput saparnunumai aplicaii care permit efectuarea de rezervri, dar, recent, inclusiv vnzarea

    pachetelor de vacanprintr-un dialog din care sistemul este capabil sse informeze

    asupra preferinelor solicitantului. n toate aceste cazuri dialogul se poate desfura nlimba materna clientului. Dar cele mai multe aplicaii ale domeniului TLU ncep scapete contur n exploatarea eficienta oceanului informaional care este azi web-ul.Anumite studii arat ca n prezent se pierde cel puin la fel de mult timp pentrucutarea informaiilor ca i pentru folosirea lor productiv, i asta n situaia n care o

    bunparte din informaia cunoscutazi se gsete ntr-o formsau alta ca text pe web.Tehnologiile multilingve de procesare a limbajului vor fi capabile sasiste accesul lainformaia care este greu de prelucrat automat pentru c este reprezentat n limbajnatural pe web. Utilizatorii de azi ai web-ului sunt doritori s obin informaii,

  • 7/24/2019 Cristea Prelegeri

    3/23

    3

    adresnd ntrebri n limba proprie, din pagini scrise n orice limb. Din acest punctde vedere Europa multilingvde azi, cu cele mai mult de 40 de limbi care se vorbesc

    pe ntinsul ei, se afln avangarda aplicaiilor care utilizeazmultilingvismul integratunei economii globalizate, orientatcu precdere pe exploatarea informaiilor.

    Foarte recent se poate identifica i un interes legat de dimensiunea pstrriiidentitii limbilor naionale n societatea modern. Contrar tendinei fireti de

    uniformizare ce se presupune a fi caracteristica unei societi globalizate politic,economic i informaional, limbile naionalitilor mici i mijlocii nu sunt i nutrebuie sfie n pericol de diminuare ori dispariie prin asaltul limbilor mari, ce suntactualmente mai viguroase n comunicaiile planetare. Dimensiunea prezeneielectronice n weba unei limbi a devenit o msura utilizrii ei: o limbeste cu attmai important cu ct este mai rspndit n mediile electronice i de aceea

    preocuprile de a crea resurse lingvistice electronice n cantiti ct mai mari i celede dezvoltare a tehnologiei de prelucrare a limbii propriu sunt extrem de active azi ncadrul fiecrei comuniti lingvistice.

    2. Resurse lingvistice

    Mesajele vorbite nregistrate sau cele tiprite reprezint surse lingvistice atuncicnd sunt utilizate pentru studiul limbii. Ori de cte ori acestea sunt reprezentate ntr-un format electronic, ele sunt numite resurse lingvistice.

    n principiu, orice informaie de natur simbolic sau statistic ce poate fidepozitat n calculator i care definete specificul unei limbi intr n categoriaresurselor lingvistice. Astfel, pot fi considerate resurse:

    -

    corpusurile lingvistice,-

    dicionarele i tezaurele lingvistice informatice,-

    modelele de limb n format simbolic sau numeric (colecii de reguligramaticale, cmpuri de probabiliti, frecvene de apariie a n-gramelor etc.).

    Apariia corpusurilor electronice, cu toat tehnologia aferent de adnotare iinterpretare a lor, a constituit o adevratcotiturn tehnologia limbajului. Definite de

    ctre John Sinclair1

    n anii 60 ca referenial pentru studiul limbajului, corpusurile aufost utilizate la nceput pentru evidenierea faptica intuiiilor lingvistice ale agenilorumani. Ulterior, urmare a dezvoltrilor din domeniul nvrii automate, corpusurileau cptat valene noi, fiind folosite ca surse de cunotine pentru ageni informaticispecializai pe prelucrarea limbajului. Actualmente exist i continu s se dezvolte

    programe din ce n ce mai inteligente capabile s nvee, din corpusuri adnotateadecvat, modele ale limbii la diferite niveluri: fonologic, morfologic, lexical, sintactic,semantic sau de discurs.

    Orice teorie lingvisticazi trebuie susinutde o evaluare care sse ancoreze ntr-un corpus semnificativ de exemple. Corpusurile i metodele de evaluare au devenitatt de semnificative n lingvistica contemporan nct au nceput s fie organizateimportante conferine internaionale specific orientate pe aceastproblematic. Astfel

    LREC (Language Resources and Evaluation Conference), seria de conferine bianualelansatn 1998 de Antonio Zampolli2n ase ani a crescut att de mult n importan

    1John Sinclair a fost pentru mult timp profesor la Universitatea Birmingham i directorul seriei dedicionare Collins COBUILD. El este creatorul conceptului modern de investigaie lingvisticbazatpecorpus, a construit un imens corpus al limbii engleze moderne, a propus i dezvoltat instrumente imetode de lucru pe corpusuri. Actualmente este directorul Word Tuscan Center, Montecatini, Italia.2Antonio Zampolli (1937 2003) a fost o personalitate remarcabila domeniului LingvisticiiComputaionale, a fost creatorul colilor de varde la Pisa ce au deschis calea colaborrilor dintrelingviti i informaticieni, a fost timp de 35 de ani director al Institutului de Lingvistic

  • 7/24/2019 Cristea Prelegeri

    4/23

    4

    nct ediia din 20043 a avut peste 800 de participani, cele ase volume cu lucrritiprite nsumnd 2240 de pagini, iar n paralel cu conferin a mare au mai fostorganizate nc18 ateliere de lucru.

    Intuiia pe care se bazeazutilizarea corpusurilor n tehnologiile lingvistice este cun numr limitat de contexte de apariie a unui cuvnt este suficient de reprezentativ

    pentru a cuprinde n ele smna utilizrii lui n orice altsituaie, aadar, cacestea

    nu reprezint doar matricile folosirii lor n exact situaiile exemplelor acumulate ncorpus. S ne amintim c i marile dicionare, precum Dicionarul tezaur al LimbiiRomne (DLR), aeaz la baza deciziei de selecie a exemplelor care s nsoeascdescrierile sensurilor cuvintelor exact aceeai presupoziie.

    Existmai multe criterii dupcare pot fi clasificate corpusurile lingvistice (Sinclairi Ball, 1995; Teubert, 1997):

    - criteriul modalitii: colecii de texte (memornd limbajul scris), fa denregistrri de vorbire (memornd limbajul vorbit);

    - criteriul explicitrii: primare fade adnotate. Corpusurile primare sunt texte nformatul iniial, dedicat uzului uman, pe cnd n corpusurile adnotate, textul primareste suplimentat cu adnotri ce reprezint explicitarea n format inteligibil pentrumain a informaiilor lingvistice i extralingvistice pertinente unei anumite uniti

    lexicale (care poate fi morfem, cuvnt, clauz, propoziie, fraz, document). Pentruadnotarea corpusurilor se folosesc limbaje specializate,Extended Mark-Up Language(XML)4fiind cel mai utilizat, ca i standarde de adnotare Corpus Encoding Standard(CES)5, i Text Encoding Initiative(TEI)6;

    - criteriul cantitii: pentru a fi reprezentativ pentru o limb, un corpus nu poate fimai mic de 50 de milioane de cuvinte. Un exemplu de corpus de mare dimensiuni este

    British National Corpus7 care cuprinde texte n format electronic totaliznd 100 de

    milioane de cuvinte;- criteriul coninutului: corpusuri de referin(reprezentative pentru o limb, adun

    texte care exprim limbajul scris ca i cel vorbit, limbajul formal i cel informalreprezentnd diverse straturi sociale i situaionale), fade corpusuri speciale (create

    pentru a satisface un anumit scop);- criteriul temporalitii: corpusuri care reprezintlimba caracteristicunei anumite

    perioade (de exemplu franceza medieval), corpusuri monitor (menite snregistrezeevoluia limbii n timp, prin conservarea unei colecii de dimensiune aproximativconstant, ce radiografiaz n general limba contemporan; ntr-un corpus monitor,textele cele mai vechi sunt arhivate, n timp ce altele noi le iau locul), corpusuriatemporale (n care textele nu sunt selectate dupanul apariiei);

    - criteriul comparabilitii: corpusuri monolingve, fa de corpusuri multilingve.Dintre cele multilingve se disting pentru utilitatea lor, mai ales pentru aplica ii detraducere automat, corpusurile paralele, n care textele reprezinttraduceri reciprocen dousau mai multe limbi. Corpusurile paralele pot fi, la rndul lor, aliniate la nivelde paragraf, fraz sau chiar cuvnt. Un exemplu de corpus multilingv aliniat este

    MultextEast, rezultat al proiectului TELRI care conine traducerile aliniate ale

    Computaionaldin Pisa, a fondat ELRA (European Language Resource Associationhttp://www.elra.info/) i conferinele LREC http://www.lrec-conf.org/.3http://www.lrec-conf.org/lrec2004/4http://www.w3.org/TR/REC-xml/5http://www.cs.vassar.edu/CES6http://www.tei-c.org/7http://www.natcorp.ox.ac.uk/

  • 7/24/2019 Cristea Prelegeri

    5/23

    5

    Republicii lui Platon i a romanului 1984 de George Orwell, prima n 25 de limbi ia doua n 10 limbi, toate aliniate cu versiunea englez.

    Corpusurile adnotate sunt cu precdere importante n cercetarea lingvistic, pentruc ele permit evidenierea, n paralel cu textul originar, a fenomenelor lingvistice,explicitate de experi sau, atunci cnd tehnologia o permite, chiar de ctre main.Tehnologiile actuale permit separarea, la orice moment, a adnotrii de textul originar,

    care, din motive lesne de neles, trebuie sconserve forma iniial. Adnotrile se potconstitui pe niveluri, se pot compune sau pot fi separate dup dorin pentru aevidenia anumite detalii (Cristea, Butnariu, 2004).

    Exist dou motive principale pentru care lingvitii informaticieni agreeazcorpusurile adnotate. n primul rnd, expertizele lingvistice codificate n adnotri potfi transferate programelor, prin procese de nvare. n al doilea rnd, pe corpusuriadnotate pot fi cutate exemple ori contra-exemple pentru validarea/invalidareateoriilor, pentru verificarea ipotezelor lingvistice, sau pentru determinarea

    performanelor sistemelor de prelucrare automat. Astfel, un program de etichetare laparte de vorbire, de exemplu, va utiliza un corpus n care fiecare cuvnt este adnotatmanual la parte de vorbire. Corpusul este, de regul, mprit n douseciuni, una dincare programul nva sproduc aceeai etichetare i a doua, mai mic, pe care se

    verificperformana programului. Pentru a fi eficiente, corpusurile trebuie sfie mari.O adnotare de calitate este ns o operaie costisitoare, pentru c presupune resurseumane calificate, timp i instruciuni de adnotare extrem de bine elaborate. n plus,

    pentru a obine acuratee, de obicei doi sau chiar trei adnotatori lucreaz separatasupra aceluiai text, rezultatele fiind apoi comparate i cazurile cu problemenegociate.

    O caracteristica sistemelor moderne de prelucrri textuale o constituie separareacompleta codului program de detaliile fenomenelor lingvistice pe care le trateaz. ngeneral, programul dviaunui algoritm general, care trebuie sfie ghidat n toateaciunile lui de resurse lingvistice, externe lui, care descriu anumite fenomenelingvistice i sunt specifice unei anumite limbi. n felul acesta, acelai program ar

    putea, n principiu, s implementeze acelai tip de prelucrare aplicat n contextelingvistice diferite. Doar alimentarea lui cu o resurs specific l face capabil slucreze pe o anumit limb. Astfel, algoritmul de etichetare la parte de vorbirelucreaz la fel, indiferent de limba pe care o proceseaz, ceea ce l face aplicabillimbii engleze, limbii cehe sau limbii romne fiind modelul corespunztor de limbpecare l acceseaz.

    n adnotarea corpusurilor pot fi distinse urmtoarele niveluri ale notaiilor:- morfo-sintactic (categorie, gen, numr, caz, articulare etc.);- morfo-lexical (cuvnt, compus lexical, sens, n conformitate cu un inventar de

    sensuri ca cel dat de un dicionar);- la grupuri (nominal, prepoziional, verbal etc.);- la limite de propoziii;

    -

    la structuri sintactice (arbori sintactici), dintre care cele mai utilizate suntgramaticile de constitueni (de exemplu, Penn Treebank8) i gramaticile dedependen(de exemplu,Prague Dependendency Treebank9);

    -

    la structuri de roluri sintactico-semantice (de exemplu,FrameNet10);

    8Penn Treebank a fost realizat la Universitatea din Philadelphia Pennsylvania, la iniiativa luiMitchell Marcus (http://www.cis.upenn.edu/~treebank/home.html)9Prague Dependency Treebank este n curs de realizare la Universitatea din Praga, n colectivul EveiHajiova i al lui Peter Sgall (http://quest.ms.mff.cuni.cz/pdt/).

  • 7/24/2019 Cristea Prelegeri

    6/23

    6

    - la referine (legturi explicitate ntre anafori i antecedeni). Pintre cele maicunoscute corpusuri ce afieazacest tip de adnotare se numrcele realizaten cadrul competiiilor MUC (Message Understanting Conference11);

    - la structuri de discurs. Cele mai cunoscute tipuri de adnotare sunt celeconforme cu teoria centrelor (Grosz et al, 1995; Poesio et al., 2004) i cele laarbori de reprezentare a structurilor retorice (Mann i Thompson, 1988; Marcu,

    2000).Un exemplu de tezaur lexical extrem de larg utilizat n prezent n cercetare ca i n

    aplicaii este WordNet12, dezvoltat n Laboratorul de tiine Cognitive al UniversitiiPrinceton de ctre un colectiv condus de reputatul profesor George Miller. Inspirat deteoriile psiholingvistice curente asupra memoriei umane, WordNet organizeazsubstantivele, verbele, adjectivele i adverbele limbii engleze n serii sinonimice,numite synseturi, fiecare reprezentnd modaliti de realizare lexical n limbaenglez a conceptului ce abstractizeaz nelesul comun al seriei (Fellbaum, 1998).Synseturile sunt legate prin relaii de natursemanticdintre care cele mai importantesunt cele de hipernimie i hiponimie13.

    Ulterior dezvoltrii Princeton WordNet au nceput saparwordneturi i pentrualte limbi. Astfel, n cadrul proiectului European EuroWordNet14(Vossen, 1998) au

    fost create wordneturi15 pentru nc 10 limbi europene. Mai mult dect att, pentruprima dat, aceste wordneturi au fost aliniate ntre ele. Soluia tehnic pentrucorelarea multilinguala reelelor semantice monolingve a fost definirea unui indexlexical interlingual (ILI) ca subset al mulimii de synseturi a limbii engleze, care,considerat a fi independent de limb, conine reprezentri conceptuale ale nelesurilorlexicalizabile n limbile proiectului. Fiecare neles din oricare din limbilereprezentate n reeaua semanticmultilingveste pus n coresponden, n general, cuun singur concept al indexului interlingual. Synseturile din dousau mai multe limbicrora le corespund acelai concept din ILI sunt considerate echivaleni de traducere.O altinovaie a proiectului EuroWordNet a fost adoptarea unei mulimi de primitivesemantice, independente de limb, n termenii crora unei subclase a conceptelor dinILI, numite concepte de baz, li s-au asociat descrieri ontologice. Prin importulacestor descrieri la nivelul lexicalizrilor (i, prin motenire, la hiponimii acestora) nfiecare dintre wordneturile monolingve, EuroWordNet a devenit practic o ontologielexicalmultilingv.

    Proiectul Balkanet (Tufiet al., 2004b) a creat o noureea de wordneturi pentrucinci limbi balcanice (turc, greac, bulgar, romn i srb) toate aliniate cuPrinceton WordNet 2.0. El aduce o seam de nouti, ca de exemplu: definirea

    principiului pstrrii ierarhiei(Tufii Cristea, 2002), care postuleaz c, n mareamajoritate a cazurilor, lanurile de relaii ierarhice se pstreazntre limbi, chiar dacnu peste tot cu aceeai densitate de concepte; reprezentrile conceptuale consideratespecifice limbilor respective (prin intersecia crora s-a putut pune n evidenun fond

    10FrameNeteste un proiect iniiat de Prof. Charles Fillmore la University of Berkley(http://portal.acm.org/citation.cfm?id=980860).11Pentru MUC-7, ultima conferinMUC v.http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.html12http://www.cogsci.princeton.edu/~wn/13Un concept lexical C1 este hipernim al unui concept C2 dacC1 este mai general dect C2. n acestcaz, spunem cC2 este un hiponim al lui C1.14http://www.illc.uva.nl/EuroWordNet/15Utilizat acum n toatlumea, numele acestui proiect este actualmente folosit ca nume comun.

  • 7/24/2019 Cristea Prelegeri

    7/23

    7

    comun de concepte lingvistice caracteristice limbilor balcanice); adnotareaconceptelor din ILI la domenii; alinierea ILI cu ontologia SUMO16.

    3. Tehnologiile limbajului natural

    3.1 Tehnologiile limbajului vorbit

    Problematica acestui domeniu este de un interes extrem de mare n prezent datoritfaptului c cea mai comod cale de comunicare pentru om rmne viul grai. Caurmare, tendina fireasca pieei va fi ctre tehnologii care exploateazcomunicaiaverbal17. Un serviciu de mare interes n viitorul imediat l va constitui asistentul

    personal, prin care o persoan poate s aib acces la orice informaie personal,incluznd e-mailul, jurnalul individual, lista de adrese, prin viu grai i de oriunde.Printre altele, automobilul personal va avea integrat opiuni de comenzi vocale iasistenon-line.

    Recunoaterea i sinteza vocal sunt cele dou mari direcii de investigaii iaplicaii n tehnologiile vocii. Recunoaterea vorbirii se preocup de convertireaformelor de und ale semnalului sonor n secvene de cuvinte. Scopul ultim al

    cercetrilor n reprezintrecunoaterea vorbirii continue a unui agent uman oarecarei care nu trebuie s se limiteze la un vocabular restrns. Cele mai performantemetode curente se bazeaz pe modelri statistice ale semnalului sonor. Lanul de

    prelucrri includ, de obicei, o digitizare a semnalului sonor analog urmat deextragerea caracteristicilor (faz numit i parametrizare), care urmretereprezentarea semnalului sonor ntr-o form compact, din care s-au eliminatredundanele i s-a micorat variabilitatea, dar care pstreazinformaia esenialdenaturlingvistic. Parametrii astfel obinui sunt pstrai ntr-un vector, iar asupra lorse aplic a analiz bazat pe modele Markov ascunse (HMM Hidden Markov

    Models). ntr-o astfel de analiz, modelul acustic presupune existena unui lanMarkov cu un numr mic de stri reprezentnd, de regul, un fonem (echivalentulsonor al unei litere). Problemele apar la grania dintre cuvinte, n vorbirea continu,unde fonemele sunt distorsionate pentru csunt influenate de contextul n care apar.Rezultatele sunt dependente de cantitatea de date folosite n procesul de instruire ca ide reprezentativitatea corpusurilor sonore folosite.

    Dar aa cum unui necunosctor al limbii engleze i e imposibil sscrie n englezdupo dictare, la fel un program de interpretare vocalnu poate realiza transpunereavorbire-text fro cunoatere a pronuniei i vocabularului limbii respective. Numrulde foneme depinde de limb. Astfel, engleza are aproximativ 45 de foneme, germana

    49, franceza 35 i spaniola 26 (Lamel i Gauvain, 2003). Fiecrui fonem i esteasociat o diagram de stri HMM, n care o stare este realizat ca un vector decaracteristici. Dificultatea realizrii programelor de recunoatere este datoratvariabilitii extraordinare a pronuniei de la un vorbitor la altul, ceea ce revine la

    multiplicarea reprezentrilor pentru stri. Recunoaterea unui fonem revine la gsireapotrivirii care maximizeaz o funcie de probabilitate ce confrunt o secven devectori de caracteristici extras din intrare asupra coleciei de diagrame HMMcorespunztoare tuturor fonemelor. ntruct limbajul este un proces secvenial,componenta timp este esenial n recunoatere. Implicit, durata fonemelor, ori a

    16http://protege.stanford.edu/ontologies/sumoOntology/sumo_ontology.html17Compania britanicde previziuni asupra pieei Ovum (http://www.ovum.com), prezicea acum civaani cnainte de sfritul lui 2004 portalurilor vocale vor atinge o cifrde afaceri de 26 miliarde dedolari, prezicere confirmatde evoluia actual.

  • 7/24/2019 Cristea Prelegeri

    8/23

    8

    strilor lor componente, reprezint caracteristici importante ale proceselor derecunoatere. n vorbirea continu independent de vorbitor exist ns o marevariabilitate a duratei fonemelor, ceea ce ngreuneaz extrem de mult reglareamodelelor de recunoatere. Independena de vorbitor se obine, n general, prinutilizarea n instruire a unei colecii mari de nregistrri produse de vorbitori diferiidar, datorit diferenelor mari de pronunie dintre brbat i femeie (ca cea dat de

    lungimile diferite ale tractului vocal), rezultatele se mbuntesc dacantrenarea seface separat pe voci masculine i feminine. O abordare de acest fel presupune ns,suplimentar recunoaterii coninutului mesajului, i recunoaterea genuluivorbitorului.

    n anumite aplicaii, n care secvenele de cuvinte sunt previzibile n context, seutilizeaz modele de limb. Constrngerile sintactico-semantice ale acestor limbaje(controlate) pot fi descrise ca n-grame de cuvinte/trsturi ce pot s apar cu

    probabilitate maximntr-un anumit context. Colecia lor este realizatmanual, dacvocabularul este mic, sau prin metode stocastice. Dificultile, n aceste abordri, suntlegate de tratarea secvenelor rare i a cuvintelor necunoscute. O problemde o altnatur este i depistarea cuvintelor care trebuie transcrise cu majuscule (ca n cazulnumelor proprii care se pot confunda cu substantive comune).

    Dac ultimii ani au nregistrat progrese nsemnate n recunoaterea vorbirii,problema este nc departe de a fi considerat complet rezolvat. Estimareaperformanelor acestor sisteme se exprim n rata de erori comise la recunoatereacuvintelor, care se calculeaz ca raportul dintre numrul de cuvinte eronate(substituii, plus inserri, plus omisiuni) fa de numrul total de cuvinte derecunoscut. Dup (Lamel i Gauvain, 2004), cele mai bune performane cunoscute

    public18dintre sistemele ce recunosc pronunia continu, independent de vorbitor, aurate de erori cuprinse ntre 1% pentru vocabulare extrem de limitate (cum ar finumerele), la 3% i un timp de antrenare de 4 ore pentru vocabulare de 100 cuvinte,ajungnd pn la 8% i un timp de antrenare de 160 de ore acustice pentruvocabulare de peste 65.000 cuvinte. Rate de erori de 30-40% nu pot fi ncevitate ncazul aplicaiilor de transpunere n text a conversaiilor telefonice, aadar pe canale ngeneral considerate cu zgomot i n care vorbirea este extrem de inegal n tempo,

    prozodie, volum i ritm.Problema invers a conversiei text-vorbire, de obicei considerat mai uor de

    rezolvat (ntr-o viziune n care citirea s-ar realiza prin punerea cap la cap a uneisecvene sonore prenregistrate de cuvinte), la o privire atentse relevcel puin la felde complicatca i cea a recunoaterii vorbirii, atunci cnd se dorete obinerea uneivorbiri naturale, fluide, fr pauze ntre cuvinte, n ritmul i intonaia adecvateconinutului textului de pronunat i realiznd voci att de diverse precum de brbatori de femeie, de copil ori de om matur, voci triste ori numai serioase, voci vesele sauironice, voci pe fond de rs, voci care imitperfect un anumit interlocutor uman etc.(Dutoit i Stylianou, 2004).

    3.2 Tehnologiile limbajului scris

    3.2.1 Tehnologii de prelucrri grafice ale documentelor

    Aceste tehnologii au n vedere interpretarea automata imaginilor de documente,tehnici ce pot fi circumscrise termenului global de formatare invers, ntruct

    18Multe sisteme comerciale nu fac cunoscute performanele.

  • 7/24/2019 Cristea Prelegeri

    9/23

    9

    privesc operaiile de recuperare a textului din orice tip de format i plasarea acestuiantr-o notaie care s permit un acces diversificat la coninut, dar i din careformatarea original, la dorin, s poat fi oricnd recuperat. Aceste interpretriinclud: recunoaterea structurii documentelor, a formatelor acestuia, a tabelelor i aelementelor lor (coloane, linii, capete de tabel, coninutul locaiilor) etc.Recunoaterea optica caracterelor (optical character recognition OCR) reprezint

    doar etapa finala acestor procese, ntruct se preocupde recunoaterea irurilor decaractere ce formeazunitile logice ale documentului, paragrafe sau intrri de tabel,din momentul n care acestea au fost identificate n structura de ansamblu adocumentului. Ea include probleme de recunoatere a scrisului de mn sau tiprit,inclusiv a scrisului nclinat. Performana sistemelor de recunoatere a caracterelor estedependentde capacitatea de a nva din exemple, prin metode de instruire automat.

    Aplicaiile din aceast categorie includ sisteme de clasificare automat acorespondenei, sau de citire i indexare a formularelor. Sistemele automate de analiza documentelor vor putea n viitor analiza i nelege inclusiv desenele, ceea ce vaface posibil clasificarea i indexarea acestora, descrierea lor logic sau n limbajnatural, n scopuri de regsire automat i de construire de inferene plecnd de lascheme ori desene.

    Sistemele de citire optica caracterelor au o importandin ce n ce mai mare, datde nevoia tot mai imperioas de culegere i reprezentare digital a textelor scrise.Doar de cteva decenii omul folosete calculatorul n procesele de tiprire, ceea ce areca efect secundar producerii documentelor n forma scris, i existena lor n formatelectronic. Din motive comerciale i de pstrare a drepturilor de autor, dar i dinignoran, foarte puine dintre aceste materiale rmn n format electronic pentru a fidestinate accesului larg. O bunparte din cunoaterea omenirii pstrat astzi ntr-oform tiprit nu poate fi nc accesat informatic. Dac, aa cum prevd uniivizionari ai domeniului Tehnologiei Informaiei, n viitor se va realiza memorareaelectronica tuturor textelor cuprinse n bibliotecile lumii i vor fi inventate mijloacede interpretare a textelor electronice i altfel dect ca iruri de semne, atunci se vadeschide perspectiva unui acces inteligent la coninutul informaional al textelor.

    3.2.2 Prelucrri sub-propoziionale

    Prelucrrile sub-propoziionale se realizeazla nivelul cuvntului sau al grupurilorde cuvinte mai scurte de o propoziie. Analiza morfologic are ca obiectividentificarea trsturilor morfologice ale cuvintelor flexionate n contextul apariieilor n propoziie. Fiecrui cuvnt flexionat din irul de intrare i se asociazforma de

    bazi un set de trsturi ce sunt specifice prii de vorbire. La fel ca n majoritateatipurilor de prelucrri aplicate limbajului natural, i aici se utilizeaz dou tipuri demetode: bazate pe reguli i statistice.

    Un cuvnt flexionat, n general, este ambiguu din punct de vedere morfologic, de

    aceea o analizmorfologicruptde context va pune n evidentoate posibilitile deinterpretare. Analize alternative sunt posibile datorit omonimiei categoriale, aalternanelor morfologice finalizate identic, a funciilor multiple ale afixelor ori agranielor incerte dintre morfeme n cuvintele compuse. Adesea, doar plasareacuvntului n contextul restului cuvintelor propoziiei poate realiza dezambiguizareatotala nivelului morfologic. Aceastoperaie se numete cel mai adesea etichetare la

    parte de vorbire (POS tagging), dei rezultatul ei este mai complex dect determinareaneambigua prii de vorbire.

  • 7/24/2019 Cristea Prelegeri

    10/23

    10

    n momentul de fa metodele de etichetare statistice au ajuns la un foarte naltgrad de precizie (Tufii Dragomirescu, 2004). Ele utilizeazmetode de optimizare a

    probabilitilor de apariie a irurilor de categorii morfo-sintactice (bi- i tri-grame)bazare pe lanuri Markov ascunse. Colecii mari de texte etichetate manual suntutilizate pentru antrenarea acestor programe, prin constituirea modelelor de limb.

    Tot n categoria prelucrrilor sub-propoziionale se plaseaz i parsarea de

    suprafa (shallow parsing). Ieirea unui astfel de parser evideniaz granieleanumitor grupuri, cum ar fi cele nominale nerecursive (grupuri ce nu conin altegrupuri nominale sau verbale ca subconstitueni), fr a indica constituia lorstructuralsau rolul lor n propoziie. Analiza de suprafaeste dominatn prezent demetode computaional rapide, ca de exemplu analiza expresiilor regulate. Punerea nevidena grupurilor sintactice constituie, de obicei, o etapntr-un lande prelucraremai elaborat, cum ar fi, de exemplu, o analiz sintactic complet, determinarearolurilor sintactice ale grupurilor nominale sau prepoziionale n jurul verbelor,rezoluia anaforelor etc.

    3.2.3 Prelucrri sintactice

    Prelucrrile sintactice au ca scop determinarea structurii de constitueni sintactici afrazei. Diferii constitueni ai frazei se gsesc poziionai n anumite raporturi unii fade alii. Aceste raporturi sunt descrise ca seturi de constrngeri sintactico-semantice.O constrngere poziionalcu implicaii asupra sensurilor cuvintelor este, de exemplu,cea dintre un adjectiv i substantivul pe care l determin, n limba romn. Plasareaadjectivului n faa sau n spatele substantivului poate, pentru anumite clase deadjective, determinata sensul acestuia (comparai o singur femeie cu o femeie

    singur) [Cornilescu, 2004].La baza prelucrrilor sintactice stau gramaticile. Elaborate iniial ca seturi

    neformale de reguli de constituire a compuilor, treptat, gramaticile capt descrieridin ce n ce mai formale ce adaugcapacitii lor de a descrie fenomenele sintacticecomplexe ce exist n limbi menirea de a servi drept suport parserelor sintactice.Din acest punct de vedere, pentru cnoteazcunoaterea gramaticalindependent deun algoritm anumit de procesare, gramaticile, ca seturi de reguli dublate deconstrngeri, se constituie n resurse lingvistice, la fel ca i corpusurile. n anumitecazuri, regulile de analizgramatical i constrngerile pot fi inferate din corpusuriadnotate la structura sintactic. Codificarea fenomenelor gramaticale poate fi fcutesub formsimbolicsau numeric. Diferena dintre cele doutipuri de notaii este c,n primul caz, ea evideniazcu claritate o semanticdenotaionalasociatregulilor,

    pe cnd n cel de al doilea, utilizat recent din ce n ce mai mult, noiunea de regulipierde semnificaia de notaie simbolicexplicit, ea fiind dizolvatntr-un sistem deponderi ale aciunilor unui automat. Indiferent de maniera de exprimare a cunoateriigramaticale, o analizsintactictrebuie srezulte n construirea unei structuri care s

    exprime agregarea recursiv a cuvintelor n compui i a acestora n propoziii ifraze. n sistemele robuste de analizsintactic, anumite constrngeri pot fi nclcatefra invalida n totalitate o analiz. Astfel, dei nerecomandate, greeli gramaticale,

    precum nclcarea acordului subiect-predicat, anacolutul etc. pot fi permise, sistemulde analizputnd fi antrenat ssemnaleze greelile dar saccepte totui exprimarea.

    Cele mai rspndite formalisme gramaticale sunt cele bazate pe constrngeri,uneori numite i gramatici de unificare. Ele utilizeazstructura de caracteristici(simplificat, un set de perechi atribut-valoare), ca o manierde descriere unificat aunitilor gramaticale dintre cele mai variate, precum cuvntul, grupul, propoziia ori

  • 7/24/2019 Cristea Prelegeri

    11/23

    11

    fraza. Toate aceste formalisme utilizeazoperaia de unificare a caracteristicilor careincorporeaz trstura de punere mpreun a valorilor cu cea de verificare lacompatibilitate a informaiilor gramaticale. Lexicul, n aceste abordri, nu mai este osimplcolecie de cuvinte, pentru cfiecrui cuvnt, n funcie de categoria lui, i esteasociato clasde constrngeri de utilizare n construciile corecte ale limbii. Acesteconstrngeri pot s fie de naturmorfologic, sintactic i semantic. De exemplu,

    unui verb tranzitiv i se pot asocia constrngeri de tipuri semantice referitoare laobiectele directe pe care le poate accepta. Marea problem, n aceste abordri, st ndificultatea culegerii i structurrii informaiilor ce trebuie ataate cuvintelor, operaiiextrem de laborioase. O anumitsimplificare a descrierilor lexicale poate fi obinut

    prin organizarea categoriilor n ierarhii. ntr-o ierarhie, trsturile unei categorii seadaug celor motenite de la clasele superioare. Cele mai utilizate sisteme dereprezentare sintactic ierarhic sunt structurile de caracteristici cu tipuri(Carpenter, 1992). ntr-o ierarhie a tipurilor doustructuri unificnumai dacau unsubtip comun.

    3.2.4 Prelucrri lexico-semantice

    La nivelul lexico-semantic cele dou probleme fundamentale sunt descoperireasensurilor cuvintelor n context i compunerea nelesului exprimrilor din nelesulcuvintelor componente.

    Prima problem, cunoscut sub numele de dezambiguizarea sensurilorcuvintelor (word sense disambiguation WSD), presupune cunoscut un inventar alsensurilor cuvintelor, corespunztor unui dicionar sau unui tezaur lexical, i i

    propune s determine sensurile cuvintelor n context, n conformitate cu acestinventar.

    Compunerea(sau calculul)nelesului exprimriloreste o problemcare atingeaspecte extrem de subtile i de greu de formulat riguros, pentru c limbajul naturalabund n interpretri metaforice, metonimice, ironice, n implicaii conversaionalespecifice cauzate de contexte pragmatice diferite etc. Dac ne limitm la aflareanelesului intrinsec al exprimrilor, nealterat de fenomene ca cele menionate maisus, cele mai multe abordri plaseazacest efort n sfera logicului, n ncercarea de areduce calculul semantic la posibilitatea cunoaterii condiiilor n care o propoziie ar

    putea fi adevrat (ceea ce este altceva dect a ti dac o propoziie este ori nuadevrat). Desigur odat pus la punct o logic compoziional a condiiilor deadevr aplicabilaseriunilor, ea trebuie ssuporte generalizri pentru a fi aplicabilntrebrilor i imperaiilor, dar ideea este de a plasa deasupra ei un sistem inferenial

    bazat pe condiii de adevr. Cu un astfel de sistem i o logiccare calculeaznelesulcompuilor sintactici plecnd de la nelesul constituenilor, sensurile cuvintelor se potcombina n nelesuri ale propoziiilor19, iar din acestea se pot infera concluzii isupoziii. Primul model combinatoric aplicat limbajului natural care se ndeprteaz

    de logica predicatelor de ordinul nti (LPOI) a fost logica intensional a luiMontague (1973). Ulterior, modele mai sofisticate au ncercat s ofere soluiicomputaionale i pentru exprimri n care apreau concepte, cuantificatori i cuvinteimposibil de formalizat n LPOI, precum necesitatea, posibilitatea, verbe ca a credesau a ti, expresii precum cei mai muli, mai mult de jumtateetc.

    Aplicaiile semanticii computaionale a limbajului natural, probabil deocamdatmai puin rspndite din cauza complexitii lor, se plaseaz n sferele traducerii

    19V. principiul compoziionalitii atribuit lui Frege (Frege, 1892).

  • 7/24/2019 Cristea Prelegeri

    12/23

    12

    automate, a interogrii bazelor de date i a gsirii de rspunsuri inteligente lantrebri.

    3.2.5 Prelucrri legate de structura de discurs

    Atunci cnd nelesul unei propoziii nu poate fi recuperat integral din calculul

    ataat elementelor constitutive ale ei, deci cnd e nevoie s depim grania depropoziie pentru a compune un neles, trecem n domeniul discursului. Privite ncontextul mai larg al Lingvisticii Computaionale, teoriile discursului i ncepinvestigaia dupce morfologia computaional, sintaxa computaionalori semanticacomputaional i-au adus fiecare n parte aportul. Cnd structura compoziional acuvntului i cea a frazei sunt descoperite, cnd sensurile cuvintelor din fraz sunttiute i avem o reprezentare a modului n care aceste sensuri elementare se adunncel global, al frazei, mai avem ncde elucidat, prin compunerea nelesurilor frazelorconstitutive, care este mesajul intenionat s-l transmit autorul textului i cum areuit acesta sne convingde ceea ce a avut n intenie sne transmit. Acelai lucru

    poate fi exprimat n multiple feluri. De ce alegem o form i nu alta? Ce anumecontribuie la coeziunea unui text, ce face un text s fie coerent? Putem utiliza un

    pronume (n general, o expresie referenial) oriunde? Care este legtura dintrestructura de discurs i referenialitate? Acestea sunt ntrebri la care ncearc srspundteoriile discursului.

    Este important ca interpretarea discursului s fie realizat respectnd secvenaelementelor lui. Dac structura sintactic poate fi elucidat, din punct de vederecomputaional, ca unpuzzlecare poate fi nceput din orice capt, discursul nu poate fiabordat dect n ordinea emiterii lui, pentru c elementele care-l compun i aduccontribuia n compunerea mesajului n exact secvena emiterii lor, considerarea uneialte ordini putnd induce alte semnificaii dect cele intenionate. Elementulconstitutiv de bazal unui discurs este numit unitate de discurs. Cei mai muli autoriaccept ca unitate de discurs clauza. n general, o clauz comunic o situaie, uneveniment, o stare. ntruct aceste crmizi constitutive ale discursului sunt mai finedect limita maximala obiectului prelucrrii sintactice, care este fraza, este firesc sne gndim la o anumitredundan ntre structurile generate de analiza sintacticicele produse de interpretarea discursului. Aceast intersecie interpretativtrebuie sse manifeste ca o coresponden (mapping) ntre structura sintactic aflat ntrenivelurile clauzal i cel frazal i substructura generatde analiza retorica discursuluila nivel frazal.

    Comportamentul incremental al interpretrii discursului (ce se impune atunci cndla baza modelului interpretativ sunt plasate procesele cognitive ale creierului uman),

    poate fi obinut printr-o funcie de interpretare care sasambleze unitile de discurs,ntr-o structur, n ordinea apariiei lor, adic n ritmul lecturii sau al audieriimesajului. Amintim cteva fenomene lingvistico-cognitive care trebuie s-i gseasc

    o modelare n aceastviziune: cum se reprezintdiscursul i cum lucreazun proces capabil sconstruiasc

    aceast structur de reprezentare? Majoritatea teoriilor care abordeazproblema reprezentrii i procesrii discursului accept ipoteza c structuradiscursul are o reprezentare arborescent. n Teoria Structurilor Retorice(Mann i Thompson, 1988), de exemplu, nodurile interioare ale arboreluireprezint relaii retorice ntre ntinderi de text, pe cnd cele terminalereprezint unitile elementare de discurs. ntr-o modelare care descrieinterpretarea discursului ca un proces incremental (Cristea i Webber, 1997;

  • 7/24/2019 Cristea Prelegeri

    13/23

    13

    Cristea, 2000; Cristea et al., 2005), acest arbore este construit prin opera ii deataare a unitilor de discurs, n ritmul apariiei acestora, pe frontiera dreapt(Polanyi, 1985) a structurii arborescente aflate n dezvoltare;

    cum se trateaz expectativele (acele exprimri care oblig la continuri)? Deexemplu, dupclauzaDei afarploua, plasatimediat duppunct, trebuie sexiste cu necesitate o urmare pentru ca discursul snu fie defect. n (Cristea i

    Webber, 1997) se propune o generalizare a frontierei drepte care s permitrezolvarea expectativelor n ordinea invers a apariiei lor. n exemplulurmtor: a.Pe de o parte John e foarte generos.b.Dacai nevoie de bani,c. e

    suficient ste duci la el i s-i ceri.d.Pe de altparte nsel e foarte greu degsit.(prelucrare din (Cristea i Webber, 1997)), att expresiape de o partenunitatea a ct i dac n unitatea b deschid expectative, dar rezolvareaexpectativei deschise de dac trebuie realizat nainte de rezolvarea celeideschise depe de o pare;

    cum se rezolvreferinele anaforice (exprimri care nu pot fi interpretate prin

    ele nsele, ci numai cu ajutorul unor elemente aflate n altparte a textului)? Deexemplu, n fraza Nici el nici ea nu agreeaz minciuna, ns, dintre cei doi

    prini, Maria este cea care s-a ocupat de educaia copiilor cu precdere n

    spiritul adevrului. grupul nominal cei doi prini este e expresie anaforicancorat n setul entitilor introduse de pronumele el i ea, n timp ce eafiind o catafor(referinpronominalcare refero entitate clarificatde textulcare urmeaz), este considerat de unii lingviti a avea ca referent pe Maria. n(Cristea i Dima, 2001), considerente de ordin psiho-lingvistic sunt argumente

    pentru un tratament unitar al anaforei i cataforei: indiferent de natura realizriiunei entiti de discurs (pronominalori substantival), prima menionare a eiduce la crearea unei reprezentri, plasatpe un nivel de reprezentare semantic,care poate, urmare a menionrilor ulterioare, ssufere completri. Este propus,de asemenea, un mecanism care permite rezolvarea trzie a anaforei, cndexisto ambiguitate la momentul prelucrrii expresiei refereniale;

    cum poate fi modelatrezumarea incremental(capacitatea creierului uman dea rezuma un discurs n ritmul recepionrii acestuia)? Nu tot ceea ce citim sauauzim ne rmne n memorie, dar suntem capabili sreproducem un rezumat aldiscursului recepionat. Construcia acestui rezumat se realizeaz n ritmulnsui al lecturii i, din acest motiv, la orice moment al ntreruperii unei lecturisuntem capabili s rezumm ceea ce am citit pn n acel moment. Teorianervurilor (Cristea et al, 1998) explic fenomene de coeziune i coeren adiscursului prin evidenierea unei legturi ntre structura de discurs i lanurilerefereniale. Dezvoltrile ulterioare cuprind, printre altele, i o propunere de

    parser de discurs (Cristea et al, 2003; Cristea et al, 2005), capabil totodat sgenereze sumare focalizate pe entiti ale discursului.

    3.2.6 WebsemanticConceptul de websemantic s-a rspndit n lumea informaticii urmare a apariiei n

    mai 2001 a unui articol n Scientific American (Berners-Lee et al., 2001), avndu-l caprim autor pe Tim-Berners Lee, creatorul Internetului. Articolul previzioneazcreareaunui webplanetar n care informaiile ar fi organizate conceptual i n care ar deveni

    posibil efectuarea de interogri complexe, inclusiv n limbaj natural i n limbaproprie. Mai mult dect att, organizarea lui standardizat ar permite explorriautomate efectuate de ageni inteligeni capabili snavigheze, s se multiplice i s

  • 7/24/2019 Cristea Prelegeri

    14/23

    14

    conlucreze ntre ei pn la aflarea soluiilor. De la apariia conceptului, consoriulW3C20 a preluat sarcina dezvoltrii i a promovrii tehnologiilor standard pentruexplorarea web-ului, ntre care cele ale web-ului semantic sunt prioritare.

    Conceptul de websemantic utilizeazlimbajul de notare XML (Extended Mark-upLanguage) ca suport pentru integrarea n aceeai sintaxa surselor unei multitudini deaplicaii, dezvoltate toate ntr-un limbaj numit RDF (Resource Description

    Framework) i care permite ca descrierea spaiului planetar de adresare (dat demulimea documentelor aflate n toate calculatoarele conectate la Internet de pe Terra)sfie realizatuniform, sub forma unui ir compact de caractere ce respecto sintaxstandard (Uniform Resource Identifier URI).

    Actualmente se deruleaz, sub numele de Web al Cunoaterii, un proiecteuropean21 care are ca scop aplicarea la nivel industrial a achiziiilor din web-ulsemantic. Implicaiile lui vor fi resimite n industria tehnologiei informaiei dinEuropa, n nvmntul superior (prin stabilirea unui institut virtual pentru websemantic n Europa) ct i la nivelul cercetrii n vederea coordonrii eforturilor

    pentru a face web-ul semantic o realitate n cel mai scurt timp.

    4. Cazul limbii romne

    Cercetrile romneti n TLU sunt promitoare i se aliniaz curentelor aflateacum n colimatorul cercetrii mondiale. Ca i cercetarea n sine, acestea pot figrupate n dou categorii mari: dezvoltarea de resurse lingvistice romneti idezvoltarea de instrumente de prelucrare a limbii, care s fie aplicabile cel puinlimbii romne.

    4.1 Resurse romneti

    Pentru dezvoltarea de resurse lingvistice romneti au demarat deja o seam deproiecte care urmresc achiziionarea de corpusuri romneti cuprinznd texte primaresau adnotate pe diverse niveluri, realizarea de modele de limb i de tezaurelingvistice.

    De o nsemntate deosebit n acest context este activitatea desfurat pentrucrearea unui wordnet romnesc. La realizarea acestei resurse au colaborat Institutul deCercetri n Inteligen Artificial al Academiei Romne din Bucureti (ICIA) iFacultatea de Informatica Universitii Al.I.Cuza din Iai (FII-UAIC). Activitateas-a derulat ca parte integrant a proiectului FP5-IST Balkanet pe parcursul anilor2001-2004 n cadrul unui consoriu n care au mai participat cercettori din Turcia,Bulgaria, Grecia, Serbia, Cehia i Frana. Balkanet este acum o reea de wordneturiale limbilor din Balcani aliniate cu Princeton WordNet 2.0. n ianuarie 2005Wordnetul romnesc numra peste 21.000 de synseturi, dintre care aproximativ 65%erau substantive, 25% verbe, iar restul adjective i adverbe n proporii aproximativ

    egale (Tufi et al, 2004a)

    22

    . Numrul total de literali n versiunea actual este deaproximativ 33.000, ceea ce nseamn o medie de 1,7 sensuri pe literal23. Toatesynseturile sunt aliniate celor din wordnetul englezesc i, prin intermediul acestora,

    20http://www.w3.org21V. proiectul european FP6Knowledge Webla http://knowledgeweb.semanticweb.org/22Cifrele indicate n (Tufiet al, 2004) sunt cele din mai 2004, dar dezvoltarea wordnetului romnesc acontinuat pnla sfritul lunii august 2004, cnd s-a terminat proiectul, i chiar i dupacea dat.23Pentru comparaie, cifrele pentru wordnetul englezesc, cel mai complet la ora actual, sunt: 115.424synseturi, 203.147 literali i o medie de 1,39 de sensuri pe literal.

  • 7/24/2019 Cristea Prelegeri

    15/23

    15

    tuturor celorlalte wordneturi ale limbilor din Balcani. Dei n momentul de falipsete o unificare ntr-o unic reea multilingv a tuturor wordneturilor construite

    pnn prezent24, acest lucru este teoretic posibil cu un efort mai mic dect cel cerutde achiziionarea lor. Alinierea wordneturilor care folosesc ILI ca reper este numai ochestiune de conversie de formate, de actualizri de versiuni i de armonizare ainterfeelor utilizator25, iar dacalinierea la ILI nu e realizat, se pot aplica metode de

    aliniere automat ntre resurse diferite (de exemplu, Kwong, 2001; Nstase iSzpakowicz, 2001). Activitatea n acest domeniu este stimulat de Global Wordnet

    Associationi de conferinele organizate de aceastasociaie, o datla fiecare doi ani.Din pcate nu exist nc o eviden clar a resurselor lingvistice realizate pentrulimba romn. Comisia de Informatizare pentru Limba Romn (CILR), creat n2002 pe lngAcademia Romn, i-a propus srealizeze acest inventar i spstreze

    pe un portal romnesc ntreaga colecie a acestor resurse26. Prevzut recent ca temcentralde cercetare a Institutului de InformaticTeoretic, filiala Iai, a AcademieiRomne (IITI), aceastiniiativurmeazsrealizeze un portal care ssistematizezecolecia de resurse romneti i spermitoperaii de urmtoarele tipuri:

    plasarea (upload) pe portal de noi documente, adnotate ori nu;

    extragerea de (poriuni de) document adnotate conform unor scheme de

    adnotare ce pot fi precizate de utilizator; concatenarea fragmentelor de texte adnotate n uniti contigue (motivat de

    existena documentelor adnotate pe poriuni n colective diferite); generarea automatde statistici asupra repozitorului (cte cuvinte adnotate la

    POS, cte propoziii adnotate la structura de dependenetc.);

    generarea de hri de acoperire a fenomenelor lingvistice descrise de adnotrileexistente n depozit i pe care sse observe cu uuringurile albe (zone defenomene ncnetratate);

    corelarea cu resurse similare realizate n alte limbi prin alinieri cu acestea; adugarea de noi scheme de adnotare (de exemplu cele relativ la FrameNet,

    RST etc.), cu eantioane de texte ataate.Funciile descrise mai sus fac referinla aspectele teoretice i sistemul de generare

    i exploatare a schemelor ierarhice de adnotri descrise n (Cristea i Butnariu, 2004).Lucrarea menionat propune o schem de reprezentare ierarhic a standardelor deadnotare XML care permite accesul i compatibilizarea unor corpusuri cu adnotridiferite (sau chiar incompatibile). Standardele de adnotare sunt reprezentate ntr-ostructur ierarhicde tip latice. Printre altele, propunerea face posibilefectuarea deoperaii de unificare (merge) i extragere a unor noi scheme (declaraii) de adnotare.Tehnica de definire i exploatare de noi scheme de adnotare aplicate asupra unorcolecii de date lingvistice de natur divers este important n concepia unui sitdedicat punerii n valoare i exploatrii resurselor limbii romne. Scopul final alacestui efort l constituie realizarea conversiilor automate de la un spaiu de adnotarela altul, care s ofere o soluie elegant i general de manipulare a documentelor

    multiplu adnotate (din ce n ce mai frecvent ntlnite), de controlare a setului24Pe situl Global Wordnet Association (GWA), la adresa http://www.globalwordnet.org/), suntanunate wordneturi construite pentru mai mult de 35 de limbi, dar informa ia trebuie privitcu oanumitrezervpentru cnu existo activitate concertatde validare a lor.25Un experiment n aceastdirecie se va realiza ntre wordnetul romnesc i cel italienesc,MultiWordNet, realizat laIstituto di Ricerca Scientifica e Technologicadin cadrulIstituto Trentino diCultura(IRST-ITC) Trento (http://multiwordnet.itc.it/english/home.php).26Exemple de portaluri de resurse lingvistice gestionate de asocia ii specializate suntLinguistic DataConsortium(http://www.ldc.upenn.edu/) n Statele Unite, sauEuropean Language Resources

    Association(http://www.elra.info/) n Europa.

  • 7/24/2019 Cristea Prelegeri

    16/23

    16

    schemelor de adnotare, pentru evitarea proliferrii nejustificate a schemelor prinutilizarea de etichete i nume de atribute care realizeaz reprezentri identice sauasemntoare. O abordare de aceast natur contribuie la efortul de standardizare aresurselor de limbaj, prin plasarea standardelor de adnotare i, implicit, adocumentelor adnotate, ntr-o structur laticeal, parial ordonat, reprezentndansamblul resurselor lingvistice romneti, n care resurse particulare pot fi reperate

    facil i n care se poate naviga i interveni eficient.De o importanexcepional, datoritdiversitii nivelurilor de adnotare realizate,

    sunt resursele care au la bazromanul 1984 de George Orwell. n momentul de fa,prin colaborare ntre ICIA, FII-UAIC i IITI au fost realizate urmtoarele adnotriasupra acestei resurse primare: fiecare cuvnt are marcatpartea de vorbire i setul decaracteristici morfo-sintactice, sunt marcate grupurile nominale nerecursive, clauzele

    propoziionale, unitile elementare de discurs, cuvintele sau expresiile cu valoare nstabilirea relaiilor retorice i relaiile de coreferenialitate. De asemenea, au fostncepute i sunt n curs de dezvoltare adnotri pentru: structuri de dependensintactic conform gramaticilor de dependen, expresii, evenimente i relaiitemporale, i structura de roluri verbale.

    ntr-o colaborare nceput ntre FII-UAIC, ICIA, IRST-ITC i University ofNorthern Texas din Dallas se intenioneaz traducerea n italian i romn aSemCor27 (corpusul care a stat la baza realizrii Princeton WordNet, n care fiecaresubstantiv, verb, adjectiv i adverb are notat sensul conform WordNet), i aliniereacelor trei versiuni la nivel de fraz i cuvnt. Pe un astfel de corpus, adnotarea lasensuri din Princeton WordNet va putea fi transferat automat n celelalte douversiuni, ceea ce va produce, dac ne referim la limba romn, prima resursromneasc, semnificativca ntindere, adnotat la sensuri. Mai mult nc, existenaacestei resurse trilingve va fi de un real ajutor realizrii programelor de traducereautomatntre cele trei limbi.

    La ICIA se afl n curs de realizare un corpus bilingv romn-englez de zecemilioane de cuvinte, aliniat, etichetat la parte de vorbire i segmentat, n care, prinrularea programului de dezambiguizare multilingvWSD-Tool (Ion i Tufi, 2004),att versiunea englezeasc ct i cea romneasc vor putea fi adnotate automat lasensuri n proporie de 80%.

    Printre proiectele de lexicografie computerizatcare vor trebui sacapareze ateniaAcademiei Romne n viitorul apropiat, cred c de o importan deosebit va fitranspunerea DLR n format electronic. Acest proiect a nceput deja prin elaborareaunui studiu provizoriu care i-a propus sinvestigheze tehnologia de realizare a lui28,

    prin organizarea unor ntlniri pe aceasttemce s-au desfurat la Iai29i la care auparticipat lingviti i informaticieni din Bucureti, Iai i Cluj, prin includerea nplanul de cercetare al IITI a unei teme privind realizarea unui parser al intrrilor dinDLR, ct i prin elaborarea la FII-UAIC a unor lucrri de licen n informatic cusubiecte pe aceast tem (Hricu, 2004; Tnsescu, 2004). Un studiu preliminar,

    relevcel puin urmtorii pai ca fiind necesari n realizarea acestui proiect:

    27http://www.cs.unt.edu/~rada/downloads.html#semcor28Proiectul CNCSIS pe anii 2003-2005 cu titlulDicionarul Limbii Romne (DLR) n formatelectronic. Studii privind achiziionarea, coordonator Dr. Gabriela Haja.29Conferina Tendine n informatizarea activitilor lexicografice, inutde autor n 30 iunie 2004 laInstitutul de Filologie Al. Phillipide (poate fi accesatla adresahttp://www.infoiasi.ro/~dscristea/publications.html), i ntlnirea cu titlulDLR n format electronicce aavut loc la Filiala Iai a Academiei Romne n iulie 2004.

  • 7/24/2019 Cristea Prelegeri

    17/23

    17

    - a. copierea i scanarea paginilor dicionarului30;-

    b. transpunerea prin OCR-izare a lor ntr-un format (probabil HTML) care spermit identificarea zonelor cu particulariti tipografice: paragraf, corpuriledisplay i italic, indici (cifre culese la umrul cuvintelor) i semne speciale(romb plin, romb gol etc.);

    -

    c. corecia greelilor de OCR-izare, operaie manual i de rutin, cea mai

    costisitoare dintre toate, pentru c, pe de o parte, trebuie realizatde persoanecu experien n activiti lexicografice, capabile srecunoasc, prin inspecievizual, erorile i, pe de altparte, este monotoni obositoare i deci, pentru areui, trebuie efectuatde persoane de absolutncredere;

    - d. extragerea cmpurilor, operaia prin care formatul HTML, ce pune neviden doar marcaje tipografice, este transformat ntr-unul capabil sexpliciteze cmpurile lexicografice, de exemplu XML. n acest format senoteazseparat fiecare intrare, iar n cadrul unei intrri se noteaztitlul, parteade vorbire, i sensurile, pentru ca, pentru fiecare sens n parte, s se pun nevidendefiniia i exemplele, fiecare cu sigla respectiv. Cea mai riguroasabordare este aceea n care sintaxa intrrilor se descriu ca reguli ale uneigramatici formale, pentru c, prin intermediul gramaticii, dicionarul poate fi

    supus unei operaii de parsare ce ar culege cmpurile. n realitate ns,descrierea formal a intrrilor ca o gramatic este o activitate de cercetareinformatic extrem de laborioas. n plus, presupunnd c ea s-ar finaliza ncrearea unei astfel de gramatici31, activitatea de parsare n sine ar fi foarte multngreunat de multitudinea erorilor (intrri a cror sintax nu corespundedescrierilor gramaticii, datoritculegerii manuale a dicionarului). O alternativla aceast opiune const n realizarea unui program capabil s extragcmpurile direct, prin abloane (pattern-matching), ce pot fi obinute inclusiv

    printr-un proces de nvare din exemple. Un astfel de experiment, cu rezultatefoarte promitoare, a fost realizat deja la FII-UAIC (Tnsescu, 2004);

    -

    e. realizarea accesului electronic la dicionar presupune eforturi de programare,relativ uor de realizat. Odat transpuse informaiile n formatul unei baze dedate, o multitudine de aplicaii vor putea fi realizate. Una dintre ele va face

    posibil reconversia grafic a intrrilor pentru generarea unui format care,tiprit, sarate identic cu cel original;

    - f. corectarea final, presupunnd compararea formatului obinut automat cu celoriginal i corectarea erorilor ce pot fi generate din operaiile de extrageri decmpuri;

    - g. actualizarea dicionarului, operaie ce presupune eforturi de creaielexicograficcare sse ndrepte n urmtoarele direcii: actualizarea ortografiei(dicionarul a fost scris pe o perioad de aproximativ un secol), nlocuireaformelor ortografice vechi ori a arhaismelor din definiii, actualizareadefiniiilor rmase n urmfade progresele societii, a seriilor sinonimice, a

    citatelor, a sensurilor, pentru c fiecare perioad de publicare ncheie operioadde culegere a citatelor i, de aici, de fixare a sensurilor cuvintelor. nplus, dicionarul trebuie adus la zi n privina lexicului, trebuie apoi armonizatcu alte surse lexicografice ale Academiei, cum ar fi Dic ionarul Explicativ alLimbii Romne (DEX) sau Micul Dicionar Academic (MDA), mai ales n

    privina importurilor i a calcurilor.

    30Numai ediia noua dicionarului, cea care este cunoscutsub numele de DLR (deci excluznd ediiaPucariu), cuprinznd literele de la M la Z, numr23 de volume cu peste 10.000 de pagini tiprite.31Activitate n curs de derulare la IITI.

  • 7/24/2019 Cristea Prelegeri

    18/23

    18

    ntr-o tentativ de a aprecia efortul necesar acestei realizri, s-a stabilitexperimental32c, n total, pentru operaiile de la punctele a i b sunt necesare ntre 2i 4 minute de pagin, pe cnd pentru corectare (punctul c) sunt necesare ntre 15-35de minute de pagin. n medie, ambele operaii ar dura aproximativ 23 de minute de

    pagin, ceea ce, pentru un volum de 250 de pagini, cum este litera de exemplu, artotaliza un efort de aproximativ 12 zile lucrtoare, fiecare a 8 ore. n total aadar,

    scanarea i corectarea ntregului dicionar ar trebui sse nscrie undeva n jurul unuian*om activitate. Pentru obinerea calitii obligatorii unei lucrri a Academiei, seimpune, probabil, o realizare redundant a corecturii, ceea ce poate dubla sau chiartripla timpul de lucru i costurile. Dar chiar i aa, efortul este rezonabil i poate firealizat pe durata normal unui proiect finanat de guvern i completat din surseexterne (3-4 ani).

    Punctul d, realizndu-se prin proceduri automate, necesitun timp neglijabil fade celelalte. La aprecierea efortului de realizare a lui, ca i a activitilor de la punctule, trebuie avute n vedere ns activitile de realizare a programelor. Experimentulrealizat la FII-UAIC pentru gsirea unei soluii n problema extragerii cmpurilor aluat aproximativ trei luni*om de programare unui student informatician aflat n anulterminal. Eforturile de programare asociate punctului e sunt nsmult mai diverse i

    nu pot fi estimate fro analizatent. Ele sunt, n principal, activiti de cercetare,aadar tentante pentru echipe mixte formate din informaticieni i lingviti. Ele vordeschide cu siguranperspective noi activitilor lexicografice, pentru cvor duce larealizarea de instrumente software capabile s ajute lexicograful s culeagexemplele, s descopere i s eticheteze sensurile, s indexeze textele, s editezedefiniiile i sle compare cu cele aflate n alte surse bibliografice.

    Corectura final(punctul f) este din nou o activitate rutinier, dar care ar trebui, nprincipiu, sfie mai rapiddect cea de la punctul c, i care, comparativ, ar putea fiestimat la an*om. Punctul g nu poate face obiectul unei estimri realiste fr oanaliz detaliat, dar, schiate, activitile ar putea s se deruleze n urmtoareledirecii:

    -

    Parlamentul are o iniiativ legislativ care rezult n emiterea unei legi ceoblig/recomand caselor editoriale i periodicelor romneti s arhivezevariantele electronice ale tuturor tipriturilor scoase pe piantr-un repozitoriunaional. Pentru a proteja creatorii lor mpotriva utilizrilor piratereti, accesulla aceste colecii ar fi restricionat cercetrilor asupra limbii romne33;

    -

    un Comitet al Dicionarului stabilete criteriile de selecie a bibliografiei casurse autorizate pentru un DLR actualizat;

    - un program sorteaz automat resursele (sursele aflate acum n formatelectronic) dup registrul literar, domeniu, autor, data scrierii, data publicriietc.;

    - un program selecteazresursele recomandare de Comitetul de Dicionar pentruactualizarea DLR. Aceast activitate are loc continuu, n ritmul includerii de

    noi texte n repozitoriu;-

    Comitetul de Dicionar stabilete criteriile de considerare a unui cuvnt/sens caintrat n limb i ieit din uz;

    -

    un program adnoteaz automat documentele selectate la parte de vorbire ilemi sorteazlemele n ordinea frecvenei lor de apariie;

    32Experimente realizate cu studenii formaiei de masterat n LingvisticComputaionalde la FII-UAIC, n anii universitari 2003-2004 i 2004-2005.33Pentru o iniiativasemntoare a se vedea proiectul Gutenberg (http://promo.net/pg/history.html).

  • 7/24/2019 Cristea Prelegeri

    19/23

    19

    - un program aplic criteriile de acceptare i pensionare i propuneComitetului de Dicionar includeri/pensionri;

    -

    un program apliccriterii speciale de detectare a sensurilor noi;- colective de lexicografi valideaz/rejecteaz propunerile de

    includere/pensionare de cuvinte/sensuri fcute de program;-

    un program creeazvariante actualizate ale dicionarului;

    -

    folosind interfee adecvate, lexicografii opereaz, acolo unde este necesar,modificri asupra dicionarului creat automat.

    Acest gen de activitate poate saibimplicaii care, n momentul de fa, pot fi cugreu apreciate n mod realist. O analiz grbit, relev cel puin urmtoarele

    posibiliti de exploatare a Dicionarului Informatic al Limbii Romne (DILR):-

    publicarea lui pe Internet prin intermediul unor interfee specializate deacces/cutare. Pentru comparaie, se poate consulta Trsor de la Langue

    Franaise Informatis34, versiunea electronicpublica dicionarului tezaur al

    limbii franceze (Trsor de la Langue Franaise35);-

    extragerea automat din DILR de noi dicionare (etimologic, frazeologic,neologisme, pe domenii etc.);

    -

    exploatarea coleciei de colocaii pe sensuri ale cuvintelor n vederea antrenrii

    programelor de dezambiguizare a sensurilor;-

    alinierea DILR cu alte resurse (de exemplu, wordnetul romnesc).Personal sunt convins cn afara tuturor beneficiilor enumerate, publicarea DILR

    pe Internet ar fi un efort rspltit imediat prin revigorarea unui segment semnificativde limbuitat(un cetean comun nu cunoate mai mult de 30% din cuvintele limbiii putem spera doar ca aceste 30 de procente snu fie aceleai pentru toatpopulaiade limb romn...). Cu certitudine, segmente semnificative ale lexicului limbiiromne nu sunt cunoscute publicului larg. Acest inestimabil tezaur al limbii noastre,care concentreazactivitatea de cercetare a celor mai reputate colective romneti delingviti pe durata unui secol, ar nceta s mai aib aureola unui diamant nchis nrafturile bibliotecilor academice i ar deveni un produs de larg consum, consultat nunumai n arci oriunde n lume, aadar deschis tuturor vorbitorilor i cercettorilor delimbromneascde pe glob. Limba romnar avea enorm de ctigat.

    O tehnologie asemntoare celei descrise mai sus a fost aplicat cu succes lacrearea seriei de dicionare Collins COBUILD (Sinclair, 1987). Implementarea ei varezulta nu numai n achiziionarea i exploatarea DILR, dar, continuat, aceastdirecie va face posibildezvoltarea automatde noi dicionare care s inpasul cuevoluia limbii i care srspundanumitor cerine sociale sau ale pieei.

    4.2 Instrumente pentru prelucrri lingvistice asupra limbii romne

    Dei n arsunt mai multe centre n care se dezvoltcercetri de TLU cu aplicaiila limba romn, iar abordri disparate se cunosc i n afara rii36, n cele ce urmeaz

    34http://atilf.atilf.fr35Dicionarul n 16 volume a limbii franceze secolelor 19 i 20, publicat de Editura Gallimard,cuprinznd 100.000 de cuvinte, 270.000 de definiii, 430.000 de exemple ntr-un total de 350 milioanede caractere. Transpunerea electronica TLF s-a realizat ntre anii 1993 i 2002 laInstitut National dela Langue Franaise.36Cu precdere n colectivele strine n care activeazcercettori romni, cteva exemple fiindLaboratorul de LingvisticComputaionalde la Universitatea din Wolverhampton, de la Universitateadin Sheffield, DFKI Saarbruecken, Universitile din Dallas etc.

  • 7/24/2019 Cristea Prelegeri

    20/23

    20

    am s m refer numai la cteva dintre realizrile de prelucrare a limbajului scris ncadrul colectivelor de la ICIA, FII-UAIC i IITI.

    Dintre instrumentele de prelucrare la nivel sub-sintactic realizate la ICIA amintim:etichetatorul la pri de vorbire (POS-tagger), care lucreaz ghidat de un algoritmoriginal (tier-tagging, Tufii Dragomirescu, 2004) i care, cu precizia sa de 98,5%,realizeaz una dintre cele mai nalte performane actuale la nivel mondial,

    segmentatorul la uniti lexicale, i segmentatorul la grupuri nominale (chunker).Pentru prelucrri sintactice al fost realizate mai multe parsere (Gulliver, CKY). Celemai noi creaii se orienteaz n jurul prelucrrii corpusurilor adnotate mono imultilingv. n aceastcategorie putem aminti un instrument de generare a modelelorde limbdin corpusuri monolingve sau bilingve, un adnotator/generator de corpus nformat CES-ANA37, un extractor de echivaleni de traducere i un aliniator lexical launiti lexicale (cuvinte) n context multilingv. Cu acest instrument s-au realizatalinieri la nivel de cuvnt pe corpusuri paralele n limbile englez, ceh, ungar,

    bulgar, estonian, sloven, turc, greac, srbi romn. Produsul a obinut cel maibun scor la competiia de aliniere ntre romni englezde la Edmonton, n cadrulACL-2003. Alte aplicaii au vizat realizarea de interfee grafice interactive pentruachiziionarea wordnetului romnesc prin combinarea mai multor resurse (DEX,

    Dicionarul de Sinonime, dicionar bilingv englez-romn, PWN etc.) ca i instrumentede validare a wordneturilor n context multilingv (Ion i Tufi, 2004).

    La FII-UAIC cercetrile se desfoar n colective mixte de profesori i studeni.Dintre cele mai importante realizri amintim: n domeniul morfologieicomputaionale, construirea unei interfee de nvare automat a paradigmelor deflexionare, cu ajutorul creia s-a creat o colecie de paradigme pentru limba romn(Cosman, 2001), care va fi dezvoltat pn la acoperirea complet a morfologieiromneti; la nivelul discursului, s-au realizat o seamde instrumente de segmentarela uniti de discurs, att prin ncrcarea cu o colecie de reguli simbolice dezvoltatemanual (Pucau, 2001), ct i prin colectarea unei colecii de reguli nvate automatdin corpusuri adnotate corespunztor (Pistol, 2003), prin aplicarea teoriei nervurilor(Cristea et al, 1998) s-au realizat mai multe sumarizatoare focalizate pe entiti dediscurs (Postolache, 2001), ca i un parser de discurs care primete n intrare text igenereaz o structur apropiat de RST din care se pot genera automat rezumatefocalizate (Cristea et al., 2005); o zon de cercetri activ o constituie rezoluiaanaforelor, domeniu n care s-a dezvoltat un model cadru de realizare a modelelor derezoluie (Cristea i Dima, 2001) i s-a realizat un motor general de rezolvare areferinelor anaforice care poate fi aplicat la orice limb(Cristea et al, 2002; Cristea iPostolache, 2005); n domeniul lexicologiei computaionale s-a realizat un program degsire n corpus a ocurenelor i coligaiilor bazat pe definirea unor restriciicontextuale asupra contextelor (Rschip, 2003), care poate fi extrem de util nactivitatea de inventariere a exemplelor pentru realizarea de dicionare tezaur; naceeai arie se nscriu i cercetrile orientate spre achiziionarea DLR n format

    electronic, care au fost deja amintite (Tnsescu, 2003; Hricu, 2003); n colaborarecu IITI, n domeniul aplicaiilor adresate corpusurilor lingvistice se nscrie ipropunerea unui model teoretic de definire i manipulare a schemelor de adnotareintegrate n ierarhii, dublatde o realizare practiccapabilsextragsubscheme sauscombine scheme (Butnariu, 2004; Cristea, Butnariu, 2004).

    n privina activitilor de nvmnt orientate domeniului TLU, trebuiemenionat seria colilor de VarEurolan, care se desfoar n Romnia ncepnd

    37http://www.cs.vassar.edu/CES/

  • 7/24/2019 Cristea Prelegeri

    21/23

    21

    din 1993 i care ajunge n vara acestui an la a aptea ediie, ct i masteratul nLingvistic Computaional, nfiinat n 2001 la FII-UAIC, cu scopul de a pregtispecialiti lingviti-informaticieni pentru cercetare i industrie.

    Bibliografie

    Berners-Lee, T., Hendler, J. i Lassila, O. (2001): The Semantic Web. A new formof Web content that is meaningful to computers will unleash a revolution of new

    possibilities, n Scientific American, May.Butnariu, C. (2004): Model de reprezentare ierarhic a schemelor de adnotare,

    lucrare de licen, Facultatea de Informatica Universitii Al.I.Cuza din Iai.Carpenter, B. (1992): The Logic of Typed Feature Structures, volume 32 of

    Cambridge Tracts in Theoretical Computer Science. Cambridge University Press.Cornilescu, A. (2004) The distribution of APs, The Adjectival Phrase inside the

    DP, http://www.linguist.jussieu.fr/~mardale/ADJc.docCosman, C. (2001): Morfologia paradigmatic aplicat limbii romne. Mediu de

    dezvoltare/actualizare, lucrare de disertaie, Facultatea de Informatica UniversitiiAl.I.Cuza din Iai.

    Cristea,D. (2000): An Incremental Discourse Parser Architecture, n D.Christodoulakis (Ed.) Proceedings of the Second International Conference - Natural

    Language Processing - NLP 2000, Patras, Greece, June 2000. Lecture Notes inArtificial Intelligence 1835, Springer.

    Cristea, D., Butnariu C. (2004): Hierarchical XML representation for heavilyannotated corpora. InProceedings of the LREC 2004 Workshop on XML-Based Richly

    Annotated Corpora, Lisbon, Portugal.Cristea,D., Dima,G.E. (2001): An integrating framework for anaphora resolution.

    n Information Science and Technology, Romanian Academy Publishing House,Bucharest, vol. 4, no. 3-4, p 273-291. Lucrare distinsn decembrie 2003 cu PremiulAcademiei Romne pentru secia Tehnologia Informaiei pentru anul 2001.

    Cristea,D.; Ide,N.; Romary,L. (1998): Veins Theory. An Approach to GlobalCohesion and Coherence. InProceedings of Coling/ACL 98, Montreal.

    Cristea,D.; Postolache,O.D. (2005): How to deal with wicked anaphora. n AntnioBranco, Tony McEnery and Ruslan Mitkov (editori): Anaphora Processing:

    Linguistic, Cognitive and Computational Modelling, Benjamin Publishing Books.Cristea,D., Postolache,O.-D., Dima,G.E., Barbu,C. (2002): AR-Engine a

    framework for unrestricted co-reference resolution. n Proceedings of The ThirdInternational Conference on Language Resources and Evaluation, LREC-2002, LasPalmas, Spain.

    Cristea, D., Postolache, O. , Pistol, I. (2005): Summarisation through DiscourseStructure, n curs de publicare n Proceedings of CiCling 2005, Springer LNSC, vol.3406.

    Cristea, D., Postolache, O., Pucau, G., Ghetu, L. (2003): Local and globalinformation exploited in producing summaries. In Proceedings of the InternationalSymposium on Reference Resolution and Its Aplications to Question Answering and

    Summarization, Venice, Italy, June 2003.Cristea, D., Webber, B. (1997): Expectations in Incremental Discourse Processing,

    Proceedings of ACL, Madrid.Dutoit, T., Stylianou, Y. (2004): Text-to-speech synthesys, n Ruslan Mitkov (ed.)

    The Oxford Handbook of Computational Linguistics, Oxford University Press.Fellbaum, C. (1998): WordNet: An Electronic Lexical Database. MIT Press.

  • 7/24/2019 Cristea Prelegeri

    22/23

    22

    Frege, G. (1892): ber sinn und bedeutung (translated as `on sense and reference').n Geach and Black, editors, Translations from the Philosophical Writings of GottlobFrege. Blackwell, Oxford, translation 1960.

    Grosz, B.J., Joshi, A.K., Weinstein, S. (1995): Centering: A Framework forModeling the Local Coherence of Discourse. Computational Linguistics,12(2), 203-225.

    Hricu A. (2004): Mediu lexicografic pentru prelucrarea Dicionarului LimbiiRomne, lucrare de licen, Facultatea de Informatica Universitii Al.I.Cuza dinIai.

    Ion, R. i Tufi, D. (2004): Multilingual Word Sence Disambiguation UsingAligned Wordnets, n Romanian Journal on Science and Technology of Information,Romanian Academy, Bucharest, Romania, vol. 7, no. 1-2, special issue on theBalkanet project, July.

    Kwong, O.I. (2001) Word Sense Disambiguation with an Integrated LexicalResource, in Proceedings of the NAACL 2001 Workshop on WordNet and Other

    Lexical Resources, Pittsburgh, PennsylvaniaLamel, L., Gauvain,J.-L. (2003): Speech recognition, n Ruslan Mitkov (ed.) The

    Oxford Handbook of Computational Linguistics, Oxford University Press.

    Marcu, D. (2000): The Theory and Practice of Discourse Parsing andSummarization. The MIT Press.

    Mann, W.C. i Thompson S.A. (1988): Rhetorical structure theory: A theory oftext organization, Text, 8:3, 243-281.

    Montague, R. (1973): The proper treatment of quantification in english. In K.J.J. etal. Hintikka, editor, Approaches to Natural Language, pages 221--242. D. Reidel,Dordrecht.

    Nastase V., Szpakowicz S. (2001) Word Sense Disambiguation in Roget'sThesaurus Using WordNet, inProceedings of NAACL-2001, Pittsburgh, PA.

    Pistol, I. (2003): Segmentarea automata discursului, lucrare de licen, Facultateade Informatica Universitii Al.I.Cuza din Iai.

    Poesio, M, Stevenson, R, di Eugenio, B. i Janet Hitzeman (2004): Centering: AParametric theory and its instantiations. Computational Linguistics, v. 30, n. 3.

    Polanyi, L. (1985): A Theory of Discourse Structure and Discourse Coherence. nEllfort, W. 258 H., Kroeber, P. D. and Peterson, K. L. (eds.) Papers from the GeneralSession at the Twentl-First Regional Meeting of the Chicago Linguistics Society,Chicago, April 25-27.

    Postolache, O. (2001): Rezumare automat, lucrare de licen, Facultatea deInformatica Universitii Al.I.Cuza din Iai.

    Pucau, G. (2001): Depistarea automata unitilor de discurs. lucrare de licen,Facultatea de Informatica Universitii Al.I.Cuza din Iai.

    Rschip, M. (2003): Coligator, lucrare de licen, Facultatea de Informatic aUniversitii Al.I.Cuza din Iai.

    Sinclair, J. (1987): Looking Up. Collins ELT, London & Glasgow.Sinclair, J., Ball, J. (1995): Text typology (Expernal Criterioa). Draft version,electronic document on the Pisa EAGLES ftp server, Birmingham.

    Tnsescu V.I. (2004): Alinierea resurselor lingvistice n format electronic, lucrarede licen, Facultatea de Informatica Universitii Al.I.Cuza din Iai.

    Teubert, W. (1997): Language Resources and Language Technology, in Dan Tufisand Poul Andersen (eds): Recent Advances in Romanian Language Technology,Editura Academiei Romne.

  • 7/24/2019 Cristea Prelegeri

    23/23

    Tufis, D., Barbu, E., Barbu-Mititelu V., Ion, R., Bozianu, L. (2004a): TheRomanian Wordnet. In Romanian Journal on Science and Technology of Information,Romanian Academy, Bucharest, Romania, vol. 7, no. 1-2, special issue on theBalkanet project, July.

    Tufi, D., Cristea, D. (2002): Methodological issues in building the RomanianWordnet and consistency checks in Balkanet, n Proceedings of the Workshop on

    Wordnet Structures and Standardization, and how these affect Wordnet Applicationsand Evaluation, workshop in conjunction with The Third International Conference onLanguage Resources and Evaluation, LREC-2002, Las Palmas, Spain.

    Tufis, D., Cristea, D., Stamou, S. (2004b): BalkaNet: Aims, Methods, Results andPerspectives. A General Overview, n Romanian Journal on Science and Technologyof Information, Romanian Academy, Bucharest, Romania, vol. 7, no. 1-2, specialissue on the Balkanet project, July.

    Dan Tufis, Liviu Dragomirescu (2004): Tiered Tagging Revisited. n Proceedingsof the 4th LREC Conference, Lisabona.

    Vossen P. (Ed.) (1998). EuroWordNet: A Multilingual Database with LexicalSemantic Networks, Kluwer Academic publishers, Dordrecht.