ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko
web-bilatzailea
Xabier Saralegi eta Maddalen Lopez de LacalleElhuyar I+G taldea
ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko
web-bilatzailea
• Motibazioa• CLIRen beharra• CLIRen erronkak• ZientziaAnitz-en arkitektura• ZientziaAnitz-en teknologia• Ebaluazioa• Ondorioak eta etorkizuneko lanak
ZientziaAnitz: Motibazioa
• Interneten Zientzia eta teknologiako albiste asko baina sakabanatuta
• Ingelesa nagusi baina ez esparru guztietan (Adib. dibulgazioa)
• Erabiltzaile euskaldunak ama hizkuntzan bilatu nahi du
• Honen gainean dagoen teknologia nagusia: CLIR (Cross-lingual information retrieval)
ZientziaAnitz: CLIRen beharra
• Ezagutza partekatzea hizkuntzaren muga gaindituz
• Lingua franca ↔ ama hizkuntza• Bilaketa bakarrean hainbat hizkuntzatako
emaitzak• Bilaketaren emaitza eleaniztunak
antolatzea
ZientziaAnitz: CLIRen erronkak
• Dokumentu esanguratsuak berreskuratzea (IR)–Eredu aljebraikoak (tf-idf), probabilistikoak
(Okapi,Hizkuntza-Ereduak,Indri...)
• Itzulpena: galderak vs edukiak–Galderak laburrak itzulpen-desanbiguazioa →
zaila–Edukiak luzeak itzulpena motela→
–Galdera eta edukiak itzuliz emaitzarik onenak
ZientziaAnitz: CLIRen erronkak
• Itzulpena: MT (Machine Translation) vs MRD (Machine Readable Dictionaries)–MT hizkuntza bikote gutxirako–MT garestiak–Bilaketa/kontsulta asko sintaxirik gabekoak →
MRDa egokiagoa–MRDn itzulpen anbiguoak
ZientziaAnitz: CLIRen erronkak• Itzulpen arazoak:
– Anbiguotasuna (MRD): corpus paraleloak, helburu-hizkuntzako corpusak, syn operadorea• Corpus paraleloak: Itzulpen probabilitateak. Adib.
p(cosecha|uzta)p(cosecha|uzta)>>p(resultado|uzta)p(resultado|uzta)• Helburu-hizkuntzako corpusak: Hautagai-
konbinazioen probabilitateak. Adib. Ozeano bare p(océano,pacífico)>p(océano,tranquilo)
• Syn operadorea: Estatistikak bateratu. Adib. Bioerregai abantaila #syn(biocombustible biocarburante ) #wsyn(ventaja beneficio)
– Out-Of-Vocabulary terminoak: kognatuen detekzioa• Adib. Antza kalkulatuz, LCSR(animali,
animal)>0,85
ZientziaAnitz-en arkitektura eta teknologia
• Web aplikazioa• Moduluak:
–Bilduma osatu:• Arakatzailea: RSS+Kimatu• Indexatzailea: Indri toolkit
–Galderak prozesatu:• Lematizatzailea: Eustagger• Galdera itzultzeko modulua• Berreskuratze-motorra: Indri
ZientziaAnitz-en arkitektura
ZientziaAnitz-en arkitektura
ZientziaAnitz: Arakatzailea
• RSS irakurgailua: RSS bitartez aurretik aukeratutako web-gunetako albiste berriak deskargatu
• Kimatu: Albisteak HTMLn: edukia markatu gabe->Boilerplate removal teknikak erabili behar dira (2. postua CLEANEVAL lehiaketan)
ZientziaAnitz: Arakatzailea
• Adibidea
ZientziaAnitz: Arakatzailea
• Albistearen testu zatiak
ZientziaAnitz: Arakatzailea
• Zarata
ZientziaAnitz-en arkitektura
ZientziaAnitz: Indexatzailea
• Indexatu: Dokumentuetako hitzen ezaugarriak datu-egitura konputagarrien bidez errepresentatu (hitzaren maiztasunak, posizioa, dokumentuaren luzera... )
• Ranking-algoritmoek informazio hau erabiliko dute dokumentu bakoitzarentzat esangura-maila kalkulatzeko
ZientziaAnitz-en arkitektura
ZientziaAnitz: Lematizatzailea
• Eustagger: Ixak garatutako lematizatzailea
• Gako-hitzak erauzi: Izenak, adjektiboak, aditzak eta adberbioak
Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak”/<Baleak>/<HAS_MAI>/ ("balea" IZE ARR DEK ABS NUMP MUGM )/<ehizatzea>/ ("ehizatu" ADI SIN AMM ADIZE DEK ABS NUMS MUGM )/<debekatuta>/ ("debekatu" ADI SIN AMM PART ERL MEN MOD)/<dagoen>/ ("egon" ADT A1 NR_HU ERL MEN ZHG)/<Antarktikako>/<HAS_MAI>/ ("Antarktika" IZE LIB PLU- DEK NUMS MUGM DEK GEL )/<erreserbak>/ ("erreserba" IZE ARR DEK ABS NUMP MUGM )
ZientziaAnitz-en arkitektura
ZientziaAnitz: Galdera itzuli
• MRD: Elhuyar hiztegiak (eu-es,eu-en)• Hitz ezezagunak (OOV): kognatuen
detekzioa• Itzulpen anbiguoak:
–Galdera egituratuak• Kontsultako hitz baten itzulpen-hautagai guztiak
multzokatu eta token bakarra bezala tratatzen dira. Pirkolaren metodoa (Pirkola, 1998)
–Konkurrentziak• Ideia nagusia: itzulpen egokien arteko elkartze-
maila beste itzulpenen artekoa baino handiagoa da. NP hard → Greedy algoritmoa (Monz eta Dorr, 2005)
ZientziaAnitz: Galdera itzuli
• Adibidea– Jatorrizko galdera (lemak): balea ehiza
debekatu erreserba Antarktika –Galdera egituratua:
• whale #syn(game hunting prey) #syn(forbid forbidden #1(stave off) prevent prohibit ) #syn(reservation reserve) antarctic
–konkurrentziak• whale hunting prohibit reserve antarctic
– game:0.732299 -- hunting:1 -- prey:0.690568
ZientziaAnitz-en arkitektura
ZientziaAnitz: Berreskurapena
• Bilaketa-motorra: Erabiltzailearen kontsultak prozesatzen dituena. Metodo baten araberako rankingean bueltatzen ditu galderarekin bat datozen dokumentuak. – Indri eredua
• Hizkuntza-ereduak eta inferentzia sareak konbinatzen ditu.
• Galdera egituratuak onartzen ditu
ZientziaAnitz: Demoa
Ebaluaketa
• Metodoak: syn (Pirkola), konkurrentziak (Monz and Dorr)
• CLEF bilduma eta galderak• MAP
–Kontsulta motzak• elebakarra: 0,3176 - hizkuntz artekoa: 0,2404
%76
–Kontsulta luzeak• elebakarra: 0,3778 - hizkuntz artekoa: 0,2960
%78
Ebaluaketa: Emaitzak
• (Saralegi and Lopez de Lacalle, 2009)Exekuzioa Motzak (MAP) Luzeak (MAP)
Elebakarra 0,3176 0,3778
Hiztegiko lehena 0,2118 0,2500
Galdera egituratua 0,2359 0,2960
konkurrentziak 0,2338 0,2725
Hibridoa 0,2371 0,2941
Hibridoa+Atalasea 0,2404 0,2920
Ondorioak eta etorkizuneko lanak
• Zientzia eta Teknologia alorrerako bilatzaile bat euskera integratzen duena
• Galdera egituratuak emaitzarik onena• Web zerbitzua laster kaleratzea• Beste hizkuntza batzuk integratzea• Itzulpen-prozesua hobetzea• Galderaren hedapena
Erreferentziak
• Christof Monz, Bonnie J. Dorr. Iterative Translation Disambiguation for Cross-Language Information Retrieval. (SIGIR 2005)
• Ari Pirkola. The Effects of Structured and Dictionary Setups in Dictionary-Based Cross-language Information Retrieval. (SIGIR 1998)
• Xabier Saralegi, Maddalen Lopez de Lacalle. Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection. (TIR 2009)