Click here to load reader
Upload
zoltan-varju
View
985
Download
1
Embed Size (px)
Citation preview
Bemutatkozás• Pázmány Péter Katolikus Egyetem Információs
Technológiai és Bionikai Kar• Nyelvtechnológiai Labor:
– PPKE ITK Nyelvtechnológiai Csoport– MTA-PPKE Magyar
Nyelvtechnológiai Kutatócsoport
• Vezető: Prószéky Gábor• 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti-
Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton)
• Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés
Kutatási területek
• Morfológiai elemzés és egyértelműsítés• Szintaktikai és szemantikai elemzés• Orvosi szövegek feldolgozása• Helyesírási hibák automatikus javítása• Statisztikai gépi fordítás és alkalmazásai
Projektek
• Információkinyerés klinikai szövegekből• Magyar nyelvi elemző• PurePos: nyílt forrású morfológiai elemző
és egyértelműsítő• (…)
Információkinyerés klinikai szövegekből
• Kezelőlapok, zárójelentések stb.
– strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb.
• Feldolgozás: domain-adaptáció– Szegmentálás, tokenizálás: szabályok, gépi tanulás– Helyesírási hibák automatikus javítása: javaslat-
generálás + SMT rendszer– Rövidítésfelismerés és –feloldás: szabályok, lexikon
• Információkinyerés– Ontológiaépítés, adatbányászat, döntéstámogatás stb.
Magyar nyelvi elemző (2012-2016)
• Mély nyelvi elemzés, teljes szintaxis, szemantika– Pszicholingvisztikai indíttatás: emberi feldolgozás!– Performancia alapú, “rosszulformáltság” is OK– Szigorúan balról jobbra elemzés– Párhuzamos szintek (vs. kaszkád modell)– Mondathatárokon átívelő diskurzusegységek– Gráfreprezentáció: szintaktikai és szemantikai szerepek
• Erőforrások– Korpuszépítés: 1G szó, magyar web, folyamatos update– Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret– Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel
• Példaalkalmazás: üzleti rövidhírek elemzése– Automatikus “szövegértés”: ki, mit, hol, mikor?
Morfológiai elemzés, egyértelműsítés
• PurePos– Statisztikai egyértelműsítő (PoS-tagger)
• TnT implementáció (HMM)• Tanítás: Szeged Korpusz
– Humor morfológiai elemző, szótövesítő– Guesser
• Java, Python API• Nyílt forrású (LGPL)
https://github.com/ppke-nlpg
Köszönjük a figyelmet!
http://nlpg.itk.ppke.hu/
Kód: http://github.com/ppke-nlpg