8

Click here to load reader

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Embed Size (px)

Citation preview

Page 1: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

PPKE ITK Nyelvtechnológiai Labor

http://nlpg.itk.ppke.hu/

Miháltz Márton <[email protected]>

Page 2: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Bemutatkozás• Pázmány Péter Katolikus Egyetem Információs

Technológiai és Bionikai Kar• Nyelvtechnológiai Labor:

– PPKE ITK Nyelvtechnológiai Csoport– MTA-PPKE Magyar

Nyelvtechnológiai Kutatócsoport

• Vezető: Prószéky Gábor• 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti-

Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton)

• Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés

Page 3: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Kutatási területek

• Morfológiai elemzés és egyértelműsítés• Szintaktikai és szemantikai elemzés• Orvosi szövegek feldolgozása• Helyesírási hibák automatikus javítása• Statisztikai gépi fordítás és alkalmazásai

Page 4: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Projektek

• Információkinyerés klinikai szövegekből• Magyar nyelvi elemző• PurePos: nyílt forrású morfológiai elemző

és egyértelműsítő• (…)

Page 5: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Információkinyerés klinikai szövegekből

• Kezelőlapok, zárójelentések stb.

– strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb.

• Feldolgozás: domain-adaptáció– Szegmentálás, tokenizálás: szabályok, gépi tanulás– Helyesírási hibák automatikus javítása: javaslat-

generálás + SMT rendszer– Rövidítésfelismerés és –feloldás: szabályok, lexikon

• Információkinyerés– Ontológiaépítés, adatbányászat, döntéstámogatás stb.

Page 6: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Magyar nyelvi elemző (2012-2016)

• Mély nyelvi elemzés, teljes szintaxis, szemantika– Pszicholingvisztikai indíttatás: emberi feldolgozás!– Performancia alapú, “rosszulformáltság” is OK– Szigorúan balról jobbra elemzés– Párhuzamos szintek (vs. kaszkád modell)– Mondathatárokon átívelő diskurzusegységek– Gráfreprezentáció: szintaktikai és szemantikai szerepek

• Erőforrások– Korpuszépítés: 1G szó, magyar web, folyamatos update– Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret– Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel

• Példaalkalmazás: üzleti rövidhírek elemzése– Automatikus “szövegértés”: ki, mit, hol, mikor?

Page 7: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Morfológiai elemzés, egyértelműsítés

• PurePos– Statisztikai egyértelműsítő (PoS-tagger)

• TnT implementáció (HMM)• Tanítás: Szeged Korpusz

– Humor morfológiai elemző, szótövesítő– Guesser

• Java, Python API• Nyílt forrású (LGPL)

https://github.com/ppke-nlpg

Page 8: MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

Köszönjük a figyelmet!

http://nlpg.itk.ppke.hu/

Kód: http://github.com/ppke-nlpg