21

A 4lang fogalmi sz[PleaseinsertPrerenderUnicode{ó ...hlt.sztaki.hu/resources/4lang/4lang_present.pdf · A 4lang fogalmi szótár Kornai András és Makrai Márton MTA SZTAKI Nyelvtechnológiai

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A 4lang fogalmi szótár

Kornai András és Makrai Márton

MTA SZTAKI Nyelvtechnológiai Kutatócsoport

MSZNY 2013.

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Áttekintés

Bevezetés

A de�níciók szintaxisa

A de�niáló szókincs jellemzése

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Más lexikai adatbázisokkal összehasonlítva

I szavak absztrakt jelentését formalizálja (monoszémia)I egyértelm¶sítés lehet®leg csak tiszta homonímia esetén

(state76 `állam', state77 `állapot')I szófajmentes szemantika

I fogalmak közötti kapcsolatokat rögzít, nem a világról valóismereteket

I többnyelv¶, lehet®leg nyelvfüggetlen

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Más lexikai adatbázisokkal összehasonlítva

I szavak absztrakt jelentését formalizálja (monoszémia)I egyértelm¶sítés lehet®leg csak tiszta homonímia esetén

(state76 `állam', state77 `állapot')I szófajmentes szemantika

I fogalmak közötti kapcsolatokat rögzít, nem a világról valóismereteket

I többnyelv¶, lehet®leg nyelvfüggetlen

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A tételek felépítése, több nyelv

102 átenged V pass concedo przepu±ci¢ : LET[DAT HAS ACC]id magyar POS angol latin lengyel de�níció

I 40 nyelvre való kiterjesztés folyamatban van

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A tételek felépítése, több nyelv

102 átenged V pass concedo przepu±ci¢ : LET[DAT HAS ACC]id magyar POS angol latin lengyel de�níció

I 40 nyelvre való kiterjesztés folyamatban van

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A tételek felépítése, több nyelv

102 átenged V pass concedo przepu±ci¢ : LET[DAT HAS ACC]id magyar POS angol latin lengyel de�níció

I 40 nyelvre való kiterjesztés folyamatban van

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Áttekintés

Bevezetés

A de�níciók szintaxisa

A de�niáló szókincs jellemzése

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

I egyváltozós predikátumok1474 lány N girl puella dziewczyna: female, child

112 acél N steel chalybs stal: metal, hard, strong

I kétváltozós predikátumok1656 mell N breast mamma pier±: two, organ, breast ON

chest, woman HAS breast

1233 kard N sword gladius miecz: weapon, sword HAS

blade[<long>,pointed], sword HAS edge

I mélyesetek102 átenged V pass concedo przepu±ci¢: NOM LET[DAT

HAS ACC]

2374 tesz V put pono kªa±¢: NOM CAUSE[ACC AT OBL],

NOM MOVE ACC, ACC[object]

I többargumentumúak visszavezetése kétargumentumúakra

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

I alapértelmezett (default)1614 medence N pool piscina basen: water IN, <swim>

IN, <play> IN

1724 mos V wash lavo myc1: CAUSE[ACC[clean]],

INSTRUMENT liquid, INSTRUMENT <soap>, INSTRUMENT rub

I �eseményszerkezet�: before[], after[]715 fagy N freeze gelu mróz: cold CAUSE,

before[liquid], after[solid,<ice>]

2616 vezet V guide rego prowadzi¢: CAUSE[ACC HAS

information], information ABOUT place1026, after[ACC AT

place1026]

I tagadás � az alapértelmezett®l való eltérés500 e1j N night nox noc: period, FOLLOW sunset,

sunrise FOLLOW, dark, lack(sun), <sleep AT>

931 gyerek N child puer/puella dziecko: person,

young, lack(responsible), parent MAKE

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Áttekintés

Bevezetés

A de�níciók szintaxisa

A de�niáló szókincs jellemzése

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Az alapszókincs

I a lexikográ�a régi problémája akörkörösség, valódi létezik

I a szótáraknál szokásos megoldás: de�niálószókincs (DV)

I Longman: 82 128 2 960I 4lang: 2 960 1 156I uroborosz tulajdonságú szóhalmaz

I maradnak primitívekI maradnak körökI hivatkozunk érzékletekre (függ®leges) és

az enciklopédia elemeire (baseball)I kötött morfémák (seventh)

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A de�níciós gráf

I csúcsok: fogalmak, 2 897 dbI irányított élek: `acél' → `fém', 7816 db

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A de�níciós gráf

I csúcsok: fogalmak, 2 897 dbI irányított élek: `acél' → `fém', 7816 db

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

I a szókincs súlyozása a de�níciókban való fontosság szerintI véletlen séta határeloszlásaI a véletlen séta határeloszlása egyértelm¶ ⇔ a gráf er®sen

összefügg®I egy u és egy v csúcs er®sen összefügg®, ha van u v és

v u útI ekvivalenciareláció, komponensei az er®sen összefügg®

komponensek

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A 4lang gráf er®sen összefügg® komponensei

méret db662 1 {yellow, four, sleep, under, lack, month. . . }12 1 {január, február, . . . , december}7 1 {hétf®, kedd, . . . , vasárnap}5 1 {furniture, chair, table, bed, cupboard}4 3 {queen, royal, monarch, king}, {cereal, �our,. . . }. . .3 8 {male, sex, female}, {calm, disturb, upset},. . .2 26 {exist, real}, {reason, cause}, {child, parent},. . .1 2302 {PART_OF}, {other}, {IS_A}, {number}, . . .

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Page Rank, csillapítás

I Page Rank: az átmenetmátrixot csillapítással (damping)

er®sen összefügg®vé tesszük

Md (i , j) =1− d

N+ dM(i , j)

ahol az M mátrix N × N-esI d ≈ 1 esetén a Page Rank közelíti az eredeti séta

határeloszlását

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

I terv: a Longman szótár 82 000 szavának lefordítása a miformalizmusunkba gépi tanulással

I http://hlt.sztaki.hu/resources/4lang/

I Laptopos bemutató: Mib®l lesz a robot MÁV-pénztáros? �Nemeskey Dávid, Recski Gábor, Zséder Attila

I Köszönöm a �gyelmet!

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

A fogalmak Page Rankje hatványeloszlást követ?

I p(x) ∝ x−α fennáll?I Clauset és tsai 2009I α = 1.9244I xmin = 2.4219 · 10−4

I Kolmogorov�Smirnov-statisztika: 0.5840 > 0.1, nem rosszI kellne még: likelihood-arány tesztek likelihood-ratio tests

Kornai András és Makrai Márton A 4lang fogalmi szótár

BevezetésA de�níciók szintaxisa

A de�niáló szókincs jellemzése

De�níciók bonyolultsága

I az átmenetmátrix legnagyobb jobboldali sajátértékéhez tartozósajátvektor koordinátái

0.22008937659358 mind0.1483881645837043 read0.1419981763311443 autumn0.1343248456669039 brain0.1340132834187455 feel0.1296319053350392 understand0.1256292901034924 remember0.1210243324308604 summer0.1199256807742143 sensible0.1130671228119619 spring2318

Kornai András és Makrai Márton A 4lang fogalmi szótár