39
Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi

Semantisk opmærkning

  • Upload
    marcy

  • View
    61

  • Download
    2

Embed Size (px)

DESCRIPTION

Semantisk opmærkning. Bolette Sandford Pedersen Center for Sprogteknologi. Indhold. semantisk opmærkning af tekstkorpus (opmærkningssprog: xml - projekt: Senseval ) semantiske ordbøger beskrevet med opmærkningssprog (opmærkningssprog: sgml - projekt: SIMPLE ) - PowerPoint PPT Presentation

Citation preview

Page 1: Semantisk opmærkning

Semantisk opmærkning

Bolette Sandford PedersenCenter for Sprogteknologi

Page 2: Semantisk opmærkning

Indhold

semantisk opmærkning af tekstkorpus (opmærkningssprog: xml - projekt: Senseval) semantiske ordbøger beskrevet med

opmærkningssprog (opmærkningssprog: sgml - projekt: SIMPLE) Eksempel på anvendelse af semantisk

opmærkning i applikation: Indholdsbaseret søgning (projekt: OntoQuery)

Page 3: Semantisk opmærkning

Semantisk opmærkning af tekstkorpus: Senseval Formål: at opbygge semantisk opmærkede

korpora på forskellige sprog: Gold Standards

Hvorfor: for at muliggøre test af værktøjer til entydiggørelse af flertydige ord på de samme tekster

Projektstatus: verdensomspændende ufinansieret projekt hvor man deltager på frivillig basis; der igangsættes løbende ’konkurrencer’

Page 4: Semantisk opmærkning

Senseval

Initiativtagere: Scott Cotton, University of PennsylvaniaPhil Edmonds, Sharp Laboratories of EuropeAdam Kilgarriff, ITRI, University of BrightonMartha Palmer, University of Pennsylvaniaweb-site:

http://www.sle.sharp.co.uk/senseval2/

Page 5: Semantisk opmærkning

Fælles referenceramme: XML Projekthjemmeside hvor alle krav er

specificeret Document type definition (dtd)tilgængelig på nettet eksempler på de filer der skal genereres

på hvert sprog krav for deltagelse: producer disse filer i

parset format for eget sprog og få dem oploadet på hjemmesiden inden deadline

Page 6: Semantisk opmærkning

Dansk deltagelse i Senseval Center for Sprogteknologi Institut for Datalingvistik, Handelshøjskolen i København

Vi afsluttede opmærkningen i 2001Data er (endnu) ikke blevet anvendt til entydiggørelse, men

korpus er tilgengængeligt på http://cst.ku.dk/senseval/index.html

Steder hvor der arbejdes med automatisk entydiggørelse: http://ilk.kub.nl/ (Tilburg)http://trec.nist.gov/pubs/trec10/t10_sysdes/insightsoft/

insight.htmlhttp://svenska.gu.se/%7Esvedk/software.html)

Page 7: Semantisk opmærkning

Dansk deltagelse i Senseval

Det danske trænings- og evalueringsmateriale indbefatter betydningsopmærkede

korpuseksempler for 100 flertydige ord på dansk, heraf

50 substantiver, 25 adjektiver 25 verber. For hvert ord er der betydningsopmærket

gennemsnitligt 150 eksempler - afhængigt af hvor flertydigt ordet er.

Page 8: Semantisk opmærkning

Beregningsfaktor hvis et ord har n betydninger i en

’mellemstørrelsesordbog’ (Nudansk) så undersøg 100 + 15n korpuseksempler med dette ord (f.eks. 120 eksempler for et ord med 3 betydninger)

f.eks. røre: 8 betydninger i Nudansk Ordbog giver 100 + 120 = 220 korpuseksempler, underbetydninger og idiomatiske udtryk tælles med

Page 9: Semantisk opmærkning

Semantiske ordbøger beskrevet med opmærkningssprog vi taler her om sprogteknologiske

ordbøger som har computeren som primær bruger (men naturligvis mennesker som sekundære brugere)

skal udformes i et formelt sprog opmærkningssprog som sgml og xml er

velegnede hertil fælles referenceramme for den

semantiske ordbog: sgml

Page 10: Semantisk opmærkning

Om SIMPLE

SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000

Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica)

10.000 betydninger for hvert sprog på basis af en fælles ontologi, SIMPLE-

ontologien (Lenci et al. 2001)

Page 11: Semantisk opmærkning

Hvorfor skal der være semantik i en sprogteknologisk ordbog ?Niveau 1: f.eks. maskinoversættelse kræver

at maskinen kan entydiggøre ord som kan betyde flere ting:

Kosten var velsmagende

tiden går

Page 12: Semantisk opmærkning

Semantik

Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord:Søgeudtryk: støtte til solvarmeFinde tekster med: tilskud til energibesparende foranstaltning

støtte og tilskud er synonymersolvarme er underbegreb til energibesparende foranstaltning

Page 13: Semantisk opmærkning

Semantik

Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog:

Hans dansede med sin borddame

For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

Page 14: Semantisk opmærkning

Hvor står semantikken i almindelige ordbøger?

NUDANSK ORDBOG:PuslespilORDKLASSE: subst.

BØJNING: puslespillet, plur. puslespil, puslespilleneBETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleEKSEMPEL: lægge puslespil på 2.000 brikkerSAMMENSÆTNING: puslespilsbrik

Page 15: Semantisk opmærkning

puslespil som flerdimensionel type

et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleoverbegreb dele formål oprindelse

spil træbrikker samles til et hele udskære

papbrikker

puslespil

Page 16: Semantisk opmærkning

En ordbogsindgang med semantik Semantic Unit puslespil

Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO)

Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske

Ontological type:Artifact

Unification Path Concrete_Entity|Agentive|Telic

Domain: General

Formal quale: is_a = spil

Agentive quale: created_by = udskære

Telic quale: used_for = samle til et hele

Constitutive quale:has_as_parts=træbrikker OR papbrikker

Page 17: Semantisk opmærkning

Eksempel på anvendelse af semantisk opmærkning i applikation

Indholdsbaseret søgning er en applikationstype hvor sprogteknologi har en funktion

Page 18: Semantisk opmærkning

Problemer ved informationssøgning - kort fortalt

for mange informationer: ord kan betyde flere ting; de er flertydige ca. 23 % af alle ord der søges på er flertydige; ca. 10% af alle navne der søges på er

flertydige) Torkildsen, Holen og Johannessen 2000

for få informationer: vi har flere ord for de samme begreber,

synonymer og synonyme udtryk

Page 19: Semantisk opmærkning

Problemer ved informationssøgning

vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant

vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen

begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

Page 20: Semantisk opmærkning

Sproglig viden til informationssøgning

sproglige problemer på basisniveau vi har mere eller mindre den sproglige viden

- også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer

sproglige problemer der kræver mere indholdsmæssig viden

de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

Page 21: Semantisk opmærkning

Sproglige problemer på basisniveau

ordene kan antage flere former orlovsordninger, orlovsordningen,

orlovsordningernereduktion til grundformer (lemmatisering)

kan afhjælpe dette problem simpel flertydighed: ordene kan tilhøre

forskellige ordklasserklager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemetefter tagging: klager/N over/PRÆP læger/N

Page 22: Semantisk opmærkning

Sproglige problemer der kræver mere indholdsmæssig viden

flertydighed inden for samme ordklassevitaminrig kost/ fejekost - madflere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: domæneviden hvis vi kender domænet, kan vi vælge viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge

kost og sygdomme

klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N

begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

sproglige problemer på basisniveau sproglige problemer der kræver indholdsmæssig viden

Page 23: Semantisk opmærkning

Sproglige problemer der kræver mere indholdsmæssig viden

synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater

forældreorlov - børnepasningsorlovstøtte - tilskud / computer - datamat /

diabetes - sukkersyge

anvendelse af synonymiordbog kan afhjælpe problemet

Page 24: Semantisk opmærkning

Ontologisk viden

underbegreber kan være relevantevitaminer har_som_underbegreber

k-vitamin, c-vitamin, d-vitamin, thiamin

overbegreber kan være relevante solvarme har_som_overbegreb

energibevarende foranstaltning

Page 25: Semantisk opmærkning

Ontologisk viden er central

ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold

den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet:

søgeudtryk: sygdomtekst1: sygdom tekst2: kræft tekst3: lungekræft

Page 26: Semantisk opmærkning

Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml.

søgeordene men ikke på relationerneforespørgsel: hvilke sygdomme har at gøre med

mangel på vitamin i kosten ?googlesvar: alkoholforbrug og mangel på

fysisk aktivitet ... hvordan kosten er sammensat

kilde: Paggio, Pedersen & Haltrup (forthcoming)

Page 27: Semantisk opmærkning

SIMPLEs anvendelse i indholdsbaseret søgning

OntoQuery: Ontology-based QueryingEt dansk samarbejdsprojekt 1999-2004Partnere:

Roskilde Universitet

Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

Page 28: Semantisk opmærkning

Formålet med OntoQuery- projektet

At udvikle en metode til indholdsbaseret søgning at gå videre end mønstergenkendelse ved at lave en

‘rå’ lingvistisk analyse på baggrund af en ontologi der produceres en ‘rå’ semantisk analyse af tekst og

af forespørgsel søgning foregår ved at sammenligne beskrivelser og

finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

Page 29: Semantisk opmærkning

SystemOverview

Description Generator

Textfragment

Query

Lexicons

Ontology

Linguistic Analysis

Mapping to description

Text database

Query Engine

OntoLog descriptions

Page 30: Semantisk opmærkning

Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. materialkanin

kød mad

Substance Food Food

Telic Top Concrete entity Entity

Top

Page 31: Semantisk opmærkning

Ernæringsontologien lavet på baggrund af Den Store Danske

Encyklopædi enkelte knuder er etableret for at strukturere

ontologien,f.eks. stof-i-krop ernæringsontologien er organiseret under 2

forskellige knuder i SIMPLE-ontologien

Page 32: Semantisk opmærkning

Eksempel fra ernæringsontologien A-vitamin

fedtopløseligt vitamin vitamin

mikronæringsstofnæringsstof

Natural SubstanceSubstance

Concrete entity

Entity Top

Page 33: Semantisk opmærkning

Anvendelse af ontologien:analyse af tekst og forespørgslerTekster og forespørgsler (NP’er) analyseres

mangel på vitaminer i kosten

(mangel x (WRT: vitamin) x (LOC: diet))

Page 34: Semantisk opmærkning

Opmærkning af teksterne

Der bygges begrebsrepræsentationer på basis af: POS-tagging NP-genkendelse semantisk opnmærkning

Page 35: Semantisk opmærkning

Lingvistiske komponenter

POS-Tagger

NP recogniser

NP parser

Hvilke sygdomme har at gøre med mangel på vitaminer i kosten?

hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN

[NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten].

P

Sem:

... NP

N

N

NP

PP

PP

CONCEPT mangel

REL wrt REL loc

ARG vitamin ARG kost

Mapping to Descriptions

(mangel x (WRT: vitamin) x (LOC: kost))

Page 36: Semantisk opmærkning

Test af 1. prototype

O n t o Q u e r y P r o t o t y p e N e w q u e r y

T a g g e r fi n a l s t a t e : f e d t d e p o t e r / N h o s / P R Æ P b ø r n / NN P - r e c o g n i z e r :[ N P [ N f e d t d e p o t e r ] ] [ P R Æ P h o s ] [ N P [ N b ø r n ] ]Q u e r y : f e d t d e p o t e r h o s b ø r n( f e d t d e p o t ) , ( b a r n )T a g g e r , N P a n d m o r f o l o g y : 0 . 2 9 0 0 0 0 s e cQ u e r y e x p a n s i o n : 0 . 0 3 0 0 0 0 s e cQ u e r y e v a l u a t i o n : 0 . 0 2 0 0 0 0 s e cQ u e r y p r o c e s s i n g t o t a l l y : 0 . 3 4 0 0 0 0 s e c

0 . 9 5 b ø r n e e r n æ r i n g : M a n g e s p æ d b ø r n e r b u t t e d em e d s t o r e f e d t d e p o t e r , m e n m i s t e r d e m , f ø r d e e r 2 -3 å r g a m l e .( å r ) , ( m a n g e , s p æ d b a r n ) , ( s t o r , f e d t d e p o t )

N e w q u e r y

Page 37: Semantisk opmærkning

Test af 1. prototype

Query Sets of derived concepts1. hvad har sygdomme med vitaminer atgøre ? (what have diseases got to dowith vitamins ?)

(sygdom), (vitamin)(disease), (vitamin)

2. hvordan relatererhormonforstyrrelser sig til andresygdomme ? (how do hormonedisturbances relate to other diseases ?)

(hormonforstyrrelse), (sygdom)(hormone disturbance), (disease)

3. er der b-vitaminer i kornprodukter ?(is there vitamin B in corn products ?)

(b-vitamin), (kornprodukt)(vitamin B), (corn product)

4. sygdomme der følger af ensidig kostog har at gøre med tryptofan (diseasesfollowing from an unbalanced diet andrelated to tryptofan)

(sygdom), (ensidig kost), (tryptofan)(disease), (unbalanced diet),(tryptofan)

Page 38: Semantisk opmærkning

Test af 1. prototypeQuerynumber

matching concepts in text assigned score number ofretrieved texts

1 (sygdom), (vitamin)(disease), (vitamin)(sygdom), (B-vitamin)(disease),(vitamin B)(anæmi),(vitamin)(anemia), (vitamin)(mangelsygdom), (vitamin)(deficiency disease), (vitamin)(beriberi), (B-vitamin)(beri-beri), (vitamin B)(vitamin)(vitamin)(sygdom)(disease)(følgesygdom)(complication)...

1.00

0.95

0.95

0.95

0.90

0.50

0.50

0.45

...

2

1

1

2

1

22

23

5

2 (hormonforstyrrelse), (kræft)(hormone disturbance),(cancer)(sygdom)(disease)(mangelsygdom)(deficiency disease)...

0.95

0.50

0.45...

1

23

8

Page 39: Semantisk opmærkning

OntoQuerys hypotese:

Hvis vi kan identificere den semantiske relation der

holder mellem 2 begreber kan vi prioritere gode

hits bedre og vi kan genkende det samme eller

lignende begreber i forskellig forklædning, f.eks.

overvægtige børn, børn med overvægt, fede børn

børn med fedmeproblemer, børn der har

fedmeproblemer