42

onnen im T - uni-due.de

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: onnen im T - uni-due.de

p

4.1 Problemstellung

Repr�asentation von Textinhalten:

Problem: Konzepte aus der Anfrage k�onnen im Text aufunterschiedlichste Weise formuliert werden

L�osungsans�atze

� semantischer Ansatz:Zuordnung von Deskriptionen zu Texten! Dokumentationssprachen� Freitextsuche

{ informatischer Ansatz:Textretrieval als Zeichenkettensuche

{ computerlinguistischer Ansatz:i.w. Normalisierung von Wortformen

Page 2: onnen im T - uni-due.de

p

4.2.1 Allgemeine Eigenschaften

formulierungsunabh�angige Repr�asentation vonTextinhaltendurch Verwendung eines speziellen Vokabulars

4.2.2 Klassi�kationen

Strukturierung eines Wissensgebietes nach einemvorgegebenen formalen Schemaz.B. Dezimalklassi�kation: Baum der Ordnung 10

Page 3: onnen im T - uni-due.de

Monohierarchie | Polyhierarchie

ccc

###

ccc

###

����

�� PPPPPP

Steinobstbaum

Kirschbaum P�rsischbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

������

XXXXXXX

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Monodimensionalit�at | Polydimensionalit�atProblem: auf einer Stufe gibt es mehrere Kriterien, nachdenen eine weitere Aufteilung in Unterklassenvorgenommen werden kann

Page 4: onnen im T - uni-due.de

��

HHHBBBBBB

@@�������

������

Steinobstbaum

hochst�ammiger Obstbaum

halbst�ammiger Obstbaum

niederst�ammiger ObstbaumKernobstbaum

Abbildung 1: Polydimensionalit�at

Page 5: onnen im T - uni-due.de

EEEEEEEEEE

���������

@@

###

PPPPPP

������

nach Stammbildungnach Fruchtart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern-

obstbaum

Stein-

Abbildung 2: Aufgel�oste Polydimensionalit�at

Analytische vs. synthetische Klassi�kationanalytische Klassi�kation: top-down Vorgehensweise(wie oben)

synthetische Klassi�kation: bottom-up

1. Erhebung der Merkmale der zu klassi�zierendenObjekte und Zusammenstellung imKlassi�kationssystem

2. Bildung der Klassen durch Kombination derMerkmale

Facettenklassi�kation

Page 6: onnen im T - uni-due.de

Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochst�ammig C1 fr�uhA2 Birne B2 halbst�ammig C2 mittelA3 Kirsche B3 niederst�ammig C3 sp�atA4 P�rsischA5 P aume

A1B3C1 = niederst�ammiger Fr�uhapfelbaum

Regeln:

� Facetten m�ussen disjunkt sein� monodimensionale Unterteilung innerhalb einerFacette

Page 7: onnen im T - uni-due.de

Ursprung: Dewey Decimal Classi�cation (DDC),1876 von Melvil Dewey (USA) entwickelt

Universalklassi�kation zur Aufstellung von Buchbest�anden

Weiterentwickelt durch Paul Otlet und Henri Lafontaine(Belgien) zur Universellen Dezimalklassi�kation(DK)

Grundelemente der DK

� Hierarchisch gegliederten Klassen (130000)� Anh�angezahlen zur Facettierung� Sonderzeichen zur Verkn�upfung mehrerer DK-Zahlen

Hauptklassen der DK

0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angwandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik,Spiel, Sport

8 Sprachwissenschaft, Philologie, Sch�oneLiteratur, Literaturwissenschaft

9 Heimatkunde, Geographie, Biographien,Geschichte

Page 8: onnen im T - uni-due.de

Beispiel:

3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. B�orsenwesen336.76 B�orsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. E�ekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe

Page 9: onnen im T - uni-due.de

Anh�angezahlen: durch spezielle Zeichen eingeleitet

allgemeine Anh�angezahlen: Facetten, die �uberall in derDK verwendet werden d�urfenZeichenfolgen/Facetten:

= Sprache(0...) Form(...) Ort

(=...) Rassen und V�olker

"...\ Zeit.00 Gesichtspunkt-05 Person

spezielle Anh�angezahlen: nur f�ur bestimmte Klasseninnerhalb der DK erlaubt

Verkn�upfung von DK-Zahlenspezielle Sonderzeichen zur Verkn�upfung von DK-Zahlen:

+ Aufz�ahlung mehrerer Sachverhalte: symmetrische Beziehung zwischen zweiSachverhalten (umkehrbar)

:: asymmetrische Beziehung zwischen zweiSachverhalten

/ Erstreckungszeichen (zur Zusammenfassungmehrerer nebeneinanderstehender DK-Zahlen)

' Zusamenfassungszeichen zur Bildung neuerSachverhalte aus der Kombination einzelnerDK-Komponenten

Page 10: onnen im T - uni-due.de

Klassi�kation in der Zeitschrift ACM Computing Reviews,liegt auch der Datenbank Compuscience zugrunde

Elemente:

� general terms: vorgegebene Menge vonallgemeinen Begri�en� classi�cation codes: dreistu�ge monohierarchischeKlassi�kation

� subject headings: vorgegebene Menge vonnat�urlichsprachliche Bezeichnungen f�ur jede einzelneKlasse, die diese weiter di�erenzieren; au�erdem alleEigennamen� free terms: zus�atzliche, frei w�ahlbare Stichw�orter

General terms:These apply to any elements of the tree that are relevant

ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION

Page 11: onnen im T - uni-due.de

A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX

Page 12: onnen im T - uni-due.de

TeilgebietesH.3 INFORMATION STORAGE AND RETRIEVAL

H.3.0 GeneralH.3.1 Content Analysis and Indexing

Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses

H.3.2 Information StorageFile organizationRecord classi�cation

H.3.3 Information Search and RetrievalH.3.2 Information Storage

ClusteringQuery formulationRetrieval modelsSearch processSelection process

H.3.4 System and SoftwareCurrent awareness systems(selective dissemination of information-SDI)Information networksQuestion-answering (fact retrieval) systems

H.3.5 Online Information ServicesData bank sharing

H.3.6 Library AutomationLarge text archives

H.3.m Miscellaneous

Page 13: onnen im T - uni-due.de

DIN 1463:

"Thesaurus ist geordnete Zusammenstellung von Begri�enmit ihren (nat�urlichsprachlichen) Bezeichnungen.Merkmale eines Thesaurus:

a) terminologische Kontrolle durch{ Erfassung von Synonymen{ Kennzeichnung von Homonymen undPolysemen

{ Festlegung von Vorzugsbenennungenb) Darstellung von Beziehungen zwischen Begri�en\

Page 14: onnen im T - uni-due.de

Reduktion von Mehrdeutigkeiten und Unsch�arfe dernat�urlichen Sprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu�Aquivalenzklassen

Arten von Synonymie:

� SchreibweisenvariantenFriseur | Fris�orUN | UNO | Vereinte Nationen� unterschiedlichen Konnotationen, Sprachstile,VerbreitungTelefon | FernsprecherPferd | GaulMyopie | Kurzsichtigkeit

� Quasi-SynonymeSchauspiel | Theaterst�uckRundfunk | H�orfunk

Page 15: onnen im T - uni-due.de

geringen / irrelevanten Bedeutungsdi�erenzen zu�Aquivalenzklassen zusammengefa�t:

� unterschiedliche Spezi�t�atSprachwissenschaft | Linguistik� AntonymeH�arte | Weichheit

� zu spezieller Unterbegri�Weizen | Winterweizen� Gleichsetzung von Verb und Substantiv / T�atigkeitund ErgebnisWohnen | Wohnung

PolysemkontrolleAufteilung von einer (mehrdeutigen) Bezeichnung aufmehrere �Aquivalenzklassen

� Homonyme (Bs. Tenor)� Polyseme (Bs. Bank)

Page 16: onnen im T - uni-due.de

Problem: Wie spezi�sch sollen einzelne Begri�e imThesaurus sein?

"Donaudampfschi�ahrtskapit�an\

Nachteile zu spezieller Begri�e:

� Thesaurus zu umfangreich / un�ubersichtlich� nur wenige Dokumente zu einer �Aquivalenzklasse

UNITERM-Verfahren:Nur Begri�e, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe einesSachverhaltes (Postkoordination)Nachteil: gr�o�ere Unsch�arfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromi� zwischen beiden Ans�atzen

Page 17: onnen im T - uni-due.de

Terminologische Kontrolle liefert �Aquivalenzklassen vonBezeichnungen

Darstellung dieser �Aquivalenzklassen:

� Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der�Aquivalenzklasse

� Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der �Aquivalenzklasse zurBenennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennungbetrachtet)

Page 18: onnen im T - uni-due.de

�Aquivalenzrelationzwischen Nicht-Deskriptoren und Deskriptoren

Bezeichnungen:BS Benutze Synonym (use)BF Benutzt f�ur (used for, UF)

Fernsprecher BS TelefonTelefon BF Fernsprecher

Hierarchische Relationzwischen Deskriptoren

Bezeichnungen:UB Unterbegri� (narrower term, NT)OB Oberbegri� (broader term, BT)

Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum

Assoziationsrelationzwischen begri�sverwandten Deskriptoren, symmetrisch

Bezeichnung: VB verwandter Begri� (see also, SEE)

Obstbaum VB ObstObst VB Obstbaum

Page 19: onnen im T - uni-due.de

Deskriptor-Eintr�age

� Begri�snummer� Notation / Deskriptor-Klassi�kation� Scope note / De�nition� Synonyme� Oberbegri�e / Unterbegri�e� Verwandte Begri�e� Einf�uhrungs-/Streichungsdatum

Gesamtstruktur des Thesaurus(in gedruckter Form)Hauptteil mit den Deskriptor-Eintr�agenalphabetisch / systematisch geordnet

zus�atzliche Register mit Verweisen auf dieDeskriptor-Eintr�age

� systematisch / alphabetisch (komplement�ar zumHauptteil)� Index f�ur Komponenten mehrgliedrigerBezeichnungenKWIC | keyword in contextKWOC | keyword out of context

Page 20: onnen im T - uni-due.de

Anpassung des Thesaurus an Ver�anderungen in derAnwendung notwendig aufgrund von

� Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimedialeSysteme� Entwicklung der Fachsprache� Indexierungsverhalten / Indexierungsergebnisse� Benutzerverhalten� Rechercheergebnisse

Problem: �Uberwachung der Konsistenz des Thesaurus

Page 21: onnen im T - uni-due.de

Voraussetzungen:

� Zerlegung von Texten in W�orter� (Stopworteliminierung)� (Satzendeerkennung)

Probleme bei der Freitextsuche:

� HomonymeTenor: S�anger / Ausdrucksweise� PolysemeBank: Sitzgelegenheit / Geldinstitut� FlexionsformenHaus { (des) Hauses { H�auserschreiben { schreibt { schrieb { geschrieben� DerivationsformenFormatierung { Format { formatieren� Komposita (mehrgliedrige Ausdr�ucke)Bundeskanzlerwahl { Wahl des Bundeskanzlersinformation retrieval { retrieval of information {information was retrieved

Das Problem der Wortwahl bleibt ungel�ost!

Page 22: onnen im T - uni-due.de

Zeichenketten-Operatoren f�ur die Freitextsuche

� TruncationFront-/End-Truncation,beschr�ankt ($) / unbeschr�ankt(#)schreib#: schreiben, schreibt, schreibst, schreibe

schreib$$: schreiben, schreibst

#schreiben: schreiben, beschreiben, anschreiben,verschreiben

$$schreiben: beschreiben, anschreiben� (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von W�ortern zusammenzuf�uhrenVorteil: weniger Schreibarbeit als beim explizitenAufz�ahlenNachteil: m�oglicherweise unerw�unschte W�orter dabei

Page 23: onnen im T - uni-due.de

Ausdr�uckeninformation AND retrieval:boolesche Operatoren beziehen sich nur auf dasVorkommen irgendwo im Text!{ genauer Wortabstand ($):retrieval $ information: retrieval of information,retrieval with information loss

{ maximaler Wortabstand (#):text # # retrieval: text retrieval, text and factretrieval

{ Wortreihenfolge (,):information # , retrieval: information retrieval,retrieval of information

{ gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 24: onnen im T - uni-due.de

Arten von Verfahren:

� graphematische Verfahrenauf der Analyse von Buchstabenfolgen basierendeAlgorithmen, haupts�achlich zur Zusammenf�uhrungvon Flexions- oder Derivationsformen (Morphologie)

� lexikalische VerfahrenW�orterbuch-basierte Verfahren zurZusammenf�uhrung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdr�ucken� syntaktische Verfahrenzur Identi�kation von mehrgliedrigen Ausdr�ucken

Page 25: onnen im T - uni-due.de

(Sprache)

� GrundformreduktionZur�uckf�uhren auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im In�nitiv{ lexikographische Grundformentsteht durch Abtrennen der Flexionsendungund ggfs. Rekodierungapplies ! appl ! apply

{ formale Grundformnur Abtrennen von Endungen, ohneRekodierungactivities ! activit

� StammformreduktionEntfernen der Derivationsendungen, d.h.Zur�uckf�uhren auf den Wortstammcomputer, compute, computation, computerization! comput

Page 26: onnen im T - uni-due.de

(nach Kuhlen 77)

% alle Vokale (einschlie�lich Y)� alle KonsonantenJ L�ange des Wortes/ ,oder'

Leerzeichen! ,zu' ,aus': ,nicht'

Page 27: onnen im T - uni-due.de

)2) ES ! wenn �O / CH / SH / SS / ZZ / X

vorangehen3) S ! wenn � / E / %Y / %O / OA / EA

vorangehen4) S' !

IES' ! YES' !

5) 'S !

' !6) ING ! wenn �� / % / X vorausgehen

ING ! E wenn %� vorausgehen7) IED ! Y8) ED ! wenn �� / % / X vorausgehen

ED ! E wenn %� vorausgehen

Page 28: onnen im T - uni-due.de

g

Beispiele zu 1:APPLIES ! APPLYIDENTIFIES ! IDENTIFYACTIVITIES ! ACTIVITY

Regel 2 ES ! , wenn �O / CH / SH / SS / ZZ /

X vorangehen

Beispiele zu 2:BREACHES ! BREACHPROCESSES ! PROCESSFISHES ! FISHCOMPLEXES ! COMPLEXTANGOES ! TANGOBUZZES ! BUZZ

Page 29: onnen im T - uni-due.de

g , / / % / % / /

EA vorangehen

Beispiele zu 3:METHODS ! METHODHOUSES ! HOUSEBOYS ! BOYRADIOS ! RADIOCOCOAS ! COCOAFLEAS ! FLEA

Regel 4 S' !

IES' ! Y

ES' !

Beispiele zu 4:MOTHERS' ! MOTHERLADIES' ! LADYFLAMINGOES ! FLAMINGO

Regel 5 'S !

' !

Beispiele zu 5:MOTHER'S ! MOTHERCHILDREN'S ! CHILDRENPETRUS' ! PETRUS

Page 30: onnen im T - uni-due.de

g , / % / g

ING ! E, wenn %� vorausgehen

Beispiele zu 6:DISGUSTING ! DISGUSTGOING ! GOMIXING ! MIXLOOSING ! LOOSERETRIEVING ! RETRIEVE

Regel 7 IED ! Y

Beispiel zu 7:SATISFIED ! SATISFY

Regel 8 ED ! , wenn �� / % / X vorausgehen

ED ! E, wenn %� vorausgehen

Beispiel zu 8:DISGUSTED ! DISGUSTOBEYED ! OBEYMIXED ! MIXBELIEVED ! BELIEVE

Page 31: onnen im T - uni-due.de

besonders f�ur stark ektierte Sprachen (z.B. deutsch)geeignet

Relationen im W�orterbuch:

� Flexionsform (Vollformen) | zugeh�orige GrundformHauses - Haus, ging - gehen� Derivationsform | zugeh�orige GrundformenLieblosigkeit | lieblos, Berechnung | rechnen� Komposita | zugeh�orige DekompositionHaust�ur | T�ur, Armbanduhr | Uhr.

Page 32: onnen im T - uni-due.de

(zur Identi�kation von Komposita)

1. Wortklassenbestimmung2. Parsing

Page 33: onnen im T - uni-due.de

typische Wortklassen:AT articleBEZ \is"CONJ conjunctionIN prepositionJJ adjectiveJJR comparative adjectiveMD modal (can, have, may, shall. . . )NN singular or mass nounNNP singular proper nounNNS plural nounPERIOD .:?!PN personal pronounRB adverbRBR comparative adverbTO \to"VB verb, base formVBD verb, past tenseVBG verb, present participle, gerundVBN verb, past participleVBP verb, non 3rd singular presentVBZ verb, 3rd singular presentWDT wh-determiner (what, which)

Page 34: onnen im T - uni-due.de

� (Vollformen-)W�orterbuch� graphematische Verfahren(insbesondere f�ur nicht im W�orterbuch enthalteneW�orter)

Problem:Wortklassenbestimmung in wenig ektierten Sprachen

The boys play football vs.She saw the new play

! zus�atzliche Ber�ucksichtigung der syntaktischenStruktur (Bigramme, Trigramme) notwendig:

AT NNS VBP/NN NN ! VBPPN VBD AT JJ NN/VBP ! NN

Page 35: onnen im T - uni-due.de

Wortklassenbestimmung basierend auf demKuhlen-Algorithmus

Nr. Regel Klasse1 IES ! Y NNS/VBP2 ES ! NNS/VBP3 S ! NNS/VBP4 S' ! NNS

IES' ! YES' !

5 'S ! NN' !

6 ING ! VBGING ! E

7 IED ! Y VBD/VBN/JJ8 ED ! VBD/VBN/JJ

ED ! E

Page 36: onnen im T - uni-due.de

Kombination von graphematischem Verfahren undVollformen-WB:(R�uckf�uhrung unbekannter W�orter auf WB-Eintr�agemittels graphematischer Verfahren)

Beispielregeln:

Pr�a�x WB-Klassen Wortklassenre JJ NN VBG JJ NN VBGex NN NNself- NN NNinter JJ JJnon JJ JJun RB RBdis JJ JJanti- NN JJde JJ VBD VBN JJ VBD VBNin RB RB

Post�x WB-Klassen Wortklassenment NN VB VBP NNing NN VB VBP JJ NN VBGed NN VB VBP JJ VBD VBNs NN VB VBP NNS VBZly JJ NN RB RBness JJ NNship NN NNable NNVBVBP JJs NN NNS

Page 37: onnen im T - uni-due.de

Wortklassenbestimmung mit deterministischem Taggernur 70 % korrekte Zuordungen!

aber:die meisten W�orter kommen in einer bevorzugtenWortklasse vorto our a pan

to web the �nal report

! seltene Verwendungen ignorieren!Charniak et al. 93: 90 % korrekte Zuordungen!

Verbesserung:statistische Ans�atze zur Ber�ucksichtigung dersyntaktischen Struktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 38: onnen im T - uni-due.de

eine einfache Grammatik:

S ! NP VPNP ! AT? JJ* NNS+

! AT? JJ* NN+! NP PP

VP ! VB PP! VBZ! VBZ NP

PP ! IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistent

retrieval performance.

AT NN IN JJ NN NNS VBZ JJ NN NN

A good indexing technique for Web retrieval is manual

classi�cation.

AT JJ NN NN IN VBG NNS NNS VBZ JJ NNS

Page 39: onnen im T - uni-due.de

nur bestimmte syntaktische Strukturen relevant! partielles parsing

einfache Muster (ohne Unterscheidung (NN/NNP/NNS):

phrase ! NN NN+! NN+ IN JJ* NN+

Beispiele:indexing algorithms

retrieval performance

retrieval of Web documents

retrieval of new documents

aber:text and image retrieval

retrieval of text or images

! zus�atzliche Transformationsregeln:NN1* CONJ NN2 NN+ ! NN1 NN+NN+ IN NN1 CONJ NN 2 ! NN1 NN+, NN2 NN+

Page 40: onnen im T - uni-due.de

g

Repr�asentation von Textinhalten

� Dokumentationssprachen bieten prinzipiell Vorteilegegen�uber der Freitextsucheaber: dieser Vorteil ist bislang experimentell nichtbelegt, es gibt sogar gegenteilige Ergebnisse

� Erfahrungen aus TREC1:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nichtabzudecken� wissensbasiertes IR:ben�otigt zun�achst gro�e Wissensbasen, die bislangnicht verf�ugbar sind (CYC Project)� syntaktische Verfahren:f�ur Nominalphrasen� maschinenlesbare W�orterb�ucher:f�ur Nominalphrasen und zur Disambiguierung

Page 41: onnen im T - uni-due.de

g

und Repr�asentationen

4.5.1 Einfache statistische Modelle

Beispiel f�ur computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not producedconsistent retrieval performance. The best indexingtechnique for retrieving documents is not known.

Stoppworteliminierung:experiments indexing methods analysis indexingalgorithms produced consistent retrieval performance bestindexing technique retrieving documents known

Stammformreduktion:experiment index method analys index algorithm producconsistent retriev perform best index techni retrievdocument

Page 42: onnen im T - uni-due.de

Multimenge von Terms

Modell:

� Abbildung auf Attribute� Semantik durch Statistik!

Computerlinguistische Verfahren sind pr�aziser (undbenutzerfreundlicher) als der informatische Ansatz

aber:alle Verfahren sind mit Fehlern behaftet!