82
Advanced Information Retrieval Wintersemester 2009/10 Teil 1 Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected]

Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

Advanced Information Retrieval

Wintersemester 2009/10Teil 1

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Page 2: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 2

Termine

Vorlesung: Mi, 11.15 – 12.45 Uhr in S312

Praktikum: nach VereinbarungVerantwortlich: Sven Teresniak, [email protected] Themenvergabe, allg. Modalitäten – SG 312, 17:15 - 18:45

Page 3: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 3

Themen zur VorlesungAdvanced Information Retrieval (V+P)1. Kookkurrenz2. Wort- und Dokumentenähnlichkeit 3. LSA 4. Linkanalyse und NextLinks5. Text Summarization (1. Vorl.)6. Text Summarization (2. Vorl.)7. Small Worlds, Communities und Linkstruktur 8. Chinese Whispers9. NER + Pendel10. Question Answering11. Language Models12. Erschließung und Retrieval multimedialer Objekte13. Web Directories14. Grafische IR-Schnittstellen

Page 4: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 4

Wörter – Dokumente – Interessen –Communities – LinkstrukturCommunities sind Gruppen von Menschen, die ein gleiches Interessensgebiet

besitzen. Jedes Mitglied kann weitere Interessen haben, diese müssen nicht übereinstimmen und nicht bekannt sein. Die Mitglieder einer Community können einander bekannt sein, müssen es aber nicht.

Dokumente bedienen jeweils eine oder mehrere Interessen. Es gibt Dokumente zu ähnlichen Themen, diese sind teilweise im Web verlinkt.

Sowohl Dokumente wie auch Interessen lassen sich durch (meist wenige) Wörter charakterisieren.

Zwischen Wörtern untereinander bestehen zahlreiche Relationen.

Page 5: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 5

Zusammenhänge

Die These zu dieser Vorlesung ist:

Es gibt eine Theorie der inhaltlichen Zusammenhänge. Gemeint sind hier die Zusammenhänge

• zwischen den „wichtigen“ Wörtern• zwischen den Dokumenten einer Dokumentenkollektion• in der Linkstruktur im Web• zwischen Personen und Communities

Das größte Problem besteht in Mehrdeutigkeiten, da an vielen Stellen eindeutige Zuordnungen schwierig sind.

Page 6: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 6

Mehrdeutigkeiten

Es ist häufig nicht möglich, genau eine charakteristische Eigenschaft auszuzeichnen.Wir unterscheiden mehrfache Zugehörigkeiten und die Alternative zwischen mehreren

Bedeutungen.Mehrfache Zugehörigkeiten:• Eine Person gehört gewöhnlich mehreren Communities an, z.B. beruflich, als

Freizeitsportler, mit seinem Hobby usw.• Dokumente sind aus der Sicht mehrer Aspekte interessant, ein Text über

Dampflokomotiven z.B. technisch und historisch.Alternative zwischen mehreren Bedeutungen:• Links im Web können verschiedene „Bedeutungen“ haben, es gibt Links auf

ähnliche Inhalte, organisatorische Links, Verzeichnisse, ...• Wörter haben gelegentlich mehrere Bedeutungen, aus dem Auftreten des Wortes

Bank allein lässt sich nicht das Thema eines Dokuments ermitteln.

Page 7: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 7

Ausblick

Struktur zwischen Wörtern• Textanalyse im Projekt „Deutscher Wortschatz“• Wortähnlichkeit und Dokumentenähnlichkeit

Linkstruktur im Web• Ähnlichkeit von Websites

Small Worlds

Page 8: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 8

Suche nach ähnlichen Wörtern

Fragen: • Wie ähnlich sind die folgenden Paare von Wörtern? • Wie äußert sich die Ähnlichkeit? • Wofür ist die Ähnlichkeit möglicherweise nützlich?

(1) Los – Angeles,(2) schwere – Krankheit(3) Romeo – Julia(4) Polizei – verhaftet(5) der – die(6) Paris – London

Page 9: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 9

Kookkurrenzen und Ähnlichkeit

Idee: Ähnliche Wörter treten in ähnlichen Kontexten (= Umgebungen auf)• Die Art des Kontextes bestimmt die Art der Ähnlichkeit• Bei häufigen Wörtern sind nur die typischen Kontexte wichtig.

Wörter aus typischen Kontexten heißen Kookkurrenzen. Uns interessieren: • Nachbarschaftskookkurrenzen, falls die Wörter unmittelbar benachbart

auftreten, bzw.• Satzkookkurrenzen, falls das gemeinsame Auftreten der zwei Wortformen in

einem Satz betrachtet wird.

Page 10: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 10

Typen von Kookkurrenzen

• Eigennamen und feste Fügungen liefern signifikante Kookkurrenzen, weil die beteiligten Wortformen immer wieder zusammen auftreten. Hierbei handelt es sich um signifikante Nachbarschaftskookkurrenzen.

• Substantive mit Adjektiven, die typische Eigenschaften beschreiben, bilden signifikante Nachbarschaftskookkurrenzen.

• Handlungen mit typischen Subjekten oder Objekten bilden signifikante Satzkookkurrenzen.

• Wortformen, die häufig zusammen aufgezählt werden, bilden signifikante Satzkookkurrenzen.

• Alle signifikanten Nachbarschaftskookkurrenzen sind auch signifikante Satzkookkurrenzen.

Page 11: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 11

Beispiele für Kookkurrenzen 1

Stärkste SatzkookkurrenzenSilber »Gold«, »Bronze«, »gewann«, »holte«, »Kupfer«, »zweimal«,»gewonnen«, »Medaillen«, »Porzellan«, »Atlanta«, »Medaille«,»Schmuck«, »dreimal«, »Zinn«, ...grünes »Gras«, »rotes«, »Profil«, »gelbes«, »Ampellicht«, »Band«, »Tal«,»kleines«, »blaues«, »Blatt«, »braunes«, »weißes«, »Kleid«,»Paradies«, ...Blei »Zink«, »Kupfer«, »Cadmium«, »Quecksilber«, »Arsen«, »Zinn«,»Aluminium«, »Kadmium«, »Tonnen«, »Leitzwecke«,»Schwermetalle«, »Silber«, »Nickel«, »Crom«, ...

Page 12: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 12

Beispiele für Kookkurrenzen 2

Stärkste linke NachbarnT-Shirt »weißes«, »schwarzes«, »weißen«, »blaues«, »weißem«,»schwarzem«, »rotes«, »schwarzen«, ...Merker »Hans-Joachim«, »Hannah«, »Claudia«, »Helmut«, »ergötzlichen«,»Moritz«, »Wolfgang«, »Jörg«, »Peter«, »Jürgen«, »Hans«,»Michael«, ...bewohnt »Armenien«, »Albanern«, »Appartment«, »Moslems«, »Familien«,»Familie«, »Serben«, »Fehlbelegern«, »Mönchen«, »Negern«,»Völkern«, »Bayer-Mitarbeitern«, ...

Page 13: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 13

Beispiele für Kookkurrenzen 3

Stärkste rechte NachbarnInsel »Rügen«, »Jolo«, »Usedom«, »Sachalin«, »Sylt«, »Mindanao«,»Okinawa«, »Hainan«, »Sumatra«, »Basilan«, »Borneo«,»Hokkaido«, »Mainau«, »Kyushu«, »Poel«, »Hiddensee«, »Kreta«,»Eiswerder«, »Fehmarn«, »Sulawesi«, »Korfu«, ...Kubikmeter »Luft«, »Wasser«, »Erdgas«, »Gas«, »Beton«, »Abwasser«, »Sand«,»Trinkwasser«, »Müll«, »Erde«, »Raumluft«, »Holz«, »Erdreich«, ...mutmaßliche »Täter«, »Mörder«, »Kriegsverbrecher«, »Terroristen«,»Mitglieder«, »Drahtzieher«, »Terrorist«, »Haupttäter«,»Attentäter«, »Dealer«, »islamische«, »Entführer«, »Reemtsma-Entführer«, »Brandstifter«, »RAF-Terroristin«, »Drogenhändler«,...

Page 14: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 14

Signifikanzmaße

Um die Anzahl der gemeinsamen Vorkommen von A und B richtig beurteilen zu können, benötigt man zusätzlich die Anzahlen für die Wortformen A und B einzeln. Möglicherweise ist auch die Gesamtanzahl der Sätze wichtig.

Damit hat man die folgenden vier Größen:a, b Anzahl der Sätze, die A bzw. B enthaltenk Anzahl der Sätze, die A und B gemeinsam enthaltenn Gesamtzahl der Sätze

Ein Signifikanzmaß soll folgende Eigenschaften haben:• Die Signifikanz soll mit mit k wachsen: Je häufiger, desto auffälliger.• Die Signifikanz soll klein (z.B. null) sein, falls A und B nur zufällig miteinander auftreten.• Vergleichbarkeit: Vergleichbare Signifikanzen sollen eine ähnliche Aussage treffenAchtung: Die reine Anzahl k eignet sich damit weder als Signifikanz noch als Vergleichszahl.

Page 15: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 15

Kokkurrenzen höherer Ordnung

The production of collocations is now applied on sets of (next neighbour or sentence) collocations instead of sentences.

The collection of 500.000 sentence collocations has the following ‚sentence‘ for Hemd:Hemd Krawatte Hose weißes Anzug weißem Jeans trägt trug

bekleidet weißen Jacke schwarze Jackett schwarzen Weste kariertes Schlips Mann

The collection of 250.000 next neighbour collocations has the following two ‚sentences‘ for Hemd:

weißes weißem weißen blaues kariertes kariertem offenem aufs karierten gestreiftes letztes ...

näher bekleidet ausgezogen spannt trägt aufknöpft aus-geplündert auszieht wechseln aufgeknöpft ausziehen ...

Page 16: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 16

Auto: Gewöhnliche Satzkookkurrenzen

fahren (1396), Wagen (979), prallte (914), Fahrer (809), seinem (723), fuhr (709), fährt (638), Polizei (609), erfaßt(587), gefahren (485)

Page 17: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 17

Auto: Satzkookkurrenzen 2. Ordnung

Wagen (114), Fahrzeug (54), Fahrer (41), Fahrbahn (35), prallte (35), Polizei (28), verletzt (27), Schleudern (24), fuhr (24), Richtung (21),

Page 18: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 18

Auto: NB-Kookkurrenzen 2. Ordnung

Wagen (35), Lastwagen (14), Fahrzeug (13), Autos (9), Personenwagen (9), Bus (8), Zug (7), Haus (5),Lkw (5), Pkw (5)

Page 19: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 19

viel: Satzkookkurrenzen

sehr (8012), zu (5595), Geld (4955), so (4880), mehr (3089), nicht (2977), als (2440), tun (1621), wenig (1565), noch (1557),

Page 20: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 20

viel: Satzkookkurrenzen 2. Ordnung

etwas (21), wenig (15), nichts (14), desto (13), wesentlich (12), geworden (9), weitaus (9), Je (8), Geld (7), alles (7)

Page 21: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 21

viel: NB-Kookkurrenzen 2. Ordnung

etwas (69), desto (52), wesentlich (43), Noch (36), Je (35), weitaus (34), Ein (31), Viel (28), deutlich (24), nichts (21),

Page 22: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 22

erklärte: Satzkookkurrenzen

Sprecher (2581), werde (2302), gestern (1696), seien (1440), Wir (1187), bereit (929), wolle (839), Vorsitzende (807), Anfrage (775), Präsident (721)

Page 23: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 23

erklärte: NB-Kookkurrenzen 2. Ordnung

sagte (137), betonte (59), sprach (55), kündigte (44), wies (37), nannte (36), warnte (27), bekräftigte (24), meinte (24),kritisierte (23)

Page 24: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 24

knapp: Satzkookkurrenzen

### (8248), Prozent (8180), ## (5551), Millionen (4865), DM (4827), Mark (4366), Milliarden (3414), #### (3244), #,# (3063), Mrd (1979)

Page 25: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 25

knapp: NB-Kookkurrenzen 2. Ordnung

etwa (44),fast (33), Rund (14), Nach (12), gut (12), mindestens (11), Etwa (9), Vor (9), rund (8), ungefähr (8), Fast (7)

Page 26: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 26

First Iteration Step

• The two black nodes A and B get connected in the step if there are many nodes C which are connected to both A and B

• The more Cs, the higher the weight of the new edge

new connectionexisting connection

Page 27: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 27

Second Iteration Step• The two black nodes A and B get connected in the step if there are many

(dark grey) nodes Ds which are connected to both A and B. • The connections between the nodes Ds and the nodes A and B were

constructed because of (light gray) nodes Es and Fs, respectively

new connection

former connectionexisting connection

AB

DsEsFs

Page 28: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 28

Collapsing bridging nodes

• Upper bound for path length in iteration n is 2n. • However, some of the bridging nodes collapse, giving rise to self-keeping clusters

of arbitrary path length, which are invariant under iteration.

Upper 5 nodes: invariant clusterA, B are being absorbed by this cluster

Page 29: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 29

Examples of Iterated Co-occurrences

Order Reference word

TOP-10 collocations

N2 wine wines, champagne, beer, water, tea, coffee, Wine, alcoholic, beers, cider

S10 wine wines, grape, sauvignon, chardonnay, noir, pinot, cabernet, spicy, bottle, grapes

S1 ringing phone, bells, phones, hook, bell, endorsement, distinctive, ears, alarm, telephone

S2 ringing rung, Centrex, rang, phone, sounded, bell, ring, FaxxMaster, sound, tolled

S4 ringing sounded, rung, rang, tolled, tolling, sound, tone, toll, ring, doorbell

S10 pressing Ctrl, Shift, press, keypad, keys, key, keyboard, you, cursor, menu, PgDn, keyboards, numeric, Alt, Caps, CapsLock, NUMLOCK, NumLock, Scroll

Page 30: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 30

Latent Semantic Indexing

Objective

Replace indexes that use sets of index terms by indexes that use concepts.

Approach

Map the index term vector space into a lower dimensional space, using singular value decomposition (SVD).

http://courses.cs.cornell.edu/cs430/2002fa/slides/lecture11.ppt

Page 31: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 31

Why “Latent Semantic” Indexing?

• “Latent Semantic” claim derives from belief that reduced dimension representation of documents reveals semantic correlations among index terms.– E.g. while one author may use the word car and another auto, the correlation

of both of these with other terms like highway, gasoline, and driving will result in an abstracted doc on which queries using either KW car or auto will project equivalently.

Page 32: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 32

Deficiencies with Conventional Automatic Indexing1. Synonymy: there are many words to express a given concept or object (lowers

recall)– For example, the word “picture” can also be referred to as an “image” or

“photograph”2. Polysemy: most words have more than one meaning (lowers precision)

– For example, depending on its context, the word “chip” could refer to the potato or the computer.

Page 33: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 33

Example! Deficiencies in Term-Based Retrieval

• An “R” in the REL column indicates that the user would have judged the document relevant to the query (here docs 1 and 3)

• Terms occurring in both the query and doc are indicated by an asterisk

• An “M” in the Match column indicates that the document matches the query and would have been returned to the user

Page 34: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 34

How do we uncover Latent Semantic Structure?

• We want to predict that a given term should be associated with a document, even though, because of variability in word use, no such association was observed

• What mathematical model to use?– The notion of semantic similarity between docs and terms restricted

consideration to only proximity models: • E.g. hierarchical, partition and overlapping clusterings; ultrametric and

additive trees, and factor-analytic and multidimensional distance models.

Page 35: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 35

Model Criteria

– Adjustable representational richness– Explicit representation of both terms and documents– Computational tractability for large datasets

The only model which satisfied all three criteria: two-mode factor analysis (based on SVD).

Page 36: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 36

Basic Concepts of LSI

• LSI projects queries and documents into a space with “latent” semantic dimensions.– A query and a doc can have high cosine similarity even if they do not share

any terms!– LSI can be viewed as a similarity metric that is an alternative to word/term

overlap measures like tf.idf

Page 37: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 37

Basic Concepts Cont.

• The Latent Semantic Space– Has fewer dimensions than the original space (which, remember, has as many

dimensions as terms)– Thus, LSI is a method of dimensionality reduction; takes objects that exist in a

high-dimensional space and represents them in a low-dimensional space.

Page 38: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 38

Simple Dimension Reduction Example

Figure 5.3 (from FOA) Showing Weight & Height Data Reduction

• Imagine that we’ve collected data on the height and weight of everyone in the classroom and plotted on a graph.

• Notice the correlation around an axis we could call “size”– Size captures most of the information about the students’ distribution

Page 39: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 39

Why Dimensionality Reduction?

Two Reasons:1. A matrix of “terms by documents” is not easily manageable. The vector matrix

space is large & is very sparse.– Dimensionality Redux tries to represent data in a denser, more compressed

fashion

2. Ordinarily, when we make each term a dimension, we are effectively assuming they are orthogonal to one another; we expect independence.

– However, index terms can be highly dependent, highly correlated with one another. Exploit this by capturing only those axes of maximal variation and throwing away the rest.

Page 40: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 40

LSI applies SVD

• LSI uses Two-Mode Factor analysis which applies the mathematical technique, Singular Value Decomposition, for dimensionality reduction

• What is SVD?– Represents both terms and documents as vectors in space of choosable

dimensionality– Uses cosine similarity between points in space to find semantic similarity

Page 41: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 41

How does SVD work?Any rectangular matrix X, for example a txd matrix of terms and documents, can be

decomposed into the product of three other matrices: X = Tm Sm Dmt

Page 42: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 42

How Does SVD work? cont.

Keep only the k largest values of Sm with their corresponding columns in the Tm and Dm matrices and delete the rest! The resulting matrix, X1 = Tk Sk Dk

T

The idea is that this new matrix, by containing only the k largeThe idea is that this new matrix, by containing only the k largest independent st independent linear components of linear components of XX, captures the major associational structure of the , captures the major associational structure of the data and throws out much of the noisedata and throws out much of the noise..

Page 43: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 43

How does SVD include the query?

• The query must be given a representation within the SVD model– Its representation must yield results consistent with the procedure in the term-

matching conceptualization– The query is a “pseudo-document” assigned coordinates in the SVD space

Page 44: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 44

LSI-SVD Example

Technical Memo Titlesc1: Human machine interface for ABC computer applicationsc2: A survey of user opinion of computer system response timec3: The EPS user interface management systemc4: System and human system engineering testing of EPSc5: Relation of user perceived response time to error measurement

m1: The generation of random, binary, ordered treesm2: The intersection graph of paths in treesm3: Graph minors IV: Widths of trees and well-quasi-orderingm4: Graph minors: A survey

Query: “human interaction with computers”

Note: using only the set of nine titles, in traditional keyword matching techniques, all of the documents would be rejected.

Page 45: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 45

LSI-SVD Example: Query

Terms Query xq

human 1interface 0computer 1user 0system 0response 0time 0EPS 0survey 0trees 0graph 0minors 0

Query:"human interaction on computers"

In term-document space, a query is represented by xq, a t x 1 vector.

In concept space, a query is represented by dq, a 1 x k vector.

Page 46: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 46

LSI-SVD Example cont.

Page 47: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 47

LSI-SVD Example cont.

Page 48: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 48

LSI-SVD Example cont.

c1 c2 c3 c4 c5 m1 m2 m3 m4

c3: The c3: The EPSEPS useruser interfaceinterface management management systemsystemc5: Relation of c5: Relation of useruser perceived perceived responseresponse timetime to error measurementto error measurement

Page 49: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 49

LSI-SVD Example cont.

Page 50: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 50

LSI-SVD Example cont.

Page 51: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 51

Benefits of LSI

• The Latent Semantic Indexing method works better than simple-term matching in Deerwester’s tests– LSI performed better than Voorhees in both tests and better than SMART in

one case and equal to it in another

• LSI method deals nicely with synonymy problem– But offers only a partial solution to polysemy problem

Page 52: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 52

Drawbacks of LSI• Performance

– The SVD algorithm is O(N2 k3), where N is the number of terms plus documents, and k is the number of dimensions in the concept space.

• Determining the optimal number of dimensions– This paper used trial and error to empirically determine the optimal number of

dimensions (they tested between 50-150 dimensions). Still an open issue…

• What to do with new documents and new terms– Performing an SVD is simply too time consuming to do on a regular basis.

Page 53: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 53

• Latent Semantic Indexing was developed at Bellcore (now Telcordia) in the late 1980s (1988). It was patented in 1989.

• http://lsi.argreenhouse.com/lsi/LSI.html

Aktuelle Literatur:Singular Value Decomposition:

http://mathworld.wolfram.com/SingularValueDecomposition.htmlLSA-Tutorial (für Einsteiger):

http://www.dcs.shef.ac.uk/~genevieve/lsa_tutorial.htm

Some History

Page 54: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 54

Satz-Kookkurrenzen, IR und LSA

Beobachtung: Über das Vektorraum-Modell hängen die Dinge mehr zusammen, als man zunächst denkt.

Schritt1: Term-Dokument-Matrix D=(dij) mit dij = Anzahl des Wortes i im Dokument j

Wort 1

Wort 2

Wort 3

. . .

Wort n

Summ

e

Dokument 1 d11 d12 d13 ... d1n

d2n

d3n

...dmn

nn

d1

Dokument 2 d21 d22 d23 ... d2

Dokument 3 d31 d32 d33 ... d3

... ... ... ... ... ...Dokument m dm1 dm2 dm3 ... dn

Summe n1 n2 n3 ... nges

Wir benutzen unsere Sätze als Dokumente und Wörter als Terme. Typischerweise haben wir ein Mehrfaches an Sätzen gegenüber Wörtern. Viele Einträge sind null.

Page 55: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 55

Information Retrieval

Verwendet wird die (mxn)-Matrix D.IR bestimmt Dokumentenähnlichkeit, indem die Zeilenvektoren von D verglichen

werden.Analog Termähnlichkeit, indem Spaltenvektoren von D verglichen werden.Der Vergleich erfolgt über das Skalarprodukt, vorher wird die Matrix noch

umgerechnet, indem dij multipliziert wird mit der inversen Dokumentfrequenz log(m/ni). Damit werden seltenere Terme höher gewichtet. (Die Formel stimmt mit der üblichen idf-Definition überein für den Fall, das jedes Wort pro Dokument maximal einmal vorkommt.)

Merke: • Matrix D wird verwendet.• Darauf Transformation, die „unwichtige“ Terme verkleinert.• Dann Vergleich mit Skalarprodukt von (normierten!) Zeilen bzw. Skalarprodukt

von (normierten!) Spalten.

Page 56: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 56

Kookkurrenzen

Zunächst berechnen wir eine (nxn)-Matrix A, wobei aij die Anzahl des gemeinsamen Auftretens des Wortes i mit dem Wort j in einem Satz beschreibt.

Beobachtung: A = DTDDanach wird mit der Signifikanzformel eine Transformation ausgeführt, die außer

dem Zellenelement die entsprechende Zeilen- und Spaltensumme und die Anzahl der Sätze (die steckt nicht mehr in A) verwendet. Ergebnis: A‘

Merke: • Matrix A = DTD wird verwendet.• Darauf Signifikanztransformation A -> A‘=K(A), die z.B. „unwichtige“ Terme

null setzt.• Dann Vergleich von Wörtern auf der Basis eines Elements von A‘, als

Skalarprodukt: a‘i,j = sig(wi, wj) = <xi, A‘xj> (dabei sind xi, xj die Basisvektoren zur Term-Dokument-Matrix.)

Page 57: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 57

Semantische Ähnlichkeit auf der Basis von KookkurrenzenVorgehen: Wörter sind ähnlich, wenn sie ähnliche Kookkurrenzen haben. Die

Kookkurrenzen zu Wort i werden durch A‘xj beschrieben, die gemessene Ähnlichkeit ist also sim(wi, wj) = <A‘xi, A‘xj>

Beobachtung:• Hier wird auch ein Skalarprodukt von Zeilen einer Matrix berechnet, genau wie bei

Termähnlichkeit bei IR mit Spalten von D.• Die Ergebnisse sind besser (können wir das verifizieren?), also ist die

Kookkurrenztransformation A->A‘=K(A) nützlich.

Page 58: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 58

Iterierte Kookkurrenzen

Was passiert, wenn wir die (quadratische) Matrix A‘ als neue Term-Dokument-Matrix nehmen? Da eine Term-Dokument-Matrix nur Nullen und Einsen enthält, ersetzen wir alle positiven Zahlen durch eins und erhalten A“. Dabei betrachten wir die Kookkurrenzmengen (Zeilen) als Dokumente, bestehend aus den in den Mengen enthaltenen Wörtern.

Zur Kookkurrenzberechnung bilden wir A“TA“ und mit der Kookkurrenztransformation K(A“TA“). Analog ist jetzt

sig2(wi, wj) = <xi, K(A“TA“)xj> Verglichen damit stellt sich die semantische Ähnlichkeit folgendermaßen dar:

sim(wi, wj) = <A‘xi, A‘xj> = <xi,A‘TA‘xj>.Unterschied: • sim benutzt Signifikanzen, sig2 nicht.• sig2 benutzt dafür noch einmal die Signifikanztransformation, die evtl. Rauschen

unterdrückt.Die Kombination wäre sig*(wi, wj) = <xi, K(A‘TA‘)xj>

Page 59: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 59

Dokumentenähnlichkeit: Theorie

Was passiert, wenn man statt A=DTD jetzt B= DDT verwendet?In der (mxm)-Matrix B enthält bij die Anzahl der gemeinsamen Wörter in den

Dokumenten i und j.Das ist nicht aussagekräftig, da verschiedene Wörter eine unterschiedliche Rolle

spielen. Also können wir jetzt keine Transformation auf B anwenden, sondern müssen vorher schon etwas tun:

Statt der Anzahl der gemeinsamen Wörter (z.B. 3) nehmen wir die Wörter selbst (Stich, Becker, Open) und benutzen die Kookkurrenzformel schon jetzt. Ergebnis: B‘

Merke: • Statt A=DTD (fast) analoges Vorgehen für B= DDT.• Darauf Transformation mit Kookkurrenzformel, die „unwichtige“ Terme null setzt.• Dann Vergleich von Dokumenten auf der Basis eines Elements von B‘.

Page 60: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 60

Dokumentenähnlichkeit: FormelnDie Berechnungsformel ist simpel und lehnt sich an die Mehrwort-Kookkurrenzen an. Sind a1,

a2, ..., as die Anzahlen der Wörter aus dem Durchschnitt, so nehmen wir die ganz normale Kookkurrenzformel mit k=2 und x=a1a2...as / ns-1. Stoppwörter können wir zusätzlich mitnehmen, die verändern das Ergebnis kaum.

Wir messen damit unsere Verwunderung darüber, dass die gemeinsamen Wörter tatsächlich zweimal zusammen auftreten. Eventuelle weitere gemeinsame Vorkommen werden ignoriert.

Format der Beispiele:(Bewertung) ---> Wörter aus Durchschnitt (Anzahl des Wortes)Treffersatz (leider ohne Satzzeichen).

Eingabe: Der Vorsitzende des Deutschen Bundeswehrverbandes Oberst Bernhard Gertzrechnet mit drastischen Protestdemonstrationen der Soldaten gegen eine Verringerung der Bundeswehr auf 350 000 Mann

17.38 ---> Oberst (1348) Gertz (144) Soldaten (24417) Verringerung (2055)Ferner führt Oberst Gertz an daß eine Verringerung der Mannschaftsstärke die bisherige

Stationierungsplanung ungültig werden läßt und hierdurch die Familien der Soldaten verunsichert würden

Page 61: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 61

Dokumentenähnlichkeit: Beispiel 1Die Bundesregierung hat Drohungen des russischen Nationalistenführers Schirinowskij

gegen Deutschland entschieden zurückgewiesen

12.86 ---> russischen (20030) Nationalistenführers (24) Schirinowskij (245)Als Beispiele nannte Kohl die Ereignisse auf dem Balkan und das Abschneiden des

Nationalistenführers Schirinowskij bei den russischen Parlamentswahlen11.33 ---> Drohungen (2020) Schirinowskij (245) Deutschland (138524)Der Sprecher des Auswärtigen Amtes in Bonn sagte Schirinowskij habe sich abfällig über die

Bundesrepublik Deutschland geäußert Drohungen ausgesprochen und einen Bediensteten der deutschen Botschaft persönlich verunglimpft

. . .1.82 ---> Bundesregierung (29533) zurückgewiesen (4568)Die Bundesregierung hat Vorwürfe von Bündnis 90/Die Grünen und der PDS zurückgewiesen

sie wolle Flüchtlinge aus Bürgerkriegsregionen des ehemaligen Jugoslawien in deren Heimat abschieben

Page 62: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 62

Dokumentenähnlichkeit: Beispiel 2Ungeachtet der Offensive der Regierungstruppen hat der kambodschanische

Ministerpräsident Ranaridh zum ersten Mal Friedensverhandlungen mit den Roten Khmer in Aussicht gestellt

17.30 ---> kambodschanische (173) Ministerpräsident (21391) Roten (5000) Khmer (1100)Der erste kambodschanische Ministerpräsident Prinz Ranariddh teilte dagegen mit die

Regierung und die Roten Khmer hätten sich darauf geeinigt über den Friedensvorschlag von König Sihanouk zu verhandeln

15.95 ---> Offensive (4052) Regierungstruppen (1614) Roten (5000) Khmer (1100)Wie Informationsminister Mouly offiziell bestätigte hatten die Regierungstruppen unmittelbar

vor dem Treffen eine Offensive gegen das strategisch wichtige Hauptquartier Anlong Vengder Roten Khmer in der Nordwest-Provinz Siem Reap eingeleitet

. . . 0.00 ---> Ministerpräsident (21391) gestellt (28993)Italiens Ministerpräsident Ciampi hat am Donnerstag sein Amt zur Verfügung gestellt um den

Weg für Neuwahlen freizumachen

Page 63: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 63

Dokumentenähnlichkeit: Beispiel 3Die deutschen Wimbledonsieger Michael Stich Boris Becker und Steffi Graf hatten in den

beiden vergangenen Jahren in Perth beim Hopman-Cup der sich hochstaplerisch mit dem Titel einer inoffiziellen Mixed-Weltmeisterschaft schmückt gespielt

16.40 ---> inoffiziellen (619) Mixed-Weltmeisterschaft (11) Perth (512)Bei der inoffiziellen Mixed-Weltmeisterschaft im australischen Perth erreichten die

Tennisprofis Anke Huber aus Heidelberg und der Münchener Bernd Karbacher das Viertelfinale

11.41 ---> Titel (30144) vergangenen (90904) Steffi Graf (4044) Michael Stich (1467) Damit können sie erfolgreich den Titel verteidigen den im vergangenen Jahr erwartungsgemäß

die Wimbledon-Sieger Steffi Graf und Michael Stich errungen hatten. . .1.55 ---> vergangenen (90904) vergangenen (90904) Jahren (218773)Einen Wachstumsschub verspricht sich Sanofi von dem im Herbst vergangenen Jahres

begonnenen Verkauf des neuartigen Immundiagnosegerätes Access in dessen Entwicklung in den vergangenen Jahren alleine 700 Millionen Franc investiert wurden

Page 64: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 64

Das Komplexitätsproblem

• Die Term-Dokument-Matrix D ist schwach besetzt.• Die Kookkurrenzmatrizen A=DTD und speziell A‘ sind schwach besetzt.• Das Problem: Die Dokumentenähnlichkeitsmatrix B= DDT ist leider nicht schwach

besetzt.Die folgenden Beispiele nehmen die 35 Millionen Sätze aus dem Wortschatz als

einzelne Dokumente.Ein Wort mit Anzahl na tritt (bei mittlerer Satzlänge 11) mit maximal 10 na anderen

Wörtern auf, erzeugt also maximal 10 na Einträge in A, d.h. wir erzeugen rund 3,5 *109 Einträge in A.

Anders bei B= DDT . Hier sorgt ein Wort mit Anzahl na für rund na2/2 Einträge >0.

Selbst wenn wir 400 Stoppwörter weglassen, füllen weiter 4000 Wörter mit Anzahl >10000 ca. 2*1012 Elemente, das ist kaum möglich zu berechnen.

Page 65: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 65

1. Versuch 2002 Test auf den Wörtern des Tages, Umfang: ca. 20.000 SätzeAttribute: Alle Wörter mit Anzahl<255. D.h. wir lassen folgende Stoppwörter weg: Auch Das Der

Deutschland Die Er Es Euro Ich Im In Jahr Jahren Prozent Sie Und aber als am an auch auf aus bei bis dann das dass dem den der des die durch ein eine einem einen einer er es für gegen habe haben hat hatte ich ihre im in ist kann keine können man mehr mit nach nicht noch nur oder sagt sagte schon sei sein seine sich sie sind so soll um und unter vom von vor war was wenn werden wie wieder will wir wird wurde zu zum zur zwei über

Gefunden wurden ähnliche Sätze wie die folgenden wegen der Übereinstimmung in den 6 Wörtern Staatsanwaltschaft Christoph_Schlingensief Volksverhetzung ermittelt Verdachts wegen

bsp_nr=16042: Gegen den Theatermacher Christoph Schlingensief ermittelt die Staatsanwaltschaft wegen des Verdachts der Volksverhetzung.

bsp_nr=15634: Düsseldorf (dpa) Die Staatsanwaltschaft ermittelt gegen den Regisseur Christoph Schlingensief wegen des Verdachts der Volksverhetzung.

Test war erfolgreich aber vermutlich nicht skalierbar auf große Textmengen wegen quadratischer Komplexität.

Page 66: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 66

Algorithmus Satzähnlichkeit grob

• Berücksichtige nur Wörter mit Anzahl <250 und Anzahl >2• Alle Wörter mit Gewicht 1• Die Ähnlichkeit zweier Sätze ergibt sich als Anzahl der gemeinsamen Wörter

Achtung: Hier werden die Top-87.839 Wörter ignoriert. Dies ist ein Großteil des Alltags-Wortschatzes. Kann das gut gehen?

Page 67: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 67

Algorithmus Satzähnlichkeit fein

Schritt 1: Inverse Liste exportieren, Format: wort_nr, anzahl, satz_nr Schritt 2: Zeilenweise sortierenSchritt 3: Dubletten entfernenSchritt 4: Für jedes Wort alle Paare von Sätzen ermitteln, die dieses Wort enthalten.

Format: satz_nr1, satz_nr2Schritt 5: Zeilenweise sortierenSchritt 6: Anzahlen für gleiche Paare ermitteln und ausgeben, falls Schwellwert

überschritten.

Zusätzlich werden ggf. noch die Wörter durchgeschleift und zusammengefasst, damit man die Ausgabe beurteilen kann.

Zu sortierende Datenmenge für 35 Mill. Sätze zwischenzeitlich ca. 30GB

Page 68: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 68

Bsp. Mind. 4 Wörter gemeinsam

Rabah Kebir und die ebenfalls als anerkannte politische Flüchtlinge in Deutschland lebenden Söhne des FIS-Gründers Madani Abassi, Ikbal und Salim Abassi, waren in Algerien 1993 als 'Terroristen' zum Tode verurteilt worden.

Rabah Kebir und die beiden Söhne des FIS-Gründers Madani Abassi, Ikbal und Salim Abassi, wurden in ihrer algerischen Heimat 1993 von einem Sondergericht als angebliche Terroristen zum Tode verurteilt.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Die Leica Camera Gruppe, Solms bei Wetzlar, will den seit sieben Jahren unter Konkursverwaltung stehenden Kamerahersteller Minox, Heuchelheim bei Gießen, kaufen.

Die Leica Camera Gruppe in Solms will den seit sieben Jahren unter Konkursverwaltung stehenden Kamerahersteller Minox, Heuchelheim, kaufen.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Außer in Bad Cannstatt werden sie auch in den Bezirken Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Rohracker/Frauenkopf, Uhlbach und Wangen an jeder Haustüre klingeln.

Bad Cannstatt, Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Rohracker/Frauenkopf, Uhlbach und Wangen.

Dennoch waren die Knotenpunkte der Straßen in Cannstatt, Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Uhlbach, Frauenkopf und Wangen am Samstag voller Tannen und Fichten.

Page 69: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 69

Folgerung für >=4

Enthalten zwei Sätze >= 4 seltene Wörter gemeinsam, so haben sie meist die gleiche Aussage oder sind sogar beide nicht wohlgeformt.

Im Wortschatz kann jeweils einer weggelassen werden.

Diese Aussage ist für kleinere Übereinstimmung sicher nicht mehr richtig. Aber vielleicht geht es noch um das selbe Thema.

Page 70: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 70

Vorgehen für >=2

Sätze mit Ähnlichkeit >=2 werden verbunden.Darauf Clustering-Algorithmus (CB).Manuelle Inspektion der einzelnen Cluster.

Die Top-Cluster haben die folgenden Anzahlen von Sätzen:2185, 801, 669, 430, 430, 426, 424, ...Insgesamt 80.000 Cluster mit >=4 Elementen

Page 71: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 71

Jazz (105)Der Tenorsaxophonist aus New Orleans geht selbstbewußt mit dem Erbe von Sonny Rollins und John

Coltrane um und vermeidet auch durch die Wahl seiner Themen und Eigenkompositionen.Seine eigenwillige Zitation der schwarzen Saxophontradition von Lester Young bis zu seinem

Lehrmeister John Coltrane ist inzwischen klassisch.Charlie Parker war ein Bluesspieler, hat nicht auch John Coltrane mal bei Big Mama Thornton

begonnen?Mit John Coltrane nahm er "The Avantgarde" auf und mit Sonny Rollins "Dearly

Beloved".Frank Sinatra, Ella Fitzgerald, Sarah Vaughan, Thelonius Monk, die Saxophonisten Gerry Mulligan und

Stan Getz sowie Henry Marcini und Frank Pourcel schufen eigene Versionen der über vierhundert Jobim-Themen.

Dazwischenmontiert sind alte Dokumentaraufnahmen mit Konzerten von Charlie Parker und Lester Young, Ausschnitte aus Hollywood-Filmen der 30er Jahre und Interviews mit Count Basie, Big Joe Turner, Jay McShann und anderen Swing-Musikern.

Der Saxophonist Mulligan spielte schon mit Louis Armstrong, Count Basie und Lester Young.Ich wollte mein Instrument nicht als Schlagzeug zweiter Klasse spielen, sondern als Melodieinstrument,

wie es Dizzy Gillespie machte und Charlie Parker.Der Jazzsänger Earl Coleman, der mit Charlie Parker, Sonny Rollins und Shirley Scott

zusammengearbeitet hat, ist am Mittwoch im Alter von 69 Jahren gestorben.Darauf folgt ein furioses Deklinieren der schwarzen Jazzmusik, eine heftige Bekenntnissuada ohne

Punkt und Komma - mehr als eine bloße Hommage an die Großen seines Instruments, an John Coltrane und Lester Young.

In Amerika konnte ich mit einigen der größten Jazzmusiker des Jahrhunderts zusammenspielen - Stan Getz, Buddy Rich, Dizzy Gillespie, Sarah Vaughan.

Doch kann man von John Coltrane und Charlie Parker auch leben?Du kannst damit so wunderbar gehauchte Töne spielen wie zum Beispiel Coleman Hawkins oder Stan

Getz; das Altsaxophon dagegen klingt irgendwie netter.Innerhalb weniger Monate starben Bud Freeman, Jimmy McPartland, Stan Getz und Dizzy Gillespie.

Page 72: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 72

Spezielles IT-Thema (8)Der Callserver Succession steht im Mittelpunkt der Lösung.Der Callserver Succession ist auch das erste Produkt, das den Datenverkehr zwischen

und innerhalb von TDM- und Paketnetzwerken verarbeiten kann, ohne daß ein kostenintensives separat verwaltetes Überlagerungssystem erforderlich ist.

Der Callserver Succession ist die Anfangsphase einer umfassenden neuen Architektur von vereinten Dienstleistungen, die netzwerkübergreifend auf Dienstleistungen diverser verteilter IP-Server basiert.

Der Callserver Succession unterstützt und integriert sowohl werterhöhende IP-Dienstleistungen als auch fortgeschrittene Telefondienstleistungen.

Das Netzwerk Succession transformiert die gegenwärtige zentralisierte Topologie zu einer Architektur mit verteiltem Zugang und verteilter Kontrolle, in der Serviceinitiation und auslieferung nicht durch eingebaute Netzwerkbeschränkungen begrenzt werden.

Der Backbone-Kern des Netzwerks Succession ist von 672 Ports auf 512.000 Ports auf einem Succession- Callserver skalierbar, der zur Geschäftszeit 4 Millionen Anrufe verarbeiten kann.

Die IP-Dienstleistungen kommen auf diese Weise zu den traditionellen Telefondienstleistungen in derselben Infrastruktur hinzu.

Der Succession Call Server ermöglicht es, die volle Palette der vorhandenen Telefondienstleistungen über eine Paket-Infrastruktur anzubieten.

Page 73: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 73

Spezielles Kunst-Thema (8)

Begleitet wird sie von Reinmar Henschke am Flügel, der sich etwas ungelenk durch die Songs holpert und stolpert.

Mit Reinmar Henschke hat Ulla Meinecke einen Partner gefunden, dessen exzellente undsensible Begleitung vergessen läßt, daß die Songs mal wesentlich aufwendiger arrangiert waren.

Museum für Naturkunde 18.00: Schauplatz Museum: Lesung Tänze Musik; UbenjakumaLieder und Märchen aus Afrika; George MacLean (Gesang, Erzählung, Saxophon), Reinmar Henschke (Tasteninstrumente, Harald Kündgen (Marimbaphon u.a.

Als Zwiegespräch in einer Art Bar-Atmosphäre zelebriert sie deshalb heute ihre Auftritte, mit Reinmar Henschke am Flügel und kleiner Begleitcombo.

Kaum hat Reinmar Henschke, ihr exzellenter Begleiter am Flügel, den Tasten die ersten Töne entlockt, weiß auch das Publikum Bescheid: "Die Tänzerin".

Unterwegs mit dem Pianisten Reinmar Henschke, dem Bassisten Ingo York und dem Gitarristen/ Vocalisten Leeman, gastiert die Rock-Poetin am heutigen Donnerstag im Oberhausener Ebertbad und drei Tage später, am Sonntag, im Rex-Theater Wuppertal.

Derweil verlegen sich Reinmar Henschke (Synthesizer) und Ingo Wernsdorf (Percussion) auf bis ins Ekstatische anschwellende Untermalung.

Nun hat Victor Schefé sich eine neue Rolle auf den Leib geschrieben, die er mit seiner Band - Reinmar Henschke (Piano), Michael Joch (Percussion), Ingo York (Bass) -brillant ausfüllt.

Page 74: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 74

Platt (2185)Man partu nöömen mööt wi Sonja Kramer, de mit twolf Johren de lüttje Dochter vun

Amandus speelen deit, seut un plietsch, un de vun em orntlich 'n Moorsvull kriggt.Ob de plattdüütsche Fassung dat gerecht ward, wat de Autor vör över dreehunnert Johren

meent hett, mööt wi hier nich spitzfinnig uteneen kleien.As ick vör Johren mal ne Tidlang in Parchen wahnen ded, dunn lewte Herr Rathsherr

Zarnekow in Güstrow noch mit sin Fru un sin Dochter un hadd ok sin Swägerin bi sick.

Na, de Herr Rathsherr Zarnekow, de schull denn nu un gung in de Stuw rüm un argert sick.

Grad as hei dit Geschäft nah Kräften besorgen deiht, führt sin Swager, de Herr Rathsherr Darjus ut Parchen, vör de Dör vör.

Herr Rathsherr Darjus führte also nah Rostock, un nah fiw, söß Dagen kamm hei wedder taurügg un hadd, ne grote Kist hinnen up den Wagen, un sin Swager Zarnekow fröggt: "Wat is in de grote Kist?"

De findt sick denn ok bald, un Herr Rathsherr Zarnekow seggt tau den Fuhrmann: "En Breif is wider nich nödig.

De Fuhrmann führt in Parchen vör de Dör von den Herrn Rathsherrn, un as hei de Kist von den Wagen laden ward, steiht oll Goldsmid Bohn vör de Dör un fröggt: "Wat is in de Kist?"

Während deß kümmt denn nu de Rathsherr Darjus ut den Rath taurügg, un as hei in sin Strat rin kümmt, steiht oll Jochen Hilgendörp in de Dör un seggt: "Gun Morrn, Herr Rathsherr, Ehr Gir=Ap is ok ankamen." -"Wat Deuwel!"

De Fru Rathsherrn Darjussen schickt nu also bi de Koplüd in de Stadt rüm, wat sei kein Frachtgelegenheit nah Güstrow un nah Rostock wüßten; sei hadd ne Kist nah Güstrow tau schicken un ne Partie leddige Win=Ankers nah Rostock.

Page 75: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 75

Bayerischer Wald (gemischt)Die Gegner einer Ausweitung des Nationalparks Bayerischer Wald haben am Wochenende

in Zwiesel gegen das Vorhaben demonstriert.Im Hans-Eisenmann-Haus in Neuschönau (Landkreis Freyung/Grafenau), dem

Besucherzentrum des Nationalparks Bayerischer Wald, wurde jetzt der dreimillionsteGast begrüßt.

Der Passauer Bischof Franz-Xaver Eder hat den Pfarrer der Bayerwaldgemeinde Hinterschmiding (Landkreis Freyung/Grafenau) aufgefordert, seinen Posten zu räumen.

Doch das 10 000 Hektar große Areal des Forstamtes Zwiesel soll für die Erweiterung des Nationalparkes Bayerischer Wald herangezogen werden.

Gegen die Erweiterungspläne haben sich der Kreistag in Regen, die Stadt Zwiesel - die um ihre Trinkwasserversorgung fürchtet -, die Gemeinden Lindberg und Bayerisch Eisenstein ausgesprochen.

Ministerpräsident Edmund Stoiber mußte das Jubiläums-Geschenk dann aber doch eingepackt lassen, weil sich die Stadt Zwiesel sowie die Gemeinden Bayerisch Eisenstein und Spiegelau und auch der Landkreis Regen quergelegt hatten.

Bayerischer Wald: Bayerisch Eisenstein 20/50, L 50, 3 Li; Bischofsmais 10/15, L 16, 3 Li; Bodenmais 10/35, L 45; Frauenau 10/20, L 20; Hauzenberg 10/15; Mauth/Finsterau 20/25, L7.

Bayerischer Wald: Bayerisch Eisenstein 25/40, L 50; Bodenmais 10/35; Neukirchen b. Heiligenblut 20/30.

Bayerischer Wald: Arnbruck 10/25, L 30; Bayerisch Eisenstein 30/60, L 40; Bischofsmais 20/25, L 16; Bodenmais 30/50, L 30; Haidmühle 25/30; Lohberg 25/45; Neureichenau 30/35; Philippsreuth 30/35; St. Englmar 15/30; Zwiesel 20/30.

Page 76: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 76

Negativ-BeispielEs gibt Mengen von stark ähnlichen Sätzen, die so nicht gefunden werden, weil sie

ausschließlich höherfrequente Wörter enthalten.Der Gesellschaftsvertrag ist am 21. Februar 1996 abgeschlossen und am 4. Dezember 1996 abgeändert in 1 Absatz 1

(Firma) und 2 (Gegenstand). Der Gesellschaftsvertrag ist am 11. März 1997 abgeschlossen und am 21. März 1997 abgeändert in 2 (Gegenstand). Der Gesellschaftsvertrag ist am 2. Juli 1996 abgeschlossen und am 21. Januar 1997 abgeändert in 1 (Firma) und 2

(Gegenstand). Der Gesellschaftsvertrag ist am 28. Januar 1997 abgeschlossen und am 25. Februar 1997 abgeändert in 2

(Gegenstand des Unternehmens). Der Gesellschaftsvertrag ist am 27. Januar 1997 abgeschlossen und am 17. März 1997 abgeändert in 6

(Gesellschafterversammlung) und 12 (Einziehung von Geschäftsanteilen). Der Gesellschaftsvertrag ist am 20. Dezember 1996 abgeschlossen und am 24. März 1997 abgeändert in 3

(Stammeinlagen) sowie aufgehoben in 13 Abs. 2 (Schiedsgericht). Der Gesellschaftsvertrag ist am 14. November 1994 abgeschlossen und am 7. März 1995 abgeändert.

Und ca. 100 weitere ...Dies verdirbt auch die Kookkurrenzen: Signifikante Kookkurrenzen für abgeändert: Gesellschaftsvertrag (11830), abgeschlossen

(9862), Gegenstand (4651), Firma (2831), Dezember (1569), März (1304), November (1206), Januar (1169), Februar (1162), Absatz (1084), Stammkapital (1026), Oktober (861), Juni (844), August (805), September (779), April (776), Stammeinlagen (775), Juli (716), Mai (685), ...

Page 77: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 77

Latent Semantic Analysis

LSA macht folgendes:• Gearbeitet wird mit der Matrix A = DTD (wie bei Kookkurrenzen)• Diese Matrix ist symmetrisch, hat also reelle Eigenwerte.• Für die (z.B. 50) größten Eigenwerte werden die Eigenvektoren berechnet• Diese werden zu „Konzepten“ erklärt. (Es gibt aber bisher keinen Grund, warum

Eigenvektoren zu Konzepten gehören sollten.)• Die Projektionen der normalen Wörter auf diese Eigenvektoren zeigt die Stärke der

Zugehörigkeit eines Wortes zu dem entsprechenden Konzept.• Achtung: Es entstehen auch negative Koeffizienten.

Merke: • Matrix A = DTD wird verwendet.• Davon werden die „wichtigsten“ Eigenvektoren ei ermittelt.• Dann Vergleich mit Skalarprodukt: Zugehörigkeit von Wort i zu Konzept j wird

gemessen durch <xi, ej>

Page 78: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 78

Zusammenhang LSA-KookkurrenzenVermutung über die Art eines inhaltlichen Zusammenhangs:Wir erzeugen die Konzepte anders: Wir nehmen disjunkte Kookkurrenzmengen (d.h.

notfalls Dubletten weglassen) zu verschiedenen Begriffen, d.h. tatsächlichen Konzepten. Diese seien durch Vektoren fi beschrieben. Diese Vektoren sind dann automatisch orthogonal.

Die Zugehörigkeit von Wort i zu Konzept j wird gemessen durch <xi, fj>

Prozedurale Unterschiede:• LSA verlangt eine Analyse der kompletten Daten, während Kookkurrenzen auch

lokal berechnet werden können.• Dafür ermöglicht LSA ein globales Orthogonalisieren, was wir mit Kookkurrenzen

nicht können, da eine „Startrichtung“ fehlt.

Page 79: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 79

Spektrum des Kookkurrenzgraphen für Stich

Wir berücksichtigen nur: Stich Doppel Becker DTB | Vorhand Mittelhand HinterhandDiese fallen in zwei Klassen. Lässt sich das mit Eigenwerten berechnen?

Page 80: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 80

Spektrum des Kookkurrenzgraphen für StichBerücksichtigt: Stich Doppel Becker DTB | Vorhand Mittelhand Hinterhand;

[ 0 175 1447 161 557 591 573][ 175 0 196 0 0 0 0][1447 196 0 312 11 0 0]

A := [ 161 0 312 0 0 0 0][ 557 0 11 0 0 1449 1329][ 591 0 0 0 1449 0 1503][ 573 0 0 0 1329 1503 0]

Eigenwerte:[-1540., -1500., -1330., -133., -16.4, 1300., 3210.]

Eigenvektoren (Spalten):[.704 , -.147 , .0171 , .226 , .0276 , -.558 , .358][.0064 , -.0019 , .0007 , -.592 , .785 , -.182 , .030][-.661 , .130 , -.0182 , .190 , -.0198 , -.702 , .169][.0588 , -.0142 , 0. , -.750 , -.615 , -.242 , .034][-.131 , -.285 , -.769 , -.041 , -.004 , .206 , .512][ .061 , .800 , .115 , -.047 , -.0064 , .206 , .535][-.209 , -.489 , .632 , -.044 , -.0057 , .210 , .528]

Page 81: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 81

Spektrum des Kookkurrenzgraphen für space

Wir berücksichtigen nur: space memory disk | address leased | NASA shuttle stationDiese fallen in drei Klassen. Lässt sich das mit Eigenwerten berechnen?

Page 82: Advanced Information Retrievalasv.informatik.uni-leipzig.de/document/file_link/134/AdvIR-1.pdf · U. Quasthoff Advanced Information Retrieval 6 Mehrdeutigkeiten Es ist häufig nicht

U. Quasthoff Advanced Information Retrieval 82

Spektrum des Kookkurrenzgraphen fürspace

[0 , 718 , 2629 , 653 , 127 , 821 , 920 , 2618 , 991] [718 , 0 , 3181 , 585 , 0 , 0 , 0 , 0 , 0][2629 , 3181 , 0 , 0 , 0 , 0 , 0 , 0 , 0][653 , 585 , 0 , 0 , 0 , 0 , 0 , 0 , 0]

A := [127 , 0 , 0 , 0 , 0 , 617 , 0 , 0 , 0][821 , 0 , 0 , 0 , 617 , 0 , 0 , 0 , 0][920 , 0 , 0 , 0 , 0 , 0 , 0 , 1191 , 143][2618 , 0 , 0 , 0 , 0 , 0 , 1191 , 0 , 65][991 , 0 , 0 , 0 , 0 , 0 , 143 , 65 , 0]

Eigenwerte:[-4330., -2380., -876., -536., -3.00, 51.1, 654., 2230., 5180.]

Eigenvektoren (Spalten):[-.580 , .418 , .210 , .147 , -.006 , .098 , .048 , -.267 , .577][-.364 , -.611 , -.184 , -.121 , .005 , -.085 , -.045 , .504 , .418][ .612 , .358 , .007 , -.002 , -.170 , -.078 , -.023 , .404 , .551][ .134 , .037 , -.042 , -.047 , .932 , .290 , .015 , .054 , .118][ .002 , .018 , .233 , -.693 , .009 , -.128 , .668 , -.045 , .025][ .108 , -.146 , -.362 , .567 , -.002 , -.028 , .705 , -.115 , .092][ .029 , .096 , -.750 , -.341 , .032 , -.269 , -.188 , -.416 , .185][ .331 , -.510 , .402 , .065 , .043 , -.193 , -.150 , -.541 , .338][ .124 , -.167 , -.145 , -.187 , -.305 , .873 , .017 , -.158 , .119]