Visuelle Textanalysestjaenicke/vta/3.pdf · Close Reading Beispiel You'll get mixed up, of course, as you already know. You'll get mixed up with many strange birds as you go. So be

Visuelle Textanalyse

Dr. Stefan Jänickehttp://www.vizcovery.de

2. Mai 2019

http://www.traviz.vizcovery.org/

Digital Humanities & Visualisierung

Information Seeking Mantra (Ben Shneiderman)"Overview first, zoom and filter, details-on-demand"

Close Reading

Distant Reading

Close Reading

Close Reading

Close Reading

350 BC

Close Reading

Close Reading

Close Reading

1. Grundidee– Was ist die Grundidee des Textes?

2. Erzählweise– Wer erzählt?– Wie wird erzählt?

3. Sprache– Ausdruck & Wortwahl– Welche Worte werden wiederholt bzw. besonders hervorgehoben?

4. Syntax– In welcher Reihenfolge erscheinen die Wörter/wird erzählt?

5. Kontext– Historischer Kontext & Biografie des Autors

Close Reading Beispiel

You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.

And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)

--- aus Dr. Seuss' „Oh, the Places You'll Go!“





1. Grundidee– Life's a Great Balancing Act





1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an





1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)





1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV

NE

GA

TIV

POSI

TIV





1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV5. Kontext– 1990 veröffentlicht– letztes Buch von Dr. Seuss

NE

GA

TIV

POSI

TIV





1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV5. Kontext– 1990 veröffentlicht– letztes Buch von Dr. Seuss

NE

GA

TIV

POSI

TIV

Close Reading: How-to

Ziel(e) des Close Readings– Wie ist der Fokus? Was mache ich mit den gewonnenen Informationen?

Textstruktur– Nummerierung von Textabschnitten, Verlinkung zusammengehöriger Abschnitte

Linker Margin– kurze Zusammenfassung eines Paragraphs

Rechter Margin– Fragen mit Bezug auf Text formulieren– Was versucht der Autor zu sagen? Ist das sinnvoll?

Annotieren→ bedeutsame Textabschnitte hervorheben

Traditionelles Close Reading

Digitales Close Reading



Gemeinsam– Zusammenarbeit, Teilen in soziales Netzwerken, Fragen stellen & diskutieren

Veränderbar– Weniger Aufwand als auf Papier

Annotationsvielfalt– nicht „nur“ Text, sondern auch Bilder, Audio, Video, ...

Distant Readings– Vergleich einer Textpassage zum Gesamttext?– aber: Gefahr der Ablenkung

Automatisches Annotieren– Anreichern des Textes mit Zusatzinformationen (vorab)


Named Entity Recognition (NER)

Aufgabe der Informationsextraktion zum Auffinden und Klassifizieren sogenannter Named Entities in vordefinierte Kategorien


Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Dieter Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären…

Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Dieter Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht <Ort>Bochum</Ort></Organisation> klären…


Interne Evidenz:– ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt – Eintrag im Lexikon oder anderer lexikalischer Ressourcen, z.B. Berlin → Ort, Mercedes → Marke, Merkel → Person– bestimmte Wortbestandteile, z.B. „-burg“ deutet auf Ort hin– Groß- und Kleinschreibung

Externe Evidenz:– nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen– „die französische Stadt XYZ“ deutet stark darauf hin, dass als nachfolgendes Wort XYZ ein Ortsname folgt– „der deutsche Politiker ABC“ → Person– „die Kathedrale St. Paul“ → religiöser Ort


Interne Evidenz:– ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt – Eintrag im Lexikon oder anderer lexikalischer Ressourcen, z.B. Berlin → Ort, Mercedes → Marke, Merkel → Person– bestimmte Wortbestandteile, z.B. „-burg“ deutet auf Ort hin– Groß- und Kleinschreibung

Externe Evidenz:– nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen– „die französische Stadt XYZ“ deutet stark darauf hin, dass als nachfolgendes Wort XYZ ein Ortsname folgt– „der deutsche Politiker ABC“ → Person– „die Kathedrale St. Paul“ → religiöser Ort


Preprocessing

Tokenisierung:– Erkennen der Wortgrenzen: einfach für europäische Sprachen (Leerzeichen), schwierig für japanisch oder chinesisch– Satzzeichen markieren Struktur des Textes– Großschreibung → zu einfach?


Preprocessing



Preprocessing


Morphologische Analyse:– Vereinfachung einzelner Wörter– Erkennen von Präfix bzw. Suffix→ Endungen wie „-burg“,“-stadt“, „-dorf“ → Ortsname– Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma→ viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin, z.B. denken → Mensch


Preprocessing

Lexikalische Analyse:– viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden– ABER: Mehrdeutigkeiten machen Einbezug des Kontextes erforderlich

- Essen: Ort oder Mahlzeit? - Bank: Finanzeinrichtung oder Sitzmöbel?- „Buchen Sie mir einen Flug“ vs. „Es gibt viele Buchen im Wald.“- Jordan: Person vs. Ort- JFK: Person vs. Flughafen- May: Person vs. Monat


Preprocessing

POS-Tagging (Part-of-Speech):– Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen– jedem Wort wird Wortklasse zugeordnet → Auflösen von Mehrdeutigkeiten?– Satzstrukturierung: Clause/Phrase/Word Level


NER–Methoden

1) Listenbasiert:– theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden.– Vorteile: Einfach zu Erstellen und schnelle Erkennung– ABER:

- oftmals unmöglich, alle NE zu speichern- nicht in der Lage mehrdeutige Wörter zu disambiguieren- ständig neue Entitäten, Abkürzungen- kaum möglich Zeitangaben oder quantitative Aussagen in einer solchen Liste zu speichern


NER–Methoden

2) Regelbasiert:

– definiere Regeln, die das Einsortieren der einzelnen Token ermöglichen– Nutzung von Lexika– Nutzung von syntaktischem, morphologischem domänenspezifischen Wissen– Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities


NER–Methoden

2) Regelbasiert: Beispiele– großgeschriebene Worte Hinweise auf eine Organisation: NASA, ADAC, UNICEF– Vorkommen von „-burg“, „-dorf“, -„stadt“ weist auf deutschen Ort hin– „denken“ ist Hinweis auf Mensch, „produzieren“ auf Firma– Nutzen von Kontextmustern: - [PERSON] verdient [GELD] → Frank verdient 20€ - [PERSON], [AMT] ART [ORGANISATION] Angela Merkel, Bundeskanzlerin der Bundesrepublik Deutschland - [PERSON|ORGANISATION|TIER] fliegen PRÄP [ORT|PERSON|EREIGNIS] Sarah fliegt zur Konferenz Ryan Air fliegt nach London Vogel fliegt zum Baum


NER–Methoden

2) Regelbasiert:

+ Benötigt nur eine kleine Menge an Trainings-Datensätzen+ sehr gute Performanz (Precision & Recall) – Muss von spezialisierten Linguisten entwickelt werden – Entwicklung sehr zeitaufwändig (umfassende Grammatiken) – Erweiterung und Anpassung an eine neue Domäne ist aufwändig


NER–Methoden

3) Lernbasiert:– nutzt Methoden des Maschinellen Lernens

(Abstrakte) Idee: – beginne mit kleiner Menge bekannter Named Entities (Seeds)– kennzeichne Named Entities in Trainingskorpus mit Seeds– extrahiere und generalisiere Muster aus den Kontexten, in denen Seeds vorkommen– nutze Muster um Named Entities interativ in Korpus zu erkennen→ generiere weitere Seeds– wiederhole solange keine neuen Named Entities entdeckt werden


NER–Methoden

3) Lernbasiert: Mögliche Features

– orthographisch: all-digits, roman-number, contains-dots, contains-hyphen, acronym, punctuation-mark, single-char, functional-word, URL– Worttyp: functional, lowercased, quote, capitalized, punctuation mark– Kontext: betrachte Wort W0 → Wörter um W0 im Fenster [-3,…,+3]– Trigger Wörter, z.B. für Personen (Frau, Dr.) oder Organisationen (GmbH, Co.)– Lexika: Gazetteers für Orte, Vornamen, Nachnamen, Firmennamen– POS tags, z.B.: „… Angela Merkel, the German chancellor, ...“ [Angela Merkel, chancellor] „… NYU, the employer of the famous Ralph Grishman, ...“ [NYU, employer] „… Stephen King, the great writer of horror bestsellers, ...“ [Stephen King, writer]


NER–Methoden

Welcher Ansatz?

– Gibt es ein hinreichend gutes, standardisiertes Vokabular? → lexikonbasiert– Performanz von regelbasierten ist höher als die von lernenden Systemen – Regelbasierte Systeme sind etwas schneller bei der Auswertung– Änderungen der Ziele können bei lernenden Systemen schneller umgesetzt werden - schnelle Änderungen oder Austausch der Trainings-Texte - bei regelbasierten Systemen müssen viele Regeln ersetzt werden → lernende Systeme sind flexibler bzgl. Änderungen zur Laufzeit– lernende Systeme sind (meist) sprachunabhängig→ Abwägung Precision/Recall


Anzahl korrekt klassifizierter NEs

Anzahl NEs gefundenPrecision =

Anzahl korrekt klassifizierter NEs

Anzahl vorhandener NEsRecall =

F1 score: Harmonischer Mittelwert zwischen Präzision und Ausbeute

Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE

Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen)



Heyne Digital

Christian Gottlob Heyne's Vorlesungen über die Archäologie

– verschiedene Mitschriften der Vorlesung „Die Archäologie oder die Kenntniß der Kunst und der Kunstwerke des Alterthums“– erste speziell der antiken Kunst gewidmete Lehrveranstaltung an einer Universität– kein Handbuch– vier Mitschriften als vollständige Transkription in digitalisierter Form zugänglich – verschiedene Sichten– manuelle Auszeichnung von Personen, Orten, Literatur und Kunstwerken mit Normdaten

Heyne Digital

Heyne Digital

Heyne Digital

Heyne Digital

Heyne Digital

https://nlp.stanford.edu/software/CRF-NER.html

http://nlp.stanford.edu:8080/ner/

Visualisierungsstrategien für Close Reading


Farbe

Alexander et al. (2014). Serendip: Topic Model-Driven Visual Exploration of Text Corpora


Farbe

Walsh et al. (2014). Crowdsourcing individual interpretations: Between microtasking and macrotasking


Schriftgröße

Walsh et al. (2014). Crowdsourcing individual interpretations: Between microtasking and macrotasking



Glyphen

Goffin et al. (2014). Exploring the Placement and Design of Word-Scale Visualizations


Verbindungen

Coles et al. (2014). Empowering Play, Experimenting with Poems: Disciplinary Values and Visualization Development


Verbindungen

McCurdy et al. (2016). Poemage: Visualizing the Sonic Topology of a Poem.


Cheema et al. (2016). AnnotateVis: Combining Traditional Close Reading with Visual Text Analysis


Cheema et al. (2016). AnnotateVis: Combining Traditional Close Reading with Visual Text Analysis

Anekdote

Theodor Seuss Geisel

Sein Erstwerk “And to Think That I Saw it on Mulberry Street (1937)” wurde von 27 Verlagen

abgelehnt! Fantasie würde sich nicht verkaufen...

Es folgten 47 weitere Bücher mit mehr als 600,000,000 Exemplaren...

Anekdote

And often she wishes that, when they were born, She had named one of them Bodkin Van Horn And one of them Hoos-Foos. And one of them Snimm. And one of them Hot-Shot. And one Sunny Jim. And one of them Shadrack. And one of them Blinkey. And one of them Stuffy. And one of them Stinkey. Another one Putt-Putt. Another one Moon Face. Another one Marvin O'Gravel Balloon Face. And one of them Ziggy. And one Soggy Muff. One Buffalo Bill. And one Biffalo Buff. And one of them Sneepy. And one Weepy Weed. And one Paris Garters. And one Harris Tweed. And one of them Sir Michael Carmichael Zutt And one of them Oliver Boliver Butt And one of them Zanzibar Buck-Buck McFate ... But she didn't do it. And now it's too late.

Did I ever tell you that Mrs. McCaveHad twenty-three sons and she named them all Dave? Well, she did. And that wasn't a smart thing to do. You see, when she wants one and calls out, "Yoo-Hoo! Come into the house, Dave!" she doesn't get one. All twenty-three Daves of hers come on the run! This makes things quite difficult at the McCaves' As you can imagine, with so many Daves.

Dr. Seuss'

Documents

Visuelle Textanalysestjaenicke/vta/3.pdf · Close Reading Beispiel You'll get mixed up, of course, as you already know. You'll get mixed up with many strange birds as you go. So be