Hintergrund I

Analyse multilingualer Korpora für übersetzungswissenschaftliche

Fragestellungen

Elke TeichFR 4.6, Angewandte Sprachwissenschaft, UdS

Kolloquium „Exploitation of natural language corpora“ 12/7/02

Hintergrund I• Gegenstand: Spezifische, möglicherweise universelle

Eigenschaften von Übersetzungen/ Verdolmetschungen• Hermeneutik: law of interference, law of growing

standardization (Toury 95)• Übersetzungswissenschaft: normalization, sanitization,

simplification, explicitation, levelling out (Baker 95, 96; Kenny 95)

• Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99)

• Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

Hintergrund II

• Gegenstand: Interaktion Intonation und Grammatik– Korrelationen bestimmter Tonhöhenverläufe mit

bestimmten grammatischen Konstruktionen (z.B. continuation tone)

– Verhältnis stress und Informationsfokus– Prosodiephänomene in Verdolmetschungen (z.B.

Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung)

• Datenbanken gesprochener Sprache– Einzelsätze: ToBI, SFG; EMU – Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie);

EMU

Ziele des Vortrags

• Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen

• Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

Korpusbasierte Übersetzungswissenschaft

• Beobachtungen & Hypothesen: Übersetzungen– sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte

explicitation– haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als

vergleichbare ZS-Originaltexte– haben mehr Sätze als vergleichbare ZS-Originaltexte– haben eine niedrigere type-token ratio als vergleichbare ZS-

Originaltexte– haben eine geringere lexikalische Dichte als vergleichbare ZS-

Originaltexte– sind „normaler“ als vergleichbare ZS-Originaltexte

normalization, standardization– lassen QS durchscheinen interference, shining-through

• Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte

simplification

Beispiel Übersetzungen D-E, E-D

G-ORI E-TL E-ORI

sentence length 11.55 12.54 15.36

number of sentences 544 588 366

type-token ratio 49.24 38.66 39.61

E-ORI G-TL G-ORI

sentence length 15.36 13.26 11.55

number of sentences 366 411 544

type-token ratio 39.61 47.24 49.24

maxmin

Effekte: zielsprachenspezifisch? quellsprachenabhängig?

Beispiel Übersetzung E-D

BEDS come in all sizes –Single or double,Cot-size or cradle,King-size or trundle.

Most Beds are BedsFor sleeping or resting,But the best Beds are muchMore interesting!

BETTEN gibt‘s in allen Größen –Einzel oder DoppelFeldbett oder WiegeRiesig oder rollend.

Meist sind Betten: BettenFür den Schlaf und für die RuhDie besten Betten aber sind:Viel interessanter – hör mal zu!

Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung?

Sprachtypologie Genre (+Register)

(Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski)

Kritikpunkte, Schlußfolgerungen• andere ZS: Beobachtungen teilweise nicht bestätigt• Ebene der Beobachtungen bei Baker et al. sehr shallow –

Interpretation? Erklärungen?• Alternativer Ansatz: Basis Kontrastive Linguistik

– Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text– Theorie: Sprachtypologie, Kontrastive Registertheorie,

(Verarbeitungsprozesse)– Methoden: Korpusdesign

+ multilingual vergleichbares Korpus von Originaltexten

+ Parallelkorpus– Techniken: automatische und halbautomatische

Korpusanreicherung und Extraktion/Query

Methode: Korpus

Englishoriginal texts

German translations

English translations

German original texts

monolingually comparable corpus

monolingually comparable corpus

multilingually comparable corpus

parallel corpus

parallel corpus

Beispiel Korpusuntersuchung• Übersetzungen von populärwissenschaftlichen Texten E-D,

D-E– Scientific American/Spektrum der Wissenschaft („Doherty-

Korpus“) und populärwissenschaftliche Buchpublikationen – ein Register: verschiedene fields, tenor: Experte – Laie

Vergleichbarkeit– „gute“ Übersetzungen– pro Subkorpus: 10 samples à 1000 Wörter (ca. 10 000

Wörter); expositorisch

• Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren?

• Resultate & Interpretation• Techniken der Analyse

Theorie: Sprachtypologie, Registertheorie

• Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B.

E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria.

G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen.

G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen.

• Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90:– relative Häufigkeit bestimmter lexikogrammatischer Merkmale

(signifikant)– z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen,

komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Beispiel Passiv/Passivalternativen

79

389

165 passive

278 active

E-ORI

2 = 45.5; Signifikanz: 0.001 (1 df > 10.83)

G-ORI

G-ORI – E-ORI Subkorpus

passive 79 165

passive 146 64alternatives

E-ORI G-ORI

2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

• Hypothesenformulierung E-ORI—G-TL• In Übersetzungen vom Englischen ins Deutsche liegt

shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI)

• In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

• Hypothesenformulierung G-ORI—E-TL• In Übersetzungen vom Deutschen ins Englische

liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI)

• In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Resultate & Interpretation

schwaches shining-through (Passiv) in G-TL

165

278

E-ORI

79 100passive

389 357active

G-ORI G-TL

G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)

165

64

E-ORI

79 100passive

146 163 passive

alternatives

G-ORI G-TL

G-ORI – G-TL: 2 = 0.0; nicht signifikant

kein normalization-Effekt (Passivalternativen) in G-TL

Resultate & Interpretation

normalization (Passiv) in E-TL

79

389

G-ORI

165 186passive

278 218active

E-ORI E-TL

E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)

79

146

G-ORI

165 186passive

64 62passive

alternatives

E-ORI E-TL

E-ORI – E-TL: 2 = 0.1; nicht signifikant

kein shining-through-Effekt (Passivalternativen) in E-TL

Resultate & Interpretation E-TL G-TL

1) passive vs. active normalization shining through

2) passive vs. passive alternatives --- ---

3) material vs. relational (other factor) (other factor)

4) attributive vs. predicative normalization normalization

5) premod vs. postmod shining through shining through

6) full relative vs. dense postmod --- normalization

7) full relative vs. dense mod --- (other factor)

8) effective vs. middle --- (other factor)

9) unmarked vs. marked theme normalization shining through

mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

English translations

German original texts

T e

x t

/ S

a t

z l

ä n

g e

, S

a t

z a

n z

a h

lT

y p e – T

o k e n

R a t i o

Techniken: Basis

Techniken: Korpusannotation I• PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95)• TnT output (TSV):

If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ , YC effect NN1 is VBZ desired VVN , YC strophanthin PN1 will VM be VB0 needed VVN . YF

Techniken: Korpusquerying• Extraktion von Instanzen der ausgewählten lexiko-

grammatischen Merkmale: CQP/ XKWIC (Christ 94)

• Query-Syntax: reguläre Ausdrücke

Query

Konkordanz

Techniken: Korpusannotation II• Abstraktere Merkmale, z.B. funktional-grammatische

Prädikatstypen (SFG: process types)• Special/general-purpose tools wie TATOE (Alexa &

Rostek 99), Coder (O‘Donnell 95)<codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben?</segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet:</segment> <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben.</segment> <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst,</segment> <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen,</segment>...</body>

Techniken: Korpusquerying

Probleme

• Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen– verschiedene Formate

– verschiedene Datenstrukturen

• Integrierte Repräsentation, z.B. XML• Aber: Problem Query

Beispiel Our-XML<?xml version="1.0" encoding="UTF-16"?><words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word></words>

<?xml version="1.0" encoding="UTF-16"?><clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text></clause> (Teich et al. 2001)

Probleme• Integrierte Repräsentation verschiedener Annotationen (cf.

multi-layer Problematik): Skripts: z.B. XML, Ags – aber query?– CQP (Christ 94)– TigerSearch (König & Lezius 2002)– GSearch (Corley et al., 2001)– Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber:

skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)?

– Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL

– Semistrukturierte Daten: XSLT, XQuery

• Intersecting hierarchies – ok; aber: overlapping segments?– annotation graphs (Bird & Liberman 2001)– Mate, stand-off markup (Thompson & McKelvie97), Our-XML– aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery?

specialpurpose

generalpurpose

Zusammenfassung und Ausblick• Annotierte Korpora als linguistische Datenbanken:

– Linguistik • Welche Arten von Beziehungen? Dominanz, lineare

Abfolge, binding, Kohäsion, semantische Relationen...• Verschiedene Perspektiven auf ein Korpus

– Abfragen auf mehreren Annotierungsschichten– Vergleich verschiedener Annotierungen desselben Korpus

– Informatische Techniken• superimposed information• Querysprachen

• Tool kit:– Skripts „externe“ tools (TSV, Baum, AG, your-XML) –

our-XML– Definition von Querytypen (XQuery; XSLT)– zusätzliche layers; mehr Daten

Documents

Hintergrund I