24
Hrvatski paralelni korpusi (Kroatische Parallelkorpora) Seminar: Slawische KorpuslinguistikErnedina Muminović ([email protected]) & Silvije Beus ([email protected]) o.Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006

Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

  • Upload
    orde

  • View
    86

  • Download
    7

Embed Size (px)

DESCRIPTION

Hrvatski paralelni korpusi ( Kroatische Parallelkorpora ). Seminar: „ Slawische Korpuslinguistik “ Ernedina Muminović ([email protected]) & Silvije Beus ([email protected]) o . Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006. Pojmovi ( Begriffe ). Korpus - PowerPoint PPT Presentation

Citation preview

Page 1: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Hrvatski paralelni korpusi(Kroatische Parallelkorpora)

Seminar: „Slawische Korpuslinguistik“ Ernedina Muminović ([email protected])

& Silvije Beus ([email protected])o.Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006

4. April 2006

Page 2: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 2

Pojmovi (Begriffe)

Korpus Paralelni korpus (Parallelkorpus) Računalni korpus (Elektronisches Korpus) Sravnjivanje (Alignement) Pojavnice (Wörter)

Page 3: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 3

Hrvatski korpusi (Kroatische Korpora)

Hrvatski korpusi(Kroatische Korpora)

Hrvatski nacionalni korpus(Kroatisches Nationalkorpus)

Hrvatska mrežna riznica(Kroatische Netzquelle)

http://www.hnk.ffzg.hr/ http://riznica.ihjj.hr/

Page 4: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 4

Hrvatski nacionalni korpus(Kroatisches Nationalkorpus)

Hrvatski nacionalni korpus (101,3 mil.)(Kroatisches Nationalkorpus 101,3 Mio.)

Korpus suvremenoga hrvatskoga(Korpus der kro. Gegenwartssprache)

Zbirka hrvatskih tekstova(Kro. Textsammlung)

Page 5: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 5

Korpus suvremenoga hrv. jezika(Korpus kro. Gegenwartssprache) 30 mil.

30 milijunski korpus suvremenog hrvatskog jezika (30 Mio. Wörter) Tekstovi od 1990. do danas (Texte ab 1990

bis heute) Različita područja i žanrovi (Verschiedene

Gebiete und Genres) Reprezentativan za hrv. suvremeni

standardni jezik (Representativ für die kro. Standardsprache)

Page 6: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 6

Zbirka hrvatskih tekstova(Kroatische Textsammlung) HETA

hrvatski elektronski tekstovni arhiv: (Kroatisches elektronisches Textarchiv) Tekstovi stariji od 1990. godine (Texte vor

1990) I neki tekstovi nakon 1990. godine (wenige

Texte ab 1990)

Page 7: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 7

Hrvatska jezična mrežna riznica(Kroatische Netzquelle) Početak (Beginn): 2005. godine Tekstovi iz druge polovice XIX. st. (Texte

aus der 2. Hälfte des 19. Jh.) Djela hrv. književnosti (Werke kro. Literatur) Publicistička djela (Werke aus der Publizistik) Znanstvena djela (Wissenschaftliche Werke) Literarna djela prevedena na hrvatski

(Literarische Werke übersetzt auf Kroatisch) Tisak (Presse) Djela iz predstandardnoga razdoblja (Werke vor

der Standardisierung der kroatischen Sprache)

Page 8: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 8

Ciljevi (Ziele) Dostupnost materijala preko Interneta

(Internetzugang) Informacije o hrvatskoj jezičnoj normi

(Informationen über die kro. Sprachnorm) Izrada Velikoga rječnika hrvatskoga jezika

(Verfassen des Großen Wörterbuches der kro. Sprache)

Opća jezikoslovna istraživanja (Allgemeine Sprachuntersuchungen)

Page 9: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 9

Hrv.-slo. paralelni korpus(Kroatisch-slowenisches Parallelkorpus) Početak (Beginn): 1999. godine Sporazum o dvostranoj znanstvenoj

suradnji Hrvatske i Slovenije (Abkommen)

Trajanje (Dauer): 2 godine Učesnici (Teilnehmer): Filozofski

fakulteti u Zagrebu i Ljubljani

Page 10: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 10

Ciljevi (Ziele) Stvaranje usporednog korpusa

(Schaffen des Parallelkorpus) Skupljanje hrvatskih i slovenskih

originala i odgovarajućih prijevoda (Sammeln)

Sravnjivanje korpusa na razini rečeničnih prijevodnih ekvivalenata (Korpusalignement)

Slobodan pristup korpusu putem Interneta (Internetzugang)

Page 11: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 11

Primjena rezulatata (Verwendung der Resultate) Pomoć pri učenju jezika (Hilfe bei

Fremdsprachenerlernung) Stvaranje kontrastivne gramatike i

udžbenika (Kontrastive Grammatik und Lehrbücher)

Sastavljane dvojezičnih rječnika (zweisprachige Wörterbücher)

Page 12: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 12

Primjena rezulatata (Verwendung der Resultate) Leksikografska i leksikološka

istraživanje (lexikograpische und lexikographische Untersuchungen)

Mogućnost slobodnog korištenja npr. pri prevođenju, studiranju… (Korpus als Hilfestellung bei Translationen, beim Studieren...)

Page 13: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 13

Građa (Aufbau) 500.000 pojavnica po jeziku (Wörter) Vremenski raspon tekstova: 1990.-

2001. (Texte von 1990-2001)

Page 14: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 14

Podjela korpusa(Korpusgliederung)

Struktura po žanru(Struktur nach Genres)

Beletristika(Belletristik)

Publicistika(Publizistik)

Stručni testovi(Fachtexte)

200.000 pojavnica(Wörter)

Znanost(Wissenschaft)

75.000 pojavnica(Wörter)

150.000 pojavnica(Wörter)

75.000 pojavnica(Wörter)

Page 15: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 15

Obrada korpusa (Korpusbearbeitung) Pretvaranje teksta u XML format (XML-

Formatierung) Program 2XML Segmentacija (Satzsegmentierung) Obilježavanje rečenica ID oznakama

(Satzkennzeichnung) Usklađivanje odlomaka (Absatzangleichung) Sravnjivanje teksta pomoću programa

Vanilla Aligner (Alignement)

Page 16: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 16

Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus) Početak (Beginn):

1. hrv.-engl. korpus (kro.-engl. Korpus) 1968.-1971. “Srpskohrvatsko-engleski

kontrastivni projekt” (serbokro.-engl. kontrastives Projekt)

Skupljanje i obrada materijala (Sammeln und Verarbeiten)

Izdavanje velikog broja naučnih publikacija (Publikationen)

Page 17: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 17

Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus)

2. hrv.-engl. korpus (kro.-engl. Korpus) Prijevod Platonove “Države” (Plato‘s

“Republik”) Prilično malog opsega (relativ klein) Nije mjerodavan (nicht aussagekräftig)

3. hrv.-engl. korpus (kro.-engl. Korpus) Cilj mu je testirati (Ziel):

Organizaciju paralelnih korpusa (Organisation) Sravnjivanje (Alignement)

Page 18: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 18

Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus) Početak (Beginn): 1998.-2001. Skupljanje materijala na FF u Zagrebu

(Materialsammlung)

Page 19: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 19

Izvor (Quelle) Tjednik “Croatia Weekly”

(Wochenzeitung) Članci s hrvatskog prevođeni na engleski

jezik (Übersetzungen Kroatisch-Englisch) Vremenski raspon članaka 1998.-2000.

(Artikel von 1998-2000) Područja proučavanja

(Forschungsgebiete): Politika, gospodarstvo i financije, turizam,

ekologija, umjetnost, sport, zbivanja

Page 20: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 20

Korpusni parametri (Korpusparameter)

Jezik(Sprache)

Hrvatski(Kroatisch)

Engleski(Englisch)

Članci(Artikel)

4.748 4.748

Rečenice(Sätze)

74.638 82.898

Pojavnice(Wörter)

1.636.246 1.968.874

Page 21: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 21

Obrada teksta (Textverarbeitung) Pretvaranje teksta u XML format (XML-

Formatierung) Usklađivanje odlomaka

(Absatzangleichung) Obilježavanje rečenica ID oznakama

(Identifikation) Sravnjivanje teksta pomoću programa

Vanilla Aligner (Alignement)

Page 22: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 22

Sravnjeni hrv.-engl. Korpus(Aligntes Kro.-Engl. Korpus)0:1 250 0,35 %1:0 19 0,09 %1:1 58788 83,52 %1:2 9374 13,32 %2:1 1529 2,17 %2:2 432 0,61 %Ukupno (gesamt)

70392 100 %

Page 23: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 23

Literatura (Literaturverzeichnis)Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni

korpus, in: Suvremena lingvistika 41-42; 603-612. Tadić, M. (1998): Raspon, opseg i sastav korpusa suvremenoga

hrvatskoga jezika, in: Filologija 30-31; 337-347. Tadić, M. (2000): Building the Croatian-English Parallel Corpus, in:

Zbornik, 1; 523-530. Tadić, M., Požgaj-Hadži, V. (2000): Hrvatsko-slovenski paralelni

korpus, Jezikovne tehnologije / Language Technologies, Ljubljana, 70-74.

Tadić, M. (2001): Procedures in Building the Croatian-English Parallel Corpus, in: International Journal of Corpus Linguistics, 107-123.

Page 24: Hrvatski paralelni korpusi ( Kroatische Parallelkorpora )

Slawische Korpuslinguistik 24

Literatura (Literaturverzeichnis)Tadić, M., Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata u

hrvatsko-engleskom paralelnom korpusu, in: Filologija 38-39; 247-262.

Tadić, M. et al. (2004): Making Monolingual Corpora Comparable: a Case Study of Bulgarian and Croatian, in: Zbornik, 4; 1187-1190.

Internet: http://www.hnk.ffzg.hr/http://www.hnk.ffzg.hr/mt/http://riznica.ihjj.hr/http://www-gewi.kfunigraz.ac.at/gralis/