32
Ozna Ozna čevanje čevanje korpusa korpusa AH AH l l ib ib Tomaž Erjavec Tomaž Erjavec Odsek za Odsek za tehnologije tehnologije znanja znanja Institut Institut Jožef Jožef Stefan Stefan tomaz.erjavec@ij tomaz.erjavec@ij s.si, s.si, http http ://nl.ijs.si/et/ ://nl.ijs.si/et/

Ozna čevanje korpusa AH l ib

Embed Size (px)

DESCRIPTION

Ozna čevanje korpusa AH l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” [email protected] , http://nl.ijs.si/et/ Graz, 2006-05-10. Urnik. 09:00 - 10:00 uvod, shema pretvorbe 10:00 - 11:00 predstavitev na primerih 11:00 - 13:00 prakti č no delo - PowerPoint PPT Presentation

Citation preview

Page 1: Ozna čevanje korpusa  AH l ib

OznaOznačevanje čevanje korpusa korpusa AHAHllibib

Tomaž ErjavecTomaž ErjavecOdsek za Odsek za tehnologije znanjatehnologije znanjaInstitutInstitut “ “Jožef Jožef StefanStefan””[email protected]@ijs.si, i, httphttp://nl.ijs.si/et/://nl.ijs.si/et/

Graz, 2006-05-10Graz, 2006-05-10

Page 2: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

UrnikUrnik

09:00 - 10:0009:00 - 10:00uvod, shema pretvorbeuvod, shema pretvorbe

10:00 - 11:00 10:00 - 11:00 predstavitev na primerihpredstavitev na primerih

11:00 - 13:00 11:00 - 13:00 praktipraktiččno delono delo

13:00 - kosilo13:00 - kosilo ??14:00 - 14:00 - ……

nadaljevanje nadaljevanje praktipraktiččnnegaega del delaa

Page 3: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

UvodUvod

1.1. ozadjeozadje

2.2. postopek pretvorbepostopek pretvorbe

3.3. pretvorba v XML/HTMLpretvorba v XML/HTML

4.4. označevanje neznanih besedoznačevanje neznanih besed

Page 4: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

CiljiCilji

Idealna končna različica korpusa:Idealna končna različica korpusa:1.1. primerna za internetno branje, s primerna za internetno branje, s

povezavami na faksimile povezavami na faksimile --> HTML (brez napak in oblikovan)--> HTML (brez napak in oblikovan)

2.2. jezikoslovno dostopna, torej preko jezikoslovno dostopna, torej preko konkordančnika, z lematiziranimi konkordančnika, z lematiziranimi besednimi oblikami besednimi oblikami --> --> baza konkordanbaza konkordančnika (jezikovna čnika (jezikovna analiza)analiza)

3.3. zapisana v zapisana v standardni standardni oblikiobliki--> XML/TEI--> XML/TEI

Page 5: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Standardi zapisaStandardi zapisa

zapis mora biti prenosljiv med zapis mora biti prenosljiv med računalniškimi platformami in aplikacijami računalniškimi platformami in aplikacijami in odporen na tehnološke spremembein odporen na tehnološke spremembe

XMLXML: eXtended Markup Language: splošen : eXtended Markup Language: splošen (meta)jezik za zapis digitalnih podatkov(meta)jezik za zapis digitalnih podatkov

TEITEI: Text Encoding Initiative:: Text Encoding Initiative:TEI P4 Guidelines: tip dokumentov XMLTEI P4 Guidelines: tip dokumentov XMLformalno določi nabore elementov in jih formalno določi nabore elementov in jih dokumentiradokumentira

Page 6: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Dokument XMLDokument XML

<<pesempesem>> <<naslovnaslov>Uvod.</>Uvod.</naslovnaslov>> <<kiticakitica>> <<vv>Dvigni se! ukawz mi reče.</>Dvigni se! ukawz mi reče.</vv>> <<vv>Srce pade mi v oblasti</>Srce pade mi v oblasti</vv>> <<vv>Silne, prej neznane strasti,</>Silne, prej neznane strasti,</vv>> <<vv>Ki ko >Ki ko žživi ogenj peče.</ivi ogenj peče.</vv>> </</kiticakitica>> <<kiticakitica>> <<vv>>ČČut se zlije mi v besede. -</ut se zlije mi v besede. -</vv>> <<vv>Preč so črne bolečine,</>Preč so črne bolečine,</vv>> <<vv>Strast občutkov divjih >Strast občutkov divjih

mine,</mine,</vv>> <<vv>Jasen mir se v prsi vsede.</>Jasen mir se v prsi vsede.</vv>> </</kiticakitica>></</pesempesem>>

dokument = dokument = besedilo + besedilo + oznakeoznake

element = element = začetna oznaka + začetna oznaka + vsebina + vsebina + končna oznakakončna oznaka

element vsebuje element vsebuje besedilo ali besedilo ali elemente ali elemente ali oboje (ali nič)oboje (ali nič)

Page 7: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

TEITEI

Text Encoding InitiativeText Encoding Initiative GuidelinesGuidelines določi določi nabore elementov nabore elementov in jih in jih

dokumentiradokumentiranpr. <p>, <note>, <head>, <div>npr. <p>, <note>, <head>, <div>

dolodoloči kako naj se elementi med či kako naj se elementi med seboj gnezdijoseboj gnezdijonpr. da je <p> znotraj <div> npr. da je <p> znotraj <div> dovoljen, obratno pa nedovoljen, obratno pa ne

Page 8: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Jezikovna analiza v TEIJezikovna analiza v TEI

Page 9: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Končna vsebina baze Končna vsebina baze AHlibAHlibVsaka knjiga:Vsaka knjiga: shranjena v standardnem zapisu shranjena v standardnem zapisu XML/TEIXML/TEI

– zapis vsebuje strukturne elemente (poglavja, zapis vsebuje strukturne elemente (poglavja, opombe, tujejezične citate…)opombe, tujejezične citate…)

– zapis vsebuje, za vsako pojavnico (besedo v zapis vsebuje, za vsako pojavnico (besedo v besedilu) njeno lemobesedilu) njeno lemo

shranjena tudi v izpisu v shranjena tudi v izpisu v HTMLHTML, ki je , ki je avtomatsko izveden iz TEI (t.i. stil XSLT)avtomatsko izveden iz TEI (t.i. stil XSLT)

povezana s svojim povezana s svojim faksimilfaksimilomom (trenutno - več ali manj - samo na nivoju (trenutno - več ali manj - samo na nivoju celotne celotne knjigknjige v formatu e v formatu PDFPDF, kasneje , kasneje verjetno verjetno po stranehpo straneh ali celo grafi ali celo grafičnih čnih elementih)elementih)

Page 10: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Primer digitalne Primer digitalne knjige: Brižinski knjige: Brižinski spomenikispomeniki projekt Elektronske izdaje slovenskega projekt Elektronske izdaje slovenskega

slovstvaslovstva ZRC SAZU (Matija Ogrin)ZRC SAZU (Matija Ogrin) + IJS + IJS vse izdaje zapisane v XML/TEIvse izdaje zapisane v XML/TEI kompleksen izveden izpis v HTMLkompleksen izveden izpis v HTML e-BS, dosedaj najbolj zahtevna izdaja e-BS, dosedaj najbolj zahtevna izdaja

projektaprojekta trenutno v delutrenutno v delu povezave: navzkrižne, faksimile, govor, povezave: navzkrižne, faksimile, govor,

WikipediaWikipedia……demodemo

Page 11: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Primer konkodančnikaPrimer konkodančnika

portal nl2.ijs.si:portal nl2.ijs.si: eno in dvo-jezične konkordance v eno in dvo-jezične konkordance v

več formatihveč formatih posamezni korpusi oblikoslovno posamezni korpusi oblikoslovno

označeni in lematiziranioznačeni in lematizirani največji korpus 2x5 milijonov največji korpus 2x5 milijonov

besed: vzporedni angl.-slov. korpus besed: vzporedni angl.-slov. korpus SVEZ-IJSSVEZ-IJS

……demodemo

Page 12: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Koraki pretvorbeKoraki pretvorbe vv AHlibAHlib1.1. Digitalni zapis faksimila + Digitalni zapis faksimila + OCROCR2.2. korekture besedilakorekture besedila3.3. pretvorba iz RTF v TEIpretvorba iz RTF v TEI

1.1. avtomatskaavtomatska2.2. korekture strukture v RTFkorekture strukture v RTF

4.4. pretvorba iz TEI v HTMLpretvorba iz TEI v HTML5.5. jezikovna analiza zapisa TEIjezikovna analiza zapisa TEI

1.1. avtomatskaavtomatska2.2. korekture napakkorekture napak

… … ((vnos v knjižnicovnos v knjižnico in konkordančnik) in konkordančnik)

Page 13: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

KomplikacijaKomplikacija

Rezultat avtomatske pretvorbe Rezultat avtomatske pretvorbe dostikrat odkrije napake v prejšnjih dostikrat odkrije napake v prejšnjih stopnjah ročnih korekcij:stopnjah ročnih korekcij:

HTML pokaže napake v strukturi RTFHTML pokaže napake v strukturi RTF lematizacija pokaže pomanjkljive lematizacija pokaže pomanjkljive

korekturekorekture

--> obdelave se morajo izvajati --> obdelave se morajo izvajati cikličnociklično

Page 14: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Shema pretvorbeShema pretvorbe

ročne korekcije se izvajajo na lastnem ročne korekcije se izvajajo na lastnem računalniku v orodjih računalniku v orodjih MS Word, MS ExcelMS Word, MS Excel

avtomatske pretvorbe & označevanje se avtomatske pretvorbe & označevanje se izvajajo preko spletnega vmesnika Ahlib izvajajo preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/

vmesnik pričakuje datoteko vmesnik pričakuje datoteko ..zipzip z z (največ) (največ) eno knjigoeno knjigo

vrne obdelano besedilovrne obdelano besedilo isto besedilo lahko obdelujemo poljubnokrat, isto besedilo lahko obdelujemo poljubnokrat,

da preverimo uspešnost korekcijda preverimo uspešnost korekcij vrnjeno besedilo na koncu(?) deponiramo v vrnjeno besedilo na koncu(?) deponiramo v

glavno bazo projektaglavno bazo projekta

Page 15: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Koraki avtomatske Koraki avtomatske obdelaveobdelaveOsnovni:Osnovni:1.1. pretvorba RTF v TEIpretvorba RTF v TEI2.2. pretvorba TEI v HTMLpretvorba TEI v HTMLJezikoslovni:Jezikoslovni:1.1. lematizacija TEIlematizacija TEI2.2. generiranje konkordanc neznanih generiranje konkordanc neznanih

besedbesed3.3. lem. z upoštevanjem pregledanih 2lem. z upoštevanjem pregledanih 24.4. (generiranje polnih konkordanc)(generiranje polnih konkordanc)5.5. ((lem. z upoštevanjem pregledanih 4))((lem. z upoštevanjem pregledanih 4))

Page 16: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Koraki v ročni Koraki v ročni korekturikorekturi1.1. WordWord: : korektura RTF, da dobimo korektura RTF, da dobimo

pravilno strukturno označeni TEI (HTML)pravilno strukturno označeni TEI (HTML)2.2. ExcelExcel: : korekcija lem iz konkordanc korekcija lem iz konkordanc

neznanih besedneznanih besed3.3. ((Excel: Excel: korekcija polnih konkordanc)korekcija polnih konkordanc)

Računalniška podporaRačunalniška podpora na stre na strežniku:žniku:1.1. narejeno (še par manjših popravkov)narejeno (še par manjših popravkov)2.2. delovna verzijadelovna verzija3.3. v deluv delu

Page 17: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

1. Pretvorba iz RTF v 1. Pretvorba iz RTF v TEITEI RTF služi RTF služi samosamo kot vsebinska in oblikovna kot vsebinska in oblikovna

predloga za zapis TEI: ne diplomatični, predloga za zapis TEI: ne diplomatični, temveč kritični prepis!temveč kritični prepis!

ime datoteke je pomembno, saj služi za ime datoteke je pomembno, saj služi za povezovanje s faksimili povezovanje s faksimili

RTF mora vsebovati RTF mora vsebovati – besedilobesedilo– sloge definirane v predlogisloge definirane v predlogi– prelome strani za poravnavo s faksimilomprelome strani za poravnavo s faksimilom

na tej osnovi se v TEI zapišejo ustrezni na tej osnovi se v TEI zapišejo ustrezni elementi, npr. elementi, npr. <p>, <note>, <foreign><p>, <note>, <foreign>

Page 18: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Pretvorba iz TEI v Pretvorba iz TEI v HTMLHTML oblika HTML primerna za branjeoblika HTML primerna za branje posamezni elementi barvno označeniposamezni elementi barvno označeni avtomatsko generirano kazalo po avtomatsko generirano kazalo po

poglavjih in stranehpoglavjih in straneh služi kot kontrola za uspešnost pretvorbesluži kot kontrola za uspešnost pretvorbe šele ko je HTML v redu, je v redu tudi RTF!šele ko je HTML v redu, je v redu tudi RTF! trenutni HTML mišljen za lektorje, ne kot trenutni HTML mišljen za lektorje, ne kot

končna oblika (pripombe na uporabnost končna oblika (pripombe na uporabnost dobrodošle)dobrodošle)

……glej glej http://nl.ijs.si/e-zrc/http://nl.ijs.si/e-zrc/doc/primeri/doc/primeri/

Page 19: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

2. Jezikovna analiza2. Jezikovna analiza

analiza sestoji iz:analiza sestoji iz:1.1. segmentacije na pojavnice (besede, ločila) in segmentacije na pojavnice (besede, ločila) in

povedipovedi

2.2. oblikoslovnega označevanjaoblikoslovnega označevanja

3.3. lematizacijelematizacije

avtomatske metode analize skozi avtomatske metode analize skozi strojno učenje: statistični strojno učenje: statistični označevalnikoznačevalnik (totale) (totale)

uspešnost lematizacije za sodobno uspešnost lematizacije za sodobno slovenščino slovenščino ~~95%95%

Page 20: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Napake avtomatske Napake avtomatske analizeanalize1.1. Segmentacija: Segmentacija:

večina napak v vhoduvečina napak v vhodu … … on,ki … --> popraviti v RTFon,ki … --> popraviti v RTF

napake zaradi kraticnapake zaradi kratic (popravljati?) (popravljati?) druge napake (ni predvideno)druge napake (ni predvideno)

2.2. Oblikoslovno označevanjeOblikoslovno označevanje povzroči večino napak v lematizacijipovzroči večino napak v lematizaciji popraviti za prvih 100 (ali več?)popraviti za prvih 100 (ali več?)

3.3. Lematizacija:Lematizacija:1.1. neznane besedeneznane besede2.2. dvoumnost dvoumnost

Page 21: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Neznane besedeNeznane besede

natančnost lematizacije dosti natančnost lematizacije dosti manjša kot za znane besedemanjša kot za znane besede

imena, starinske besede oz. imena, starinske besede oz. oblike besed, spremenjena oblike besed, spremenjena abecedaabeceda

kako določiti lemo?kako določiti lemo?(Pleteršnik, forum, konkordance)(Pleteršnik, forum, konkordance)

Page 22: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Problem dvoumnostProblem dvoumnost

homonimija (znanih) besednih oblikhomonimija (znanih) besednih oblik npr. npr. hotela --> hotetihotela --> hoteti||hotelhotel pravilna interpretacija odvisna od pravilna interpretacija odvisna od

kontekstakonteksta npr. npr. HotelHotela[a[VV]] stasta iti iti domov.domov. napaka označevalnika povzroči napako napaka označevalnika povzroči napako

lematizacije:lematizacije:HotelHotela[*N]a[*N] --> --> [*[*hotelhotel]]

včasih težko celo za človeka:včasih težko celo za človeka:Sedel je. Sedel je. [[?sesti?sesti]] [[?sedeti?sedeti]]

Page 23: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Korekcije neznanih Korekcije neznanih besedebesede vmesniku se pošlje knjigovmesniku se pošlje knjigo izbere izbere se se opcijo za neznane besedeopcijo za neznane besede vmesnik vrne konkordance neznanih vmesnik vrne konkordance neznanih

besed besed v knjigiv knjigi

konkordance se odpre z Excelkonkordance se odpre z Excel dva formata:dva formata:

– XML za Office 2003 XML za Office 2003 PProfessionalrofessional– tabela, za navaden Exceltabela, za navaden Excel

……glej glej http://nl.ijs.si/e-zrc/http://nl.ijs.si/e-zrc/doc/primeri/doc/primeri/

Page 24: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

PopravljanjePopravljanje

konkordance se pregleda in popravi:konkordance se pregleda in popravi:– originalni RTForiginalni RTF, v primeru slabe lekture , v primeru slabe lekture – napačne leme v napačne leme v konkordancahkonkordancah

pozor: leme so lahko dvoumnepozor: leme so lahko dvoumne vmesniku se pošilja knjigo + leksikon vmesniku se pošilja knjigo + leksikon

pregledanih, dokler pregledanih, dokler vse besede nvse besede nisoiso ppregledaneregledane

popravki se lahko (naj se) izvajajo po popravki se lahko (naj se) izvajajo po delihdelih

Page 25: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Dodajanje leksikona Dodajanje leksikona označevalnikuoznačevalniku konkordance (leksikone) konkordance (leksikone)

pregledanih neznanih besed se pregledanih neznanih besed se tudi deponira na strežniktudi deponira na strežnik

s tem postanejo nove besedne s tem postanejo nove besedne oblike s svojimi lemami dostopne oblike s svojimi lemami dostopne za avtomatsko označevanje za avtomatsko označevanje ostalih knjigostalih knjig

potrebna previdnost, da ne potrebna previdnost, da ne deponiramo nekaj, česar nočemo!deponiramo nekaj, česar nočemo!

Page 26: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Korekcija konkordancKorekcija konkordanc

popravljamo napake, ko izbrana lema sicer popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnicoobstaja, a ni pravilna za pojavnico

postopek podoben kot pri korekcija neznanih postopek podoben kot pri korekcija neznanih besedbesed

strežnika vrne konkordance (leksikon) vseh strežnika vrne konkordance (leksikon) vseh besed v besedilubesed v besedilu

pregledamo vse lemepregledamo vse leme še v deluše v delu problemi: velikost datoteke Excel, oblika problemi: velikost datoteke Excel, oblika

zapisa v TEI, deponiranje rezultatazapisa v TEI, deponiranje rezultata boljše označevanje..boljše označevanje.. naslednje šolanje!naslednje šolanje!

Page 27: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

DemonstracijaDemonstracija

1.1. spletni strežnikspletni strežnik

2.2. popravki besedila (Word) popravki besedila (Word)

3.3. popravki leksikona (Excel)popravki leksikona (Excel)

Page 28: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

httphttp://nl.ijs.si/ahlib/://nl.ijs.si/ahlib/

Page 29: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Prenos podatkovPrenos podatkov

podamo eno ali več datotek združenih v podamo eno ali več datotek združenih v eno datoteko .zipeno datoteko .zip

zato potrebujemo WinZip, bolje WinRARzato potrebujemo WinZip, bolje WinRAR zahtevamo neposredno želeno datotekozahtevamo neposredno želeno datoteko zahtevamo komprimirano mapo z zahtevamo komprimirano mapo z

želenimi datotekami (.tgz)želenimi datotekami (.tgz) deponiramo jezikoslovne popravke deponiramo jezikoslovne popravke

Page 30: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Imena datotekImena datotek

Shema poimenovanja:Shema poimenovanja: xxxxxxxx.pdf .pdf faksimilefaksimile xxxx.rtfxxxx.rtf digitalni vir besediladigitalni vir besedila xxxx.tei.xmlxxxx.tei.xml besedilo za bazobesedilo za bazo xxxx.tei.htmlxxxx.tei.html besedilo za gledatbesedilo za gledat xxxx-unk.xls.xmlxxxx-unk.xls.xml konkordance neznanih besed v XML konkordance neznanih besed v XML

(Excel) (Excel) xxxx-unk.xls.txtxxxx-unk.xls.txtkonkordance neznanih besed v tabeli (Excel) konkordance neznanih besed v tabeli (Excel) ((xxxx-lex.xls.txtxxxx-lex.xls.txt leksikon neznanih besed v tabeli leksikon neznanih besed v tabeli

(Excel)(Excel))) xxxx-all.(N).xls.xml:xxxx-all.(N).xls.xml: polne konkordance v XML (Excel) polne konkordance v XML (Excel)

Pozor:Pozor: ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-

korekt.rtfkorekt.rtf strežnik rahlo preimenuje nekatere datoteke, npr.strežnik rahlo preimenuje nekatere datoteke, npr.

#22411#roza jelodvorska#22411#roza jelodvorska v v X22411Xroza_jelodvorskaX22411Xroza_jelodvorska

Page 31: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Praktične vajePraktične vaje

Strežnik: Strežnik: http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/

(že obdelani) primeri:(že obdelani) primeri: lokalnolokalno testna datoteka: testna datoteka: ###000AHlib tst-et.zip###000AHlib tst-et.zip

http://nl.ijs.si/ahlib/doc/primerihttp://nl.ijs.si/ahlib/doc/primeri//

Page 32: Ozna čevanje korpusa  AH l ib

AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006

Tomaž ErjavecTomaž Erjavec

Odprta vprašanjaOdprta vprašanja

deponiranje besedil v bazodeponiranje besedil v bazo prilagoditev avtomatskega prilagoditev avtomatskega

označevanja za AHliboznačevanja za AHlib dinamika korekturdinamika korektur