14
Tomaž Erjavec Odsek za tehnologije znanja Institut „Jožef Stefan“ Ljubljana Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne infrastrukture Delavnica Napredne tehnologije za vzpostavitev raziskovalne podatkovne infrastrukture v Sloveniji 22. 5. 2013

Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Tomaž Erjavec Odsek za tehnologije znanja Institut „Jožef Stefan“ Ljubljana

Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne infrastrukture

Delavnica

Napredne tehnologije za vzpostavitev raziskovalne podatkovne infrastrukture v Sloveniji 22. 5. 2013

Page 2: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Pregled predavanja 1. Vsebine na strežniku nl.ijs.si 2. Uporabljena odprtokodna orodja 3. Prednosti

Odprtokodne rešitve 2

Page 3: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

nl.ijs.si • Spletni strežnik deluje od ~1995 • „infrastruktura“ za področje (slovenskih) jezikovnih virov

• priporočila in podatkovne množice za jezikovne tehnologije • korpusi za empirično jezikoslovje • slovarji, registri • digitalne knjižnice

Odprtokodne rešitve 3

Page 4: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Priporočila MULTEXT-East

Odprtokodne rešitve 4

Page 5: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Podatkovne množice za JT-sl

Odprtokodne rešitve 5

Page 6: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Korpusi

Odprtokodne rešitve 6

Page 7: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Slovarji

Odprtokodne rešitve 7

Page 8: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Leksikoni, registri

Odprtokodne rešitve 8

Page 9: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Digitalne knjižnice

Odprtokodne rešitve 9

Page 10: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Osnovna programska oprema: LAMP • operacijski sistem Linux • strežnik spletnih dokumentov Apache • podatkovna baza mySQL • programski jezik Perl • … • (GIT, Jenkins)

Odprtokodne rešitve 10

Page 11: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Zapis jezikovnih podatkov • W3C XML et al. • ISO: 639, 8601, … • TEI P5

Odprtokodne rešitve 11

<body xml:lang="sl-bohoric"> <pb n="1" facs="#ZRC_00002-001" xml:id="pb.001"/> <div type="part"> <head> <s> <w lemma="na" ana="Sa">NA</w> <c> </c> <choice> <orig><w>NOVIGA</w></orig> <reg> <w lemma="nov" ana="Agpnsg">novega</w> </reg> </choice> <c> </c> <choice> <orig><w>LEJTA</w></orig> <reg> <w lemma="leto" ana="Ncnsg">leta</w> </reg> </choice>

Page 12: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Dostopnost • vse prosto

dostopno za pregledovanje

• večina prosto dostopna za prenos

• Creative Commons: • CC-BY • CC-BY-SA • CC-BY-NC • CC-BY-NC-SA

Odprtokodne rešitve 12

Page 13: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Programska oprema za dostop do vsebin 1. Predstavitev vsebin:

Statični HTML • npr. MULTEXT-East, eZISS, IMP

2. Predstavitev vsebin in iskanje po njih: Fedora Commons • npr. SBL, NRSS

3. Iskanje in analiza korpusov: noSketchEngine, CUWI • vsi korpusi

4. Prenos: Apache, (GIT) • npr. MULTEXT-East, JOS

Odprtokodne rešitve 13

Page 14: Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · Tomaž Erjavec . Odsek za tehnologije znanja . Institut „Jožef Stefan“ Ljubljana . Uporaba odprtokodnih

Prednosti • Ideja odprtosti • Odprta koda: brezplačna, možnost popravljanja napak in

dograjevanja • Odprti standardi: jasen, dobro dokumentiran, od

implementacije neodvisen in trajen način zapisa besedil • Odprte licence: enostavna in predvsem čim širša

nadaljnja uporaba razvitih (jezikovnih) virov, zgrajenih z državnim financiranjem.

Odprtokodne rešitve 14