28
Web harvesztelés Automatikus módszerekkel Kovács Péter OSZK Web harvesztelés Automatikus módszerekkel Kovács Péter Országos Széchényi Könyvtár

Web harvesztelés Automatikus módszerekkel

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Web harvesztelés Automatikus módszerekkel

Kovács PéterOrszágos Széchényi Könyvtár

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Miről lesz szó?

• Mi is az a web harvesztelés?

• Mire és hol használjuk? Miért hasznos?

• Saját megvalósításaink

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Mi a web harvesztelés?(web aratás)

• Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)

• Lépések– Adatok begyűjtése (crawl)– Feldolgozás (index)– Közzététel (search)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nem egy új keletű dolog

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Mire és hol használjuk a szolgáltatást, miért hasznos?

• Főként keresésre használjuk• Otthon, munkahelyen, iskolákban –

mindenhol, ahol internet van• Hasznos

– Gyors, egyszerű keresés– Szűrési lehetőségek („” , site: stb.)– Tárolt változat

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Hasznosak, ingyenesek, DE…

• Nem a sajátunk, ezért– Nem azt aratjuk, amit mi szeretnénk – Nem akkor aratunk, amikor mi szeretnénk– Forráskód nincs a birtokukban, ez fejlesztési

szempontból hátrány– Harvesztelt adatok sincsenek a birtokunkban– Kulturális értékeket meg kell őrizni, ennek a

legjobb módja, ha eltároljuk őket

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Saját megoldások• Szerettünk volna olyan megoldást, ahol MI

irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást

• 3 dolog hiányzott: Szerver, tárhely, ember• Open Source programokat kerestünk

– Ingyenesek– Forráskód, beállítások elérhetők– Segítség (Forum, wiki, howto)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Szerver• Teszteléshez használt konfiguráció

(Hp Proliant ML350Hp Proliant ML350)

– 2 magos Intel Xeon Processzor (32 bit)– 2 GB RAM– SCSI merevlemez

• Javasolt szerver konfiguráció (Ideális esetben 3 szerver)(Ideális esetben 3 szerver)

– 2*2 vagy 1*4 magos processzor (64 bit)– 8 GB RAM– SAS vagy SSD merevlemez

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Operációs rendszer

• Debian linux 5.0 (Lenny)

– Linux disztribúciók közül az egyik legjobb

– Vannak tapasztalataink– Gyors, stabil, biztonságos– Ingyenes

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Felhasznált programok

• Crawler – adatok begyűjtését végzi

• Indexer - fulltext kereséshez

• Indexer – URL kereséshez

• Java alap kereső felületekhez használjuk

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Folyamat

Adat gyűjtés (Crawl)

Adatok indexelése (Fulltext és URL kereséshez)

Kereső felületek

Központi adattároló(Storage)

1

3

2

4

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Aktuális stabil verzió: 3.0.0• Weboldalak begyűjtését végzi (crawl)• Warc.gz fájlokban tárolja az adatokat

– WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk

– Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél

– Szabványnak köszönhetően más programok gond nélkül kezelik

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

WARC fájl – timestamp (időbélyeg)

• Fájl névben van egy időbélyeg – mikor készült a fájl

• Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget– Pl.: 20090914123124 – Egyedi– Fontos szerepe van

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Heritrix - GUI

- Meghibásodás esetén hasznos- Automatikus vagy kézi létrehozás- Kis méret (~500 KB)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Jelenlegi stabil verzió 0.13• Begyűjtött adatokat indexeljük vele

– I/O műveletek miatt magas memória és gyors merevlemez igény

– Index adatbázisban keresünk– Fulltext keresés– Mindent leindexel ami a warc fájlban van

• Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek

• Képek, videók, flash fájlok stb nevére kereshetek

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nutchwax - Search

• Java alapú kereső, Apache Tomcat alatt fut• Java miatt lassú, nem könnyű szerkeszteni

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nutchwax - Opensearch

• Nem kell hozzá Java, HTML alapú• Gyors, könnyű beágyazni weblapokba

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nucthwax – search vs. opensearch

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Opensearch - all versions

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Jelenlegi stabil verzió 1.4.2• Szintén a begyűjtött adatokat indexeljük

vele– Index adatbázisában keresünk (kisebb méret)– URL-ek keresésére használjuk– Kezeli az időbélyegeket

• Azonos URL címek között különbséget tesz• Verziókövetésre kiváló

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Timestamp példa

• http://www.oszk.hu/index.html aratva lett:

– 20090914123124 = 2009.09.14 12:31:24– 20091023092522 = 2009.10.22 09:25:22

• Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Wayback kereső

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

www.oszk.hu/index.html - 2009.09.14

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

www.oszk.hu/index.html - 2009.10.22

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Heritrix vs. Google

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Hol tartunk, tervek• Tesztelési fázis

– Kell még tesztelni– Új szerver – 6.0-ás Debián tesztje

• Tervek– Teljes magyar domain (.hu) fél évenkénti,

illetve különböző oldalak - események időszakos harvesztelése

– Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Forrásanyagok

• http://crawler.archive.org/

• http://archive-access.sourceforge.net/projects/nutch/

• http://www.archive.org/web/web.php

• http://tomcat.apache.org/

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Köszönöm a figyelmet!

[email protected]