Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Web harvesztelés Automatikus módszerekkel
Kovács PéterOrszágos Széchényi Könyvtár
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Miről lesz szó?
• Mi is az a web harvesztelés?
• Mire és hol használjuk? Miért hasznos?
• Saját megvalósításaink
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Mi a web harvesztelés?(web aratás)
• Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)
• Lépések– Adatok begyűjtése (crawl)– Feldolgozás (index)– Közzététel (search)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Mire és hol használjuk a szolgáltatást, miért hasznos?
• Főként keresésre használjuk• Otthon, munkahelyen, iskolákban –
mindenhol, ahol internet van• Hasznos
– Gyors, egyszerű keresés– Szűrési lehetőségek („” , site: stb.)– Tárolt változat
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Hasznosak, ingyenesek, DE…
• Nem a sajátunk, ezért– Nem azt aratjuk, amit mi szeretnénk – Nem akkor aratunk, amikor mi szeretnénk– Forráskód nincs a birtokukban, ez fejlesztési
szempontból hátrány– Harvesztelt adatok sincsenek a birtokunkban– Kulturális értékeket meg kell őrizni, ennek a
legjobb módja, ha eltároljuk őket
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Saját megoldások• Szerettünk volna olyan megoldást, ahol MI
irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást
• 3 dolog hiányzott: Szerver, tárhely, ember• Open Source programokat kerestünk
– Ingyenesek– Forráskód, beállítások elérhetők– Segítség (Forum, wiki, howto)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Szerver• Teszteléshez használt konfiguráció
(Hp Proliant ML350Hp Proliant ML350)
– 2 magos Intel Xeon Processzor (32 bit)– 2 GB RAM– SCSI merevlemez
• Javasolt szerver konfiguráció (Ideális esetben 3 szerver)(Ideális esetben 3 szerver)
– 2*2 vagy 1*4 magos processzor (64 bit)– 8 GB RAM– SAS vagy SSD merevlemez
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Operációs rendszer
• Debian linux 5.0 (Lenny)
– Linux disztribúciók közül az egyik legjobb
– Vannak tapasztalataink– Gyors, stabil, biztonságos– Ingyenes
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Felhasznált programok
• Crawler – adatok begyűjtését végzi
• Indexer - fulltext kereséshez
• Indexer – URL kereséshez
• Java alap kereső felületekhez használjuk
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Folyamat
Adat gyűjtés (Crawl)
Adatok indexelése (Fulltext és URL kereséshez)
Kereső felületek
Központi adattároló(Storage)
1
3
2
4
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Aktuális stabil verzió: 3.0.0• Weboldalak begyűjtését végzi (crawl)• Warc.gz fájlokban tárolja az adatokat
– WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk
– Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél
– Szabványnak köszönhetően más programok gond nélkül kezelik
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
WARC fájl – timestamp (időbélyeg)
• Fájl névben van egy időbélyeg – mikor készült a fájl
• Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget– Pl.: 20090914123124 – Egyedi– Fontos szerepe van
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Heritrix - GUI
- Meghibásodás esetén hasznos- Automatikus vagy kézi létrehozás- Kis méret (~500 KB)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Jelenlegi stabil verzió 0.13• Begyűjtött adatokat indexeljük vele
– I/O műveletek miatt magas memória és gyors merevlemez igény
– Index adatbázisban keresünk– Fulltext keresés– Mindent leindexel ami a warc fájlban van
• Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek
• Képek, videók, flash fájlok stb nevére kereshetek
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Nutchwax - Search
• Java alapú kereső, Apache Tomcat alatt fut• Java miatt lassú, nem könnyű szerkeszteni
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Nutchwax - Opensearch
• Nem kell hozzá Java, HTML alapú• Gyors, könnyű beágyazni weblapokba
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Jelenlegi stabil verzió 1.4.2• Szintén a begyűjtött adatokat indexeljük
vele– Index adatbázisában keresünk (kisebb méret)– URL-ek keresésére használjuk– Kezeli az időbélyegeket
• Azonos URL címek között különbséget tesz• Verziókövetésre kiváló
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Timestamp példa
• http://www.oszk.hu/index.html aratva lett:
– 20090914123124 = 2009.09.14 12:31:24– 20091023092522 = 2009.10.22 09:25:22
• Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Hol tartunk, tervek• Tesztelési fázis
– Kell még tesztelni– Új szerver – 6.0-ás Debián tesztje
• Tervek– Teljes magyar domain (.hu) fél évenkénti,
illetve különböző oldalak - események időszakos harvesztelése
– Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Forrásanyagok
• http://crawler.archive.org/
• http://archive-access.sourceforge.net/projects/nutch/
• http://www.archive.org/web/web.php
• http://tomcat.apache.org/