45
Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected]

Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

Information Retrieval

Wissen aus dem Web

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Page 2: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

24.06.09 IR: Das Web 2

Wie viel Text gibt es im Web?Google hat Mitte 2007 (2005, 2004) näherungsweise 20 Milliarden (8.058.044.651 bzw.

4,285,199,774) Web-Seiten indexiert.Angenommen, jede Seite enthält 4KB Text

-> ca. 80 (2005:32, 2004:17) TB Text.

Verteilt auf Festplatten zu je 1TB (2005: 500GB; 2004: 300GB): Rund 80 (64, 57) Platten.Wahrscheinlich werden von Google nur 50% aller Webseiten indexiert.

Also: Wir können allen Text aus dem Web auf ca. 100 Festplatten speichern.(Diese Zahl bleibt vermutlich länger richtig, weil mit der Anzahl der Webseiten auch die

Festplattenkapazität steigt.)

Schlussfolgerung: Plattenplatz ist nicht das Problem.

Achtung: Nicht berücksichtigt wurden Bilder, Musik und Filme!

Page 3: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 3

Welche Bandbreite ist nötig?

Wahrscheinlich aktualisiert Google alles nach etwa einem Monat (d.h. 30x24x60x60 = 2.592.000 Sekunden)

Das ergibt einen Datenstrom von ca. 30 MB/s oder 240 Mb/s.

Vergleich DSL: 16000 (6000, 760) Kb/s. Geschwindigkeitsunterschied: Faktor 15 (17, 67)

Schlussfolgerung: Bandbreite ist nicht das Problem.

Page 4: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 4

Verteilung der Sprachen im Web (ca. 1999)

Language Web Pages Percent of TotalEnglish 214,250,996 68.39Japanese 18,335,739 5.85German 18,069,744 5.77Chinese 12,113,803 3.87French 9,262,663 2.96Spanish 7,573,064 2.42Russian 5,900,956 1.88Italian 4,883,497 1.56Portuguese 4,291,237 1.37Korean 4,046,530 1.29Dutch 3,161,844 1.01Sweden 2,929,241 0.93Danish 1,374,886 0.44Norwegian 1,259,189 0.40Finnish 1,198,956 0.38Czech 991,075 0.32

Language Web Pages Percent of TotalPolish 848,672 0.27Hungarian 498,625 0.16Catalan 443,301 0.14Turkish 430,996 0.14Greek 287,980 0.09Hebrew 198,030 0.06Estonian 173,265 0.06Romanian 141,587 0.05Icelandic 136,788 0.04Slovenian 134,454 0.04Arabic 127,565 0.04Lithuanian 82,8290.03Latvian 60,9590.02Bulgarian 51,3360.02Basque 36,3210.01

Source: Vilaweb

Page 5: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 5

Verteilung der Sprachen nach Sprechern IISO DIN Mill

.Name

chi/zho zh 885 Chinese  (Chinese = Sino-Tibetan)  [China, Hong Kong]

eng en 322 Englisch  (English = Indo-European; Germanic)  [USA, UK, Canada, Australia]

spa es 266 Spanish  (Spanish = Indo-European; Romance)  [Spain; Latin America]

ara ar  208 Arabic  (Arabic = Afro-Asiatic; Semitic)  [*Ägypten, N.Africa, Middle East]

ben bn 189 Bengali  (Bengali = Indo-European; Indo-Iranian)  [*Bangladesh, India, Singapur]

hin hi 182 *Hindi  (Hindi = Indo-European; Indo-Iranian)  [India]

por pt 170 Portugiesisch  (Portuguese = Indo-European; Romance)  [*Brazil, *Portugal, *Angola]

rus ru 170 Russian  (Russian = Indo-European; Slavic)  [*Russia; Commonwealth of Independent States]

jpn ja 125 Japanese  (Japanese = Isolate)  [Japan]

ger/deu de 98 German  (German = Indo-European; Germanic)  [Germany, Austria, Switzerland]

jav/jaw jw 75 Javanese  (Javanese = Austronesian; West Malayo-Polynesian)  [Indonesia]

kor ko 75 Korean  (Korean = Isolate)  [*Korea, China]

fre fr 72 French  (French = Indo-European; Romance)  [France, Canada, Africa, Switzerland]

vie vi 67 Vietnamese  (Vietnamese = Austro-Asiatic; Mon Khmer)  [*Vietnam]

tel te 66 Telugu  (Telugu = Dravidian; South-Central Dravidian)  [India]

mar mr 64 Marathi  (Marathi = Indo-European; Indo-Iranian)  [India]

tam ta 63 Tamil  (Tamil = Dravidian; South Dravidian)  [India, *Sri Lanka, Malaysia]

tur tr 59 Turkish  (Turkish = Altaic; Turkik)  [Turkey]

urd ur 57 Urdu  (Urdu = Indo-European; Indo-Iranian)  [*Pakistan, India]

swa sw 46 Swahili  (Swahili = Niger-Congo; Bantu)  [*Kenia, *Tanzania, East-Africa]

gui/guj gu 44 Gujarati  (Gujarati = Indo-European; Indo-Iranian)  [India, Pakistan]

pol pl 44 Polish  (Polish = Indo-European; Slavic)  [*Poland]

egy 43 Egyptian (Ancient)  (Egyptian (Ancient))  [Egypt]

ukr uk 41 Ukrainian  (Ukrainian = Indo-European; Balto-Slavic)  [Ukraine, Russia, Poland]

ita it 40 Italian  (Italian = Indo-European; Romance)  [*Italia, Switzerland]

kan kn 34 Kannada  (Kannada = Dravidian; South Dravidian)  [India]

Page 6: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 6

Verteilung der Sprachen nach Sprechern IIISO DIN Mill. Name

mal ml 34 Malayalam  (Malayalam = Dravidian; South Dravidian)  [India]

per fa 34 Persian  (Persian = Indo-European; Indo-Iranian)  [*Iran, Afghanistan]

ori or 31 Oriya  (Oriya = Indo-European; Indo-Aryan)  [India]

lah 30 Lahnda  (Lahnda = Indo-European; Indo-Aryan)  [India]

pan pa 26 Panjabi  (Panjabi = Indo-European; Indo-Iranian)  [India, Pakistan]

rum/ron ro 26 Romanian  (Romanian = Indo-European; Romance)  [*Romania, Moldova]

bho 25 Bhojpuri  (Bhojpuri = Indo-Aryan; East Indo-Aryan; Bihari)  [India, Nepal]

sun su 25 Sundanese  (Sundanese = Austronesian; West Malayo-Polynesian)  [Indonesia]

mai 24 Maithili  (Maithili = Indo-Aryan; East Indo-Aryan; Bihari)  [India, Nepal]

bur/mya my 22 Burmese  (Burmese = Sino-Tibetan; Tibeto-Burman)  [*Myanmar]

hau ha 22 Hausa  (Hausa = Afro-Asiatic; Chadic)  [Nigeria, *Niger, Cameroon]

scc sr 21 Serbian  (Serbian = Indo-European; Slavic)  [*Serbia; Balkan Europe]

amh am 20 Amharic  (Amharic = Afro-Asiatic; Semitic)  [*Ethiopia]

awa 20 Awadhi  (Awadhi = Indo-Aryan)  [India]

dut nl 20 Dutch  (Dutch)  [Netherlands, Belgium]

snd sd 20 Sindhi  (Sindhi = Indo-European; Indo-Iranian)  [India; Pakistan]

yor yo 20 Yoruba  (Yoruba = Niger-Congo; Benue-Congo)  [Nigeria, Benin]

may/msa ms 18 Malay  (Malay = Austronesian; West Malayo-Polynesian)  [Indonesia, *Malaysia, Brunei]

uzb uz 18 Uzbek  (Uzbek = Altaic; Turkik)  [*Uzbekistan]

ibo ib 17 *Ibo-Sprache  (Igbo = Niger-Congo; Kwa; Benue-Congo)  [Niger, Nigeria; Equatorial Guinea]

ind in 17 Indonesian  (Indonesian)  [*Indonesia, Malaysia, Thailand]

Page 7: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 7

Wie lädt man das Web herunter?

Prinzipielles Vorgehen:1. Irgendwo wird gestartet. Z.B. bei www.uni-leipzig.de. Dies ist jetzt die aktuelle

Seite.2. Die aktuelle Seite wird heruntergeladen und zur späteren Verarbeitung

abgespeichert.3. Auf dieser aktuellen Seite stehen Links auf andere Seiten. Diese werden als

Kandidaten zum Herunterladen in einer Kandidatenliste zwischengespeichert.4. Ist die Kandidatenliste jetzt leer, bricht der Algorithmus ab.5. Einer dieser Kandidaten wird ausgewählt und zur aktuellen Seite erklärt. Weiter

bei Schritt 2.

Page 8: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 8

Methode 1: Jede Domäne einzeln• Herunterladen einer ganzen Website: http://www.gewandhaus.de• Ziel: Alle Seiten dieser Top-Level-URL

Nützliche Software: wget und pavuk (nahezu funktionsgleich, frei erhältlich, beide für Windows und Linux)

Beispielaufruf:wget –A htm html –r –nc www.gewandhaus.de(-A: nur HTML-Seiten, keine Bilder o.ä. -r: rekursiv -nc: Überprüfen, ob Datei bereits vorhanden)

Anleitung: http://www.gnu.org/manual/wget/html_chapter/wget_toc.htmlErgebnis: Die gewünschten Dateien in der Original-Pfadstruktur in einem Verzeichnis

www.gewandhaus.de auf dem eigenen Rechner.

Page 9: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 9

Nachteile der Methode 1• Sehr viele Dateien in einer unübersichtlichen Pfadstruktur auf dem eigenen

Rechner. Eine Million Dateien kann einem Win-Rechner nie geahnte Probleme schaffen.

• Abhilfe: Ausgabe aller Dateien z.B. aus dem Verzeichnis www.gewandhaus.de in eine Datei www.gewandhaus.de.txt. Möglich mit pavuk, nicht mit wget.

• Da wir uns auf einen Server konzentrieren, wird dort viel Last erzeugt.

• Typisches Bild für Download mit wget:

• Abhilfe ist nur möglich, wennwir uns gleichzeitig auf (sehr)viele Server stürzen.

Page 10: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 10

Methode2: Verteiltes Herunterladen• HTML-Seiten werden in chaotischer Reihenfolge heruntergeladen, nur einfache

Einschränkungen wie .de-Domänen gewünscht.• Last beim gleichzeitigen Herunterladen verteilt sich auf viele Server, auf einem

einzelnen Server ist das nicht auffällig oder störend.• Nachteil: Eine möglicherweise sehr große Liste noch unbearbeiteter Seiten muß

vorgehalten werden.• Nachteil: Ebenso eine sehr lange Liste der schon heruntergeladenen Seiten (damit

nichts doppelt heruntergeladen wird)• Viel Stress für den Nameserver• Vorteil: Nur diese Listen werden vorgehalten, die heruntergeladenen HTML-

Seiten können an anderer Stelle abgelelegt werden

Page 11: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 11

Software für das verteilte HerunterladenNedlib Harvester: http://www.csc.fi/sovellus/nedlib/• Verwaltet die Listen in einer mySQL-Datenbank• Verpackt immer 2001 HTML-Dateien zur Ablage in eine zip-Datei• Kann auch mit merkwürdigem Verhalten der Server umgehen (Fehlermeldungen,

Passwort, Server nicht erreichbar, Verbindungsunterbrechung, Syntaxfehler im HTML, ...)

• Hat schon erfolgreich das Web für ganze Länder heruntergeladen.• Die genutzte Bandbreite kann eingestellt werden duch eine variable Anzahl von

Harvestern.

Frage: An welche Grenze stoßen wir zuerst:• Bandbreite im Webzugang? NEIN• Rechenleistung beim Verarbeiten der parallel heruntergeladenen Dateien? NEIN• Leistungsfähigkeit der Datenbank, auf die alle zugreifen müssen? JA!!

Deshalb muss selbstgemachte Software her.

Page 12: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 12

Text aus HTML-Seiten extrahieren

1. Möglichkeit: Textextraktion mit Lynxlynx –dump (dateiname) >> textfile.txt

2. Möglichkeit (speziell für Zeitungen): SiteScooper (www.sitescooper.org)Eigentlich dazu gedacht, um Zeitungen auf dem Palm lesbar zu machen.

3. Selbstgeschriebener Text-Extraktor

Page 13: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 13

Sortieren der Texte nach Sprache• Domänenkürzel ist nur ein erster Hinweis.• Ca. 10% der .de-Seiten sind in Englisch• .com-Seiten gibt es praktisch in allen Sprachen.

Verfahren: Benutze häufig auftretende Muster zur Identifikation der Fremdsprache. Solche Muster sind:

• Häufige Wörter (Artikel, Präpositionen, ...)• Häufige Buchstabengruppen, bestehend aus 3 Buchstaben (sog. Trigramme)

Page 14: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 14

Erkennen von Fremdsprachen: StoppwörterDEUTSCH: nur denn eben so wo etwas seit auf nie wenn ihr uns euch sich noch dort

vorn daraus dass sind aus bis zum vom diese dieser diesen dieses dann ...ENGLISCH: a all and any are as as at be because before but by could did do does for

from had has have he her his how if in is it ist my not of on only or she ... FRANZÖSISCH: a à au aux ce ces cette dans de des du elle en est et il ils je la le les

ne ou où par pas pour que qui sont sur tous tout toute un une vous nous ...ITALIENISCH: alla che con da die del del della delle di il in la le non per più si

sinistra un una ...SPANISCH: al como conde del el en es la las los mi no ara por que se su sus un una

este a su ...FINNISCH: ja on ei oli vuonna alkoi eri mm ole aloitti noin ovat alusta joka kautta

kuin minä mutta myös niin ...

Page 15: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 15

Erkennen von Fremdsprachen: TrigrammeDEUTSCH: en_ er_ _de sch der _di ch_ die ich ie_ ein che in_ ung nd_ und den te_ _ge _zu _be _in nde _ei ENGLISCH: _li all _st rs_ _no st_ rea ere _wi ut_ or_ thi tha _fo hat _wh th_ ion for she _ma _yo ver ld_FRANZÖSISCH: es_ _de _le de_ le_ les re_ et_ nt_ _la ent _et la_ des que on_ ns_ ur_ _co _pa ne_ _l' is_ITALIENISCH: _di to_ la_ _d_ di_ _co re_ ent le_ che del ne_ ell ion he_ _in _ch no_ _e_ _un _si _la conSPANISCH: _de os_ de_ _la _co la_ que es_ _en en_ ón_ el_ ión as_ ue_ ent nte aci _qu ció _y_ _a_ con _elFINNISCH: en_ in_ ist ta_ nta _he an_ unt ell ise ja_ tti sa_ _va sen on_ sta nen ssa _ja si_ lis aan ine

Page 16: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 16

Erkennen von Fremdsprachen: Ergebnis Im vergangenen Jahr folgte dann auch in dieser

Branche wie in den meisten anderen ein Rückgang .

Language Trigrams (in 1000) Stopwords (in 1000)------------------------------------------------------english : 20 ( 210) 2 ( 125)french : 13 ( 136) 0 ( 0)german : 38 ( 400) 5 ( 312) *italian : 13 ( 136) 2 ( 125)spanish : 12 ( 126) 0 ( 0)

Page 17: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 17

Der Lextek Language Identifier

Page 18: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 18

Linkanalyse im Web

Warum Linkanalyse?

Da es im Web weniger Links als Text gibt, lassen sich Links (vielleicht) einfacher analysieren.

Links sind (in der Regel) von Menschen für Menschen gemacht und stellen inhaltliche Verknüpfungen her. Lässt sich dieses „Wissen“ abschöpfen?

Vorgehen:

Verwendung von Verfahren, die sich bereits bei der Textanalyse bewährt haben.

Page 19: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 19

Links von Seiten auf Server

http://www.ba-eisenach.de/bewerb/bafoeg.html www.das-neue-bafoeg.de www.kripps.de www.ba-eisenach.de

http://www.ba-eisenach.de/bewerb/testaufg.html www.winzip.de www.uni-freiburg.de www.kripps.de ftp.cs.wisc.edu www.ba-eisenach.de

http://www.ba-eisenach.de/student/homepage.html ruppnet.com zentrix.de cypex.de www.iley.de www.sugarbuchi.de stud.ba-eisenach.de www.kripps.de www.ba-eisenach.de

http://www.ba-eisenach.de/bewerb/voraussetz.html www.kripps.de www.ba-eisenach.de

http://www.ba-eisenach.de/student/block.html www.kripps.de www.ba-eisenach.dehttp://www.ba-eisenach.de/student/klausur.html www.kripps.de www.ba-eisenach.de

Insgesamt 980.751 solche Datensätze. Das entspricht etwa 4 Millionen ausgewerteten HTML-Seiten, also etwas 1,6% des .de-Webs.

Page 20: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 20

Statistik

Anzahl der HTML-Seiten (mit Links auf andere Server): 980.751Anzahl der Links: 8.447.499Anzahl ausgehender bzw. eingehender Links pro Seite: ca. 8,6Anzahl verschiedener Linkziele mit >1 eingehenden Link: 422.127Anzahl verschiedener Linkziele mit >2 eingehenden Links: 271.619Anzahl verschiedener Linkziele mit >10 eingehenden Links: 72.735Anzahl verschiedener Linkziele mit >100 eingehenden Links: 9.188Anzahl verschiedener Linkziele mit >1.000 eingehenden Links: 809Anzahl verschiedener Linkziele mit >10.000 eingehenden Links: 30

Page 21: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 21

Viele eingehende Links haben:| 34161 | web02.city-map.de || 33609 | www.amazon.de || 33551 | www.city-map.de || 33490 | www.city-map.ag || 33485 | www.service.city-map.de || 33485 | www.agentur.city-map.de || 33485 | www.jobs.city-map.de || 33485 | addurl.city-map.de || 31019 | stat.city-map.de || 24434 | home.t-online.de || 19140 | www.niedersachsen.city-map.de || 18614 | w.extreme-dm.com || 17970 | www.alphamusic.de || 16967 | www.stade.city-map.de || 15696 | partners.webmasterplan.com || 14990 | www.cuxhaven.city-map.de || 14656 | www.webbes.de || 13973 | ad.de.doubleclick.net || 13953 | www.rotenburg.city-map.de || 13602 | ads01.s-i-r.de || 12908 | www.hamburg.city-map.de || 12756 | www.jpc.de || 12590 | www.heise.de || 12509 | adfarm.mediaplex.com || 12287 | www.pinneberg.city-map.de || 12167 | www.harburg.city-map.de || 10701 | www.geocities.com |

| 10473 | www.alpha-music.de || 10124 | www.steinburg.city-map.de || 10068 | www.zanox-affiliate.de || 9830 | members.aol.com || 9746 | www.alphamusic.com || 9437 | www.alphamusik.de || 9325 | www.alpha-musicshop.de || 9225 | www.alpha-musik.de || 9196 | sm5.sitemeter.com || 9056 | 212.72.185.194 || 8981 | www.alphamusicshop.de || 8953 | www.alphamusik.com || 8765 | www.alphamusik-shop.de || 8635 | www.alphamusic-store.com || 8567 | www.wdr.de || 8389 | www.google.com || 8223 | www.alpha-cd.de || 8214 | www.adobe.de || 8032 | www.alpha-musikshop.de || 7896 | 63.209.29.151 || 7875 | www.stuttgarter-zeitung.de || 7816 | validator.w3.org || 7792 | v1.nedstatbasic.net || 7552 | www.clevernetzwerk.de || 7552 | www.pc-sammlung.de || 7505 | www.markt-planet.de || 7483 | www.stuttgarter-nachrichten.de |

Page 22: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 22

Wo steht Leipzig?| 3136 | www.uni-leipzig.de || 1675 | www.leipzig.city-map.de || 355 | www.informatik.uni-leipzig.de || 335 | leipzig.salsatecas.de || 327 | www.leipzig.de || 308 | www.htwk-leipzig.de || 252 | chat.leipzig-life.de || 229 | www.hgb-leipzig.de || 224 | www.filmmesse-leipzig.de || 216 | leipzig.stadtus.de || 168 | leipzig.lvz-online.de || 161 | www.leipziger-messe.de || 153 | www.leipzig-life.de || 128 | leipzig.sharelook.de || 118 | wortschatz.uni-leipzig.de || 115 | www.leipzig-online.de || 115 | 6bone.informatik.uni-leipzig.de || 100 | www.leipzig-halle-airport.de || 99 | www.ub.uni-leipzig.de || 98 | www.imn.htwk-leipzig.de || 95 | wortschatz.informatik.uni-leipzig.de || 74 | www.fmi.uni-leipzig.de || 68 | dol.uni-leipzig.de || 62 | www.mathematik.uni-leipzig.de || 59 | www.leipziger-buchmesse.de |

| 58 | www.iat.uni-leipzig.de || 56 | www.physik.uni-leipzig.de || 55 | www.hmt-leipzig.de || 55 | dbs.uni-leipzig.de || 53 | www.et.htwk-leipzig.de || 53 | opac.ub.uni-leipzig.de || 50 | www.leipzig.ihk.de || 50 | www.izbi.uni-leipzig.de || 49 | www.stura.uni-leipzig.de || 49 | www.saw-leipzig.de || 45 | gibs.leipzig.ifag.de || 45 | www.olympia-leipzig-2012.de || 43 | dsb.uni-leipzig.de || 42 | rzaix340.rz.uni-leipzig.de || 41 | www.fh-telekom-leipzig.de || 40 | www.ifl-leipzig.de || 38 | www.imise.uni-leipzig.de || 38 | techni.tachemie.uni-leipzig.de || 37 | www.fitl.htwk-leipzig.de || 37 | wwwstud.uni-leipzig.de || 35 | www.geo.uni-leipzig.de || 33 | hpkom21.geo.uni-leipzig.de || 33 | www.wischer-leipzig.de || 30 | www.kreuzer-leipzig.de || 29 | www.bach-leipzig.de |

Page 23: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 23

Kookkurrenzen

Linguistische Kookkurrenzen sind Paare von Wörtern, die statistisch auffällig gemeinsam in Sätzen auftreten. Es zeigt sich, dass zwischen solchen linguistischen Kookkurrenzen häufig ein semantischer Zusammenhang steckt, siehe www.wortschatz.uni-leipzig.de

Kookkurrenzen von URLs entsprechend unserer linguistischen Analyse liefern Linkziele, die statistisch auffällig gemeinsam auftreten. Das sollten in irgendeinem Sinne ähnliche Seiten sein.

Wir erhalten: 15.319.846 ähnliche Paare.Jeder Eintrag hat damit im Schnitt 15,6 ähnliche Seiten.

Page 24: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 24

Page 25: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 25

Page 26: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 26

Page 27: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 27

Anwendung: WebGuide

Page 28: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 28

Geschichte des Crawling (0. Etappe)

nedlib, 07/03 - 10/03 Zum Crawlen der HTML-Seiten wurde zunächst nedlib verwendet. Da nedlib

sämtliche Daten in einer MySQL-Datenbank verwaltet und bei zunehmender Datenmenge immer langsamer wurde, wurde das Crawling abgebrochen, als nur noch weniger als 1 HTML-Seite pro Stunde gecrawlt wurde. Es wurde beschlossen, nedlib zu verschrotten und einen eigenen Crawler zu schreiben. Es war klar, was anders gemacht werden muss: Die Datenbank muss ersetzt werden.

Als Ergebnis von Runde 1 entstand 10/03 die erste URL-Datenbank mit etwa 800.000 Sätzen.

Die maximale Geschwindigkeit war etwa 150.000 URLs pro Tag.

Für Runde 2 stehen rund 8 Millionen URLs zur Verfügung.

Page 29: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 29

Crawling-Algorithmus (Übersicht)

Das Crawlen erfolgt in einem Zyklus, der jeweils aus zwei Schritten besteht: Dem eigentlichen Crawl-Schritt und dem Auswerte-Schritt. Der erste Crawl-Schritt wird mit einer Liste von URLs initialisiert. 1. (Crawl-Schritt): Für jede URL aus der URL-Liste wird die entsprechende

HTML-Seite heruntergeladen und die darin enthaltenen Linkziele in eine temporäre Liste geschrieben.

2. (Auswerte-Schritt) Die temporäre Liste wird sortiert. Dubletten werden entfernt. Von jedem Server werden maximal 3 (früher: 500) URLs berücksichtigt. Robots.txt werden geholt und verbotene URLs entfernt. Die so entstandene Liste wird in eine zufällige Reihenfolge gebracht und dann als URL-Liste für Schritt 1 verwendet.

Die URL-Listen sind zufällig gemischt, weil damit aufeinanderfolgende URLs in der Regel zu verschiedenen Servern gehören. Damit wird die Last beim Crawlen verteilt.

Page 30: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 30

Geschichte des Crawling (1. Etappe)

FindLinks I - 11/03 - 04/04 Nachdem der neue Algorithmus klar war, wurde ein Client-Server-System zum

verteilten Crawlen nach dem Vorbild von http://www.grub.org implementiert. Die prinzipielle Machbarkeit wurde bewiesen, allerdings ließen sich Stabilitätsprobleme nicht beseitigen.

Nach Beschränkung auf .de, .at und .ch begann Runde 2 mit rund 4 Millionen URLs.

Maximalgeschwindigkeit: Beim Abteilungstest am 15.4.2004, 17-18 Uhr: Eine Stunde mit bis zu 10 Teilnehmern lieferte 73.000 URLs. Hochgerechnet sind das 1,75 Mill. am Tag und 52 Mill./Monat. Weniger als Faktor 100 bis Google!

Page 31: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 31

Geschichte des Crawling (2. Etappe)

FindLinks II - 05/04-01/05 Neu implementiert in C, diesmal Protokoll-Probleme bei HTTP.

Wegfall der Beschränkung auf .de, .at und .ch

Bester Tag: 29.7.2004 mit 9.940.165 URLs. Hochgerechnet sind 300 Mill./Monat. Weniger als Faktor 30 bis Google!

Beste Ergebnisse pro PC: 2.388.080 URLs/Tag (ca. Faktor 120 bis Google)

Page 32: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 32

Geschichte des Crawling (3. Etappe)FindLinks III - seit 02/05 Neu implementiert in Java.

Bester Tag 2005: 14.4.2005 mit 12.283.929 URLs. Bester Tag 2006: Im April 2006 mit 20 Millionen Seiten Hochgerechnet sind 600 Mill./Monat. Rund Faktor 13 bis Google!Beste Ergebnisse 2005 pro PC: 8 Millionen URLs/Tag (ca. Faktor 35 bis Google)Bisher insgesamt rund 7.000.000.000 URLs heruntergeladen (Stand: 6/2007).

Vermutlich keine serverseitigen Probleme bis zu Google-Geschwindigkeit.

Momentane Engstellen:• Nameserver der Uni (Abhilfe: URLs leicht entmischen)• Bandbreite der Uni (okay bis 20 Mill. URLs/Tag) Abhilfe: Andere Standorte

Page 33: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 33

http://pcai055.informatik.uni-leipzig.de:8080/findlinks/

Der FindLinks-Client erlaubt es, die heruntergeladenen HTML-Seiten auszuwerten.Aufgabe: Programmieren von Plug-Ins für verschiedene Aufgaben:• Finden von HTML-Seiten in verschiedenen Sprachen und Sammeln

entsprechender Texte• Semantische Klassifikation von HTML-Seiten nach Inhalten wie

– Sachgebiet – Anliegen (e-commerce, Jobangebot, ...)

• Extraktion von Eigennamen• Erkennen neuer URLs• Erkennen von Linkfarmen• Indexieren mit niederfrequenten Wörtern• . . .

Page 34: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 34

Text sammeln mit FindLinks

Um mehr Text ein „exotischen“ Sprachen zu erhalten, wird FindLinks benutzt:Die heruntergeladenen Seiten werden nach vorgegebenen Kriterien analysiert. Im

positiven Falle wird Text extrahiert und heimgeschickt.

Momentan existieren:• charset-Plugin: Auswahl entsprechend dem charset-Attribut im HTML-Header

(für den Fall „exotischer“ Zeichen)• Trigramm-Plugin (sucht nach neuen Sprachen mit lateinischen Buchstaben)

Page 35: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 35

Das FindLinks Charset-Plugin I

Der Text wird heimgeschickt, wenn der im Meta-Tag angegebene Zeichensatz aus einer vorgegeben Liste stammt: http://wortschatz.uni-leipzig.de/findlinks/charset.txt

armscii-8 ArmenianBig5 Chinese TraditionalBig5-HKSCS Chinese

Traditionalcp1026 Turkishcp1133 Laocp855 Cyrilliccp857 Turkishcp861 Icelandiccp862 Hebrewcp864 Arabiccp865 Nordiccp866 Cyrillic...

EUC-JP JapaneseEUC-KR KoreanGB2312 Chinese

SimplifiedGBK Chinese Simplifiedgeostd8 GeorgianISIRI3342 IranianISO-2022-JP Japaneseiso-8859-1 LatinISO-8859-10 NordicISO-8859-11 ThaiISO-8859-13 BalticISO-8859-14 Celtic....

Shift_JIS Japanesetscii Indianutf-8 UTF-8VISCII Vietnamesewindows-1250

Tschechischwindows-1251 Cyrillicwindows-1253 Greekwindows-1254 Turkishwindows-1255 Hebrewwindows-1256 Arabicwindows-1257 Balticwindows-1258

Vietnamese

Page 36: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 36

Das FindLinks Charset-Plugin II

Im Fall von Nicht-UTF-8 wird der eingehende Text nach UTF-8 konvertiert und entsprechend Sprache abgelegt.

Für UTF-8-Text wird die Unicode-Tabelle genutzt, um die Sprache zu ermitteln. Falls das eindeutig ist (z. B. für Sprachen mit exotischen Zeichen), wird der Text wieder entsprechend Sprache abgelegt.

Das Paket FindLinks + Charset-Plugin ist zum Download erhältlich:

http://www.asv.informatik.uni-leipzig.de/opencms/opencms/asv/de/Lehre/Lehrveranstaltungen/Vorlesungen/2007/Text_Datenbanken.html

Page 37: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 37

ISO-8859-2 Polish <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.studentki.cv.podhale.pl/" charset="iso-8859-2"/>STUDENTKI\r\n\r\n\r\nStudentki\r\n\r\n\r\njeśli masz ochote na... zobacz to: studentki codziennie nowe zapraszamy na strone!\r\n\r\n\r\n\r\n Zaraz po ślubie wprowadziliśmy studentki się do teściów, niestety rzeczywistość STUDENTKI naszego kraju jest bezlitosna. W czteropokojowym bardzo ostry seks polski Tanie Polskie Kurwy mieszkaniu gnieĽdziliśmy się w piątkę. Oprócz teściów mieszkała z nami siostra żony. Miała 19 lat i była strasznie energiczną osobą. Życie płynęło nam niezbyt ciekawie, ciągłe studentki kłótnie i brak prywatności. Nic nie zapowiadało tego, co spotkało mnie pewnego sobotniego wieczoru. Otóż żona musiała wyjechać na szkolenie i zostałem sam w jaskini lwa. Kiedy wróciłem studentki do domu położyłem się w pokoju, który zajmowaliśmy i czytałem gazetę. Potem kręciłem się po mieszkaniu. Przez cały wieczór, kiedy szedłem czy to do łazienki czy też do kuchni w pobliżu przewijała się Marta, moja szwagierka. Przez cały czas studentki niby to przypadkiem ocierała się o mnie. To czułem jak przesuwa swoimi młodymi i niezwykle jędrnymi piersiami po moim torsie a to znów czułem jak jej tyłeczek ociera się o moje krocze. Wszystko to wyglądało studentki jakby sprawione przypadkiem. W zagraconym mieszkaniu i ciasnym przedpokoju nie było to takie niesamowite. ...

Page 38: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 38

windows-1251 Cyrillic <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://yug.mbm.ru/newsDetail.asp?site_id=24&part_id=125&module_id=210&news_id=3082" charset="windows-1251"/>Территориальное агентство по развитию предпринимательства Южного административного округа г. Москвы | Новости ТАРП\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\nТерриториальное агентство по развитию предпринимательства Южного административного округа г. Москвы\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n О ТАРП \r\n \r\n Новости ТАРП \r\n \r\n Как связаться \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\nК списку новостей\r\n 18.12.2002 В период с 18 по 20 декабря была проведена выставка предприятий промышленности и малого бизнеса Южного округа\r\n\r\n\r\n \r\n \r\n\r\n\r\n     Своеобразным подведением итогов уходящего года стала выставка предприятий промышленности и малого бизнеса Южного округа, которая была торжественно открыта 18 декабря 2002 года в Большом зале Дворца культуры автозавода имени И.А.Лихачева. В церемонии торжественного открытия выставки приняли участие член Правительства Москвы, префект П.П.Бирюков, первый заместитель руководителя Департамента поддержки и развития малого предпринимательства Правительства Москвы В.К.Крышталев, председатель общественной организации промышленников и предпринимателей Южного округа В.М.Тимощенко, заместители префекта, главы районных Управ и руководители окружных служб.\r\n      ...

Page 39: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 39

windows-1253 Greek <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.cinemanews.gr/v4/berlin2007/intro.php" charset="windows-1253"/>..:: ΑΦΙΕΡΩΜΑ: 57o ΦΕΣΤΙΒΑΛ ΚΙΝΗΜΑΤΟΓΡΑΦΟΥ ΒΕΡΟΛΙΝΟΥ - CinemaNews.gr v4.0 ::..\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n2007: Το Πρόγραμμα \r\n \r\n \r\nΤο μυστικό μαθεύτηκε και η ανυπομονησία μεγαλώνει: Ο Πρόεδρος του Φεστιβάλ Dieter Kosslick μαζί με τους επικεφαλής των διαφόρων τμημάτων παρουσίασαν το επίσημο πρόγραμμα του 57ου Διεθνούς Φεστιβάλ Κινηματογράφου Βερολίνου. Μόλις μία εβδομάδα πριν την έναρξη του φεστιβάλ, η αντίστροφη μέτρηση έχει ξεκινήσει για ένα από τα δημοφιλέστερα κινηματογραφικά events του πλανήτη. Στις 6 Φεβρουαρίου ξεκινάνε επίσημα οι πωλήσεις εισιτηρίων για τις 373 ταινίες που θα προβληθούν φέτος. Δύο ημέρες μετά, στις 8 Φεβρουαρίου, το Φεστιβάλ ανοίγει επισήμως τις πόρτες του με την παγκόσμια πρεμιέρα της ταινίας «La Vie En Rose», που αφηγείται την ταραχώδη ζωή της Edith Piaf, με πρωταγωνιστές τη Marion Cotillard και τον Gerard Depardieu. \r\nΣτο Διαγωνιστικό τμήμα του Φεστιβάλ θα κάνουν πρεμιέρα αρκετές πολυαναμενόμενες ταινίες του 2007, όπως ο «Good Shepherd» του Robert de Niro, με πρωταγωνιστές τους Matt Damon και Angelina Jolie αλλά κι ο ομόηχος «Good German», του Stephen Sonderberg. ...

Page 40: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 40

EUC-JP Japanese <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://doggiestyle.sakura.ne.jp/nicky200511.html" charset="euc-jp"/>DOGGIE NOTE\r\n\r\n\r\n 日記 ■ 2005 年 11 月 29 日(火)  DLsite さんが本日 9 時よりお休み \r\n リニューアルオープン予定日 \r\n12 月 1 日午後だそうです。 \r\n 今回はヘベレケにならないことを期待しています。 \r\n 色々変わって良くなるようですが、 \r\n 心配なのは見易さ(デザイン)でしょうか? \r\n\r\n \r\n ■2005 年 11 月 27日(日)  さらにデジぱれさんから \r\n \r\n 英語版と DMM さんではそれなりに売れてるみたいです。 \r\n デジケットさんは苦戦中… \r\n ユーザー的に DLsite さんと被ってそうなので、 \r\n この結果でしょうか。 \r\n で、今日からデジぱれさんからも DL 販売開始です。 \r\n200MB を超えるとアップロードがひと手間かかるのと、 \r\n たまにアップロードが失敗するのがちょっと。 \r\n これでリアルタイム表示をしてくれるといいんだけどなぁ。 \r\n\r\n \r\n ■2005 年 11 月 18 日(金)  DMM さんからも販売開始になりました \r\n 今回は前の作品に比べて登録申請から登録まで早かったです。 \r\n 時期的なものとかもあるのでしょうけど。 \r\n 新着紹介ページで紹介して頂いてます。ウレシ〜。 \r\n 長く売れてくれる作品になるといいなぁ。 \r\n\r\n \r\n ■2005 年 11 月 17 日(木)  DLsite さんの英語サイト \r\n 昨日から「バーチャル姦具< YUNA >」の英語版が販売開始となりました。 \r\n英語サイトをたまに見ると、月間ランキングとか累計でも \r\n 「獣姦系」の人気が高いなぁと気づかされます。 \r\n あと結構売れるサークルは凄く伸びている。 \r\n手元に半年前の累計上位 10 本を書き留めたメモがあるのですが、 \r\n 以下のような状態↓ \r\n 現在の累計順   [ サークル ]   <現在の本数>  (半年前の順位 / 本数)メモってたやつ \r\n...

Page 41: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 41

EUC-KR Korean <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://kgein203qkand98opekenlsk.newheart.co.kr/vksxk547fbdus/cjswp8zhem.html" charset="euc-kr"/> 룰루게임 \r\n\r\n\r\n \r\n \r\n 제목 : 룰루게임 \r\n \r\n “ 연애는 끝났다 .” 녀석의 입에서 전혀 예상하지 룰루게임 못했던 말이 에로무비 흘러 나왔다 . 연애란 , 그 녀석이나 야한만화관 나에게 있어 담배연기여자유학생 야동 처럼 모호하고 흐릿한 단어였다 . 무한보물창꼬 더구나 어제까지만 해도 솔로 인생 5년차에 룰루게임 접어든 복학생의 삶에 대해 사춘기섹스 열변을 토하던 녀석이 아니던가 ! 평소 같았으면 일본야동 지랄한다며 카드깡 뒤통수를 때렸겠지만 비에 흠뻑 젖어 룰루게임 자취방으로 들어온 녀석의 분위기가 심상치 않았다 . 나는 녀석이 자랑하며 한 번도 빌려주지 않던 미피 3단 진짜무료성인사이트 우산의 행방도 과부따먹기 정액 궁금했고 , 어떻게 하면 단 통근쾌락 치한으로 GO 하루 만에 실연당한 남자의 눈빛을 가질 수 종합쇼핑몰순위 있는지도 궁금했고 , 핸드폰을 잃어버렸을 네이버 야한동영상 때보다 지금이 더 슬퍼 룰루게임 보인다는 무좀치료법 사실도 지적해주고 일본야동 싶었지만 하두리동영상 녀석의 말을 통근쾌락 치한으로 GO 듣기 농수산홈쇼핑 위해 일단 가만히 있기로 했다 . 녀석은 다른 날과 마찬가지로 영어 성폭력동영상 학원을 마치고 짧은뉴스 지하철을 교육방송탔단다 . 룰루게임언제나 그렇듯 늦은 시간의 지하철에는 국내동영상 사람이 별로 없었는데 , 그래서인지 통근쾌락 치한으로 GO 맞은편에 앉은 야한카페 여자 두 명의 대화가 유독 잘 들렸단다 . gs쇼핑몰 그 중에서도 머리칼을 자꾸만 롯데홈쇼핑 쓸어 넘기는 여자의 말이 유독 귀에 야한카페 들어왔다고 했다 . 여자는 이렇게 무료성인사이트 말했단다 . ...

Page 42: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 42

GB2312 Chinese Simplified <CharsetTextCollectorPlugin user="Wiederitzsch" version="null" url="http://www.zwic.cn/"

charset="gb2312"/>北京中兴伟华经贸有限公司 ― 俄罗斯重型机械联合公司矿山设备技术公司( OMZ )中国代理 \r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n   \r\n 北京中兴伟华经贸有限公司是国内知名的非公路运输和工程机械设备、矿山设备供应商。 \r\n 公司以促进设备国际化采购为己任,致力于中国矿业运输设备、水利施工机械等的现代化事业发展增强中国非公路运输和矿山采掘行业的国际竞争能力,推动我国有关行业企业的国际化进程,努力为包括冶金、有色、水利、建材、煤炭、油田、交通工程等行业在内的广大用户提供质优价廉的设备。 \r\n 公司主要国外合作伙伴包括 : 俄罗斯重型机械联合公司矿山设备技术公司 - 即 OMZ( 音译“奥姆斯” ) 公司、别拉斯厂、乌拉尔重型机械厂(简称“乌重”)、伊若拉厂、雅姆斯厂、道依茨厂、乌拉尔重型汽车拖车厂、吉奥玛公司、莫阿兹汽车厂等。这些企业或者是自卸车生产的巨鳄、或者在矿山设备领域独领风骚、或者是前苏联军工企业的佼佼者、或者在世界内燃机制造业几分天下、或者在电力设备行业兴风作浪,无不是当代世界重工业发展得杰出代表。 \r\n 公司的主要经营项目有: \r\n - 矿用电铲、吊斗铲(拉铲),破碎机和磨矿机等矿山设备 \r\n - 非公路自卸车及电动轮自卸汽车 - 道依茨 1015C 柴油发动机 \r\n - 雅姆斯发动机及欧 2 标准发动机总成 - 电站设备及其附件 \r\n - 重型汽车挂车产品 - 冶金设备;汽车零配件 / 机械产品的生产与来样加工 \r\n 本公司专业从事包括上述产品在内的进口工程机械、电力设备之经营,积极提供所有产品的售前、售中和售后服务。主要面向冶金、煤炭、电力、水利施工、交通工程等行业。 \r\n ...

Page 43: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 43

Big5 Chinese Traditional <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.elearning.ccu.edu.tw/aboutus01.htm" charset="big5"/>數位學習中心 \r\n\r\n\r\n \r\n \r\n English 首頁 網站地圖 問題與建議 \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n 中心簡介 \r\n \r\n 軟硬體設備 \r\n \r\n 服務項目 \r\n \r\n 數位課程 \r\n \r\n 網路教學 \r\n \r\n 成果展示 \r\n \r\n 中心出版品 \r\n \r\n 常見問題 \r\n \r\n 相關連結 \r\n \r\n 相關下載區 \r\n \r\n \r\n \r\n \r\n \r\n \r\n 你在這裡 > 首頁 > 中心簡介 \r\n \r\n \r\n \r\n \r\n ﹡ 成立目的 \r\n 數位學習中心係針對目前本校網路教學實施上的兩個關鍵瓶頸所設立的: \r\n 一、多媒體教材製作技術困難度高且曠日費時。 \r\n 二、缺少專業級教學平台伺服器及影音伺服器以支應需求。 \r\n 因此本中心的規劃特別注重人才與器材的支援,目的是要建立一支有效率的專業團隊,幫助授課老師製作課程。 \r\n \r\n網路學習異於課堂講授,如何發揮數位媒體的傳播功能,並減少遠距教學師生不能面對面溝通的困擾,是工作是最重大的挑戰。目前網路教學流程的後端平台發展已邁入成熟期,但是前端多媒體影音效果卻因無專業人員投入,授課老師多不願嘗試。即使有願意起步者,常因製作專業水準不夠,導致不知如何下手的窘境,再加上多媒體教材製作須投入巨量時間及精力,無形中造成老師們網路教學上的障礙。 \r\n 為突破以上的網路教學發展評頸,我們需要一個專業的教材製作團隊,配置足夠的多媒體設備,根據老師的需要製作多媒體製作教材,使其授課理念可以在網路的環境中充分發揮。而授課本人只須專心於教材準備的工作,完全不用擔心技術性的問題,其參與網路教學的意願必定倍增。 \r\n ...

Page 44: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 44

windows-1255 Hebrew <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.naturalway.co.il/index2.html" charset="iso-8859-8"/>הבית הטבעי\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n םירפסה\r\n \r\n ןאכ ץחל - החנהב הרישי היינקל\r\n \r\n r\n\יעבטה לושיבה רפס r\n The Golden Path to Natural Healing\r\n\יעבט יופירל בהזה ליבשםירפס לש תומכ לכל r\n\תויגועו תוגוע םחל רפס r\n\(תיעבטה הרירבה" לש תבחרומו תנכדועמ הרודהמ")תילגנאב םג אצי - יעבט יופירל בהזה r\n\r\n\הטמל תבותכל ראודב קש חולשמ י"ע היינקה r\n\חולשמ ימדהטילחה היתובקעב ,השק ןטרסמ ומח הרש לש r\n\ומח הרש תאמ r\n\ןאפרלו תולחמ עונמל דציכ r\n\ליבש r\n\ןענומלו תולחממ. r\n\םילחהל םישנאל רוזעל ידכ הדמלש םייעבטה םיעצמאב שמתשהל r\n\התמלחה רופיס r\n\ןיופירו תולחמ תעינמ. r\n\אשונב תואצרהו םיסרוק הריבעמו ישיא ץועייב ומח הרש תקסוע םויכןהו תולחמ יופירל סחיב r\n\"ישיאה הרופיס ללגב קר ולו ומח הרש לש הרפסמ ענכתשהל לק r\n\תרוקיב:ץראה" ". r\n\ןזואמו ןוכנ םייח חרואלו העינמל רושקה לכב". r\n\ןה ,התשיג תענכשמ תוחפל יתוא .קתרמהתיעבטה הרירבה לש תבחרומו תנכדועמ r\n\יעבטה לושיבה רפס r\n \r\n \r\n\- ,םירפס ףסומ ,יררה רודחוחינלו ליבהמ ירפכ םחל לש םעטל ונתוא ריזחמ הז ידוחיי לושיב r\n\ריאמ-ומח תיליה תאמ r\n\הרודהמםינועבטלו תואירב ירחושל . r\n\אלו םדא לכל םיאתמ הז רפס .םעפ ויהש ומכ - ךימס קרמ לש רישע r\n\רפסונב תבשחתמ . r\n\"אטוח'ה לושיבל רושקש המ לכב םעטו עדי ,הנבה שי תרבחמלש רכינ' r\n\תרוקיב: r\n\קררישעו ןווגמ . r\n\םיבושח תואירב תונורקע םע םיעט לושיב לש בולישב רבודמ ןכא. r\n\איהו r\n\םחל רפסr\n \r\n \r\n\ ןאכ ץחל -המגודל ןוכתמ r\n\-ץראה" ,םירפס ףסומ ,יררה רוד". r\n\רפסה r\n\ריאמ-ומח תיליה תאמ r\n\תויגועו תוגוע םגו

Page 45: Wissen aus dem Web - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/120/IR12.pdf · Information Retrieval Wissen aus dem Web Uwe Quasthoff Universität Leipzig Institut

IR: Das Web 45

windows-1256 Arabic <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.albukairiah.net/author/" charset="windows-1256"/> - كتاب البكيرية r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n\المؤلف في سطور\r\n \r\n \r\n المؤلف في سطور\r\n \r\n - صالح بن عبد العزيز بن عبد ال الخضيري من بني

هـ1353العنبر من بني تميم ، ولد في مدينة البكيرية إحدى مدن القصيم في عام .\r\n - تلقى تعليمه على يد هـ ، التحق بها ونال 1368عند فتح المدرسة البتدائية عام - r\n\.مشائخ بلده قبل فتح المدارس في بلدته

هـ ، التحق بمدرسة دار التوحيد بالطائف1373في عام - r\n\. هـ1370الشهادة البتدائية عام .\r\n - في هـ ، التحق بالعمل 1376في عام - r\n\. هـ ، عين مديرا7 ومدرسا7 لمدرسة ضرية بالقصيم1374عام

هـ ، عند إنشاء مدارس البنات التحق بها كأمين 1381في عام - r\n\. بالمحكمة الكبرى بالرياض هـ ، التحق بديوان الموظفين العام ( وزارة الخدمة المدنية) وعين مفتشا7 1389في عام - r\n\. لمستودعاتهاهـ ، عين مفتشا7 بالرئاسة العامة لهيئة المر بالمعروف والنهي عن المنكر 1398في عام - r\n\. بالديوان هـ ، عين مديرا7 عاما7 لفرع الرئاسة العامة لهيئة المر بالمعروف والنهي 1405في عام - r\n\. بالرياض هـ ، نقل مديرا7 عاما7 لفرع الرئاسة العامة لهيئة 1415في عام - r\n\. عن المنكر بمنطقة الحدود الشمالية هـ ، نقل للعمل مستشارا7 بفرع 1417في عام - r\n\. المر بالمعروف والنهي عن المنكر بمنطقة الباحةهـ ، رغب 1421في عام - r\n\. الرئاسة العامة لهيئة المر بالمعروف والنهي عن المنكر بمنطقة القصيمصدر للمؤلف كتاب - r\n\. في إنهاء التعاقد معه حيث استقر في محافظ البكيرية ليتفرغ للبحث والتأليف r\n \r\n \r\n \r\n\. ( مدينة عرعر ) و ( العبر في حوادث الدهر ) وله مؤلفات تحت الطبع