Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Dirk Lewandowski dirk.lewandowski@haw-hamburg.de http://www.bui.haw-hamburg.de/lewandowski.html @Dirk_Lew ISI 2013, 22. März 2013

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Gliederung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Einleitung/Motivation

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48 Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52 MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37 Ask 0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44 Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37

Number of results

Google Yahoo MSN Ask Seekport

(Lewandowski, 2008)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

Trefferplatz

Google Yahoo MSN Ask Seekport

•  Gewinnen wir bei Verwendung von Skalenbewertungen ein differenzierteres Bild der Suchmaschinen als bei der Verwendung von binären Bewertungen? –  Sind Relevanzskalen metrisch?

•  Hoher Aufwand bei Suchmaschinen-Tests –  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Stand der Forschung

•  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen –  Teils Verwendung von binären Bewertungen, teils Skalen

–  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem relevanten Treffer (Griesbaum 2004)

•  Untersuchungen zur Verwendung von Skalenbewertungen –  Keine explizite Berücksichtigung von Web-Suchmaschinen

Gliederung

3.  Testaufbau und -durchführung 4.  Ergebnisse

5.  Diskussion

6.  Fazit

Testaufbau und -durchführung

1.  Bilden eines repräsentativen Suchanfragen-Samples 2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer 3.  Bewertung der Treffer (binär/Skala)

•  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des Portals T-Online.de –  Viele Millionen Suchanfragen pro Monat

–  Marktanteil in Deutschland: 4% (Webhits, 2012)

–  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen Suchmaschinen

•  Samplebildung –  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden

(à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität)

–  Zufallsauswahl von 360 Suchanfragen je Gruppe

–  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert, transaktionsorientiert)

–  Verwendung von informationsorientierten Anfragen

–  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen weniger als 100)

•  Abfrage der Suchmaschinen –  Automatische Abfrage der Suchmaschinen Google und Bing

–  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool (Lewandowski & Sünkler, 2012)

•  Aufbereitung der Treffer –  Durchmischung der Treffer (wg. Lerneffekten)

–  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)

•  Bewertung der Treffer –  Jurorengewinnung über Studentenverteiler und Social Media

–  Bewertung in RAT: Relevanz binär, Skala (0-4)

–  Juroren erhalten nur die Suchanfrage, keine künstlich generierten Beschreibungen von Informationsbedürfnissen

–  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher Aufgabenbearbeitung

Gliederung

4.  Ergebnisse 5.  Diskussion

6.  Fazit

Ergebnisse: Binäre Bewertungen

Ergebnisse: Skalenbewertungen

Ergebnisse: Top-bewertete Treffer

Gliederung

4.  Ergebnisse

5.  Diskussion 6.  Fazit

Diskussion

•  Kein gravierender Unterschied in der Bewertung der beiden Suchmaschinen

•  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen anstatt binärer Bewertungen –  Skalenniveau ist zu berücksichtigen

•  Grenzen der Untersuchung –  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide

Suchmaschinen

–  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen) –  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen)

–  Keine Berücksichtigung von Universal-Search-Ergebnissen

Gliederung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

•  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen •  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer

binär oder auf einer Fünferskala bewertet werden •  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität

der beiden Suchmaschinen

Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html http://www.searchstudies.org

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Internet

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren

Modell zur Evaluierung von Beratungsprojekten€¦ · "Modell zur Evaluierung von Beratungsprojekten" vorgelegt von Licenciada en Economía Marta Sangüesa Sánchez in der Fakultät

Produktion und Evaluierung von - TU Braunschweig

Evaluierung innovativer Druckverfahren für die ... · Evaluierung innovativer Druckverfahren für die Metallisierung von Si-Solarzellen A. Lorenz Evaluierung innovativer Druck-verfahren

Optimierung von Inhalten für Suchmaschinen Oder: Was eine Website bei Suchmaschinen erfolgreich macht!

Evaluierung von Web-Suchmaschinen

Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern

Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

Von Suchmaschinen zu Antwortmaschinen · Von Suchmaschinen zu Antwortmaschinen: Semantische Technologien und Benutzerpartizipation im Web 3.0 . Wolfgang Wahlster . Deutsches Forschungszentrum

Evaluierung und Implementierung von Blockchain Use Cases · Evaluierung und Implementierung von Blockchain Use Cases 4 Vorstellung des Evaluierungsrahmens Der Evaluierungsrahmen ist

Seite 120.09.2015 Präoperative Evaluierung 11.09.2015 Präoperative Evaluierung von geriatrischen PatientInnen Thomas Paul EGGER

Modix Webinar: Wie Autohäuser die Power von Suchmaschinen nutzen (Nov 2014)

Evaluierung der Bedeutung von Grenzschutzmaßnahmen für die ... · Evaluierung der Bedeutung von Grenzschutzmaßnahmen für die Landwirtschaft in der Schweiz Beurteilung und Empfehlungen

Modix Webinar (November 2014) Wie Autohäuser die Power von Suchmaschinen nutzen

Evaluierung von Wolkenbeobachtungen durch Satellitendaten ......Evaluierung von Wolkenbeobachtungen durch Satellitendaten mit Bodenbeobachtungen An der Universit at Leipzig, Fakult

Thema: Evaluierung von BIM-Lösungen in der Tragwerksplanung

Simulationsmethoden zur Evaluierung und Verifizierung von ... · 7.-8. April 2008 3. Tagung Aktive Sicherheit durch Fahrerassistenz 1 von 14 Simulationsmethoden zur Evaluierung und

Evaluierung von PHP Frameworks

Evaluierung von Usability durch standardisierte ...campar.in.tum.de/twiki/pub/Students/MAQualitativeUsabilityConcept/... · Evaluierung von Usability durch standardisierte qualitative

Evaluierung von Empfehlungssystemen