23
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen Dirk Lewandowski [email protected] http://www.bui.haw-hamburg.de/lewandowski.html @Dirk_Lew ISI 2013, 22. März 2013

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Dirk Lewandowski [email protected] http://www.bui.haw-hamburg.de/lewandowski.html @Dirk_Lew ISI 2013, 22. März 2013

Page 2: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Page 3: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Page 4: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Einleitung/Motivation

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48 Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52 MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37 Ask 0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44 Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Pre

cisi

on

Number of results

Google Yahoo MSN Ask Seekport

(Lewandowski, 2008)

Page 5: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Einleitung/Motivation

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

0,00

0,50

1,00

1,50

2,00

2,50

3,00

Dur

chsc

hnitt

liche

Pre

cisi

on

Trefferplatz

Google Yahoo MSN Ask Seekport

Page 6: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Einleitung/Motivation

•  Gewinnen wir bei Verwendung von Skalenbewertungen ein differenzierteres Bild der Suchmaschinen als bei der Verwendung von binären Bewertungen? –  Sind Relevanzskalen metrisch?

•  Hoher Aufwand bei Suchmaschinen-Tests –  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand

Page 7: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung 3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Page 8: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Stand der Forschung

•  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen –  Teils Verwendung von binären Bewertungen, teils Skalen

–  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem relevanten Treffer (Griesbaum 2004)

•  Untersuchungen zur Verwendung von Skalenbewertungen –  Keine explizite Berücksichtigung von Web-Suchmaschinen

Page 9: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung 4.  Ergebnisse

5.  Diskussion

6.  Fazit

Page 10: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Testaufbau und -durchführung

1.  Bilden eines repräsentativen Suchanfragen-Samples 2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer 3.  Bewertung der Treffer (binär/Skala)

Page 11: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Testaufbau und -durchführung

•  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des Portals T-Online.de –  Viele Millionen Suchanfragen pro Monat

–  Marktanteil in Deutschland: 4% (Webhits, 2012)

–  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen Suchmaschinen

Page 12: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Testaufbau und -durchführung

•  Samplebildung –  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden

(à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität)

–  Zufallsauswahl von 360 Suchanfragen je Gruppe

–  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert, transaktionsorientiert)

–  Verwendung von informationsorientierten Anfragen

–  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen weniger als 100)

Page 13: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Testaufbau und -durchführung

•  Abfrage der Suchmaschinen –  Automatische Abfrage der Suchmaschinen Google und Bing

–  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool (Lewandowski & Sünkler, 2012)

•  Aufbereitung der Treffer –  Durchmischung der Treffer (wg. Lerneffekten)

–  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)

Page 14: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Testaufbau und -durchführung

•  Bewertung der Treffer –  Jurorengewinnung über Studentenverteiler und Social Media

–  Bewertung in RAT: Relevanz binär, Skala (0-4)

–  Juroren erhalten nur die Suchanfrage, keine künstlich generierten Beschreibungen von Informationsbedürfnissen

–  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher Aufgabenbearbeitung

Page 15: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse 5.  Diskussion

6.  Fazit

Page 16: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Ergebnisse: Binäre Bewertungen

Page 17: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Ergebnisse: Skalenbewertungen

Page 18: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Ergebnisse: Top-bewertete Treffer

Page 19: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion 6.  Fazit

Page 20: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Diskussion

•  Kein gravierender Unterschied in der Bewertung der beiden Suchmaschinen

•  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen anstatt binärer Bewertungen –  Skalenniveau ist zu berücksichtigen

•  Grenzen der Untersuchung –  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide

Suchmaschinen

–  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen) –  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen)

–  Keine Berücksichtigung von Universal-Search-Ergebnissen

Page 21: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Gliederung

1.  Einleitung/Motivation 2.  Stand der Forschung

3.  Testaufbau und -durchführung

4.  Ergebnisse

5.  Diskussion

6.  Fazit

Page 22: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Fazit

•  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen •  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer

binär oder auf einer Fünferskala bewertet werden •  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität

der beiden Suchmaschinen

Page 23: Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html http://www.searchstudies.org