Evaluierung von Empfehlungssystemen

1. HS: Personalisierung mit groen Daten Evaluierung von Empfehlungssystemen Referent: Benjamin Hartwich 1

2. HS: Personalisierung mit groen Daten Gliederung 1. 2. 3. 4. 5. 6. 7. Recommender Systeme und Collaborative Filtering User Tasks und Rating Tasks Beispiel Starten einer Evaluation Gtekriterien Abseits der Gtekriterien User Evaluation 2

3. HS: Personalisierung mit groen Daten Recommender Systeme und Collaborative Filtering Algorithms 3

4. HS: Personalisierung mit groen Daten Was ist ein Recommender Sytem? Recommender systems use the opinions of a community of users to help individuals in that community more effectively identify content of interest from a potentially overwhelming set of choices [Resnick and Varian 1997]. 4

5. HS: Personalisierung mit groen Daten Collaborative Filtering Algorithms The task in collaborative filtering is to predict the utility of items to a particular user (the active user) based on a database of user votes from a sample or population of other users (the user database). [Breese 1998] Memory Based Model Based 5

6. HS: Personalisierung mit groen Daten User und Rating Tasks 6

7. HS: Personalisierung mit groen Daten UT: Annotation in Context 7

8. HS: Personalisierung mit groen Daten UT: Find Good Items 8

9. HS: Personalisierung mit groen Daten UT: Find All Good Items 9

10. HS: Personalisierung mit groen Daten UT: Just Browsing 10

11. HS: Personalisierung mit groen Daten UT: Recommend Sequence 11

12. HS: Personalisierung mit groen Daten UT: Find Credible Recommender 12

13. HS: Personalisierung mit groen Daten Rating Tasks Improve Profile Express Self Help Others Influence Others 13

14. HS: Personalisierung mit groen Daten Beispiel 14

15. HS: Personalisierung mit groen Daten Beispiel 15

16. HS: Personalisierung mit groen Daten Start einer Evaluation 16

17. HS: Personalisierung mit groen Daten => Empfehlungen? Algorithmen vs. Datensets Plattformumgebung und zweck Ziele einer Evaluation Definition der richtigen Empfehlung User vs. System 17

18. HS: Personalisierung mit groen Daten Evaluierung mittels Offline-Daten Befragung / Experiment Online-Daten 18

19. HS: Personalisierung mit groen Daten Experiment / Befragung Sammeln qualitativer Daten Pre-Test empfehlenswert Testpersonen sollten Zielgruppe abbilden Analyse innerhalb und zwischen den Testgruppen Anzeige der Ergebnisse randomisieren Fragebgen / Befragung verwenden Hohe Kosten 19

20. HS: Personalisierung mit groen Daten Offline-Daten Datenset ist bereits vorhanden (Verhalten der Nutzer frher und jetzt?) Algorithmus vs. Datenset? Samples aus Set auswhlen (User, Items, Zeit) Daten ab Auswahlzeitpunkt verbergen Algorithmus ab da rechnen lassen 20

21. HS: Personalisierung mit groen Daten Online-Daten Ziel: Beeinflussen des Nutzerverhaltens Mageblich sind: Intention und Kontext des Nutzers, Nutzerinterface Randomisierte Auswahl an Nutzern, die leicht verndertes System verwenden Online-Datensatz alleine reicht nicht 21

22. HS: Personalisierung mit groen Daten Anforderung an ein Datenset Kontext der Empfehlungen: Thema, Nutzerverhalten, Bedrfnisse, Genauigkeit Systemeigenschaften: Wie kommen Ratings zustande und sind skaliert? Was wird geloggt? Eigenschaften des Datensets: Dichte der Gesamtratings, Nutzerzahl Implizite vs. Explizite Daten 22

23. HS: Personalisierung mit groen Daten Daten => Evaluierung Teilung Lernen Berechnung Vergleich 23

24. HS: Personalisierung mit groen Daten Gtekriterien 24

25. HS: Personalisierung mit groen Daten Gte der Vorhersagen Messung, wie nah die vorhergesagten Empfehlungen an den wirklichen User Ratings sind MAE: Standardabweichung zwischen vorhergesagtem und wahrem Rating =1 = Detailgenauigkeit entscheidend 25

26. HS: Personalisierung mit groen Daten Klassifizierung Relevant Nicht-Relevant 26

27. HS: Personalisierung mit groen Daten Klassifizierung Recommender System User Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 27

28. HS: Personalisierung mit groen Daten Precision Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA = 28

29. HS: Personalisierung mit groen Daten Beispiel Precision Ausgewhlt Nicht ausgewhlt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 3 = 10 29

30. HS: Personalisierung mit groen Daten Recall Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA = 30

31. HS: Personalisierung mit groen Daten Beispiel: Recall Ausgewhlt Nicht ausgewhlt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 = 3 5 31

32. HS: Personalisierung mit groen Daten F1 Score Harmonisch: 1 = 2 + Zwischen 0 und 1. F1 =< 1 => bester Wert 32

33. HS: Personalisierung mit groen Daten Beispiel: F1 Score 1 = 2 0,3 0,6 0,3+0,6 = 0,4 33

34. HS: Personalisierung mit groen Daten Precision und Recall Przision Relevanz 34

35. HS: Personalisierung mit groen Daten Precision Recall Curve 35

36. HS: Personalisierung mit groen Daten ROC-Curve Messung, wie genau ein Informationsverarbeitungs system zwischen Relevanz und NichtRelevanz unterscheiden kann 36

37. HS: Personalisierung mit groen Daten ROC-Curve 37

38. HS: Personalisierung mit groen Daten Probleme Geschmack in binres System transformieren? Voraussetzung: Wissen, was relevant ist Modell zu sehr am IR ausgerichtet Ergebnisse von Lnge der Liste abhngig 38

39. HS: Personalisierung mit groen Daten Ranking Reference Ranking: Ranking mithilfe einer weiteren Referenz (Normalized Distance-based Performance Measure, Kendalls tau) Utility-Based Ranking: Ntzlichkeit der Liste anhand jedes Items in Abhngigkeit der Position im Gesamtkontext der Liste (R-Score, Normalized Cumulative Discounted Gain) Online Evaluation: Welche Art des Rankings prferiert der Nutzer 39

40. HS: Personalisierung mit groen Daten Abseits der Gtekriterien 40

41. HS: Personalisierung mit groen Daten Coverage Item Space Coverage: Anteil an Empfehlungen, die ein Empfehlungssystem geben kann Anteil an Empfehlungen, die jemals gegeben wurden User Space Coverage: Anteil an Nutzern oder Nutzerinteraktionen, fr die das System Empfehlungen generieren kann 41

42. HS: Personalisierung mit groen Daten Learning Rate Overall Learning Rate: Qualitt einer Empfehlung als Funktion ber alle Ratings im System Per Item Learning Rate: Qualitt einer Empfehlung fr ein Item als Funktion ber die Anzahl der vorhandenen Ratings Per User Learning Rate: Qualitt einer Empfehlung fr einen Nutzer als Funktion ber die Anzahl der Ratings, die der Nutzer gemacht hat Methode zum Vergleich: Graph aus Qualitt vs. Anzahl der Ratings 42

43. HS: Personalisierung mit groen Daten Learning Rate 43

44. HS: Personalisierung mit groen Daten Confidence Sicherheit des Systems ber Gltigkeit der Vorhersage Steigt mit Anzahl der Daten Methode: Herausfinden aller mglichen Empfehlungsergebnisse In welchem Rahmen bewegen sich die Ergebnisse? 44

45. HS: Personalisierung mit groen Daten Trust Im Gegensatz zu Confidence das Vertrauen der Nutzer in das Empfehlungssystem Wird durch wiederkehrende Nutzer besttigt Experimente / Online-Umfragen 45

46. HS: Personalisierung mit groen Daten Novelty Generell: Ausfiltern von Items, die der Nutzer bereits kennt Aber nur relevantes Neues Implementation ber die Gtekriterien => Hhere Credits fr korrekt vorhergesagte unpopulre Items 46

47. HS: Personalisierung mit groen Daten Serendipity Messwert, wie berraschend eine Empfehlung war Methode: Distanzmessung zwischen Inhalt der Items => Hherer Score fr Items, die von einem Set bisher bewerteter Items entfernt sind 47

48. HS: Personalisierung mit groen Daten Diversity Annahme: Vielfltige Ergebnisse verkrzen Suchaktionen Methode: Messung der hnlichkeit zwischen Items Kurven zur Beurteilung zwischen Anstieg der Vielfltigkeit und Sinken der Gtekriterien 48

49. HS: Personalisierung mit groen Daten Weitere Indikatoren Risk Robustness Scalability Adaptivity Privacy 49

50. HS: Personalisierung mit groen Daten User Evaluation Explizit vs. implizit Labor- vs. Feldstudie Dimensionen Ergebnis vs. Prozess Kurzzeit- vs. Langzeitstudie 50

51. HS: Personalisierung mit groen Daten Ziele der User Evaluation Nutzen des System fr den User Befriedigung der Bedrfnisse des Users User Tasks eruieren Besten Algorithmus fr Datenset 51

52. HS: Personalisierung mit groen Daten Danke fr die Aufmerksamkeit 52

53. HS: Personalisierung mit groen Daten Literaturverzeichnis Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of Predictive Algorithms for Collaborative Filtering. Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl, John T.: Evaluating Collaborative Filtering Recommender Systems. McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is Not Enough: How Accuracy Metrics have hurt Recommender Systems. McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan, Joseph A.; Riedl, John: Confidence Displays and Training in Recommender Systems. Ricci, Francesco: Database and Information Systems. Shani, Guy; Gunawardana, Asela: Evaluating Recommendation Systems. 53

Technology

Evaluierung von Empfehlungssystemen