53
HS: Personalisierung mit großen Daten Evaluierung von Empfehlungssystemen 1 Referent: Benjamin Hartwich

Evaluierung von Empfehlungssystemen

Embed Size (px)

DESCRIPTION

Ein Vortrag von Benjamin Hartwich aus dem Hauptseminar "Personalisierung mit großen Daten".

Citation preview

  • 1. HS: Personalisierung mit groen Daten Evaluierung von Empfehlungssystemen Referent: Benjamin Hartwich 1
  • 2. HS: Personalisierung mit groen Daten Gliederung 1. 2. 3. 4. 5. 6. 7. Recommender Systeme und Collaborative Filtering User Tasks und Rating Tasks Beispiel Starten einer Evaluation Gtekriterien Abseits der Gtekriterien User Evaluation 2
  • 3. HS: Personalisierung mit groen Daten Recommender Systeme und Collaborative Filtering Algorithms 3
  • 4. HS: Personalisierung mit groen Daten Was ist ein Recommender Sytem? Recommender systems use the opinions of a community of users to help individuals in that community more effectively identify content of interest from a potentially overwhelming set of choices [Resnick and Varian 1997]. 4
  • 5. HS: Personalisierung mit groen Daten Collaborative Filtering Algorithms The task in collaborative filtering is to predict the utility of items to a particular user (the active user) based on a database of user votes from a sample or population of other users (the user database). [Breese 1998] Memory Based Model Based 5
  • 6. HS: Personalisierung mit groen Daten User und Rating Tasks 6
  • 7. HS: Personalisierung mit groen Daten UT: Annotation in Context 7
  • 8. HS: Personalisierung mit groen Daten UT: Find Good Items 8
  • 9. HS: Personalisierung mit groen Daten UT: Find All Good Items 9
  • 10. HS: Personalisierung mit groen Daten UT: Just Browsing 10
  • 11. HS: Personalisierung mit groen Daten UT: Recommend Sequence 11
  • 12. HS: Personalisierung mit groen Daten UT: Find Credible Recommender 12
  • 13. HS: Personalisierung mit groen Daten Rating Tasks Improve Profile Express Self Help Others Influence Others 13
  • 14. HS: Personalisierung mit groen Daten Beispiel 14
  • 15. HS: Personalisierung mit groen Daten Beispiel 15
  • 16. HS: Personalisierung mit groen Daten Start einer Evaluation 16
  • 17. HS: Personalisierung mit groen Daten => Empfehlungen? Algorithmen vs. Datensets Plattformumgebung und zweck Ziele einer Evaluation Definition der richtigen Empfehlung User vs. System 17
  • 18. HS: Personalisierung mit groen Daten Evaluierung mittels Offline-Daten Befragung / Experiment Online-Daten 18
  • 19. HS: Personalisierung mit groen Daten Experiment / Befragung Sammeln qualitativer Daten Pre-Test empfehlenswert Testpersonen sollten Zielgruppe abbilden Analyse innerhalb und zwischen den Testgruppen Anzeige der Ergebnisse randomisieren Fragebgen / Befragung verwenden Hohe Kosten 19
  • 20. HS: Personalisierung mit groen Daten Offline-Daten Datenset ist bereits vorhanden (Verhalten der Nutzer frher und jetzt?) Algorithmus vs. Datenset? Samples aus Set auswhlen (User, Items, Zeit) Daten ab Auswahlzeitpunkt verbergen Algorithmus ab da rechnen lassen 20
  • 21. HS: Personalisierung mit groen Daten Online-Daten Ziel: Beeinflussen des Nutzerverhaltens Mageblich sind: Intention und Kontext des Nutzers, Nutzerinterface Randomisierte Auswahl an Nutzern, die leicht verndertes System verwenden Online-Datensatz alleine reicht nicht 21
  • 22. HS: Personalisierung mit groen Daten Anforderung an ein Datenset Kontext der Empfehlungen: Thema, Nutzerverhalten, Bedrfnisse, Genauigkeit Systemeigenschaften: Wie kommen Ratings zustande und sind skaliert? Was wird geloggt? Eigenschaften des Datensets: Dichte der Gesamtratings, Nutzerzahl Implizite vs. Explizite Daten 22
  • 23. HS: Personalisierung mit groen Daten Daten => Evaluierung Teilung Lernen Berechnung Vergleich 23
  • 24. HS: Personalisierung mit groen Daten Gtekriterien 24
  • 25. HS: Personalisierung mit groen Daten Gte der Vorhersagen Messung, wie nah die vorhergesagten Empfehlungen an den wirklichen User Ratings sind MAE: Standardabweichung zwischen vorhergesagtem und wahrem Rating =1 = Detailgenauigkeit entscheidend 25
  • 26. HS: Personalisierung mit groen Daten Klassifizierung Relevant Nicht-Relevant 26
  • 27. HS: Personalisierung mit groen Daten Klassifizierung Recommender System User Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 27
  • 28. HS: Personalisierung mit groen Daten Precision Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA = 28
  • 29. HS: Personalisierung mit groen Daten Beispiel Precision Ausgewhlt Nicht ausgewhlt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 3 = 10 29
  • 30. HS: Personalisierung mit groen Daten Recall Ausgewhlt Nicht ausgewhlt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA = 30
  • 31. HS: Personalisierung mit groen Daten Beispiel: Recall Ausgewhlt Nicht ausgewhlt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 = 3 5 31
  • 32. HS: Personalisierung mit groen Daten F1 Score Harmonisch: 1 = 2 + Zwischen 0 und 1. F1 =< 1 => bester Wert 32
  • 33. HS: Personalisierung mit groen Daten Beispiel: F1 Score 1 = 2 0,3 0,6 0,3+0,6 = 0,4 33
  • 34. HS: Personalisierung mit groen Daten Precision und Recall Przision Relevanz 34
  • 35. HS: Personalisierung mit groen Daten Precision Recall Curve 35
  • 36. HS: Personalisierung mit groen Daten ROC-Curve Messung, wie genau ein Informationsverarbeitungs system zwischen Relevanz und NichtRelevanz unterscheiden kann 36
  • 37. HS: Personalisierung mit groen Daten ROC-Curve 37
  • 38. HS: Personalisierung mit groen Daten Probleme Geschmack in binres System transformieren? Voraussetzung: Wissen, was relevant ist Modell zu sehr am IR ausgerichtet Ergebnisse von Lnge der Liste abhngig 38
  • 39. HS: Personalisierung mit groen Daten Ranking Reference Ranking: Ranking mithilfe einer weiteren Referenz (Normalized Distance-based Performance Measure, Kendalls tau) Utility-Based Ranking: Ntzlichkeit der Liste anhand jedes Items in Abhngigkeit der Position im Gesamtkontext der Liste (R-Score, Normalized Cumulative Discounted Gain) Online Evaluation: Welche Art des Rankings prferiert der Nutzer 39
  • 40. HS: Personalisierung mit groen Daten Abseits der Gtekriterien 40
  • 41. HS: Personalisierung mit groen Daten Coverage Item Space Coverage: Anteil an Empfehlungen, die ein Empfehlungssystem geben kann Anteil an Empfehlungen, die jemals gegeben wurden User Space Coverage: Anteil an Nutzern oder Nutzerinteraktionen, fr die das System Empfehlungen generieren kann 41
  • 42. HS: Personalisierung mit groen Daten Learning Rate Overall Learning Rate: Qualitt einer Empfehlung als Funktion ber alle Ratings im System Per Item Learning Rate: Qualitt einer Empfehlung fr ein Item als Funktion ber die Anzahl der vorhandenen Ratings Per User Learning Rate: Qualitt einer Empfehlung fr einen Nutzer als Funktion ber die Anzahl der Ratings, die der Nutzer gemacht hat Methode zum Vergleich: Graph aus Qualitt vs. Anzahl der Ratings 42
  • 43. HS: Personalisierung mit groen Daten Learning Rate 43
  • 44. HS: Personalisierung mit groen Daten Confidence Sicherheit des Systems ber Gltigkeit der Vorhersage Steigt mit Anzahl der Daten Methode: Herausfinden aller mglichen Empfehlungsergebnisse In welchem Rahmen bewegen sich die Ergebnisse? 44
  • 45. HS: Personalisierung mit groen Daten Trust Im Gegensatz zu Confidence das Vertrauen der Nutzer in das Empfehlungssystem Wird durch wiederkehrende Nutzer besttigt Experimente / Online-Umfragen 45
  • 46. HS: Personalisierung mit groen Daten Novelty Generell: Ausfiltern von Items, die der Nutzer bereits kennt Aber nur relevantes Neues Implementation ber die Gtekriterien => Hhere Credits fr korrekt vorhergesagte unpopulre Items 46
  • 47. HS: Personalisierung mit groen Daten Serendipity Messwert, wie berraschend eine Empfehlung war Methode: Distanzmessung zwischen Inhalt der Items => Hherer Score fr Items, die von einem Set bisher bewerteter Items entfernt sind 47
  • 48. HS: Personalisierung mit groen Daten Diversity Annahme: Vielfltige Ergebnisse verkrzen Suchaktionen Methode: Messung der hnlichkeit zwischen Items Kurven zur Beurteilung zwischen Anstieg der Vielfltigkeit und Sinken der Gtekriterien 48
  • 49. HS: Personalisierung mit groen Daten Weitere Indikatoren Risk Robustness Scalability Adaptivity Privacy 49
  • 50. HS: Personalisierung mit groen Daten User Evaluation Explizit vs. implizit Labor- vs. Feldstudie Dimensionen Ergebnis vs. Prozess Kurzzeit- vs. Langzeitstudie 50
  • 51. HS: Personalisierung mit groen Daten Ziele der User Evaluation Nutzen des System fr den User Befriedigung der Bedrfnisse des Users User Tasks eruieren Besten Algorithmus fr Datenset 51
  • 52. HS: Personalisierung mit groen Daten Danke fr die Aufmerksamkeit 52
  • 53. HS: Personalisierung mit groen Daten Literaturverzeichnis Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of Predictive Algorithms for Collaborative Filtering. Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl, John T.: Evaluating Collaborative Filtering Recommender Systems. McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is Not Enough: How Accuracy Metrics have hurt Recommender Systems. McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan, Joseph A.; Riedl, John: Confidence Displays and Training in Recommender Systems. Ricci, Francesco: Database and Information Systems. Shani, Guy; Gunawardana, Asela: Evaluating Recommendation Systems. 53