Upload
markus-hartmann
View
227
Download
0
Embed Size (px)
Citation preview
Michael BeckerSAP AG
Betreuer: Sven Helmer
Diplomarbeit
SAP AG 2003, Title of Presentation, Speaker Name / 2
Überblick
TCL-Algorithmus
11
33
22
Die Suchmaschine der SAP
44
Einführung
55
66Testergebnisse
Fazit & Ausblick
Themen der Diplomarbeit
SAP AG 2003, Title of Presentation, Speaker Name / 3
Einführung
Titel der Diplomarbeit:
Analyse und Auswertung von User-Logs im Umfeld der SAP-Suchmaschine
Status:
Nutzerverhalten geht nicht in Suchvorgang ein
-> Durchführung eines impliziten Relevance Feedback
Ziel: Implizite Relevance Feedback zur
Verbesserung von Precision & Recall (Query-Expansion) Anpassung des Internetportals (Navigationsanalyse) Leistungsanalyse von der Suchmaschine Verbesserung des Dokumentenkorpus (Info an Administrator)
SAP AG 2003, Title of Presentation, Speaker Name / 4
Themen der Diplomarbeit (1)
Navigations-Analyse
1. Ziel: Internet-Portal benutzer-freundlich gestalten
Allgemeine Sicht Benutzer-Spezifische Sicht
2. Vorgehensweise:1. Clusterbildung 2. Aufzeichnung der Suchen 3. Untersuchung der Links zwischen den Clustern 4. Benutzersicht abbilden
SAP AG 2003, Title of Presentation, Speaker Name / 5
Themen der Diplomarbeit (2)
Statistische Auswertungen
Bestehende Programme Open Source (Loganalyzer 6.00 Komerzielle (WebTrends Log Analyzer Series von netIQ )
(Python-) Skripte Meistbenutzten Queries Meistgelesenen Dokumente Suchen ohne Treffer
SAP-BW Data Mining Verfahren
SAP AG 2003, Title of Presentation, Speaker Name / 6
Themen der Diplomarbeit (3)
AlgorithmenZiel: Verbesserung der Retrievalperformance
Durchführung:
Nutzung von Vergangenheitsdaten Annahme: Die betrachteten Dokumente zu einer Suchanfrage
sind auch die relevanten Dokumente Methode: Benutze vorherige „gute“ Anfragen Benutze Query-Expansion
SAP AG 2003, Title of Presentation, Speaker Name / 7
Themen der Diplomarbeit - Architektur
TREX
Logs
Webserver (Suchoberfläche)
Analyse
Statistiken
Query Expansion
Navigationsanalyse
Proxy
Python
Extension
Preprocessing
SAP BW
Admin-Oberfläche
Stores
SAP AG 2003, Title of Presentation, Speaker Name / 8
Die SAP-Suchmaschine TREX (1)
Search and Classification (TREX)
Einsatz mit dem SAP Enterprise Portal …
Besteht aus den Servern:
1. Nameserver
2. Präprozessor
3. Indexserver
4. Queueserver
SAP AG 2003, Title of Presentation, Speaker Name / 9
Die SAP-Suchmaschine TREX (2)
Der Indexserver besteht wiederum aus
Search Engine Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche
Text Mining Engine Suche nach ähnlichen Termen Suche nach ähnlichen Dokumenten Bestimmungf von Schlüsselwörtern (Feature Extraktion) Klassifikation von Dokumenten (Erstellen von Taxonomien) Clustern von Dokumenten
Attribute Engine Attribut-Suche Guided Navigation
SAP AG 2003, Title of Presentation, Speaker Name / 10
TCL-Algorithmus
Term Concept Based Learning –An Approach for Learning Meanings of Queries in Information Retrieval Systems:
Ziel: Verlängerung der Such-Begriffe Anpassen der Suchbegriffe an die Terminologie
Lern-Phase: Suche zu jedem Query-Term „ähnliche“ Queries Hole alle relevanten Dokumente dieser Queries Bilde die „Konzept-Terme“
Expansion-Phase
Erweitere neue Query um die Konzept-Terme
SAP AG 2003, Title of Presentation, Speaker Name / 11
Testergebnisse - Testszenario
SAP Help Portal (http://help.sap.com) 6 Indexe
~11 Mio Dokumente ~3,5 Mio Terme in 6 Sprachen ~70 GB Plattenplatz
~200 000 Suchen zu 85 % ein oder zwei Dokumente betrachtet 2/3 aller Suchen haben ein oder zwei Queryterme
Benutze „90/10“-Methode
Berechnung der mittleren Precision bei Recall =1
Parameter: Feste Anzahl DocFeatures Benutze nur DocFeatures über Schwellwert
SAP AG 2003, Title of Presentation, Speaker Name / 12
Testergebnisse - Auswertung
Index: CORE Precision:Standardsuche 57,4 %
Anzahl DocFeatures
1 57,9 %
2 60,3 %
3 61,0 %
4 61,2 %
5 59,8 %
Threshhold
0,1 57,3 %
0,2 60,8 %
0,3 61,4 %
0,4 60,9 %
0,5 58,2 %
0,9 58,6 %
SAP AG 2003, Title of Presentation, Speaker Name / 13
Fazit & Ausblick
Verbesserung der Precision wird erreicht !
Optimierungsmöglichkeiten Auswahl der Suchen
Linguistische Methoden kurze Queries verwerfen
Bewertung der Suchen Verwendung von Dokumentpassagen „Manuelle“ Bewertung von Fällen
Datenbasis „verbessert“ sich Täglich ~15 000 Suchen Rollierender Abgleich
SAP AG 2003, Title of Presentation, Speaker Name / 14
Fragen
Fragen???