14
Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

Embed Size (px)

Citation preview

Page 1: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

Michael BeckerSAP AG

Betreuer: Sven Helmer

Diplomarbeit

Page 2: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 2

Überblick

TCL-Algorithmus

11

33

22

Die Suchmaschine der SAP

44

Einführung

55

66Testergebnisse

Fazit & Ausblick

Themen der Diplomarbeit

Page 3: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 3

Einführung

Titel der Diplomarbeit:

Analyse und Auswertung von User-Logs im Umfeld der SAP-Suchmaschine

Status:

Nutzerverhalten geht nicht in Suchvorgang ein

-> Durchführung eines impliziten Relevance Feedback

Ziel: Implizite Relevance Feedback zur

Verbesserung von Precision & Recall (Query-Expansion) Anpassung des Internetportals (Navigationsanalyse) Leistungsanalyse von der Suchmaschine Verbesserung des Dokumentenkorpus (Info an Administrator)

Page 4: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 4

Themen der Diplomarbeit (1)

Navigations-Analyse

1. Ziel: Internet-Portal benutzer-freundlich gestalten

Allgemeine Sicht Benutzer-Spezifische Sicht

2. Vorgehensweise:1. Clusterbildung 2. Aufzeichnung der Suchen 3. Untersuchung der Links zwischen den Clustern 4. Benutzersicht abbilden

Page 5: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 5

Themen der Diplomarbeit (2)

Statistische Auswertungen

Bestehende Programme Open Source (Loganalyzer 6.00 Komerzielle (WebTrends Log Analyzer Series von netIQ )

(Python-) Skripte Meistbenutzten Queries Meistgelesenen Dokumente Suchen ohne Treffer

SAP-BW Data Mining Verfahren

Page 6: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 6

Themen der Diplomarbeit (3)

AlgorithmenZiel: Verbesserung der Retrievalperformance

Durchführung:

Nutzung von Vergangenheitsdaten Annahme: Die betrachteten Dokumente zu einer Suchanfrage

sind auch die relevanten Dokumente Methode: Benutze vorherige „gute“ Anfragen Benutze Query-Expansion

Page 7: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 7

Themen der Diplomarbeit - Architektur

TREX

Logs

Webserver (Suchoberfläche)

Analyse

Statistiken

Query Expansion

Navigationsanalyse

Proxy

Python

Extension

Preprocessing

SAP BW

Admin-Oberfläche

Stores

Page 8: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 8

Die SAP-Suchmaschine TREX (1)

Search and Classification (TREX)

Einsatz mit dem SAP Enterprise Portal …

Besteht aus den Servern:

1. Nameserver

2. Präprozessor

3. Indexserver

4. Queueserver

Page 9: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 9

Die SAP-Suchmaschine TREX (2)

Der Indexserver besteht wiederum aus

Search Engine Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche

Text Mining Engine Suche nach ähnlichen Termen Suche nach ähnlichen Dokumenten Bestimmungf von Schlüsselwörtern (Feature Extraktion) Klassifikation von Dokumenten (Erstellen von Taxonomien) Clustern von Dokumenten

Attribute Engine Attribut-Suche Guided Navigation

Page 10: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 10

TCL-Algorithmus

Term Concept Based Learning –An Approach for Learning Meanings of Queries in Information Retrieval Systems:

Ziel: Verlängerung der Such-Begriffe Anpassen der Suchbegriffe an die Terminologie

Lern-Phase: Suche zu jedem Query-Term „ähnliche“ Queries Hole alle relevanten Dokumente dieser Queries Bilde die „Konzept-Terme“

Expansion-Phase

Erweitere neue Query um die Konzept-Terme

Page 11: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 11

Testergebnisse - Testszenario

SAP Help Portal (http://help.sap.com) 6 Indexe

~11 Mio Dokumente ~3,5 Mio Terme in 6 Sprachen ~70 GB Plattenplatz

~200 000 Suchen zu 85 % ein oder zwei Dokumente betrachtet 2/3 aller Suchen haben ein oder zwei Queryterme

Benutze „90/10“-Methode

Berechnung der mittleren Precision bei Recall =1

Parameter: Feste Anzahl DocFeatures Benutze nur DocFeatures über Schwellwert

Page 12: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 12

Testergebnisse - Auswertung

Index: CORE Precision:Standardsuche 57,4 %

Anzahl DocFeatures

1 57,9 %

2 60,3 %

3 61,0 %

4 61,2 %

5 59,8 %

Threshhold

0,1 57,3 %

0,2 60,8 %

0,3 61,4 %

0,4 60,9 %

0,5 58,2 %

0,9 58,6 %

Page 13: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 13

Fazit & Ausblick

Verbesserung der Precision wird erreicht !

Optimierungsmöglichkeiten Auswahl der Suchen

Linguistische Methoden kurze Queries verwerfen

Bewertung der Suchen Verwendung von Dokumentpassagen „Manuelle“ Bewertung von Fällen

Datenbasis „verbessert“ sich Täglich ~15 000 Suchen Rollierender Abgleich

Page 14: Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit

SAP AG 2003, Title of Presentation, Speaker Name / 14

Fragen

Fragen???