Alles was-sie-ueber-suche-wissen-wollten

Preview:

Citation preview

http://www.dkd.de

Sonntag, 12. Februar 12

d dkdevelopmentkommunikationdesign

Sonntag, 12. Februar 12

WillkommenTYPO3 Akademie 12

Olivier Dobberkau, Geschäftsführer dkd Member of the Expert Advisory Board TYPO3 Assoc.Twitter @T3RevNeverendolivier.dobberkau@dkd.de

Sonntag, 12. Februar 12

Alles was Sie über Suche wissen wollten, aber bisher nicht zu fragten wagten.

Sonntag, 12. Februar 12

Woody Allen

Inspiration zu diesem Talk:

Woody Allen Film: „Was Sie schon immer über Sex wissen wollten, aber bisher nicht zu fragen wagten“

Internet Movie Database:http://www.imdb.de/title/tt0068555/

Sonntag, 12. Februar 12

Agenda

Historie der Suche

Fachbegriffe

Das Bedürfnis „Suchen“

Wer sucht und wie sucht dieser?

Suchen als Handwerk

Suche in TYPO3 mit Apache Solr

Sonntag, 12. Februar 12

Historie

Ein kurzer Abriss über die Historie von Suchlösungen im Zeitalter der EDV.

Wirklich kurz, wirklich unvollständig und bestimmt nicht wissenschaftlich.

Sonntag, 12. Februar 12

Scratch your own itch, IBM.

Am Anfang stand der Mainframe

IBM entwickelt 1969 STAIRS (storage and information retrieval system)

Volltext Suche für Terminal Anwendungen

Performance: „far below anyone‘s expectations“

Erster großer Einsatz bei einem Verfahren des DOJ gegen IBM

Quelle: A history of online information services, 1963-1976 von Charles P. Bourne,Trudi Bellardo

Sonntag, 12. Februar 12

Internet years are dog years

Mit dem Internet verändert sich der Anspruch an eine Volltextsuche

Mit Lycos, Alltheweb (Fast) , Infoseek, Excite, AltaVista treten Suchseiten als Lösung für das Problem: „Wie !nde ich etwas im Internet?“ an

Ab 1995 wechseln sich Suchseiten in der Gunst der Internetnutzer regelmäßig ab

Yahoo fungiert als Verzeichnis von Webseiten

Sonntag, 12. Februar 12

And then came GOOGLE

Wer kennt das Erfolgsgeheimnis von Google nicht?

The Anatomy of a Large-Scale Hypertextual Web Search Engine

http://infolab.stanford.edu/~backrub/google.html

Visionäres Konzept

Viele der erwähnten Technologien sind heute Industrie-Standard und verändern immer noch die Informationstechnologie.

Lesen!

Sonntag, 12. Februar 12

Fachbegriffe

Keine Erkenntnis ohne Fachbegriffe.

Warnhinweis: Jargon-Gefahr!

Sonntag, 12. Februar 12

Alles rund ums Wort

Irformation Retrieval (IR)

Term versus Query

Index

Recall & Precision

Relevancy

Index, Inverted Index & Posting List

Recency & Authority

Sonntag, 12. Februar 12

Bedürfnis Suche

Welche Motive leiten uns bei der Suche?Wie suchen wir und was !nden wir dann?

Sonntag, 12. Februar 12

People are like Bears (only less fur)

Wie suchen wir?

Marcia Bates, 1989

THE DESIGN OF BROWSING AND BERRYPICKING TECHNIQUES FOR THE ONLINE SEARCH INTERFACE

http://pages.gseis.ucla.edu/faculty/bates/berrypicking.html

Jede Art von Suchverhalten hat dieses Muster

Sonntag, 12. Februar 12

Marcia J. Bates Berrypicking techniques for the online search interface (1989)

Sonntag, 12. Februar 12

Carrots & Sticks

Search Behavior Patterns, John Ferrara

http://www.boxesandarrows.com/view/search-behavior

Domain Expertise

Such Expertise

Kognitiver Stil

Ziel der Suche

Modus der Suche

Umstände der Suche

Sonntag, 12. Februar 12

Neo: Die Matrix

Matrix der Informationsbedürfnisse

Scope & Type -Tyler Tate. Sohn et al. Church & Smythhttp://twigkit.com/blog/2011/12/06/mobile-information-needs.html

Sonntag, 12. Februar 12

Suchen als Handwerk

Welche Lösungsansätze gibt es um eine gute Suche zu realisieren?

Wie sieht das Toolset aus?

Wohin geht die Reise?

Sonntag, 12. Februar 12

Komponenten

Überblick

Sonntag, 12. Februar 12

Indexierung

Sonntag, 12. Februar 12

Abfrage

Sonntag, 12. Februar 12

Ergebnis

Sonntag, 12. Februar 12

Analyse

Sonntag, 12. Februar 12

Zusatzkomponenten

Sonntag, 12. Februar 12

Solr-Komponenten

Indizierung

Abfrage

Ergebnis

Analyse

Zusatzkomponenten

Indexierung

Abfrage

Analyse

Ergebnis

Zusatzkomponenten

Sonntag, 12. Februar 12

TYPO3 & Suche

Am Beispiel der Apache Solr Integration. Schamlos zugegeben.

(Ich habe noch ein paar „I like Indexed Search“ Buttons zum Verschenken!)

Sonntag, 12. Februar 12

Indexierung

Indexierung von ContentAnwendungsmöglichkeiten der Indexierung

Sonntag, 12. Februar 12

Indexierbarer Content

TYPO3 Content

Datenbank-Tabellen

Externe Websites

RSS-Feeds

Dateien

Sonntag, 12. Februar 12

Möglichkeiten Indexierung

Erstellen von Synonymen

Auslassen von Stopwords

Extern vorgehaltener Content wie z.B. Online-Katalog

Aggregation von Brancheninformation

Integration von Information aus weiteren Plattformen wie z.B. Microsites oder Applikationen

Sonntag, 12. Februar 12

Abfrage

OptionenFunktionsumfang

Sonntag, 12. Februar 12

Abfrage-Optionen

Operatoren

“+” und “-” für Erzwingen oder Ausschluss

zukünftig “and” und “or” zur Verkettung

Anführungszeichen zur Zusammenfassungz.B. “Suchbegriff aus mehreren Worten”

Diakritische Zeichen

cuvée = cuvee

Søren = Sören = Soeren = Sœren = Soren

Sonntag, 12. Februar 12

Abfrage-Funktionalität

Berücksichtigung der Benutzerberechtigungen

Autovervollständigung

Suggestions

Sonntag, 12. Februar 12

Ergebnis

FunktionenFacetten

Sonntag, 12. Februar 12

Ergebnis-Funktionen

Suchtreffer (Link auf das Ergebnis)

Page Browser

Sortierung

Relevanz (Score)

Autor

Datum (Indexierungsdatum, cr_date einer TYPO3-Seite)

Eigene Kriterien

Sonntag, 12. Februar 12

Ergebnis-Funktionen

View-Helper um z.B. Zusatzinformationen zum Treffer abzurufen (kundenindividuelle Preise, Vorschaubild, Vorschau des Dokument-Inhalts)

Filter vorbelegen (Facetten können im Vorfeld angewendet werden)

Sonntag, 12. Februar 12

Ergebnis-Funktionen

Field Boosting (Treffer im Titel ist mehr Wert als Treffer im Content. Wertigkeit ist frei de!nierbar.)

Boost-Functions (Funktionen auf Werte aus Dokumenten. Z.B. je neuer ein Dokument, desto höher der Boost auf ein Feld.)

Query-Manipulationen (bevor die Anfrage an Solr übergeben wird, kann dieser noch mal bearbeitet werden.)

Elevation (in Arbeit)

Sonntag, 12. Februar 12

Ergebnis-Funktionen

Template Engine: Ergebnisdarstellung einfach anpassbar durch "exibles Templating

Suchwort-Hervorhebung

Spell-Checking: "Meinten Sie?"

Common Searches(Tag Cloud bzw. die meistgesuchten Begriffe)

Recent Searches Ähnlich Common Searches: zeigt die letzten durchgeführten Suchen

Sonntag, 12. Februar 12

Facetten

Typ-Facetten

Autor (z.B. bei News)

Typ (z.B. Seite, News, Aktienkurs, ...)

Bereichs-Facetten (in Arbeit)(z.B. 1-10 EUR oder Slider)

Hierarchische Facetten (Wenn baumartige Strukturen vorliegen, können diese auch als Facette dargestellt werden. z.B. News Kategorien)

Multiple Auswahl von Facettenausprägungen(z.B. Facette Preis 20 EUR & 30 EUR)

Sonntag, 12. Februar 12

Facetten

Geo-Search (in Arbeit)(z.B. wenn indizierte Elemente geographische Information besitzen. Eine Google Map dient als Interface um alle Treffer innerhalb des sichtbaren Fensters zu zeigen.)

Georelevante Informationen auf Basis der IP-Adresse des Benutzers(z.B. wo ist der nächste Service-Point in meiner Nähe)

Darstellung der Facettenlabel erfolgt als TYPO3 Content Objekt(beliebige Darstellung z.B. über GIFBUILDER möglich)

Filter vorbelegen(bestimmte Facetten können im Vorfeld angewendet werden)

Sonntag, 12. Februar 12

Analyse

AnalysemöglichkeitenRoadmap

Sonntag, 12. Februar 12

Analysemöglichkeiten

Query Logging

Statistiken über die Suchanfragen (in Arbeit)

Lernen durch Userinput (in Arbeit)(Wenn User ein Ergebnis anklickt, erhält das Ergebnis Zusatzpunkte.)

Sonntag, 12. Februar 12

Zusatzkomponenten

Sonntag, 12. Februar 12

Zusatzkomponenten

Auf einer Ergebnisseite kann über die Nutzung des Index z.B. eine "more like this"-Empfehlung erfolgen um thematisch relevante Themen anzuzeigen.

Eigenentwicklungen, die Zugriff auf die Indexdaten benötigen, möglich

Sonntag, 12. Februar 12

Konzepte im Detail

ScoringSynonyme

Sonntag, 12. Februar 12

Scoring

term frequency (tf)Je häufiger ein Term in einem Dokument auftritt, desto höher der Score.

inverse document frequency (idf)Je häufiger ein Term in verschiedenen Dokumenten auftritt, desto geringer sein Score.

number of terms in the query that were found in the document (coord)Je mehr Terme der Suchanfrage im Dokument vorkommen, desto höher sein Score.

Boost

Sonntag, 12. Februar 12

Scoring - Zusammenfassung

Dokumente, die alle Suchterme enthalten sind gut.

Treffer auf seltene Worte sind besser als Treffer auf häu!ge Worte.

Kurze Dokumente sind besser als lange Dokumente.

Dokumente, die Suchterme mehrfach enthalten sind gut.

Sonntag, 12. Februar 12

Scoring – Beispiel

Indizierung und Boost verschiedener Felder

Content (z.B. 20x)

Keywords (z.B. 20x)

Seitentitel (z.B. 25x)

Sortierung nach Typ

News kommen z.B. immer am Ende des Suchergebnisses nach allen Seitentreffern

Sonntag, 12. Februar 12

Synonyme

Werden bei Indizierung erstellt

Können gerichtet sein

Stewardess = Flugbegleiter

Spielwaren => Toy aber Toy #> Spielwaren

Können Ketten bilden

Durch Synonymketten können Suchanfragen sehr ungenau werden

Sonntag, 12. Februar 12

Synonyme: Beispiel Verkettung

Enjoy Toy Fair City = Messestadt Nürnberg = Kulturangebot = Restaurant = Essen = Bar = Gastrosuche = Kultur = Nürnberg spielt mit = Museum = Einkaufen = Nürnberg = Abendessen = Gasthäuser

Spielwarenmesse = Fachmesse für Spielwaren = Toy Fair = International Toy Fair = Toy Fair Nürnberg = Spielzeugmesse = Spielzeugmesse Nürnberg = Nürnbergmesse für Spielwaren = Spielwarenmesse 2011

Spielzeug = Spielwaren = Spielsachen

Sonntag, 12. Februar 12

Synonyme: Beispiel Verkettung

Suche nach: “Restaurant”

Restaurant = Enjoy Toy Fair City

Enjoy Toy Fair City = Enjoy Fachmesse für Spielwaren City

Enjoy Fachmesse Spielwaren City = Enjoy Fachmesse Spielzeug City

Sonntag, 12. Februar 12

Synonyme: Beispiel Verkettung

Die resultierende Suchanfrage (nicht komplett):

Enjoy Toy Fair City Messestadt Nürnberg Kulturangebot Restaurant Essen Bar Gastrosuche Kultur spielt Museum Einkaufen Abendessen Gasthäuser Spielwarenmesse Fachmesse International Spielzeugmesse Nürnbergmesse 2011 Spielzeug Spielwaren Spielsachen

Sonntag, 12. Februar 12

Synonyme: Seiteneffekte

Beispiel Synonymsuche

TV = Television

Im Index ca. 1.000 Dokumente mit “TV”

Im Index ca. 50 Dokumente mit “Television”

Suche nach “TV” bringt Dokumente mit “Television” nach vorne, da “bessere Treffer”

Sonntag, 12. Februar 12

d dkdevelopmentkommunikationdesign

sagt danke.

Sonntag, 12. Februar 12

Quellenangaben

Lucene Scoring for dummies: http://www.supermind.org/blog/378/lucene-scoring-for-dummies

Fotos: Søren Schaffstein

Sonntag, 12. Februar 12