Upload
szorstki
View
1.045
Download
0
Embed Size (px)
Citation preview
Ocena efektywności wyszukiwania informacji
Systemy informacyjneSeminarium
Krzysztof KusiakPaweł Kosiński
W skrócie
● Wyszukiwanie dzisiaj - czyli igła w stogu siana.○ Trudności jakie napotykamy poszukując informacji.
● Jak oceniać znalezione informacje?○ Relewantność, testowanie efektywności wyszukiwania.
● Miary efektywności wyszukiwania informacji.○ Dokładność, kompletność i inne.
● Kryteria oceny relewantności wyników.
2/33
Wyszukiwanie ogólnie
● Zadanie wyszukiwania polega na znajdowaniu w kolekcji zasobów informacyjnych elementów relewantnych (odpowiednich) w kontekście danej potrzeby informacyjnej.
● Użytkownik próbuje wyrazić swoją potrzebę informacyjną w postaci zapytania.○ Może być ono precyzowane np. za pomocą
operatorów: AND, NOT, OR.● Skuteczność zależy od algorytmu, indeksowania,
przeszukiwanego zbioru, charakteru zapytania...Jak ocenić wyszukane elementy?
3/33
Pozyskiwanie informacjiSystem informacyjny
Systeminformatyczny
Ocena przez system, wstępna selekcja informacji dla użytkownika
Ocena wyników przez użytkownika.
Wybór lub ponowne wyszukiwanie
zapytanie
informacjedane
4/33
zapotrzebowanie na informację
Rok 2010:5/33
Rok później
Źródła:news.investors.comroyal.pingdom.comblog.grovo.comblog.hubspot.comsimplyzesty.compcworld.combiztechmagazine.comdigby.com
6/33
Co przyniesie rok 2012?THE WORLD'S INFORMATION IS DOUBLING
EVERY TWO YEARS wg mashable.com
zettabajt
eksabajt
petabajt
terabajt
gigabajt
7/33
Trudności w wyszukiwaniu
● Różne struktury danych● Różne algorytmy wyszukiwania● Duża ilość zasobów do przeszukania● Różnorodność i dynamika zasobów ● Sprzeczne, nieścisłe informacje...
Ocena wyników● Czy szukana informacja została
znaleziona?
8/33
Przykład: trudność wyszukiwania informacji w Internecie
Zasoby WWW podlegają ciągłym zmianom dokonywanym przez miliony użytkowników
● różne formaty i typy dokumentów,● różne języki itp.
Konieczna jest nieustanna aktualizacja (reindeksacja) sieci przez wyszukiwarki, aby dane dostarczane użytkownikowi były jak najbardziej aktualne.
Sieć WWW można traktować jak bardzo dużą, nieustrukturalizowaną i rozproszoną bazę danych
9/33
Aby zmierzyć efektywność wyszukiwania, potrzebujemy:
Testowych potrzeb informacyjnych,wyrażonych w postaci zapytań
Kolekcji dokumentów (do przeszukania)
Binarnej klasyfikacji dokumentów względem przygotowanych zapytań
10/33
Kolekcje danych do oceny systemów wyszukiwania
Istnieje wiele takich kolekcji, na przykład:
● Cranfield Collection● TREC (Text Retrieval Conference)● GOV2● NTCIR● CLEF (Cross Language Evaluation Forum)
11/33
Kolekcje danych do oceny systemów wyszukiwania● Cranfield Collection
○ powstała w latach 50. XX wieku○ obecnie zbyt mała, nadaje się jedynie do najbardziej
podstawowych wczesnych testów○ zawiera streszczenia artykułów naukowych
dotyczących aerodynamiki○ 225 zapytań - dla każdego z nich ocena
relewantności wszystkich dokumentów w zestawie● TREC (Text Retrieval Conference)
○ zawiera prawie dwa miliony dokumentów (materiały prasowe itp.)
○ oceny relewantności dokumentów dla ponad 450 potrzeb informacyjnych
12/33
Kolekcje danych do oceny systemów wyszukiwania● GOV2
○ największa sposród łatwo dostępnych kolekcji do celów naukowych (2009 r.)
○ ponad 25 milionów dokumentów głównie ze stron rządowych (domena .gov)
● NTCIR (NII Test Collections for IR Systems)○ teksty w językach wschodnioazjatyckich○ nacisk kładziony na CLIR (ang. cross-language
information retrieval)■ zapytanie w innym języku niż dokumenty w
przeszukiwanej kolekcji● CLEF (Cross Language Evaluation Forum)
○ nacisk na języki europejskie oraz CLIR
13/33
Pojęcie relewantności informacji
Relewantny to pozostający w logicznym związku, odnoszący się do, stosujący się do...
Relewantność jest oceniana przez użytkowników subiektywnie, do jej oceny stosuje się więc często metody eksperymentalne.
Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych
14/33
Relewantność z perspektywy użytkownika
● Jak bardzo użyteczne okazały się wyniki wyszukiwania?● Ile było użytecznych wyników wśród wszystkich stron
zwróconych przez wyszukiwarkę?● Czy jakieś szczególnie użyteczne strony nie zostały
zwrócone?● Czy kolejność wyników wyszukiwania ułatwiała
znalezienie żądanych informacji?● Jak dobrze radzi sobie wyszukiwarka z
niejednoznacznością zapytania i jego subiektywnym charakterem?
Czy potrzeby informacyjne użytkownika zostały zaspokojone?
15/33
Relewantność a potrzeby informacyjne
Relewantność jest oceniana w stosunku do potrzeby informacyjnej, a nie zapytania.
Przykład● Użytkownik chce dowiedzieć się, czy czerwone wino
skuteczniej niż wino białe pomaga zmniejszyć ryzyko zawału.
● Może wprowadzić w tym celu różne zapytania, np.○ wine AND red AND white AND heart AND attack AND
effective
○ white AND red AND wine AND "heart attack" AND risk
● Dokument jest relewantny, gdy zaspokaja potrzebę informacyjną użytkownika (a nie dlatego, że zawiera wszystkie słowa z zapytania).
16/33
Trudności w ustaleniu potrzeb informacyjnych● Użytkownik wpisuje zapytanie python.● Mogą się za tym kryć różne potrzeby
informacyjne, np. chęć uzyskania informacji o:○ wężach z rodziny Pythonidae,○ języku programowania Python.
17/33
Personalizacja, podpowiedzi?
Czym jest skuteczne wyszukiwanie?
Przedstawienie użytkownikowi nie dużej liczby wyników, a ograniczonego zbioru wartościowych informacji
Przykład: fraza "Mars color", czyli informacja o...? ;)
VS
Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color
Result:RGB Red: 0.59, Green: 0.38, Blue: 0.19...
18/33
Miary efektywności wyszukiwania
● określa procent dokumentów relewantnych zawartych w odpowiedzi spośród wszystkich dokumentów relewantnych zgromadzonych w przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych)
kompletność (ang. recall) – tym większa, im więcej relewantnych elementów zwraca danych algorytm
dokładność (ang. precision) – jak skuteczny jest dany algorytm w zwracaniu wyłącznie relewantnych elementów
● procent relewantnych dokumentów w odpowiedzi systemu wyszukiwania informacji
19/33
Miary efektywności wyszukiwania
Jeszcze inaczej:Relewantne Nierelewantne
Zwrócone true positives (tp) false positives (fp)
Pominięte false negatives (fn) true negatives (tn)
20/33
Dokładność(ang. precision)
Kompletność(ang. recall)
Inne miary efektywności:
● Fall-outProporcja nierelewantnych dokumentów w wyniku wyszukiwania, ze wszystkich nierelewantnych
● F-measureWażona średnia harmoniczna dokładnościi kompletności
α – waga dokładności z przedziału [0, 1] β2 – określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞)
21/33
Przykłady wag F-measure
● miara zrównoważona (balanced F-measure)○ α = 1/2, β2 = 1○ kompletność i dokładność są jednakowo ważne○ ogólny wzór na F upraszcza się do postaci:
● miary faworyzujące dokładność○ β2 < 1○ np. dla β2 = 0.5, dokładność jest 2 razy ważniejsza niż kompletność
● miary faworyzujące kompletność○ β2 > 1
22/33
Jak mierzyć jakość uporządkowanych wyników?● Dokładność, kompletność, fall-out oraz miara F (F-
measure) nie biorą pod uwagę kolejności, w której zwracane są wyniki.
● Potrzebujemy sposobu oceniania uporządkowanych wyników wyszukiwania (ang. ranked retrieval results).○ obecnie większość systemów wyszukiwania
informacji prezentuje użytkownikom uporządkowane listy wyników
○ nie wystarcza nam to, że zostały zwrócone najlepsze dokumenty – chcemy, aby znalazły się one jak najbliżej początku listy wyników
23/33
Inne miary efektywności● Average precision
Uwzględnia kolejność zwracanych wyników.
p(r) – dokładność jako funkcja kompletności
● MAP (Mean Average Precision)Średnia arytmetyczna przeciętnych dokładności (average precision) liczona dla danego zestawu zapytań.
Q – liczba zapytań
24/33
Inne miary efektywności● R-precision
Zakładając, że mamy |Rel| dokumentów, dla danego zapytania sprawdzamy najlepsze wyniki, aby znaleźć r relewantnych - wówczas precyzję określić można jako r/|Rel|, a kompletność jest jej równa.
● DCG (discounted cumulative gain)Używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników.Założenie DCG: wysoce relewantne dokumenty występujące na dalekich pozycjach na liście wyników otrzymają gorszą ocenę (będzie ona maleć logarytmicznie na coraz dalszych pozycjach).
25/33
Problemy związane z klasycznymi miarami efektywności wyszukiwania
● Ze względu na rozmiary zbiorów dokumentów gromadzonych w internetowych systemach wyszukiwania informacji pojawia się problem z określeniem liczby wszystkich dokumentów relewantnych dla danego zapytania○ nie można zatem wprost wyliczyć ani kompletności,
ani dokładności
26/33
● W przypadku wyszukiwania w sieci WWW nie jest możliwe określenie statycznego zbioru dokumentów, których dotyczy wyszukiwanie
Kryteria oceny relewantności wyników● statyczne
○ nie są bezpośrednio powiązane z zapytaniami kierowanymi do wyszukiwarki przez użytkownika,
○ odzwierciedlają ważność stron internetowych,○ przykładowy algorytm: PageRank stosowany przez
Google.
● dynamiczne ○ są bezpośrednio powiązane z zapytaniami
użytkownika:■ wewnętrzne■ zewnętrzne
27/33
● prosta idea: jakość dokumentu zależy od liczby wskazujących na niego tekstów○ dokument często cytowany jest najpewniej
wartościowy● ulepszenie: im wyżej oceniony jest dokument
wskazujący na daną stronę, tym większe ma to znaczenie podczas jego oceny
● ocena danego dokumentu rośnie jeszcze bardziej, gdy wskazujące na niego odnośniki znajdują się na relewantnych tematycznie stronach
Kryteria statyczne na przykładzie algorytmu PageRank
28/33
● Służą do oceny strony pod kątem występowania na niej słów kluczowych relewantnych wobec potrzeb informacyjnych wyrażonych w postaci kierowanych przez użytkowników zapytań.
● Na ocenę strony wpływa występowanie słów kluczowych w odpowiednich miejscach jej kodu.
Kryteria dynamiczne wewnętrzne29/33
Kryteria dynamiczne wewnętrzne - szczegóły
● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.:○ w tytule strony – znacznik <title>○ w opisie strony – metaznacznik description w
nagłówku ■ <meta name="description"
content="...">○ w tekście na stronie
■ przyjmuje się, że nasycenie tekstu słowami kluczowymi nie powinno przekraczać kilku procent (3-7%)
○ w wyróżnionych fragmentach tekstu
30/33
Kryteria dynamiczne wewnętrzne - szczegóły
● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.:○ w wyróżnionych fragmentach tekstu, takich jak:
■ znaczniki nagłówków <h1>, ..., <h6>■ znaczniki <strong>, <em>, <b>, <i>
○ w opisach elementów strony■ np. atrybut alt w znacznikach <img>
○ w adresach URL■ np. http://en.wikipedia.org/wiki/Polish_language
31/33
Kryteria dynamiczne zewnętrzne
● Służą do oceny strony pod kątem relewantności innych dokumentów na nią wskazujących
● Przykładowo: w algorytmie Google przyjmuje się, że jeśli w odnośniku do strony zawarty jest jakiś tekst, to istnieje prawdopodobieństwo, że zawiera ona informacje związane z tym tekstem
● Im więcej podobnych odnośników, tym większe jest szacowane prawdopodobieństwo
32/33
Bibliografia1. Agnieszka Indyka-Piasecka, Model użytkownika w
internetowych systemach wyszukiwania informacji.2. Ewa Białek, Kryteria oceny relewantności wyników w
wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych.
3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008.
33/33
KoniecDziękujemy za uwagę :)