Ocena efektywności wyszukiwania informacji w Internecie

Ocena efektywności wyszukiwania informacji

Systemy informacyjneSeminarium

Krzysztof KusiakPaweł Kosiński

W skrócie

● Wyszukiwanie dzisiaj - czyli igła w stogu siana.○ Trudności jakie napotykamy poszukując informacji.

● Jak oceniać znalezione informacje?○ Relewantność, testowanie efektywności wyszukiwania.

● Miary efektywności wyszukiwania informacji.○ Dokładność, kompletność i inne.

● Kryteria oceny relewantności wyników.

2/33

Wyszukiwanie ogólnie

● Zadanie wyszukiwania polega na znajdowaniu w kolekcji zasobów informacyjnych elementów relewantnych (odpowiednich) w kontekście danej potrzeby informacyjnej.

● Użytkownik próbuje wyrazić swoją potrzebę informacyjną w postaci zapytania.○ Może być ono precyzowane np. za pomocą

operatorów: AND, NOT, OR.● Skuteczność zależy od algorytmu, indeksowania,

przeszukiwanego zbioru, charakteru zapytania...Jak ocenić wyszukane elementy?

3/33

Pozyskiwanie informacjiSystem informacyjny

Systeminformatyczny

Ocena przez system, wstępna selekcja informacji dla użytkownika

Ocena wyników przez użytkownika.

Wybór lub ponowne wyszukiwanie

zapytanie

informacjedane

4/33

zapotrzebowanie na informację

Rok 2010:5/33

Rok później

Źródła:news.investors.comroyal.pingdom.comblog.grovo.comblog.hubspot.comsimplyzesty.compcworld.combiztechmagazine.comdigby.com

6/33

Co przyniesie rok 2012?THE WORLD'S INFORMATION IS DOUBLING

EVERY TWO YEARS wg mashable.com

zettabajt

eksabajt

petabajt

terabajt

gigabajt

7/33

Trudności w wyszukiwaniu

● Różne struktury danych● Różne algorytmy wyszukiwania● Duża ilość zasobów do przeszukania● Różnorodność i dynamika zasobów ● Sprzeczne, nieścisłe informacje...

Ocena wyników● Czy szukana informacja została

znaleziona?

8/33

Przykład: trudność wyszukiwania informacji w Internecie

Zasoby WWW podlegają ciągłym zmianom dokonywanym przez miliony użytkowników

● różne formaty i typy dokumentów,● różne języki itp.

Konieczna jest nieustanna aktualizacja (reindeksacja) sieci przez wyszukiwarki, aby dane dostarczane użytkownikowi były jak najbardziej aktualne.

Sieć WWW można traktować jak bardzo dużą, nieustrukturalizowaną i rozproszoną bazę danych

9/33

Aby zmierzyć efektywność wyszukiwania, potrzebujemy:

Testowych potrzeb informacyjnych,wyrażonych w postaci zapytań

Kolekcji dokumentów (do przeszukania)

Binarnej klasyfikacji dokumentów względem przygotowanych zapytań

10/33

Kolekcje danych do oceny systemów wyszukiwania

Istnieje wiele takich kolekcji, na przykład:

● Cranfield Collection● TREC (Text Retrieval Conference)● GOV2● NTCIR● CLEF (Cross Language Evaluation Forum)

11/33

Kolekcje danych do oceny systemów wyszukiwania● Cranfield Collection

○ powstała w latach 50. XX wieku○ obecnie zbyt mała, nadaje się jedynie do najbardziej

podstawowych wczesnych testów○ zawiera streszczenia artykułów naukowych

dotyczących aerodynamiki○ 225 zapytań - dla każdego z nich ocena

relewantności wszystkich dokumentów w zestawie● TREC (Text Retrieval Conference)

○ zawiera prawie dwa miliony dokumentów (materiały prasowe itp.)

○ oceny relewantności dokumentów dla ponad 450 potrzeb informacyjnych

12/33

Kolekcje danych do oceny systemów wyszukiwania● GOV2

○ największa sposród łatwo dostępnych kolekcji do celów naukowych (2009 r.)

○ ponad 25 milionów dokumentów głównie ze stron rządowych (domena .gov)

● NTCIR (NII Test Collections for IR Systems)○ teksty w językach wschodnioazjatyckich○ nacisk kładziony na CLIR (ang. cross-language

information retrieval)■ zapytanie w innym języku niż dokumenty w

przeszukiwanej kolekcji● CLEF (Cross Language Evaluation Forum)

○ nacisk na języki europejskie oraz CLIR

13/33

Pojęcie relewantności informacji

Relewantny to pozostający w logicznym związku, odnoszący się do, stosujący się do...

Relewantność jest oceniana przez użytkowników subiektywnie, do jej oceny stosuje się więc często metody eksperymentalne.

Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych

14/33

Relewantność z perspektywy użytkownika

● Jak bardzo użyteczne okazały się wyniki wyszukiwania?● Ile było użytecznych wyników wśród wszystkich stron

zwróconych przez wyszukiwarkę?● Czy jakieś szczególnie użyteczne strony nie zostały

zwrócone?● Czy kolejność wyników wyszukiwania ułatwiała

znalezienie żądanych informacji?● Jak dobrze radzi sobie wyszukiwarka z

niejednoznacznością zapytania i jego subiektywnym charakterem?

Czy potrzeby informacyjne użytkownika zostały zaspokojone?

15/33

Relewantność a potrzeby informacyjne

Relewantność jest oceniana w stosunku do potrzeby informacyjnej, a nie zapytania.

Przykład● Użytkownik chce dowiedzieć się, czy czerwone wino

skuteczniej niż wino białe pomaga zmniejszyć ryzyko zawału.

● Może wprowadzić w tym celu różne zapytania, np.○ wine AND red AND white AND heart AND attack AND

effective

○ white AND red AND wine AND "heart attack" AND risk

● Dokument jest relewantny, gdy zaspokaja potrzebę informacyjną użytkownika (a nie dlatego, że zawiera wszystkie słowa z zapytania).

16/33

Trudności w ustaleniu potrzeb informacyjnych● Użytkownik wpisuje zapytanie python.● Mogą się za tym kryć różne potrzeby

informacyjne, np. chęć uzyskania informacji o:○ wężach z rodziny Pythonidae,○ języku programowania Python.

17/33

Personalizacja, podpowiedzi?

Czym jest skuteczne wyszukiwanie?

Przedstawienie użytkownikowi nie dużej liczby wyników, a ograniczonego zbioru wartościowych informacji

Przykład: fraza "Mars color", czyli informacja o...? ;)

VS

Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color

Result:RGB Red: 0.59, Green: 0.38, Blue: 0.19...

18/33

Miary efektywności wyszukiwania

● określa procent dokumentów relewantnych zawartych w odpowiedzi spośród wszystkich dokumentów relewantnych zgromadzonych w przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych)

kompletność (ang. recall) – tym większa, im więcej relewantnych elementów zwraca danych algorytm

dokładność (ang. precision) – jak skuteczny jest dany algorytm w zwracaniu wyłącznie relewantnych elementów

● procent relewantnych dokumentów w odpowiedzi systemu wyszukiwania informacji

19/33

Miary efektywności wyszukiwania

Jeszcze inaczej:Relewantne Nierelewantne

Zwrócone true positives (tp) false positives (fp)

Pominięte false negatives (fn) true negatives (tn)

20/33

Dokładność(ang. precision)

Kompletność(ang. recall)

Inne miary efektywności:

● Fall-outProporcja nierelewantnych dokumentów w wyniku wyszukiwania, ze wszystkich nierelewantnych

● F-measureWażona średnia harmoniczna dokładnościi kompletności

α – waga dokładności z przedziału [0, 1] β2 – określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞)

21/33

Przykłady wag F-measure

● miara zrównoważona (balanced F-measure)○ α = 1/2, β2 = 1○ kompletność i dokładność są jednakowo ważne○ ogólny wzór na F upraszcza się do postaci:

● miary faworyzujące dokładność○ β2 < 1○ np. dla β2 = 0.5, dokładność jest 2 razy ważniejsza niż kompletność

● miary faworyzujące kompletność○ β2 > 1

22/33

Jak mierzyć jakość uporządkowanych wyników?● Dokładność, kompletność, fall-out oraz miara F (F-

measure) nie biorą pod uwagę kolejności, w której zwracane są wyniki.

● Potrzebujemy sposobu oceniania uporządkowanych wyników wyszukiwania (ang. ranked retrieval results).○ obecnie większość systemów wyszukiwania

informacji prezentuje użytkownikom uporządkowane listy wyników

○ nie wystarcza nam to, że zostały zwrócone najlepsze dokumenty – chcemy, aby znalazły się one jak najbliżej początku listy wyników

23/33

Inne miary efektywności● Average precision

Uwzględnia kolejność zwracanych wyników.

p(r) – dokładność jako funkcja kompletności

● MAP (Mean Average Precision)Średnia arytmetyczna przeciętnych dokładności (average precision) liczona dla danego zestawu zapytań.

Q – liczba zapytań

24/33

Inne miary efektywności● R-precision

Zakładając, że mamy |Rel| dokumentów, dla danego zapytania sprawdzamy najlepsze wyniki, aby znaleźć r relewantnych - wówczas precyzję określić można jako r/|Rel|, a kompletność jest jej równa.

● DCG (discounted cumulative gain)Używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników.Założenie DCG: wysoce relewantne dokumenty występujące na dalekich pozycjach na liście wyników otrzymają gorszą ocenę (będzie ona maleć logarytmicznie na coraz dalszych pozycjach).

25/33

Problemy związane z klasycznymi miarami efektywności wyszukiwania

● Ze względu na rozmiary zbiorów dokumentów gromadzonych w internetowych systemach wyszukiwania informacji pojawia się problem z określeniem liczby wszystkich dokumentów relewantnych dla danego zapytania○ nie można zatem wprost wyliczyć ani kompletności,

ani dokładności

26/33

● W przypadku wyszukiwania w sieci WWW nie jest możliwe określenie statycznego zbioru dokumentów, których dotyczy wyszukiwanie

Kryteria oceny relewantności wyników● statyczne

○ nie są bezpośrednio powiązane z zapytaniami kierowanymi do wyszukiwarki przez użytkownika,

○ odzwierciedlają ważność stron internetowych,○ przykładowy algorytm: PageRank stosowany przez

Google.

● dynamiczne ○ są bezpośrednio powiązane z zapytaniami

użytkownika:■ wewnętrzne■ zewnętrzne

27/33

● prosta idea: jakość dokumentu zależy od liczby wskazujących na niego tekstów○ dokument często cytowany jest najpewniej

wartościowy● ulepszenie: im wyżej oceniony jest dokument

wskazujący na daną stronę, tym większe ma to znaczenie podczas jego oceny

● ocena danego dokumentu rośnie jeszcze bardziej, gdy wskazujące na niego odnośniki znajdują się na relewantnych tematycznie stronach

Kryteria statyczne na przykładzie algorytmu PageRank

28/33

● Służą do oceny strony pod kątem występowania na niej słów kluczowych relewantnych wobec potrzeb informacyjnych wyrażonych w postaci kierowanych przez użytkowników zapytań.

● Na ocenę strony wpływa występowanie słów kluczowych w odpowiednich miejscach jej kodu.

Kryteria dynamiczne wewnętrzne29/33

Kryteria dynamiczne wewnętrzne - szczegóły

● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.:○ w tytule strony – znacznik <title>○ w opisie strony – metaznacznik description w

nagłówku ■ <meta name="description"

content="...">○ w tekście na stronie

■ przyjmuje się, że nasycenie tekstu słowami kluczowymi nie powinno przekraczać kilku procent (3-7%)

○ w wyróżnionych fragmentach tekstu

30/33

Kryteria dynamiczne wewnętrzne - szczegóły

● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.:○ w wyróżnionych fragmentach tekstu, takich jak:

■ znaczniki nagłówków <h1>, ..., <h6>■ znaczniki <strong>, <em>, <b>, <i>

○ w opisach elementów strony■ np. atrybut alt w znacznikach <img>

○ w adresach URL■ np. http://en.wikipedia.org/wiki/Polish_language

31/33

Kryteria dynamiczne zewnętrzne

● Służą do oceny strony pod kątem relewantności innych dokumentów na nią wskazujących

● Przykładowo: w algorytmie Google przyjmuje się, że jeśli w odnośniku do strony zawarty jest jakiś tekst, to istnieje prawdopodobieństwo, że zawiera ona informacje związane z tym tekstem

● Im więcej podobnych odnośników, tym większe jest szacowane prawdopodobieństwo

32/33

Bibliografia1. Agnieszka Indyka-Piasecka, Model użytkownika w

internetowych systemach wyszukiwania informacji.2. Ewa Białek, Kryteria oceny relewantności wyników w

wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych.

3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008.

33/33

http://nlp.stanford.edu/~manning/

http://theory.stanford.edu/~pragh/

http://gelbaugenpinguin.ims.uni-stuttgart.de/wiki/extern/HinrichSchuetze

http://nlp.stanford.edu/~manning/

http://gelbaugenpinguin.ims.uni-stuttgart.de/wiki/extern/HinrichSchuetze

KoniecDziękujemy za uwagę :)

Documents

Ocena efektywności wyszukiwania informacji w Internecie