Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Manažment znalostí (3)
OBSAH PREDNÁŠKY
• Ďalšie (alternatívne) modely pre vyhľadávanie informácií
• Operácie s dopytmi (spätná väzba od používateľa)
• Indexovanie dokumentov – ďalšie typy indexov
• Vyhodnocovanie systémov pre vyhľadávanie informácií (IR)
• Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa)
– Presnosť, návratnosť, F miera – hodnotenie výsledkov vyhľadávania bez usporiadania (unranked retrieval set)
– Grafické znázornenie závislosti presnosti a návratnosti – hodnotenie usporiadaných výsledkov vyhľadávania (ranked retrieval set)
– Sumarizačné mierky efektívnosti vyhľadávania
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 1
Alternatívne modely pre IR
1. Množinovo-teoretické• Fuzzy-boolovský
• Rozšírený boolovský
2. Algebraické• Zovšeobecnený vektorový
• Latent Semantic Indexing
• Neurónové siete
3. Pravdepodobnostné• Inferenčná sieť
2Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Množinovo-teoretické alternatívne modely pre IR
• Fuzzy-boolovský model
– Každý term v dopyte je chápaný ako fuzzy množina každý dokument má potom určitú mieru príslušnosti (≤ 1) do tej - ktorej množiny
• Rozšírený boolovský model
– Kombinuje boolovský typ dopytov s charakteristikami vektorového modelu, ako napr. čiastočná podobnosť
3Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Algebraické alternatívnemodely pre IR
• Zovšeobecnený vektorový model
– Podmienka nezávislosti indexových termov znamená, že množina
vektorov je lineárne nezávislá a tvorí bázu
priestoru, ktorý nás zaujíma. Často sa ale naviac predpokladá aj
vzájomná ortogonalita, t.j. že platí
– Zovšeobecnený vektorový model upúšťa od tejto podmienky tým,
že zavádza zovšeobecnený vektorový priestor rozmeru 2t, pričom
takto definované vektory tvoria skutočne ortonormálnu bázu
zovšeobecneného vektorového modelu.
• Latentná sémantická indexácia (LSI)
• Neurónové siete
4Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Latentná sémantická indexácia (1)• LSI prístup je založený na dekompozícii tf-idf matice A podľa
singulárnych hodnôt (SVD)
• s0 je diagonálna matica singulárnych hodnôt a T0, D0 sú
matice ľavých a pravých singulárnych vektorov
5
TDsTA 000
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 5
• Ak sa singulárne hodnoty v s0 usporiadajú zostupne podľa veľkosti, k najväčších hodnôt možno ponechať a ostatné nahradiť nulami:
6
Latentná sémantická indexácia (2)
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 6
• Aby bolo možné vypočítať podobnosť medzi dopytom a aproximovaným vektorom dokumentu , je nutné transformovať vektor dopytu do nového priestoru príznakov
7
• Podobnosť medzi dokumentom a dopytom:
Latentná sémantická indexácia (3)
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 7
Latentná sémantická indexácia (4)
8
Pre
no
sný
po
číta
č
LSI d
imen
zia
1
Notebook
LSI dimenzia 2
Prenosný počítač
Notebook
Význam transformácie pôvodného vektorového priestoru dokumentov na priestor LSI
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 8
Neurónové siete
• Po prvej vlne šírenia signálov je aktivačná úroveň neurónov dokumentov rovná tej pri klasickom vektorovom modeli
• Pre zlepšenie výkonu vyhľadávania sieť ale pokračuje v šírení signálov (analógia spätnej väzby od používateľa) od vrstvy dokumentov na vrstvu termov v dokumente a naspäť k dokumentom
k1
k2
kt
ki
Termy v dopyte
k1
k2
kt
ki
Termy v
dokumentoch (index)
d1
d2
dN
dj
Dokumenty
Wq,2
Wq,i
W1,2
Wi,j
W2,j
Wi,N
W2,1
Wt,j
9Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Modely pre prehľadávanie• Ploché prehľadávanie
– Plochá organizácia priestoru dokumentov, napr. ako prvok v jednorozmernom zozname (výsledky z vyhľadávača), alebo v 2-rozmernom priestore (mikrofiše v knižniciach), alebo web stránka bez liniek.
• Štruktúrou riadené prehľadávanie– Dokumenty organizované v štruktúre podobnej adresárovej,
napr. klasifikácia titulov podľa oblastí v knižniciach, alebo elektronická kniha s odkazmi na kapitoly a ich časti.
• Hypertextový model– Organizačná štruktúra textu, ktorá sa dosahuje vkladaním
prepojení (liniek) do textu. Vzniká grafová štruktúra, kde každý z uzlov má asociovanú textovú oblasť.
– Aby sa používateľ v hypertexte nestratil, ten by mal mať buď asociovanú mapu, alebo jednoduchšiu, ľahko zapamätateľnú základnú štruktúru.
10Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Taxonómia modelov pre IR ešte raz
1. VyhľadávanieA. Klasické modely
• Boolovský
• Vektorový
• Pravdepodobnostný
B. Alternatívne modely
• Množinovo-teoretické (napr. fuzzy-boolovský, rozšírený boolovský)
• Algebraické (napr. zovšeobecnený vektorový, LSI, neurónové siete)
• Pravdepodobnostný (napr. inferenčná sieť)
2. PrehľadávanieC. Modely na prehľadávanie
• Ploché
• Riadené štruktúrou
• Hypertext
11Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Operácie s dopytmi
• Skúsenosti s vyhľadávaním na webe ukazujú, že úvodnú otázku možno chápať ako prvý, viac menej naivný pokus vyhľadať relevantné informácie
• Preto je potrebné otázku ďalej vylepšovať, a to:a) rozšírením otázky o nové termy a/alebo
b) úpravou váh jednotlivých termov v otázke
• Existujú tri skupiny prístupov k riešeniu tejto úlohy:1. založené na spätnej väzbe od používateľa
2. založené na informácii odvodenej z množiny dokumentov vyhľadanej na pôvodnú otázku (tzv. lokálna množina dokumentov)
3. založené na globálnej informácii odvodenej z celej kolekcie dokumentov
12Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
1. Spätná väzba od používateľa
• Najpopulárnejšia stratégia, pri ktorej priamo používateľ
vyznačí v odpovedi na svoju otázku tie dokumenty, ktoré
považuje za relevantné
• Z takto označených dokumentov sa odvodia významné termy
a ich váhy sa v pôvodnej otázke zvýšia
• Výhody:
– Chráni používateľa pred detailmi reformulácie otázky
– Proces hľadania rozdeľuje na malé, ľahšie zvládnuteľné kroky
– Poskytuje kontrolovaný proces navrhnutý pre zdôraznenie niektorých
a potlačenie iných termov v otázke
13Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Aplikácia spätnej väzby od používateľa vo vektorovom modeli (1)
• Cieľom je priblížiť otázku k vektorom tých dokumentov, ktoré označil používateľ ako relevantné– Dr – množina relevantných dokumentov
identifikovaných používateľom spomedzi vrátených
– Dn – množina nerelevantných dokumentov spomedzi vrátených
– Cr – množina relevantných dokumentov spomedzi všetkých dokumentov v kolekcii (ideálna odpoveď)
– , , - vylaďovacie konštanty
14Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Aplikácia spätnej väzby od používateľa vo vektorovom modeli (2)
• Optimálny váhový vektor otázky by bol:
• Samozrejme Cr nám nie je vopred známe, takže otázku
budeme postupne vylepšovať na základe spätnej väzby
od používateľa (t.j. Dr a Dn), napr. tzv. Standard Rochio:
15Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Aplikácia spätnej väzby od používateľa vo vektorovom modeli (3)
• Iná možnosť je napr. Ide Regular :
• Nastavenie váh:
– v pôvodnom Standard Rochio bolo = 1
– pri Ide Regular = = = 1
– spravidla
– ak naviac = 0, hovoríme o pozitívnej spätnej väzbe
16Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
2. Expanzia dotazov lokálnym zhlukovaním
• Tieto stratégie sú založené na rozšírení otázky o termy, ktoré
sú korelované s termami v pôvodnej otázke
• Ide o tie termy, ktoré sa vyskytujú v lokálnych zhlukoch
vytvorených z množiny dokumentov vrátených v odpovedi
na danú otázku
• Používajú sa 3 typy zhlukov:
– Asociačné – založené na frekvencii spoluvýskytov termov (alebo ich
kmeňov) vnútri dokumentu, bez ohľadu na pozíciu ich výskytu
– Metrické – snažia sa zohľadniť vzdialenosť v rámci dokumentu,
s ktorou sa 2 termy spolu vyskytujú
– Skalárne – založené na nepriamom vzťahu – dva termy (kmene slov)
s podobným okolím majú nejaký synonymický vzťah 17Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
3. Automatická globálna analýza (1)
• Spravidla ide o stratégie, ktoré vychádzajú z podobnosti termov
odvodenej automaticky na základe celej kolekcie dokumentov
• Napr. podobnostný tezaurus je budovaný na základe vzťahov medzi
termami navzájom, nie však z pohľadu ich spolu-výskytov, ale ich
uvažovaním ako konceptov v priestore konceptov
• V priestore konceptov je každý term indexovaný dokumentmi,
v ktorých sa vyskytol (t.j. obrátený pohľad ako v tradičnom priestore
dokumenty – termy)
• Globálny podobnostný tezaurus je budovaný na základe výpočtu
korelačného faktora cu,v pre každý pár indexových termov ku a kv,
čo je síce výpočtovo náročné, ale tento výpočet stačí previesť raz
a potom už len inkrementálne vypočítané hodnoty aktualizovať
18Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
3. Automatická globálna analýza (2)
• Rozšírenie otázok s použitím podobnostného
tezaura potom funguje nasledovne:
1. Otázka sa premietne do priestoru konceptov, ktorý sa
používa pre reprezentáciu indexových termov
2. Na základe globálneho podobnostného tezaura sa
vypočíta podobnosť otázky q a každého indexového
termu sim(q, kv)
3. Nakoniec sa otázka rozšíri o prvých r indexových
termov z pohľadu ich podobnosti voči otázke sim(q, kv)
19Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Indexovanie dokumentov – ďalšie typy indexov
• Cieľom indexovania je vytvorenie pomocnej štruktúry, ktorá je nezávislá od databázy textových dokumentov a slúži na rýchle vyhľadávanie dokumentov z nej.
• Na indexovanie sa najčastejšie používajú tieto pomocné štruktúry:1. Invertovaný index (rôznej granularity)
2. Príponové stromy a príponové polia
3. Súbory signatúr
20Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Invertovaný index (1)
• Invertovaný index (resp. invertovaný súbor) je slovne orientovaný mechanizmus na indexovanie kolekcií textových dokumentov
• Je tvorený dvoma komponentmi:
1. Slovník (vocabulary) – množina všetkých navzájom rôznych slov, ktoré sa vyskytli v textoch
2. Výskyty (occurencies) – pre každé slovo zo slovníka je evidovaný zoznam pozícií v texte, kde sa toto slovo vyskytlo
21Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Invertovaný index (2)
22
Všetky vložené obrázky sú prebrané z knihy: R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval, Addison Wesley, 1999
Invertovaný index (3)
• Zoznamy výskytov jednotlivých slov môžu adresovať:
a) Presné znakové pozície (viď. predchádzajúci obrázok)
b) Slovné pozície
c) Pozície začiatkov blokov, v ktorých sa slovo vyskytlo (šetrí pamäťový priestor, ale už nie je taký efektívny na vyhľadávanie fráz)
• Veľkosť blokov môže byť stanovená:
– Subjektívne (napr. 64 kB), vzniká ale dodatočný problém s identifikáciou konkrétneho dokumentu
– Po dokumentoch – nedá sa ovplyvniť ich počet, veľkosť je spravidla veľmi nerovnomerná
23Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Invertovaný index (4)
24Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Veľkosť invertovaného indexu (1)
• Priestorová zložitosť slovníka invertovaného indexu je O(n), kde
– n je veľkosť textovej databázy a
– konštanta leží medzi 0 a 1 v závislosti od textu, ale obvykle medzi 0.4 a 0.6
• Výskyty zaberajú omnoho viac miesta, lebo výskyt každého slova v kolekcii sa objavuje aj vo výskytoch, čo zodpovedá priestorovej zložitosti O(n)
– V praxi sa veľkosť priestoru na výskyty pohybuje medzi 30% až 40% veľkosti databázy textov
25Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Veľkosť invertovaného indexu (2)
26Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Vyhľadávanie v invertovanom indexe
• Pozostáva z troch krokov1. Vyhľadanie izolovaných slov z otázky v slovníku
2. Vyhľadajú sa zoznamy výskytov všetkých nájdených slov
3. Manipulácia s výskytmi podľa charakteru otázky (napr. v prípade fráz, blízkosti alebo boolovských operátorov)• V prípade blokov môže byť nutné ešte priame vyhľadanie textu
v rámci identifikovaných blokov
• Celková časová zložitosť vyhľadávania je O(n), kde záleží od otázky, ale obvykle leží medzi 0.4 a 0.8
1. Pri použití vhodnej štruktúry slovníka (napr. triesy, hashovanie, alebo binárne stromy) možno dosiahnuť časovú zložitosť O(m), kde m je veľkosť otázky, ale pri jednoduchom uložení slov slovníka to bude O(log(n))
2. Výskyty sú lokalizovateľné prakticky okamžite
3. V prípade blokov a zložitejších otázok môže časová zložitosť narásť až na O(n0.85), čo je ale stále sublineárna zložitosť
27Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Vytvorenie invertovaného indexu• Vybudovať invertovaný index nie je zložité a dá sa to
spraviť s lineárnou časovou zložitosťou O(n)
• Zvykne sa pritom používať štruktúra tries, v ktorej je
uložené každé slovo spolu aj so zoznamom jeho výskytov
(viď. obrázok)
28
Príponové stromy (1)• Príponové stromy boli navrhnuté najmä na indexovanie
netextových databáz ako napr. databáz rôznych genómov (t.j. dlhé reťazce znakov)
• Každý indexovaný bod v texte je chápaný ako začiatok textu siahajúceho až do konca (t.j. celý zvyšný text je jeho príponou)
29
Príponové stromy (2)
30
Porovnanie časovej a priestorovej zložitosti vyhľadávacích algoritmov
31Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
32
Vyhodnocovanie systémov pre vyhľadávanie informácií
• Čo by sme radi merali u IR systému je miera spokojnosti jeho používateľov– Tú ovplyvňuje mnoho faktorov (rýchlosť odozvy, rôzne
aspekty GUI, kvalita sumárov a pod.)
• Pod vyhodnotením IR systému ale najčastejšie rozumieme efektívnosť vyhľadávania, meranú ako miera relevancie množiny vrátených dokumentov k informačnej potrebe vyhľadávajúceho
• Pre daný systém IR (resp. jeho konkrétnu vyhľadávaciu stratégiu S) sa kvantifikuje – podobnosť medzi množinou dokumentov vyhľadaných
pomocou S (spravidla označovaných A – answer)
– a množinou dokumentov stanovených ako relevantné k danej otázke expertmi (R – relevant documents)
33
Vyhodnocovanie efektívnosti vyhľadávania
• Pre takéto vyhodnotenie IR systému teda potrebujeme:– Kolekciu dokumentov– Testovaciu množinu informačných potrieb (testovacie dopyty)– Spravidla binárne ohodnotenie dokumentov v kolekcii z pohľadu ich
ne/relevancie ku každému dopytu z testovacej množiny dopytov
• Informačná potreba je teda najprv transformovaná do podoby dopytu, ale relevantnosť je meraná voči informačnej potrebe, nie voči dopytu
– Príklad informačnej potreby: „Chcem zistiť či konzumácia červeného vína efektívnejšie znižuje riziko srdcového infarktu než konzumácia bieleho vína.“
– Dopyt: „víno červené biele srdcový infarkt zníženie rizika“– Z jednoslovného dopytu je pre IR systém veľmi ťažké zistiť informačnú
potrebu, ale používateľ nejakú vždy má („python“?)
34Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Štandardné testovacie kolekcie pre IR
• Dátové kolekcie pripravované a spravované už dlhé roky NIST (National Institute of Standards and Technology)
– TREC (Text REtrieval Conference) – 1,89 mil. dokumentov, 450 informačných potrieb (zvaných topics – špecifikovaných podrobnými pasážami textu)
– Ohodnotenie top-k dokumentov vrátených nejakým IR systémom, nie všetkých dokumentov v kolekcii
– Gov2 – 25 mil. web stránok, najväčšia testovacia kolekcia (stále však cca. 1000 krát menšia ako indexujú bežné vyhľadávače)
• Reuters-21578 a Reuters-RCV1 – kolekcie novinových článkov používané najmä pre klasifikáciu textov, podobne aj
• 20 Newsgroups – kolekcia Usenet news skupín (1000 článkov z každej)
35Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Hodnotenie efektívnosti vyhľadávania pre neusporiadanú množinu výsledkov
• Uvažujme celú množinu výsledkov IR naraz (alebo aj unranked retrieval set), pričom:– q je daný dopyt reprezentujúci informačnú potrebu
– R je množina relevantných dokumentov ku q
– |R| je počet relevantných dokumentov ku q
– A je množina dokumentov, ktoré vyhľadávací systém používajúci stratégiu S vráti ako odpoveď na q
– |A| je počet dokumentov vrátených S ako odpoveď na q
– RA je prienik množín R a A
A
RP
APresnosť (precision)
R
RN
ANávratnosť (recall)
36Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Základné miery efektívnosti trocha ináč
Relevantné
dokumenty
Nerelevantné
dokumenty
Dokumenty vrátené
IR systémom na q true positive (tp) false positive (fp)
Dokumenty, ktoré
neboli v odpovedi
IR systému na q
false negative (fn) true negative (tn)
37Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
)( fptp
tpP
Presnosť (precision)
)( fntp
tpN
Návratnosť (recall)
Prečo nie presnosť klasifikácie?
Relevantné
dokumenty
Nerelevantné
dokumenty
Dokumenty vrátené
IR systémom na q true positive (tp) false positive (fp)
Dokumenty, ktoré
neboli v odpovedi
IR systému na q
false negative (fn) true negative (tn)
38
• Presnosť klasifikácie (accuracy) sa využíva pri klasifikácii, vyjadruje percento správne zaradených príkladov (v tomto prípade dokumentov)
• Pre IR ale nie je vhodná, lebo spravidla 99,9% dokumentov sú nerelevantné
)( fntnfptp
tntpA
Accuracy
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Závislosť medzi presnosťou a návratnosťou (1)
• Treba si uvedomiť, že presnosť a návratnosť sú v zásade
protichodné požiadavky, t.j. akýkoľvek IR systém sa musí
snažiť o vhodný kompromis medzi nimi
• Návratnosť je neklesajúca funkcia počtu dokumentov
vrátených na daný dopyt
• Presnosť naproti tomu klesá s pribúdajúcim počtom vrátených
dokumentov aj v dobrom IS systéme
• Preto sa zvykne používať aj zložená F miera, ktorá práve
popisuje kompromis medzi presnosťou a návratnosťou;
RP
PR
RP
F
2
2 )1(
1)1(
1
1
12
39Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Závislosť medzi presnosťou a návratnosťou (2)
• Ak je pre nás rovnako dôležitá presnosť aj návratnosť, potom
treba dať
• Hodnoty β < 1 zdôrazňujú presnosť, hodnoty β > 1 zase
návratnosť
• Presnosť, návratnosť a F miera majú rozsah hodnôt [0,1],
ale môžu sa uvádzať aj v percentách
40
RP
PR
RP
PRF
2)1(2
2
1
12 ],0[]1,0[ kde
15,0
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
F1 a ďalšie možné odvodené mierky
• Aritmetický priemer (AP) nie je vhodný (napr. ak R = 100% a P = 0,02%, potom AP = 50,01)
• Geometrický priemer (GP) je lepší (pre predchádzajúci prípad GP = 1,41)
• Harmonický priemer (HP) je však najvhodnejší (pre predchádzajúci prípad HP = 0,04)
2
PRFAP
PRFGP .
41
1
2
11
2F
PR
RP
PR
FHP
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
F1 a ďalšie možné odvodené mierky
42
Combined Measures
0
20
40
60
80
100
0 20 40 60 80 100
Precision (Recall fixed at 70%)
Minimum
Maximum
Arithmetic
Geometric
Harmonic
• Avšak používateľ obyčajne nevidí celú množinu A (odpoveď na svoj dopyt q) naraz, ale postupne, dokumenty sú usporiadané podľa stupňa relevancie (ranked retrieval set)
• Teda návratnosť a presnosť sa z pohľadu používateľa postupne menia
• Priebeh presnosti, ako funkcie závislej od návratnosti sa zvykne zobrazovať graficky -> tzv. krivka presnosť – návratnosť
43Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Hodnotenie efektívnosti vyhľadávania pre usporiadanú množinu výsledkov
Krivka presnosť – návratnosť
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Návratnosť
Pre
sn
osť
Interpolovaná presnosť
pinterp(r) = maxr´≥r p(r´)
44Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (1)
1. d123
2. d84
3. d56
4. d6
5. d8
• Nech množina všetkých relevantných dokumentov R
na dopyt q1 je nasledovná:
R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
• Odpoveď vyhľadávacej stratégie S obsahuje túto
postupnosť dokumentov:
6. d9
7. d511
8. d129
9. d187
10. d25
11. d38
12. d48
13. d250
14. d113
15. d3
• Zostrojte krivku presnosť – návratnosť pre danú
vyhľadávaciu stratégiu S a otázku q1
45Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (1) Normovaná krivka presnosť - návratnosť
1. dokument d123
3. dokument d56
6. dokument d9
10. dokument d25
15. dokument d3
46Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Normovaná krivka presnosť - návratnosť
• Definuje sa 11 normovaných úrovní návratnosti: 0%, 10%, 20%, ..., 100%
• Nech rj , j {0,1,2,…,10} je referencia na j-tu štandardnú úroveň návratnosti (napr. r5 je úroveň návratnosti 50%)
• Potom hodnota P(rj) sa interpoluje podľa vzorca: P(rj) = max rj r rj+1 P(r)
• čo znamená že interpolovaná presnosť na j-tej štandardnej úrovni návratnosti je maximálna známa presnosť pre ľubovoľnú návratnosť z intervalu <rj , rj+1>
47
Príklad (2)
1. d123
2. d84
3. d56
4. d6
5. d8
• Nech množina všetkých relevantných dokumentov R2
na dopyt q2 je nasledovná:
R2 = {d3, d56, d129}
• Odpoveď vyhľadávacej stratégie S obsahuje tú istú
postupnosť dokumentov ako v predchádzajúcom
príklade, t.j.:6. d9
7. d511
8. d129
9. d187
10. d25
11. d38
12. d48
13. d250
14. d113
15. d3
• Zostrojte normovanú krivku presnosť – návratnosť
pre danú vyhľadávaciu stratégiu S a otázku q2
48Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (2) Normovaná krivka presnosť - návratnosť
3. dokument d56 8. dokument d12915. dokument d3
49Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Vyhodnocovanie efektívnosti vyhľadávania (4)
• Vyhodnotenie vyhľadávacej stratégie S sa však spravidla nerobí na jedinom dopyte q, ale na množine dopytov
• Definuje sa 11 normovaných úrovní návratnosti r: 0%, 10%, 20%, ..., 100%
• Vypočítajú sa presnosti na jednotlivých normovaných úrovniach návratnosti P(r) pre všetky dopyty z testovacej množiny dopytov
• Nech počet dopytov je Nq, potom výsledná krivka bude zachytávať priemerné hodnoty presností pre jednotlivé normované úrovne návratnosti, vypočítané podľa vzorca:
qN
i q
i
N
rPrP
1
)()(
• Kde Pi(r) je presnosť S pri i-tomdopyte na úrovni návratnosti r
50Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (dobrý výsledok z TREC 8)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
Recall
Pre
cis
ion
51
Príklad (3)Vyhľadávanie založené na ontológii (1)
1. Predpokladáme, že množina konceptov pre daný dopyt je známa
2. Množina konceptov asociovaných s daným dokumentom sa vyberie z databázy
3. Tieto dve množiny sa porovnajú nasledovnou mierkou podobnosti daného dokumentu a dopytu :
0,,
)1,0(
),(
coniDconQifconiDconQ
k
simonto iDQ
QiD
52Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (3)Vyhľadávanie založené na ontológii (2)
4. Výsledná podobnosť sa vypočíta ako súčin podobnosti založenej na ontológii a podobnosti vypočítanej podľa vektorového modelu, (prípadne LSI modelu)
),(),(),( iii DQDQDQ IDFTFonto simsimsim
53Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (3) – Použitá kolekcia dokumentov
• Kolekcia nazvaná Cystická fibróza (získaná z databázy
MEDLINE) – Kolekcia pozostáva z 1239 dokumentov
– Minimálna veľkosť dokumentu 0.12 kb, maximálna veľkosť 3.8
kb a priemerná veľkosť 1.045 kb
– Ku kolekcii existuje aj súbor so 100 dopytmi
– Pre každý dopyt je známa množina relevantných dokumentov
– Každý dokument v odpovedi je ohodnotený číslom 0 až 8 (4
nezávislí experti hodnotili mieru relevancie 0-2)
– Existuje 821 konceptov a priemerný počet konceptov
priradených dokumentu je 2.8
– Priemerný počet dokumentov asociovaných s jedným
konceptom je 4.254Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Príklad (3) – Výsledky
55
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
Návratnosť [%]
Pre
sn
os
ť [
%]
TF - IDF
LSI
Koncepty
TF-IDF
LSI
Koncepty
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Sumarizačné mierky efektívnosti vyhľadávania (1)
1. Priemerná presnosť pri nájdených relevantných dokumentoch (MAP - mean average precision)
– Táto mierka favorizuje vyhľadávacie stratégie, ktoré rýchlo nájdu relevantné dokumenty
56
57.05
3.04.05.066.011
qP 26.03
2.025.033.02
qP
2. R-presnosť (RP) je presnosť vyhľadávacej stratégie S
na |R|-tej pozícii, t.j. pri |R|-tom vrátenom dokumente
– Táto mierka vlastne nie je sumarizačnou, popisuje iba jeden
bod krivky presnosť - návratnosť, prax však ukazuje, že je
vysoko korelovaná s MAP
4.010
41
qRP 33.03
12
qRP
Sumarizačné mierky efektívnosti vyhľadávania (2)
3. Presnostné histogramy sa používajú na porovnanie presnosti dvoch stratégií vyhľadávania (S1 a S2) pre viaceré dopyty i = 1 .. Nq
)()()(2121 /iRPiRPiRP SSSS
4. Štatistiky v sumarizačnej tabuľke – napr. počet otázok, celkový počet vrátených dokumentov, z nich celkový počet relevantných dokumentov, a pod.
57Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Používateľsky orientované mierky efektívnosti vyhľadávania
5. Pokrytie (coverage) C je definované nasledovne: U
RC
k
6. Novosť (novelty) O je definovaná nasledovne:
A
U
Uk
U
R
R
RR
RO
• U je podmnožina R takých dokumentov, ktoré sú používateľovi už známe
• Rk = A U je množina používateľovi známych dokumentov v odpovedi A
• RU je množina relevantných dokumentov v odpovedi A, ktoré používateľovi neboli predtým známe
58Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Vysvetlenie významu množín pri používateľsky definovaných
mierkach efektívnosti vyhľadávania
U
RC
k
Uk
U
RR
RO
59
používateľovi už známe dokumenty (U)
RuRk
množina dokumentov vrátených systémom (A)
množina relevantných dokumentov (R)
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)
Vylepšovanie bežiaceho IR systému
• Používateľské štúdie sú dobrý nástroj, najmä v čase návrhu,
ale sú časovo náročné a nákladné
• Pre bežiaci IR systém sa najčastejšie používa metóda zvaná A/B test:
– Pre takýto test sa spraví práve jedna zmena (systém B) aktuálneho
systému (systém A), ktorej vplyv chceme ohodnotiť
– Časť používateľských požiadaviek (1 až 10%) sa presmeruje na
zmenený systém B, zvyšné spracúva aktuálne bežiaci systém A
– Porovnajú sa sledované parametre (napr. frekvencia klikaní na prvý
odkaz v zozname) medzi systémami A a B
– Pri dostatočne veľkom počte používateľov možno takýmto
spôsobom lacno a rýchle overiť vplyv navrhovanej zmeny
60Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)