Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Manažment znalostí (3)

OBSAH PREDNÁŠKY

• Ďalšie (alternatívne) modely pre vyhľadávanie informácií

• Operácie s dopytmi (spätná väzba od používateľa)

• Indexovanie dokumentov – ďalšie typy indexov

• Vyhodnocovanie systémov pre vyhľadávanie informácií (IR)

• Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa)

– Presnosť, návratnosť, F miera – hodnotenie výsledkov vyhľadávania bez usporiadania (unranked retrieval set)

– Grafické znázornenie závislosti presnosti a návratnosti – hodnotenie usporiadaných výsledkov vyhľadávania (ranked retrieval set)

– Sumarizačné mierky efektívnosti vyhľadávania

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 1

Alternatívne modely pre IR

1. Množinovo-teoretické• Fuzzy-boolovský

• Rozšírený boolovský

2. Algebraické• Zovšeobecnený vektorový

• Latent Semantic Indexing

• Neurónové siete

3. Pravdepodobnostné• Inferenčná sieť

2Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Množinovo-teoretické alternatívne modely pre IR

• Fuzzy-boolovský model

– Každý term v dopyte je chápaný ako fuzzy množina každý dokument má potom určitú mieru príslušnosti (≤ 1) do tej - ktorej množiny

• Rozšírený boolovský model

– Kombinuje boolovský typ dopytov s charakteristikami vektorového modelu, ako napr. čiastočná podobnosť


Algebraické alternatívnemodely pre IR

• Zovšeobecnený vektorový model

– Podmienka nezávislosti indexových termov znamená, že množina

vektorov je lineárne nezávislá a tvorí bázu

priestoru, ktorý nás zaujíma. Často sa ale naviac predpokladá aj

vzájomná ortogonalita, t.j. že platí

– Zovšeobecnený vektorový model upúšťa od tejto podmienky tým,

že zavádza zovšeobecnený vektorový priestor rozmeru 2t, pričom

takto definované vektory tvoria skutočne ortonormálnu bázu

zovšeobecneného vektorového modelu.

• Latentná sémantická indexácia (LSI)

• Neurónové siete


Latentná sémantická indexácia (1)• LSI prístup je založený na dekompozícii tf-idf matice A podľa

singulárnych hodnôt (SVD)

• s0 je diagonálna matica singulárnych hodnôt a T0, D0 sú

matice ľavých a pravých singulárnych vektorov

5

TDsTA 000


• Ak sa singulárne hodnoty v s0 usporiadajú zostupne podľa veľkosti, k najväčších hodnôt možno ponechať a ostatné nahradiť nulami:

6

Latentná sémantická indexácia (2)


• Aby bolo možné vypočítať podobnosť medzi dopytom a aproximovaným vektorom dokumentu , je nutné transformovať vektor dopytu do nového priestoru príznakov

7

• Podobnosť medzi dokumentom a dopytom:




8

Pre

no

sný

po

číta

č

LSI d

imen

zia

1

Notebook

LSI dimenzia 2

Prenosný počítač

Notebook

Význam transformácie pôvodného vektorového priestoru dokumentov na priestor LSI


Neurónové siete

• Po prvej vlne šírenia signálov je aktivačná úroveň neurónov dokumentov rovná tej pri klasickom vektorovom modeli

• Pre zlepšenie výkonu vyhľadávania sieť ale pokračuje v šírení signálov (analógia spätnej väzby od používateľa) od vrstvy dokumentov na vrstvu termov v dokumente a naspäť k dokumentom

k1

k2

kt

ki

Termy v dopyte

k1

k2

kt

ki

Termy v

dokumentoch (index)

d1

d2

dN

dj

Dokumenty

Wq,2

Wq,i

W1,2

Wi,j

W2,j

Wi,N

W2,1

Wt,j


Modely pre prehľadávanie• Ploché prehľadávanie

– Plochá organizácia priestoru dokumentov, napr. ako prvok v jednorozmernom zozname (výsledky z vyhľadávača), alebo v 2-rozmernom priestore (mikrofiše v knižniciach), alebo web stránka bez liniek.

• Štruktúrou riadené prehľadávanie– Dokumenty organizované v štruktúre podobnej adresárovej,

napr. klasifikácia titulov podľa oblastí v knižniciach, alebo elektronická kniha s odkazmi na kapitoly a ich časti.

• Hypertextový model– Organizačná štruktúra textu, ktorá sa dosahuje vkladaním

prepojení (liniek) do textu. Vzniká grafová štruktúra, kde každý z uzlov má asociovanú textovú oblasť.

– Aby sa používateľ v hypertexte nestratil, ten by mal mať buď asociovanú mapu, alebo jednoduchšiu, ľahko zapamätateľnú základnú štruktúru.


Taxonómia modelov pre IR ešte raz

1. VyhľadávanieA. Klasické modely

• Boolovský

• Vektorový

• Pravdepodobnostný

B. Alternatívne modely

• Množinovo-teoretické (napr. fuzzy-boolovský, rozšírený boolovský)

• Algebraické (napr. zovšeobecnený vektorový, LSI, neurónové siete)

• Pravdepodobnostný (napr. inferenčná sieť)

2. PrehľadávanieC. Modely na prehľadávanie

• Ploché

• Riadené štruktúrou

• Hypertext


Operácie s dopytmi

• Skúsenosti s vyhľadávaním na webe ukazujú, že úvodnú otázku možno chápať ako prvý, viac menej naivný pokus vyhľadať relevantné informácie

• Preto je potrebné otázku ďalej vylepšovať, a to:a) rozšírením otázky o nové termy a/alebo

b) úpravou váh jednotlivých termov v otázke

• Existujú tri skupiny prístupov k riešeniu tejto úlohy:1. založené na spätnej väzbe od používateľa

2. založené na informácii odvodenej z množiny dokumentov vyhľadanej na pôvodnú otázku (tzv. lokálna množina dokumentov)

3. založené na globálnej informácii odvodenej z celej kolekcie dokumentov


1. Spätná väzba od používateľa

• Najpopulárnejšia stratégia, pri ktorej priamo používateľ

vyznačí v odpovedi na svoju otázku tie dokumenty, ktoré

považuje za relevantné

• Z takto označených dokumentov sa odvodia významné termy

a ich váhy sa v pôvodnej otázke zvýšia

• Výhody:

– Chráni používateľa pred detailmi reformulácie otázky

– Proces hľadania rozdeľuje na malé, ľahšie zvládnuteľné kroky

– Poskytuje kontrolovaný proces navrhnutý pre zdôraznenie niektorých

a potlačenie iných termov v otázke


Aplikácia spätnej väzby od používateľa vo vektorovom modeli (1)

• Cieľom je priblížiť otázku k vektorom tých dokumentov, ktoré označil používateľ ako relevantné– Dr – množina relevantných dokumentov

identifikovaných používateľom spomedzi vrátených

– Dn – množina nerelevantných dokumentov spomedzi vrátených

– Cr – množina relevantných dokumentov spomedzi všetkých dokumentov v kolekcii (ideálna odpoveď)

– , , - vylaďovacie konštanty



• Optimálny váhový vektor otázky by bol:

• Samozrejme Cr nám nie je vopred známe, takže otázku

budeme postupne vylepšovať na základe spätnej väzby

od používateľa (t.j. Dr a Dn), napr. tzv. Standard Rochio:



• Iná možnosť je napr. Ide Regular :

• Nastavenie váh:

– v pôvodnom Standard Rochio bolo = 1

– pri Ide Regular = = = 1

– spravidla

– ak naviac = 0, hovoríme o pozitívnej spätnej väzbe


2. Expanzia dotazov lokálnym zhlukovaním

• Tieto stratégie sú založené na rozšírení otázky o termy, ktoré

sú korelované s termami v pôvodnej otázke

• Ide o tie termy, ktoré sa vyskytujú v lokálnych zhlukoch

vytvorených z množiny dokumentov vrátených v odpovedi

na danú otázku

• Používajú sa 3 typy zhlukov:

– Asociačné – založené na frekvencii spoluvýskytov termov (alebo ich

kmeňov) vnútri dokumentu, bez ohľadu na pozíciu ich výskytu

– Metrické – snažia sa zohľadniť vzdialenosť v rámci dokumentu,

s ktorou sa 2 termy spolu vyskytujú

– Skalárne – založené na nepriamom vzťahu – dva termy (kmene slov)

s podobným okolím majú nejaký synonymický vzťah 17Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

3. Automatická globálna analýza (1)

• Spravidla ide o stratégie, ktoré vychádzajú z podobnosti termov

odvodenej automaticky na základe celej kolekcie dokumentov

• Napr. podobnostný tezaurus je budovaný na základe vzťahov medzi

termami navzájom, nie však z pohľadu ich spolu-výskytov, ale ich

uvažovaním ako konceptov v priestore konceptov

• V priestore konceptov je každý term indexovaný dokumentmi,

v ktorých sa vyskytol (t.j. obrátený pohľad ako v tradičnom priestore

dokumenty – termy)

• Globálny podobnostný tezaurus je budovaný na základe výpočtu

korelačného faktora cu,v pre každý pár indexových termov ku a kv,

čo je síce výpočtovo náročné, ale tento výpočet stačí previesť raz

a potom už len inkrementálne vypočítané hodnoty aktualizovať


3. Automatická globálna analýza (2)

• Rozšírenie otázok s použitím podobnostného

tezaura potom funguje nasledovne:

1. Otázka sa premietne do priestoru konceptov, ktorý sa

používa pre reprezentáciu indexových termov

2. Na základe globálneho podobnostného tezaura sa

vypočíta podobnosť otázky q a každého indexového

termu sim(q, kv)

3. Nakoniec sa otázka rozšíri o prvých r indexových

termov z pohľadu ich podobnosti voči otázke sim(q, kv)


Indexovanie dokumentov – ďalšie typy indexov

• Cieľom indexovania je vytvorenie pomocnej štruktúry, ktorá je nezávislá od databázy textových dokumentov a slúži na rýchle vyhľadávanie dokumentov z nej.

• Na indexovanie sa najčastejšie používajú tieto pomocné štruktúry:1. Invertovaný index (rôznej granularity)

2. Príponové stromy a príponové polia

3. Súbory signatúr


Invertovaný index (1)

• Invertovaný index (resp. invertovaný súbor) je slovne orientovaný mechanizmus na indexovanie kolekcií textových dokumentov

• Je tvorený dvoma komponentmi:

1. Slovník (vocabulary) – množina všetkých navzájom rôznych slov, ktoré sa vyskytli v textoch

2. Výskyty (occurencies) – pre každé slovo zo slovníka je evidovaný zoznam pozícií v texte, kde sa toto slovo vyskytlo



22

Všetky vložené obrázky sú prebrané z knihy: R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval, Addison Wesley, 1999


• Zoznamy výskytov jednotlivých slov môžu adresovať:

a) Presné znakové pozície (viď. predchádzajúci obrázok)

b) Slovné pozície

c) Pozície začiatkov blokov, v ktorých sa slovo vyskytlo (šetrí pamäťový priestor, ale už nie je taký efektívny na vyhľadávanie fráz)

• Veľkosť blokov môže byť stanovená:

– Subjektívne (napr. 64 kB), vzniká ale dodatočný problém s identifikáciou konkrétneho dokumentu

– Po dokumentoch – nedá sa ovplyvniť ich počet, veľkosť je spravidla veľmi nerovnomerná




Veľkosť invertovaného indexu (1)

• Priestorová zložitosť slovníka invertovaného indexu je O(n), kde

– n je veľkosť textovej databázy a

– konštanta leží medzi 0 a 1 v závislosti od textu, ale obvykle medzi 0.4 a 0.6

• Výskyty zaberajú omnoho viac miesta, lebo výskyt každého slova v kolekcii sa objavuje aj vo výskytoch, čo zodpovedá priestorovej zložitosti O(n)

– V praxi sa veľkosť priestoru na výskyty pohybuje medzi 30% až 40% veľkosti databázy textov


Veľkosť invertovaného indexu (2)


Vyhľadávanie v invertovanom indexe

• Pozostáva z troch krokov1. Vyhľadanie izolovaných slov z otázky v slovníku

2. Vyhľadajú sa zoznamy výskytov všetkých nájdených slov

3. Manipulácia s výskytmi podľa charakteru otázky (napr. v prípade fráz, blízkosti alebo boolovských operátorov)• V prípade blokov môže byť nutné ešte priame vyhľadanie textu

v rámci identifikovaných blokov

• Celková časová zložitosť vyhľadávania je O(n), kde záleží od otázky, ale obvykle leží medzi 0.4 a 0.8

1. Pri použití vhodnej štruktúry slovníka (napr. triesy, hashovanie, alebo binárne stromy) možno dosiahnuť časovú zložitosť O(m), kde m je veľkosť otázky, ale pri jednoduchom uložení slov slovníka to bude O(log(n))

2. Výskyty sú lokalizovateľné prakticky okamžite

3. V prípade blokov a zložitejších otázok môže časová zložitosť narásť až na O(n0.85), čo je ale stále sublineárna zložitosť


Vytvorenie invertovaného indexu• Vybudovať invertovaný index nie je zložité a dá sa to

spraviť s lineárnou časovou zložitosťou O(n)

• Zvykne sa pritom používať štruktúra tries, v ktorej je

uložené každé slovo spolu aj so zoznamom jeho výskytov

(viď. obrázok)

28

Príponové stromy (1)• Príponové stromy boli navrhnuté najmä na indexovanie

netextových databáz ako napr. databáz rôznych genómov (t.j. dlhé reťazce znakov)

• Každý indexovaný bod v texte je chápaný ako začiatok textu siahajúceho až do konca (t.j. celý zvyšný text je jeho príponou)

29

Príponové stromy (2)

30

Porovnanie časovej a priestorovej zložitosti vyhľadávacích algoritmov


32

Vyhodnocovanie systémov pre vyhľadávanie informácií

• Čo by sme radi merali u IR systému je miera spokojnosti jeho používateľov– Tú ovplyvňuje mnoho faktorov (rýchlosť odozvy, rôzne

aspekty GUI, kvalita sumárov a pod.)

• Pod vyhodnotením IR systému ale najčastejšie rozumieme efektívnosť vyhľadávania, meranú ako miera relevancie množiny vrátených dokumentov k informačnej potrebe vyhľadávajúceho

• Pre daný systém IR (resp. jeho konkrétnu vyhľadávaciu stratégiu S) sa kvantifikuje – podobnosť medzi množinou dokumentov vyhľadaných

pomocou S (spravidla označovaných A – answer)

– a množinou dokumentov stanovených ako relevantné k danej otázke expertmi (R – relevant documents)

33

Vyhodnocovanie efektívnosti vyhľadávania

• Pre takéto vyhodnotenie IR systému teda potrebujeme:– Kolekciu dokumentov– Testovaciu množinu informačných potrieb (testovacie dopyty)– Spravidla binárne ohodnotenie dokumentov v kolekcii z pohľadu ich

ne/relevancie ku každému dopytu z testovacej množiny dopytov

• Informačná potreba je teda najprv transformovaná do podoby dopytu, ale relevantnosť je meraná voči informačnej potrebe, nie voči dopytu

– Príklad informačnej potreby: „Chcem zistiť či konzumácia červeného vína efektívnejšie znižuje riziko srdcového infarktu než konzumácia bieleho vína.“

– Dopyt: „víno červené biele srdcový infarkt zníženie rizika“– Z jednoslovného dopytu je pre IR systém veľmi ťažké zistiť informačnú

potrebu, ale používateľ nejakú vždy má („python“?)


Štandardné testovacie kolekcie pre IR

• Dátové kolekcie pripravované a spravované už dlhé roky NIST (National Institute of Standards and Technology)

– TREC (Text REtrieval Conference) – 1,89 mil. dokumentov, 450 informačných potrieb (zvaných topics – špecifikovaných podrobnými pasážami textu)

– Ohodnotenie top-k dokumentov vrátených nejakým IR systémom, nie všetkých dokumentov v kolekcii

– Gov2 – 25 mil. web stránok, najväčšia testovacia kolekcia (stále však cca. 1000 krát menšia ako indexujú bežné vyhľadávače)

• Reuters-21578 a Reuters-RCV1 – kolekcie novinových článkov používané najmä pre klasifikáciu textov, podobne aj

• 20 Newsgroups – kolekcia Usenet news skupín (1000 článkov z každej)


Hodnotenie efektívnosti vyhľadávania pre neusporiadanú množinu výsledkov

• Uvažujme celú množinu výsledkov IR naraz (alebo aj unranked retrieval set), pričom:– q je daný dopyt reprezentujúci informačnú potrebu

– R je množina relevantných dokumentov ku q

– |R| je počet relevantných dokumentov ku q

– A je množina dokumentov, ktoré vyhľadávací systém používajúci stratégiu S vráti ako odpoveď na q

– |A| je počet dokumentov vrátených S ako odpoveď na q

– RA je prienik množín R a A

A

RP

APresnosť (precision)

R

RN

ANávratnosť (recall)


Základné miery efektívnosti trocha ináč

Relevantné

dokumenty

Nerelevantné

dokumenty

Dokumenty vrátené

IR systémom na q true positive (tp) false positive (fp)

Dokumenty, ktoré

neboli v odpovedi

IR systému na q

false negative (fn) true negative (tn)


)( fptp

tpP

Presnosť (precision)

)( fntp

tpN

Návratnosť (recall)

Prečo nie presnosť klasifikácie?

Relevantné

dokumenty

Nerelevantné

dokumenty

Dokumenty vrátené

IR systémom na q true positive (tp) false positive (fp)

Dokumenty, ktoré

neboli v odpovedi

IR systému na q

false negative (fn) true negative (tn)

38

• Presnosť klasifikácie (accuracy) sa využíva pri klasifikácii, vyjadruje percento správne zaradených príkladov (v tomto prípade dokumentov)

• Pre IR ale nie je vhodná, lebo spravidla 99,9% dokumentov sú nerelevantné

)( fntnfptp

tntpA

Accuracy

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Závislosť medzi presnosťou a návratnosťou (1)

• Treba si uvedomiť, že presnosť a návratnosť sú v zásade

protichodné požiadavky, t.j. akýkoľvek IR systém sa musí

snažiť o vhodný kompromis medzi nimi

• Návratnosť je neklesajúca funkcia počtu dokumentov

vrátených na daný dopyt

• Presnosť naproti tomu klesá s pribúdajúcim počtom vrátených

dokumentov aj v dobrom IS systéme

• Preto sa zvykne používať aj zložená F miera, ktorá práve

popisuje kompromis medzi presnosťou a návratnosťou;

RP

PR

RP

F

2

2 )1(

1)1(

1

1

12


Závislosť medzi presnosťou a návratnosťou (2)

• Ak je pre nás rovnako dôležitá presnosť aj návratnosť, potom

treba dať

• Hodnoty β < 1 zdôrazňujú presnosť, hodnoty β > 1 zase

návratnosť

• Presnosť, návratnosť a F miera majú rozsah hodnôt [0,1],

ale môžu sa uvádzať aj v percentách

40

RP

PR

RP

PRF

2)1(2

2

1

12 ],0[]1,0[ kde

15,0


F1 a ďalšie možné odvodené mierky

• Aritmetický priemer (AP) nie je vhodný (napr. ak R = 100% a P = 0,02%, potom AP = 50,01)

• Geometrický priemer (GP) je lepší (pre predchádzajúci prípad GP = 1,41)

• Harmonický priemer (HP) je však najvhodnejší (pre predchádzajúci prípad HP = 0,04)

2

PRFAP

PRFGP .

41

1

2

11

2F

PR

RP

PR

FHP


F1 a ďalšie možné odvodené mierky

42

Combined Measures

0

20

40

60

80

100

0 20 40 60 80 100

Precision (Recall fixed at 70%)

Minimum

Maximum

Arithmetic

Geometric

Harmonic

• Avšak používateľ obyčajne nevidí celú množinu A (odpoveď na svoj dopyt q) naraz, ale postupne, dokumenty sú usporiadané podľa stupňa relevancie (ranked retrieval set)

• Teda návratnosť a presnosť sa z pohľadu používateľa postupne menia

• Priebeh presnosti, ako funkcie závislej od návratnosti sa zvykne zobrazovať graficky -> tzv. krivka presnosť – návratnosť


Hodnotenie efektívnosti vyhľadávania pre usporiadanú množinu výsledkov

Krivka presnosť – návratnosť

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

Návratnosť

Pre

sn

osť

Interpolovaná presnosť

pinterp(r) = maxr´≥r p(r´)


Príklad (1)

1. d123

2. d84

3. d56

4. d6

5. d8

• Nech množina všetkých relevantných dokumentov R

na dopyt q1 je nasledovná:

R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}

• Odpoveď vyhľadávacej stratégie S obsahuje túto

postupnosť dokumentov:

6. d9

7. d511

8. d129

9. d187

10. d25

11. d38

12. d48

13. d250

14. d113

15. d3

• Zostrojte krivku presnosť – návratnosť pre danú

vyhľadávaciu stratégiu S a otázku q1


Príklad (1) Normovaná krivka presnosť - návratnosť

1. dokument d123

3. dokument d56

6. dokument d9

10. dokument d25

15. dokument d3


Normovaná krivka presnosť - návratnosť

• Definuje sa 11 normovaných úrovní návratnosti: 0%, 10%, 20%, ..., 100%

• Nech rj , j {0,1,2,…,10} je referencia na j-tu štandardnú úroveň návratnosti (napr. r5 je úroveň návratnosti 50%)

• Potom hodnota P(rj) sa interpoluje podľa vzorca: P(rj) = max rj r rj+1 P(r)

• čo znamená že interpolovaná presnosť na j-tej štandardnej úrovni návratnosti je maximálna známa presnosť pre ľubovoľnú návratnosť z intervalu <rj , rj+1>

47

Príklad (2)

1. d123

2. d84

3. d56

4. d6

5. d8

• Nech množina všetkých relevantných dokumentov R2

na dopyt q2 je nasledovná:

R2 = {d3, d56, d129}

• Odpoveď vyhľadávacej stratégie S obsahuje tú istú

postupnosť dokumentov ako v predchádzajúcom

príklade, t.j.:6. d9

7. d511

8. d129

9. d187

10. d25

11. d38

12. d48

13. d250

14. d113

15. d3

• Zostrojte normovanú krivku presnosť – návratnosť

pre danú vyhľadávaciu stratégiu S a otázku q2


Príklad (2) Normovaná krivka presnosť - návratnosť

3. dokument d56 8. dokument d12915. dokument d3


Vyhodnocovanie efektívnosti vyhľadávania (4)

• Vyhodnotenie vyhľadávacej stratégie S sa však spravidla nerobí na jedinom dopyte q, ale na množine dopytov

• Definuje sa 11 normovaných úrovní návratnosti r: 0%, 10%, 20%, ..., 100%

• Vypočítajú sa presnosti na jednotlivých normovaných úrovniach návratnosti P(r) pre všetky dopyty z testovacej množiny dopytov

• Nech počet dopytov je Nq, potom výsledná krivka bude zachytávať priemerné hodnoty presností pre jednotlivé normované úrovne návratnosti, vypočítané podľa vzorca:

qN

i q

i

N

rPrP

1

)()(

• Kde Pi(r) je presnosť S pri i-tomdopyte na úrovni návratnosti r


Príklad (dobrý výsledok z TREC 8)

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Recall

Pre

cis

ion

51

Príklad (3)Vyhľadávanie založené na ontológii (1)

1. Predpokladáme, že množina konceptov pre daný dopyt je známa

2. Množina konceptov asociovaných s daným dokumentom sa vyberie z databázy

3. Tieto dve množiny sa porovnajú nasledovnou mierkou podobnosti daného dokumentu a dopytu :

0,,

)1,0(

),(

coniDconQifconiDconQ

k

simonto iDQ

QiD


Príklad (3)Vyhľadávanie založené na ontológii (2)

4. Výsledná podobnosť sa vypočíta ako súčin podobnosti založenej na ontológii a podobnosti vypočítanej podľa vektorového modelu, (prípadne LSI modelu)

),(),(),( iii DQDQDQ IDFTFonto simsimsim


Príklad (3) – Použitá kolekcia dokumentov

• Kolekcia nazvaná Cystická fibróza (získaná z databázy

MEDLINE) – Kolekcia pozostáva z 1239 dokumentov

– Minimálna veľkosť dokumentu 0.12 kb, maximálna veľkosť 3.8

kb a priemerná veľkosť 1.045 kb

– Ku kolekcii existuje aj súbor so 100 dopytmi

– Pre každý dopyt je známa množina relevantných dokumentov

– Každý dokument v odpovedi je ohodnotený číslom 0 až 8 (4

nezávislí experti hodnotili mieru relevancie 0-2)

– Existuje 821 konceptov a priemerný počet konceptov

priradených dokumentu je 2.8

– Priemerný počet dokumentov asociovaných s jedným

konceptom je 4.254Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Príklad (3) – Výsledky

55

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Návratnosť [%]

Pre

sn

os

ť [

%]

TF - IDF

LSI

Koncepty

TF-IDF

LSI

Koncepty


Sumarizačné mierky efektívnosti vyhľadávania (1)

1. Priemerná presnosť pri nájdených relevantných dokumentoch (MAP - mean average precision)

– Táto mierka favorizuje vyhľadávacie stratégie, ktoré rýchlo nájdu relevantné dokumenty

56

57.05

3.04.05.066.011

qP 26.03

2.025.033.02

qP

2. R-presnosť (RP) je presnosť vyhľadávacej stratégie S

na |R|-tej pozícii, t.j. pri |R|-tom vrátenom dokumente

– Táto mierka vlastne nie je sumarizačnou, popisuje iba jeden

bod krivky presnosť - návratnosť, prax však ukazuje, že je

vysoko korelovaná s MAP

4.010

41

qRP 33.03

12

qRP

Sumarizačné mierky efektívnosti vyhľadávania (2)

3. Presnostné histogramy sa používajú na porovnanie presnosti dvoch stratégií vyhľadávania (S1 a S2) pre viaceré dopyty i = 1 .. Nq

)()()(2121 /iRPiRPiRP SSSS

4. Štatistiky v sumarizačnej tabuľke – napr. počet otázok, celkový počet vrátených dokumentov, z nich celkový počet relevantných dokumentov, a pod.


Používateľsky orientované mierky efektívnosti vyhľadávania

5. Pokrytie (coverage) C je definované nasledovne: U

RC

k

6. Novosť (novelty) O je definovaná nasledovne:

A

U

Uk

U

R

R

RR

RO

• U je podmnožina R takých dokumentov, ktoré sú používateľovi už známe

• Rk = A U je množina používateľovi známych dokumentov v odpovedi A

• RU je množina relevantných dokumentov v odpovedi A, ktoré používateľovi neboli predtým známe


Vysvetlenie významu množín pri používateľsky definovaných

mierkach efektívnosti vyhľadávania

U

RC

k

Uk

U

RR

RO

59

používateľovi už známe dokumenty (U)

RuRk

množina dokumentov vrátených systémom (A)

množina relevantných dokumentov (R)


Vylepšovanie bežiaceho IR systému

• Používateľské štúdie sú dobrý nástroj, najmä v čase návrhu,

ale sú časovo náročné a nákladné

• Pre bežiaci IR systém sa najčastejšie používa metóda zvaná A/B test:

– Pre takýto test sa spraví práve jedna zmena (systém B) aktuálneho

systému (systém A), ktorej vplyv chceme ohodnotiť

– Časť používateľských požiadaviek (1 až 10%) sa presmeruje na

zmenený systém B, zvyšné spracúva aktuálne bežiaci systém A

– Porovnajú sa sledované parametre (napr. frekvencia klikaní na prvý

odkaz v zozname) medzi systémami A a B

– Pri dostatočne veľkom počte používateľov možno takýmto

spôsobom lacno a rýchle overiť vplyv navrhovanej zmeny


Documents

Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií