Upload
petra-galuscakova
View
147
Download
2
Embed Size (px)
DESCRIPTION
4. výročie Centra vizuálnej histórie Malach
Citation preview
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
Mgr. Petra GaluščákováÚstav formální a aplikované lingvistiky
Matematicko-fyzikální fakultaUniverzita Karlova v Praze
27. 1. 2014
Tématická anotácia archívu Malach
● 357 českých nahrávok z archívu Malach
● Vyznačené boli úseky v ktorých sa hovorí o vybranej téme
● Manuálne anotácie
● Vybrané témy (116 tém), podrobne definované
– Napr. Detské umění v Terezíne, Židovské děti na školách, Kolaborace místních obyvatel
● Anotátori naštudovali témy, počúvali nahrávky a označovali relevantné useky vo výpovediach
● Spolu 5436 anotovaných segmentov
Ukážka anotovaných tém
Názov témy Description Narrator
Hudba v holokaustu
Svědectví o tom, zda hudba pomáhala
(duševně nebo i jinak) nebo překážela vězňům
internovaným v koncentračních táborech.
Popis toho, jakou roli hrála hudba v životě vězňů.
Posilování víry
Posilování náboženské víry jako důsledek
holokaustu.
Většina Židů, kteří byli před příchodem do tábora silně
nábožensky založení, ztratila v důsledku svých zážitků svou víru
v Boha. Hledáme opačné případy: lidi, jejichž víra byla v
důsledku zážitků posílena.
Tématické vyhľadávanie● Máme:
● Kolekciu audio alebo audio-vizuálnych dokumentov
● Tému● Chceme:
● Dokument, ktorý tému obsahuje● Presne označený relevantný úsek v dokumente
(začiatok úseku)
Speech Retrieval● Information Retrieval (IR) sa zaoberá vyhľadávaním určitých
materiálov (väčšinou dokumentov), ktoré majú neštrukturovanú podobu (teda sú to väčšinou texty) a ktoré napĺňajú nejakú potrebu získania informácií vo veľkej skupine dát (ktorá je väčšinou uložená na počítači) na základe používateľom zadanej požiadavky*
● Speech Retrieval je špeciálny prípad IR, pri ktorom sú dokumenty v hovorenej podobe
● Keyword spotting sa líši od Speech Retrieval – hľadanie výskytov slova v prepisoch
* Manning, C. D. , Raghavan, P. Schütze, H: Introduction to Information Retrieval, New York, NY, USA , Cambridge University Press, 2008
Vyhodnotenie vyhľadávania dokumentov
● Precision = počet relevantných vrátených dokumentov / počet všetkých vrátených dokumentov
● Recall = počet relevantných vrátených dokumentov / počet všetkých relevantných dokumentov
● Average Precision - aritmetický priemer hodnôt precision. Počíta sa pre každý nový relevantný dokument, ktorý vyhľadávací systém vráti.
● Mean Average Precision - priemer hodnôt Average Precision pre množinu zadaných požiadaviek
Vyhodnotenie vyhľadávania relevantných segmentov
● Prevod na vyhľadávanie dokumentov
● Rozdelíme nahrávku na segmenty a k tým pristupujeme ako ku dokumentom v predchádzajúcom prípade
● Metrika mGAP
● Nahrávky nemusia byť segmentované● Kombinuje relevantnosť vyhľadaných dokumentov a
presnosť odpovedí systému● Začiatok nájdeného segmentu nesmie byť príliš vzdialený od
začiatku relevantného segmentu
– Kvalita vyhľadávacieho systému závisí na vzdialenosti týchto dvoch bodov
● Vhodný pre audio-vizuálne vyhľadávacie systémy
Metrika mGAP
● Kvalita vyhľadávacieho systému závisí na vzdialenosti začiatku relevantného segmentu a začiatku nájdeného segmentu
● Je určená pomocou penalizačnej funkcie
Ciele práce
● Overiť vhodnosť použitia metriky mGAP● Často používaná, ale neexistuje žiadne overenie,
že mGAP zodpovedá správaniu ľudí● Tvar funkcie – napr. symetria● Šírka okna – od akej vzdialenosti je nájdený
segment nerelevantný?● Ak to je potrebné, upraviť penalizačnú
funkciu
Postup práce I
● Užívateľský prieskum● Ako užívatelia vnímajú rôzne postavenie nájdeného
segmentu vzhľadom na relevantný začiatok segmentu?
● Špeciálne upravený prehrávač dát● Dáta z projektu Malach – ručne anotované začiatky
tém● Simulácia vyhľadávacích systémov
– Náhodne generované body namiesto reálnych odpovedí vyhľadávacieho systému (playback point)
Postup práce II
● Užívateľom sme predložili playback point (simulovaný začiatok)● Blízko pri ručne označenom začiatku relevantného
segmentu● Užívatelia sa pohybovali v nahrávke a označili
bod, kde relevantný úsek začína podľa nich● Merali sme ako rýchlo boli schopní tento bod určiť● Následne určili ako boli s vyhľadaným (simulovaným)
bodom spokojní
Užívateľské rozhranie
Užívateľský prieskum
Priebeh prieskumu 3. 3. 2011 - 18. 3. 2011
Počet účastníkov 24
Počet získaných hodnotení 263
Priemerný počet hodnotení na jedného užívateľa 11
Priemerný čas strávený jedným užívateľom pri prieskume 59,95 min
Výsledky prieskumu – rýchlosť hodnotenia
● Čas od spustenia prehrávania do času keď užívateľ označí začiatok relevantného úseku
● Užívatelia označia začiatok rýchlejšie keď sa playback point nachádza pred začiatkom relevantného segmentu
Výsledky prieskumu – subjektívne hodnotenie
● Užívatelia označili, ako sú spokojní so simulovaným začiatkom segmentu
● Najspokojnejší sú keď playback point leží blízko pred začiatkom relevantného segmentu, ale funkcia klesá pomalšie keď playback point leží za začiatkom relevantného segmentu
Výsledky prieskumu - závery
● Užívatelia preferujú začiatky vyhľadané pred skutočnými začiatkami tém
→ penalizačná funkcia je asymetrická● Ak je vyhľadaný bod vzdialený nanajvýš minútu od
začiatku témy, nemá to vplyv na kvalitu vyhľadávania → tieto body by nemali byť penalizované
● Užívatelia sú ochotní hľadať začiatok témy aj v prípadoch, keď je vyhľadaný bod vo väčšej vzdialenosti od začiatku témy
→ penalizačná funkcia by mala byť širšia
Návrh penalizačnej funkciePôvodná penalizačná funkcia
Upravená penalizačná
funkcia
Korelácia penalizačných funkcií
● Korelácia penalizačných funkcií získaná na dátach reálnych vyhľadávacích systémov (15 systémov)
Záver
● Vyhľadávanie relevantného segmentu v audio-vizuálnych nahrávkach● Vyhodnotenie vyhľadávania: metrika mGAP● Chýbajúce empirické výskumy v tejto oblasti
● Vyhodnotenie správania užívateľov vyhľadávacích systémov● Na kolekcii Malach
● Metrika mGAP koreluje so správaním respondentov, je vyhovujúca
... ale môže byť ďalej vylepšená
Ďakujem za pozornosť