SYSTEMY WYSZUKIWANIA INFORMACJI
Agnieszka Nowak - Brzezińska
17 października 2019
Wykład 2
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Prosty język deskryptorowy
Języki informacyjno-wyszukiwawcze (JIW) – język sztuczny owyspecjalizowanych funkcjach odtwarzania treści i formydokumentów oraz treści zapytań użytkowników a takżewyszukiwania dokumentów w zbiorze informacyjnym wodpowiedzi na zapytanie użytkownika.Rodzaje JIW: Języki deskryptorowe, Języki słów kluczowych,Języki haseł przedmiotowych, i inne.Do opisu obiektów oraz do zadawania pytań i generowaniaodpowiedzi w systemie wyszukiwania informacji S zdefiniowanyzostał język informacyjny LS . Jest on prostym językiemdeskryptorowym określonym jako para (alfabet, gramatyka).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Alfabet języka LS
Alfabet języka LS składa, się z następujących symboli:1 0,1 - stałe,2 A - zbiór nazw atrybutów,
V - zbiór nazw wartości atrybutów. (W dalszym ciągu zbiórnazw atrybutów i zbiór nazw wartości atrybutów będzienazywany: zbiorem atrybutów, zbiorem wartości atrybutów).
3 + ,·,v - symbole operacji logicznych ”lub”, ”i”, ”nie”,4 (,)- nawiasy.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Gramatyka języka LS
Gramatyka języka LS zadana jest przez określenie zbiorudopuszczalnych słów (termów) języka i ich znaczenia (wartości).Zbiór termów TS języka LS określony jest w następujący sposób:
1 stale 0,1są termami w LS ,2 każdy deskryptor (a, v), gdzie a ∈ A, v ∈ Va- jest termem
w LS ,3 jeżeli t, t
′są termami t, t
′ ∈ TS to:v t- jest termem w LS ,t + t
′- jest termem w LS ,
t · t ′ - jest termem w LS .Przykładem termu języka LS jest:
t = (Wydawnictwo,PWN),t = (Wydawnictwo,PWN) · (Rok wydania, 2003),t = (Wydawnictwo,PWN)+(Dziedzina, Informatyka)itp.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów
Znaczenie termów określa funkcja σ odwzorowująca zbiór termówTS systemu S w zbiór obiektów X :
σ : TS → P(X ) (P(X )− rodzina podzbiorów zbioru X ).
Funkcja σ jest określona w następujący sposób:1 σ(0) = ∅ σ(1) = X ,2 σ(a, v) = { x ∈ X : ρx(a) = v },3 σ(v t) = X\σ(t),σ(t + t
′) = σ(t) ∪ σ(t ′),
σ(t · t ′) = σ(t) ∩ σ(t ′).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów c.d.
Znaczeniem termu będącego stałą 0 jest zbiór pusty, a termubędącego stałą 1 - pełny zbiór obiektów.Znaczeniem (wartością) deskryptora jest zbiór obiektów,w których opisie dany deskryptor występuje.Znaczeniem negacji termu jest dopełnienie zbioru obiektówopisanych tym termem do zbioru pełnego.Wartością (znaczeniem) sumy (iloczynu) termów jest suma(iloczyn) zbiorów obiektów będących wartościami tych termów.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Term elementarny
Term t będziemy nazywać elementarnym, jeżeli tma postać:
t = (a1, v1) · (a2, v2), . . . , (am, vm) , gdzie ai ∈ A, vi ∈ Vai .
Zbiór termów elementarnych oznaczać będziemy TE . Przykłademtermu elementarnego dla systemu o trzech atrybutach:Wydawnictwo, Rok wydania i Dziedzina, będzie term postaci:
t = (Wydawnictwo, PWN) · (Rok wydania, 2003) · (Dziedzina,informatyka).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Jeżeli atrybutami w pewnym systemie są np.: wiek, wzrost, koloroczu, płeć, a wartościami tych atrybutów są przykładowo: 33 lata,182 cm. niebieski, kobieta, wówczas odpowiedni term elementarnymożna zapisać jako:
t = (wiek, 33) · (wzrost, 182) · (kolor oczu, niebieski) · (płeć,kobieta).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Własności termów elementarnych
Jeżeli przez dj oznaczymy deskryptor (aj , vj) , to term elementarnymożna zapisać jako iloczyn deskryptorów z każdego atrybutu:
t = d1 · d2 · . . . · dm
.Termy elementarne mają następujące własności:
1∧
t,t′∈TE ,t 6=t′ (σ(t) ∩ σ(t′) = ∅),
2⋃
t∈TEσ(t) = X
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Normalizacja termów
Normalizacja tekstu – proces przetwarzania tekstów, nadającymu spójną formę, ułatwiającą dalszą interpretację. Częstostosowana jako etap wstępny do późniejszego parsowania.Założeniem normalizacji jest zmiana formy przetwarzanegotekstu z formy pisanej na mówioną. W takim ujęciuzagadnienie to przypomina tłumaczenie automatyczne, gdzietłumaczony jest tekst pisany na tekst mówiony.Normalizacja termów - proces przetwarzania termów, nadającyim formę sumy termów elementarnych, co pozwala na szybkiewyszukiwanie odpowiedzi na pytania w postaci termówelementarnych (m.in. w metodzie składowych atomowych).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Term normalny i term składowy
Term t nazywać będziemy normalnym jeśli jest on sumą termówelementarnych: t = t1 + t2 + . . .+ tm, ti ∈ TE (i = 1, . . . ,m).Term t będący iloczynem wartości różnych atrybutów języka LS opostaci t = d1 · d2 · . . . · dk , k ≤ m nazywać będziemy termemskładowym. Zatem term składowy nie musi zawierać wszystkichatrybutów systemu S . Term elementarny stanowi szczególnyprzypadek termu składowego. Na przykład dla systemu o 4atrybutach: wiek, wzrost, kolor oczu, płeć, term składowy możemieć postać:
ts = (wiek, 33) · (kolor oczu, niebieski),lub
t′s = (wzrost, 170) · (płeć, kobieta) · (kolor oczu, niebieski).
Odpowiedzią na podany term ts będzie zbiór osób posiadającychwyżej wymienione cechy, tzn. w wieku 33 lat i o kolorze oczuniebieskim, a na term t
′s odpowiedzią będzie zbiór kobiet o wzroście
170 i niebieskich oczach.Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Równość i zawieranie termów w systemie S
Powiemy, że termy t i t′są równe w systemie S - (symbolicznie
t = t′) wtedy i tylko wtedy, gdy wartości termów są równe:
t = t′ ⇔ σ(t) = σ(t
′)
Term t jest zawarty w t′(t ≤ t
′) wtedy i tylko wtedy, gdy zbiór
obiektów odpowiadający wartości termu t′jest zawarty w zbiorze
obiektów odpowiadających wartości termu t :
t ≤ t′ ⇔ σ(t
′) ⊆ σ(t)
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Równość i zawieranie termów w systemie S - przykład
Weźmy pod uwagę dwa termy:
ts = (wiek, 33) · (kolor oczu, niebieski),
t = (wzrost, 170) · (płeć, kobieta) · (wiek, 33) · (kolor oczu,niebieski).
Odpowiedzią na pytanie t będą zatem te osoby, które sąodpowiedzią na pytanie ts i spełniają dodatkowe warunki ((wzrost,170) i (płeć, kobieta)). Łatwo zauważyć, że ts ≤ t, gdyżσ(t) ⊆ σ(ts).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów - przykłady:
Niech alfabetem dla systemu S będą: Stałe: 0 i 1 Symbole: +,*,∼, →, ↔ Atrybuty: {a, b, c} i ich wartości:{v1, v2,w1,w2, u1, u2, u3}
Termy:
(a, v1) + ((b,w2) ∗ (c , u2))
∼ [(a, v2) ∗ (a, v1)] ∗ (c, u3)(b,w1) + (c , u1)
(b,w1)→ (c , u1)
(a, v2)↔ (b,w2)
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów - przykłady:
Wtedy znaczeniem termu:
(a, v1) + ((b,w2) ∗ (c , u2))
będzie:σS((a, v1) + ((b,w2) ∗ (c , u2)) =
{x1, x3, x4, x6} ∪ ({x3, x4, x5} ∩ {x1}) = {x1, x3, x4, x6}
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów - przykłady:
Wtedy znaczeniem termu:
∼ [(a, v2) ∗ (a, v1)] ∗ (c, u3)
będzie:
σS(∼ [(a, v2) ∗ (a, v1)] ∗ (c , u3)) =∼ ∅ ∪ {x2, x5, x6} = X
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przykład systemu informacyjnego
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Zastosowanie modelu funkcyjnego do opisu metodwyszukiwania informacji
Stosując założenia systemu funkcyjnego, zdefiniowane pojęcia orazprosty język deskryptorowy przedstawimy opis znanych metodwyszukiwania informacji, zwracając szczególną uwagę na samproces wyszukiwania.Omawiając metody wyszukiwania informacji z punktu widzeniasystemu wyszukiwania informacji przeanalizujemy następująceparametry tych metod, istotne przy wyborze metody wyszukiwaniaw realizowanym systemie:
1 Strukturę (organizację) bazy danych2 Redundancję i zajętość pamięci3 Aktualizację bazy danych4 Czas wyszukiwania informacji5 Język wyszukiwania6 Tryb pracy systemu.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Ad 1. Problem struktury bazy danych będzie rozpatrywanyjedynie z punktu widzenia organizacji kartoteki wyszukiwawczejdla danej metody wyszukiwania - nie będziemy tu wchodzićw szeroki problem struktur danych i baz danych.Ad 2. Redundancję będziemy rozpatrywać jako redundancjęobiektową (powielenie się opisu obiektów w bazie danych) lubadresową (powielenie się adresów). Zajętość pamięci będziemyrozpatrywać głównie jako zajętość pamięci związanąz wprowadzaną kartoteką wyszukiwawczą.Ad 3. W procesie aktualizacji będziemy uwzględniaćaktualizację związaną ze zmianą liczby obiektów w baziedanych (dodanie obiektu, usunięcie obiektu), aktualizacjęzwiązaną ze zmianą opisu deskryptorowego obiektu.Ad 4. Czas wyszukiwania będzie to czas potrzebny naznalezienie odpowiedzi na pytanie skierowane do systemu.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przegląd metod wyszukiwania informacji
MLPMLIMLŁSaltonMSA
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda list prostych
W metodzie list prostych, zwanej również metodą przegląduzupełnego, kolejność pamiętania informacji w bazie danych systemujest dowolna (np. zgodna z kolejnością napływania informacji).Informacje mogą być pamiętane w postaci dokumentów źródłowychlub w postaci dokumentów wtórnych. Do systemu zadawane jestpytanie dotyczące obiektu o wskazanym opisie. Pytanie toporównywane jest z opisem każdego obiektu w bazie danych i jakoodpowiedź wybiera się te obiekty, których opis jest zgodnyz pytaniem.Znalezienie odpowiedzi na pytanie zadane do systemu wymagaw tej metodzie dokonania przeglądu wszystkich opisów obiektóww bazie danych (przegląd zupełny).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda list inwersyjnych
Opisy obiektów w tej metodzie są określone przez podanie wartościcech, za pomocą których opisujemy obiekty w systemie -deskryptorów. Dla każdego deskryptora w systemie tworzona jestlista obiektów zawierających w swoim opisie ten deskryptor (listainwersyjna). Listy inwersyjne pozwalają szybko znaleźć odpowiedźna pytanie zadane do systemu. Jeżeli pytamy o obiekty mające wswoim opisie określony deskryptor, to dla znalezienia odpowiedziwystarczy znaleźć właściwą listę inwersyjną. Jeżeli pytanie dotyczyobiektów opisanych kilkoma deskryptorami, to aby otrzymaćodpowiedź, należy znaleźć listy inwersyjne dla wszystkichdeskryptorów występujących w pytaniu. Obiekty występującerównocześnie we wszystkich znalezionych listach stanowiąodpowiedź na pytanie. Zatem dla znalezienia odpowiedzi na pytanieskierowane do systemu wystarczy wykonać pewne operacje nalistach inwersyjnych. Jest ona stosowana bardzo częstow rozwiązaniach projektowych, choć zwykle w postaci pewnychmodyfikacji.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda list łańcuchowych
Obiekty opisane są za pomocą deskryptorów, tak jak w metodzielist inwersyjnych. Opisy obiektów pamiętane są w bazie danychw dowolnej kolejności (tak jak w metodzie list prostych). Przykażdym deskryptorze w opisie obiektu umieszczone są odsyłaczewskazujące kolejny obiekt, w którego opisie dany deskryptorwystępuje. W ten sposób w bazie danych łatwo znaleźć tzw.”łańcuch” będący zbiorem obiektów, których opisy zawierają danydeskryptor. Jeżeli pytanie do systemu dotyczy obiektówzawierających w swoim opisie równocześnie kilka deskryptorów, tonależy znaleźć ”łańcuchy” obiektów dla każdego deskryptorawystępującego w pytaniu, a następnie obiekty występującerównocześnie we wszystkich tych łańcuchach. Wyszukane w tensposób obiekty będą stanowić odpowiedź na pytanie. Metoda dajeszybką odpowiedź szczególnie na pytanie jednodeskryptorowe.Metoda list łańcuchowych stosowana jest często w rozwiązaniachprogramowych systemów, niejednokrotnie w wersjach niecozmodyfikowanych.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda Saltona
W metodzie Saltona następuje podział wszystkich obiektów nagrupy o podobnym opisie. Każda grupa jest poprzedzonaokreślonym wektorem pojęć charakterystycznych dla danej grupy(wektor centroidalny, profil).Wyszukiwanie odpowiedzi polega na porównaniu pytaniaz wektorami pojęć charakteryzujących poszczególne grupyobiektów, a następnie wybraniu grup o wektorze najbardziejzbliżonym do pytania. Obiekty występujące w tych grupachstanowią tzw. odpowiedź przybliżoną na pytanie. Następniedokonuje się przeglądu zupełnego wybranych obiektów dlaznalezienia odpowiedzi dokładnej, tzn. obiektów, których opisydokładnie odpowiadają pytaniu.Proces grupowania i porównywania pytania z pniami czy wektoramipojęć odbywa się poprzez znajdowanie współczynnikówpodobieństwa pomiędzy pojęciami występującymi w opisachobiektów a pojęciami występującymi w pytaniu lub pojęciamiwystępującymi w wektorze pojęć danej grupy.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda składowych atomowych
Wszystkie obiekty w bazie danych dzielimy na tzw. ”składoweatomowe”, tzn. podzbiory obiektów o identycznym opisie. W baziedanych pamiętane są adresy składowych atomowychi odpowiadające im zbiory obiektów.Dla zadanego pytania łatwo znaleźć adres odpowiedniej składowejatomowej a przez to odpowiedź na zadane pytanie.Wyszukiwanie odpowiedzi na pytanie odbywa się szybko.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia podstawowa:
Pawlak Z.: Systemy informacyjne. Podstawy teoretyczne,Warszawa, WNT, 1983.
Salton G.: SMART automatyczny system wyszukiwaniainformacji, Warszawa, WNT, 1975.
Wakulicz-Deja A., Boryczka U., Nowak - Brzezińska A.:Podstawy Systemów Wyszukiwania Informacji. Analiza metod,EXIT, Warszawa, 2014.
Grzelak K., Kochańska J.: System wyszukiwania informacjimetodą składowych atomowych MSAWYSZ, Warszawa :Instytut Podstaw Informatyki Polskiej Akademii Nauk, 1983.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia dodatkowa:
Dąbrowski M., Laus-Mączyńska K.: Metody wyszukiwania iklasyfikacji informacji, Warszawa, WNT, 1978.
Van Rijsbergen C.J.: Information Retrieval,Butterworth-Heinemann, ISBN 0408709294, 2009.
Wakulicz-Deja A.: Metody wyszukiwania informacji.Zagadnienie implementacji, (skrypt U. Śl.) Katowice, 1985.
Kłopotek M.A.: Inteligentne wyszukiwarki internetowe.Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, ISBN83-87674-31-1.
Wakulicz-Deja A.: Podstawy systemów wyszukiwaniainformacji. Analiza metod., Akademicka Oficyna Wydawnicza,Warszawa, 1995.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI