25
Indexarea documentelor WEB Bibliografie Reg˘ asirea Informat ¸iilor pe WEB Curs 02: Indexare (1) ¸ s.l. dr. ing. Alexandru ARCHIP [email protected] Facultatea de Automatic˘ si Calculatoare, Ia¸ si an universitar: 2014 – 2015 RIWeb 2014 – 2015/C02: Indexare 1/ 25

Curs nr. 02 - Indexare (1).pdf

Embed Size (px)

Citation preview

  • Indexarea documentelor WEB Bibliografie

    Regasirea Informatiilor pe WEBCurs 02: Indexare (1)

    s.l. dr. ing. Alexandru [email protected]

    Facultatea de Automatica si Calculatoare, Iasi

    an universitar: 2014 2015

    RIWeb 2014 2015/C02: Indexare 1/ 25

  • Indexarea documentelor WEB Bibliografie

    Cuprins

    1 Indexarea documentelor WEBDefinitiiCaracteristici generaleProcesul de indexareTipuri de indexareExemplificari ale tipurilor de indecsi

    RIWeb 2014 2015/C02: Indexare 2/ 25

  • Indexarea documentelor WEB Bibliografie

    Motor de cautare pe WEB

    Figura 1 : Arhitectura generala a motoarelor de catare pe WEB (preluare din [2])

    RIWeb 2014 2015/C02: Indexare 3/ 25

  • Indexarea documentelor WEB Bibliografie

    Definitii

    Notiuni intoductive

    Definitii

    Indexarea reprezinta procesul prin care datele unei colectii sunt reorganizaten scopul de a fi regasite usor si precis.

    Indexer-ul reprezinta acea entitate computationala (program/multime deprograme) ce implementeaza procesul de indexare.

    WEB indexing reprezinta aplicarea procesului de indexare asupra continutuluiWEB.

    In mod uzual, algoritmii de indexare utilizati de motoarele de cautare WEBsunt algoritmi de indexare orientati pe colectii de tip text.

    Algoritmii specializati pe indexare sunt algoritmi bazati pe concepteinterdisciplinare din domenii precum lingvistica, psihologie, matematica,informatica si stiinta calculatoarelor.

    RIWeb 2014 2015/C02: Indexare 4/ 25

  • Indexarea documentelor WEB Bibliografie

    Caracteristici generale

    Caracteristici generale

    Factorii ce influeteaza procesul de indexare

    Combinarea valorilor unui set de indecsi: influenteaza modul n care estetratat un document n momentul indexarii.

    Dimensiunea unui index si tehnicile de stocare ale indecsilor:influenteaza modul n care este stocata informatia indexata si necesarul dememorie.

    Viteza de regasire a unui index: este dependenta de structura de datedestinata stocarii unui index si influenteaza rapiditatea regasirii unui anumitindex/set de indecsi, precum si operatiile ce tin de reactualizarea informatiilorreferite de un anumit index/set de indecsi.

    Mentenanta bazei de indecsi.

    Toleranta la defecte: influenteaza modalitatea de regasire a indecsilorcorupti, precum si functionarea indexer-ului n conditii de indecsi corupti.

    RIWeb 2014 2015/C02: Indexare 5/ 25

  • Indexarea documentelor WEB Bibliografie

    Caracteristici generale

    Caracteristici generale (2)

    Structuri de date specifice

    Arbori de indecsi structuri de date ordonate, utilizate n stocarea vectorilor desiruri de caractere (cuvinte), cheia primara de sortare fiind n acestcaz cuvantul n sine.

    Arbori sufix sunt structuri de date arborescente, ce suporta timpi liniari decautare. Sunt n mod frevent construiti prin stocarea unui set decuvinte cheie prin intermediul sufixului acestor cuvinte. Audezavantajul unui consum ridicat de memorie pentru stocareaindecsilor.

    Matrici de tip document-termen structuri de date bidimensionale, utilizate ncadrul indexarii directe, ce retin relativ la document, setul deindecsi ce se regasesc n cadrul documentului respectiv.

    RIWeb 2014 2015/C02: Indexare 6/ 25

  • Indexarea documentelor WEB Bibliografie

    Procesul de indexare

    Procesul de indexare

    Task de baza/Scop

    Procesarea unui set de documente (caz particular documente WEB) nvederea regasirii rapide a documentelor ce contin un anumit cuvant/set decuvinte (index/set de indecsi).

    Privit din punctul de vedere al intrarilor/iesirilor, procesul de indexareare:

    intrari: colectia de documente ce trebuie indexate;iesiri: structuri de cautare indexate pentru colectia de intrare.

    RIWeb 2014 2015/C02: Indexare 7/ 25

  • Indexarea documentelor WEB Bibliografie

    Procesul de indexare

    Procesul de indexare (2)

    Rezultat

    Dictionarul de indecsi contine cheile de indexare obtinute n urma analizeicolectiei de documente si un set de pointeri catre valorileindexate corespunzatoare fiecarei chei.

    Setul de fisiere de index pentru fiecare cheie de indexare, n cadrul acestorfisiere se vor retine valorile indexate asociate.

    Etape principale

    Pre-procesare:

    mpartirea textului n cuvinte (se mai numeste token-izare);prelucrarea listei de token-uri obtinute.

    Construirea efectiva a indexului de interes.

    RIWeb 2014 2015/C02: Indexare 8/ 25

  • Indexarea documentelor WEB Bibliografie

    Procesul de indexare

    Procesul de indexare (3)

    Preprocesarea

    Definitie (n general): procesul prin intermediul caruia un set de date estealterat n vederea realizarii unei anumite analize.

    Particularizare analiza/indexarea documentelor text: transformareadocumentelor text pentru a elimina/transforma entitatile/cuvintele ce potafecta negativ procesul de indexare.

    Probleme ce trebuie adresate/rezolvate:

    ce se considera cuvant semnificativ?semnele de punctuatie exemplu: e-mail sau vs.?cand sunt semnificative valorile numerice?cand trebuie considerate fraze/sintagme n loc de cuvinte?cuvintele trebuie sa se regaseasca n forma de baza.

    RIWeb 2014 2015/C02: Indexare 9/ 25

  • Indexarea documentelor WEB Bibliografie

    Procesul de indexare

    Procesul de indexare (4)

    Pre-procesare etapa de token-izare

    (pentru documente HTML)

    1 (n mod uzual, simplist) se elimina toate etichetele HTML

    n principiu, textul util din cadrul atributelor diferitelor etichete nu esterandat de un browser Web, deci utilizatorul final nu poate citi acest text...

    2 se mparte textul ntr-o lista de cuvinte

    prin cuvant se ntelege, n mod uzual, o succesiune de caractere alfabetice(fara semne de punctuatie, caractere de tip separator, etc.) [3];se elimina cuvintele de tip zgomot (pe baza unei liste numite n mod uzualstopwords) [3].

    RIWeb 2014 2015/C02: Indexare 10/ 25

  • Indexarea documentelor WEB Bibliografie

    Procesul de indexare

    Procesul de indexare (5)

    Pre-procesare etapa de prelucrare a token-urilor

    (stemming and lemmatization)

    scopul principal al acestei etape este de a aduce cuvintele la forma canonica;

    etapa este n mod uzual una extrem de laborioasa si puternic dependenta delimba n care este redactat documentul analizat;

    (n mod uzual) exista doua tehnici prin intermediul caror se poate realizaacest proces:

    tehnici de tip stemmingimprecise, supuse unor errori aparent ridicole (multe cazuri deexceptie), dar foarte rapide

    Porter [2, 3], Lovins [2], Paice stemmer [2];

    tehnici de tip analiza morfologica (eng. lemmatization)rezultatele sunt mult mai precise, dar procesul este unulextrem de laborios [2].

    RIWeb 2014 2015/C02: Indexare 11/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare

    Indexarea directa

    Definitie: reprezinta modalitatea de indexare ce are drept scop determinareaindecsilor relativ la document.

    Utilizeaza structuri de date ordonate, pentru care cheia primara de ordonareeste data de un identificator unic al documentului.

    Sinonim indexare orizontala.

    Forma generala

    < docID : {termIDx |termIDx docID} >unde:

    docID identificator numeric atasat unui document;

    termIDx identificator numeric atasat unui token (cuvant obtinut dupapre-procesare) inclus n documentul curent.

    RIWeb 2014 2015/C02: Indexare 12/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (2) Indexarea directa

    Utilitatea acestei forme de indexare

    Indecsii inversi sunt, n mod uzual, construiti pe baza indecsilor directicorespunzatori.

    Indecsii directi sunt utilizati n cadrul diferitelor metode de analiza decontinut si pot contribui la determinarea relevantei unui document relativ la oanumita sintagma de cautare.

    RIWeb 2014 2015/C02: Indexare 13/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (3) Indexarea directa (2)

    Sub-clase ale index-ului direct

    Boolean lista termIDx cuprinde token-urile o singura data, fara alte datesuplimentare;

    Cantitativ lista termIDx cuprinde pentru fiecare token si numarul de aparitiin cadrul documentului;

    Pozitional lista termIDx cuprinde pentru fiecare token si numarul de aparitiin cadrul documentului si, pentru fiecare aparitie, pozitia relativaa acelei aparitii (ca numar de ordine);

    aceasta ultima forma este mai putin utilizata.

    RIWeb 2014 2015/C02: Indexare 14/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (4)

    Indexarea inversa

    Definitie: reprezinta modalitatea de indexare ce are drept scop determinareadocumentelor relativ la index.

    Utilizeaza structuri de date ordonate, pentru care cheia primara de ordonareeste data de indecsi sau de identificatori unici ai indecsilor.

    Sinonim indexare verticala.

    Forma generala

    < termID : {docIDy |termID docIDy} >unde:

    termID identificator numeric atasat unui token (cuvant obtinut dupapre-procesare);

    docIDy identificator numeric atasat unui document n cadrul caruia seregaseste token curent.

    RIWeb 2014 2015/C02: Indexare 15/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (5) Indexare inversa

    Utilitatea acestei forme de indexare

    Indexarea inversa reprezinta componenta de baza a oricarui motor decautare!!

    RIWeb 2014 2015/C02: Indexare 16/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (6) Indexare inversa (2)

    Sub-clase ale indexului invers

    Boolean lista docIDy contine numai ID-urilor acelor documente ce contintoken-ul curent, fara alte date suplimentare;

    n mod uzual, aceasta forma de indexare inversa este utilizata ncadrul motoarelor de cautare ce implementeaza functii booleenesimpliste.

    Cantitativ lista docIDy contine lista ID-urile acelor documente ce contintoken-ul curent si, pentru fiecare docIDy , numarul de aparitii aletoken-ului n cadul documentului docIDy ;

    n aceasta forma, un astel de index nu este foare util n cadrulmotoarelor de cautare.

    RIWeb 2014 2015/C02: Indexare 17/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (7) Indexare inversa (3)

    Sub-clase ale indexului invers (2)

    Bi-cuvant (eng. biword index) [2]

    reprezinta o derivare a formelor anterioare, menita sa adresezeinterogarile complexe ale utilizatorilor;

    fata de forma generala, indexul invers este populat astfel ncat saincluda si perechi de token-uri consecutive:< termIDi termIDi+1 : {docIDy |termIDi docIDy and termIDi+1 docIDy} >;poate complica mult construirea indexului si nu rezolva decat uncaz particular de interogari ale utilizatorilor.

    RIWeb 2014 2015/C02: Indexare 18/ 25

  • Indexarea documentelor WEB Bibliografie

    Tipuri de indexare

    Tipuri de indexare (8) Indexare inversa (4)

    Sub-clase ale indexului invers (3)

    Pozitional

    lista docIDy este alterata astfel ncat sa contina ID-uriledocumentelor ce includ token-ul curent, pentru fiecare astfel de ID numarul de aparitii n cadrul documentului, si pentru fiecareastfel de aparitie, pozitia relativa n cadrul documentului:

    < termID : {(docIDy , counttermID : {positioniy |i 1 counttermID}

    )}, ...>

    unde

    counttermID numarul de aparitii alte token-ului n cadrul luidocIDy ;

    RIWeb 2014 2015/C02: Indexare 19/ 25

  • Indexarea documentelor WEB Bibliografie

    Exemplificari ale tipurilor de indecsi

    Exemplificarea diferitelor tipuri de indecsi

    Colectia de documente

    Doc1 Data mining este o tehnica noua de analiza a datelor.

    Doc2 Tehnicile data mining pot aduce informatii noi.

    Doc3 Datele sunt colectate prin tehnici specifice.

    Vocabular de lucru

    data, mining, tehnica, noutate, analiza, informatie

    RIWeb 2014 2015/C02: Indexare 20/ 25

  • Indexarea documentelor WEB Bibliografie

    Exemplificari ale tipurilor de indecsi

    Exemplificarea diferitelor tipuri de indecsi (2)

    Tabelul 1 : Index direct boolean

    Doc1 {analiza, data, mining, noutate, tehnica}Doc2 {data, informatie, mining, noutate, tehnica}Doc3 {data, tehnica}

    RIWeb 2014 2015/C02: Indexare 21/ 25

  • Indexarea documentelor WEB Bibliografie

    Exemplificari ale tipurilor de indecsi

    Exemplificarea diferitelor tipuri de indecsi (3)

    Tabelul 2 : Index direct cantitativ

    Doc1 {(analiza, 1), (data, 2), (mining, 1), (noutate, 1), (tehnica, 1)}Doc2 {(data, 1), (informatie, 1), (mining, 1), (noutate, 1), (tehnica, 1)}Doc3 {(data, 1), (tehnica, 1)}

    RIWeb 2014 2015/C02: Indexare 22/ 25

  • Indexarea documentelor WEB Bibliografie

    Exemplificari ale tipurilor de indecsi

    Exemplificarea diferitelor tipuri de indecsi (4)

    Tabelul 3 : Index invers cantitativ

    analiza {(Doc1, 1)}data {(Doc1, 2), (Doc2, 1), (Doc3, 1)}informatie {(Doc2, 1)}mining {(Doc1, 1), (Doc2, 1)}noutate {(Doc1, 1), (Doc2, 1)}tehnica {(Doc1, 1), (Doc2, 1), (Doc3, 1)}

    RIWeb 2014 2015/C02: Indexare 23/ 25

  • Indexarea documentelor WEB Bibliografie

    Exemplificari ale tipurilor de indecsi

    Exemplificarea diferitelor tipuri de indecsi (5)

    Tabelul 4 : Index invers pozitional

    analiza {(Doc1, 1: )}data {(Doc1, 2: ), (Doc2, 1: ), (Doc3, 1: )}informatie {(Doc2, 1: )}mining {(Doc1, 1: ), (Doc2, 1: )}noutate {(Doc1, 1: ), (Doc2, 1: )}tehnica {(Doc1, 1: ), (Doc2, 1:), (Doc3, 1: )}

    RIWeb 2014 2015/C02: Indexare 24/ 25

  • Indexarea documentelor WEB Bibliografie

    Bibliografie

    1 M. Craus et al., Regasirea Informatiilor pe WEB, Editura POLITEHNIUM,Iasi 2005, capitolul 4

    2 Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze,Introduction to Information Retrieval, Cambridge University Press. 2008

    3 Raymond J. Mooney Information Retrieval and Web Search (note de curs)

    4 Wikipedia Index (search engine)

    RIWeb 2014 2015/C02: Indexare 25/ 25

    Indexarea documentelor WEBDefinitiiCaracteristici generaleProcesul de indexareTipuri de indexareExemplificari ale tipurilor de indecsi