Klasifikacija - Naive Bayes

8/15/2019 Klasifikacija - Naive Bayes

1/19

Univerzitet u Nišu, Elektronski fakultet

Klasifikacija u oblasti pretra živanja inforamcija Naive Bayes tekst klasifikator

Studenti: Profesor:Aleksan ar Bojkovid Suzana Stojkovid Nena Bugarid


2/19

2

Sadržaj

1. Uvod ...................................................................................................................................................... 3

1.1. Primena klasifikacije ...................................................................................................................... 3

1.2. Problem tekst klasifikacije ............................................................................................................ 4

2. Klasifikacija pomodu Naive Bayes metode ............................................................................................ 5

3. Bernulijev model ................................................................................................................................... 9

4. Pore đen je Naive Bayes i Bernulijevog modela ................................................................................... 11

4.1 Varijanta mutlinomialnog modela .................................................................................................... 16

5. Implemantacija Naive Bayes klasifikatora .......................................................................................... 16

5.1. Interfejs aplikacije ....................................................................................................................... 17

5.2. Arhitektura aplikacije .................................................................................................................. 18

6. Literatura............................................................................................................................................. 19


3/19

3

1. Uvod

Klasifikacija okumenata je problem koji se javlja u više oblasti, među kojima je i računarstvo.Glavni problem je dodeliti dokument na osnovu njegovog sa ržaja je noj ili više klasa. Ovomože biti realizovano „ručno “ ilialgoritamski. Dokumenti na kojima se vrši klasifikacija mogubiti tekst, slike, muzika i slično. Ukoliko nije rugačije nave eno, po pojmom klasifikacijaobično po razumevamo klasifikaciju teksta.

1.1. Primena klasifikacije

Kao što je ved pomenuto, pojam klasifikacije je dosta generalan i ima dosta primena i vanoblasti pretraživanja informacija. Na primer u oblasti „kompjuterskog vi a“ klasifikator može

biti korišden a po eli slike u klase kao što su pejzaž, portert ili nijedno. Ov e de bitipredsta vljene samo neke o primena koje su vezane za pretraživanje informacija.

Automatska detekcija spam stranica, koje se kasnije ne indeksiraju od strane searchengine-a.

Sortiranje email- ova. G e korisnik može imati više fol era kao što su elektronski račini , porodica i prijatelji, socijalne mreže i slično, i želi o klasifikatora a klasifikuje svakipristigli imejl i smesti ga u o govarajudi fol er.

Pradenje vesti. U kompanijama koje su zasnovane na znaju, kao što je na primer berza,

veliki broj ljudi je za užen za pretraživanje novina i rugih izvora informacija koji se tičuinternacionalne ekonomije, ekonomije neke ržave, pre uzeda it . Pronađeneinformacije se šalju osobi koja kojoj su te informacije o interesa. Ovaj postupak semože automatizovati korišdenjem klasifikacije.

Automatska klasifikacija filma ili nekog proizvo a kao obrog ili lošeg na osnovu njegoverevizije.

Ova lista generalno pokazuje važnost klasifikacije u pretraživanju informacija. Vedina anašnjihsistema za pribavljanje informaci ja sa rži više komponenti koje koriste neku vrstu klasifikacije.

Kompjuter nije esencijalan za obavljanje klasifikacije. Mnogo klasifikacionih zadataka jetradicion alno rešavano ručno. Na primer knjige u biblioteci su razvrstavane po žanrovima odstrane bibliotekara. Ali ručna klasifikacija je skupa i spora meto a, pa se pribeglo traženjurešenja kojim bi automatizovali ovaj postupak.

Automatska klasifikacija dokumenata realizuje se preko jednog od dva metoda za klasifikaciju, ato su:


4/19

4

Ručno ko iranisistemi zasnovani na pravilima (Hand-coded rule-based systems) Klasifikacija zasnovana na mašinskom učenju (machine learning-based)

Ručno ko irani sistemi zasnovani na pravilima funkcionišu tako što “hvatanju” o ređenihkombinacija ključnih reči koje u toj kombinaciji indiciraju da dokument pripada konkretnoj klasi.Ovi sistemi su pouz ani i brzi ka a su korektno ko irani. Ali kreiranje i o ržavanje ovakvih

sistema je veoma komplikovano, i za to je potrebna osoba sa visokim tehničkim zna njem o ovimsistemim a kako bi napisana pravila avala za ovoljavajudu tačnost prilikom klasifikacije, a takveosobe nije uvek lako pronadi.

Ko klasifikacije zasnovane na mašinskom učenju, set pravila ili bolje rečeno kriterijum zao luku prilikom tekst klasifikacije se uči automatski iz trenažnih po ataka. Ovaj pristup se jošnaziva i statistička tekst klasifikacija ukoliko je meto učenja zasnovan na statistici. Kostatističke tekst klasifikacije zahteva se o ređeni broj obrih trenažnih okumenata za svakuklasu. Što znaci a potreba za ručnom klasifikacijom nije u potpunosto eliminisana, jer trenažne

okumente priprema čovek, čini je za atak a svaki okument iz trenažnog skupa o elio govarajudoj klasi. Ali to je neupore ivo je nostavniji za atak nego ručno ko iranje sistemazasnovanih na pravilima , i vedina lju i ga može obaviti.

1.2. Problem tekst klasifikacije

Kod tekst klasifikacije dat nam je opis dokumenta d ∈ X, g e je X “ proctor dokumenta ” i fiksniskup klasa C = { , , ... , }. Klase se takođe nazivaju ikategorije ili labele. Tipično je prostor

okumenta neki tip više imenzionalnog prostora, ok su klase efinisane o strane čoveka iodgovaraju potrebama konkretne aplikacije.

U prvom delu klasifikacije teksta, imamo trenažni set D označenih okumenata gde je∈ X × C. Na primer:

< ,c > = < Peking se pri ružuje svetsko j trgovinskoj organizaciji, Kina >

Rečenici iz trenažnog seta u pre ho nom primeru o eljena je klasa ”Kina”, i tako označenarečenica se prosleđuje meto i (algoritmu) za učenje, čiji je zadatak da nauči klasifikacionufunkciju γ , koja vrši preslikavanje okumenta u klasu.

γ : X → C

Jednačina 1.1

Ovaj načim učenja naziva se „nadgledano učenje “, jer čovek koji vrši efinisanje klasa ioboležavanje okumenata ima ulogu učitelja koji iktira proces učenja. Ako meto na gle anogučenja označimo sa Γ i zapisemo kao Γ ( D ) = γ. On a meto učenja Γ uzima trenažni set

okumenata D kao ulaz i vrada naučenu klasifikacionu funkciju γ.


5/19

5

Uzmimo a postoji šest klasa (UK, China, ..., sports), i svakoj klasi je o eljen trenažni setokumenata, koji opisuje neke tipične primere koji se javljaju u tim klasama, i na osnovu kojih

se može izvršiti učenje klasifikacione funkcije γ. Ka a je funkcije γ naučena on a se možeprimeniti nad setom dokumenata namenjenom za testiranje ( test set ) čije su klase nepoznate.

Slika 1.1. – Primer korišćenja klasifikacione funkcije γ

U primeru izna klasifikaciona funkcija de izvršiti o eljivanje novog okumenta klasiChina , što je tačan o govor.

Klase ko tekst klasifikacije često imaju neku o atnu strukturu kao sto je to u ovom primeruhijerarhija, gde imamo dve instance za svaku od kategorija (regions, industries, subject areas).Hijerarhija može bitiod pomod pri rešavanju problema klasifikacije.

2. Klasifikacija pomoću Naive Bayes metode

Naive Bayes meto je na gle ani meto za učenje koji je zasnovan na verovatnodi. Verovatnodada dokument d pripada klasi c se računa kao:

| ∏ | Jednačina 2.1


6/19

6

Gde je | uslovna verovatnoda a se termin javi u dokumentu klase c. | seinterpretira kao mera kojom oprinosi a je c o govarajuda klasa. je viša verovatnoda

a de ocument pripasti klasi c. Akodokument ne pokazuje jasno pripadnost jednoj klasi uodnosu na neku drugu, za klasu kojoj pripada bira se ona za koju dokument ima vedu vre nostP(c) . < > su tokeni iz documen ta, koji pripa aju rečniku koji koristimo zaklasifikaciju, je broj takvih tokena u dokumentu. Na primer, < > za documentkoji se sastoji o samo je ne rečenice: “Peking i Taipei se pri ružuju svetskoj trgovinskojorganizaciji ” mogu biti < Peking, Taipei, pri ružuje,svetskoj, trgovinskoj, organizaciji > sa

ukoliko tretiramo termine „i“ i „se“ kao stop reci.

Ko tekst klasifikacije cilj je nadi najboljuklasu za dokument. Najbolja klasa kod Naive Bayesklasifikacije je ona sa maksimalnom verovatnodom .

̂ | ̂ ̂ |

Jednačina 2.2

P se označava kao ̂ zato što vre nost parametara i | nije poznata, ved se vršinjena procena na osnovu trenažnih okumenata.

Množenje verovatnoda koje je ato u formuli izna za rezultat može ati toliko mali rezultat,koji se fizički ne može zapamtiti u memoriji računara. Zato se u je načinu uvo e logaritmi, iumesto množenja verovatnoda vrši se sabiranje logaritamskih vre nosti tih verovatnoda. Klasasa najvedom log verovatnodom i alje pose uje najvedu verovatnodu. Otu a se implementacijamaksima lne verovatnode ko NB-a najčešde realizuje kao:

̂ ̂ |

Jednačina 2.3

Svaki parameter ̂ | je težina koja pokazuje koliko je in ikator o govarajud zaklasu c. Slično tome, vre nost ̂ je težina koja je in ikator relativne frekvencije za klasuc. Klasa koja se češde javlja, verovatije je a je o govarajuda klasa za razliku o klase koja imamanju frekvencu pojavljivanja. Kao rezultat je načine ate izna , obija se klasa kojoj

okument su edi po ostupnim verovatnodama najve rovatnije pripada.Vrednost parametra ̂ koji pre stavlja relativnu frekvenciju okumenta se o ređuje kao:

̂

Jednačina 2.4


7/19

7

Gde je broj dokumenata koji pripadaju klasi c, dok je N ukupan broj dokumenata.

Uslovna verovatnoda ̂ | se izračunava kao relativna frekvencija termina t u dokumentimakoji pripadaju klasi c.

̂ | ∑ ∈ Jednačina 2.5

Gde je broj pojavljivanja termina u trenažnim okumentima za klasu c.

Problem ko ovakvog načina računanja verovatnode je taj što se za o ređene kombinacijetermin- klasa obija nula, jer se takva kombinacija nije javila u trenažnim okumentima. Ako sena primer termin „ G20“ javio samo u okumenti koji je o eljen klasi „Kina“, on a deverovatnoda a se taj termin o eli nekoj rugoj klasi kao npr. klasi „UK“ biti 0.

̂ |

Jednačina 2.6

Sa a bi okument koji se sastoji o je ne rečenice: „Engleska je članica grupe G20“, za uslovnuverovatnodu imao vre nost 0 za klasu UK, jer se ko NB verovatnode za svakitermin koji se javlja u okumentu međusobno množe.


8/19

8

Algoritam 2.1. – Naive Bayes trenažni algoritam i algoritam klasifikaciju

Jasno je da se zbog pojavljivanja termina Engleska, dokument treba dodeliti klasi UK. Ali to senije esilo zbog pojavljivanja nule u verovatnodi. I ma koliko velika veroavtnoda bila da

okument pripa a nekoj klasi, ukoliko se javi termin koji nije pokriven trenažnim okumentima,taj okument nede biti o eljen toj klasi.

Da bi se rešio ovaj problem uvo i se Laplasovo poravnjanje (Laplace smoothing), koje jednostavno dodaje jedan svakom broju:

̂ | ∑ ∈

∑ ∈ Jednačina 2.7

G e je B = |V| broj termina u rečniku. Do avanje je inice može se tumačiti kao pojavljivanje

svakog termina po jednom u svakoj klasi.

Primer:

Dat je trenažni set okumenata, kao i test okument na kojim je potrebno izvršiti klasifikaciju:

dokID reči u okumentu klasa

trenažniset

1 Kineski Peking Kineski kina

2 Kineski Kineski Sangaj kina

3 Kineski Makao kina

4 Tokio Japan Kineski japantest set 5 Kinaski Kineski Kineski Tokio Japan ?

Za po atke nave ene u tabeli izna prvo je potrebno o re iti verovatnode ̂ î . I one iznose ̂ i ̂ . A zatim treba odrediti i uslovneverovatnode:

̂ |

̂ | ̂ |

̂ |

̂ | ̂ |


9/19

9

Vrednosti u imeniocu su (8+6) i (3+6) jer je broj termina koji pripadaju klasama kina i japan 8 i3, a ceo rečnik se sastoji iz 6 je instvenih reči. Daljim računanjem obijamo:

|

| Klasifikator na osnovu obijenih rezultata (verovatnoda) vrši o elu okumenta klasikina , jerokument pose uje vedu verovatnodu za tu klasu.

3. Bernulijev model

Postoje va načina na koja se može realizovati NB klasifajer. Mo el koji je ved ranijepre stavljen i opisan je multinominalni mo el. On generiše po je an termin u rečnik za svakopojavljivanje u dokumentu.

Alternativa ovom multinominalnom modelu je multivarijabilni Bernulijev model. On gen erišein ikator za svako pojavljivanje termina u rečniku, tako što o eljuje vre nost 1 terminuukoliko se javio u dokumentu, ili 0 ukoliko nije bilo pojavljivanja termina.


10/19

10

Algoritam 3.1. – Bernulijev trenažni algoritam i algoritam klasifikacije

Različito kreirani mo eli imaju različite strategije procenjivanja kao i rauličita klasifikacionapravila. Bernulijev mo el vrši procenu ̂ | kao frakciju okumenta klase c koji sa rži termint. Za razliku od toga multinominalni model procenjuje ̂ | kao frakciju tokena ili frakcijupozicija u okumentu. Ka a se vrši klasifikacija teksta Bernulijev mo el koristi binarnopojavljivanje informacije, ignorišudi broj pojavljivanja, ok multinominalni mo el vo i računa oviše pojavljivanja. Kao rezultat Bernulijev mo el tipično pravi osta grešaka ka a se vršiklasifikacija ugačkih okumenata. Na primer može se esiti a se cela knjiga o eli klasi “kina”iako se ona javlja samo jednom u celoj knjizi.

Mo eli se takođe razlikuju i oko toga kako se termini koji se nisu javljali koriste u klasifikaciji.Oni ko multinominalnih mo ela ne utiču na na isho klasifikacije, ok se ko Bernulijevogmodela verovatnoda termina koji se nisu javljali uračunava prilikom izračunavanja P(c| ).

Ukoliko Bernulijev mo el primenimo na istim po acima koji su korišdeni za primer ra a NaiveBayes mo ela, obidemo isti rezultat za ̂ i ̂ kao i ranije i on iznosi:̂ i ̂ . Dok su vre nosti za uslovne verovatnode:

̂ |

̂ |̂ |

̂ |̂ |̂ | ̂ |

̂ | ̂ |

̂ |̂ | ̂ | Vrednosti koje se javljaju u imeniocu su (3+2) i (1+2) jer postoji 3 dokumenta koja pripadajuklasi kina i 1 dokument koji su deo klase japan , ok 2 pre stavlja va slučaja koja se razmatrajuza svaki termin i to da li se on pojavljuje ili ne. Rezultati koji su dobijeni za test dokument za ovedve klase su:


11/19


12/19

12

Jednacine (4.1) i (4.2)

gde ( , , ... , ) je sekvenca termina koji se pojavljuju u (bez termina koji su isključeni izrečnika) i ( , , ... , , ... , ) je binarni vektor dimenzije M koji ukazuje za svaki termin da lise javlja u d ili ne.

Sada bi trebalo da bu e jasnije zašto je uve en prostor okumenta X ka a je efinisan problem

klasifikacije. Kritičan korak u rešavanju problema klasifikacije teksta je izbor pre stavljanjadokumenta. (t 1, . . . , t nd ) i (e 1, . . . ,e M) su ve različite pre stave okumenata. U prvom slučaju,X je skup svih sekvenci termina. U rugom slučaju, X je {0,1}M.

Je načine (4.1) i (4.2) se ne mogu koristiti za klasifikaciju teksta irektno. Za Bernouli jev model,moralo bi biti procenjeno 2 M |C| različitih parametara, po je an za svaku mogudu kombinacijuM vrednosti klasu. Broj parametara u multinominalnom slu čaju bi imao isti stepen veličine, ito bi bila veoma velika količina po ataka, pa je procena ovih parametara pouz ano neizvo ljiva.

Slika 4.1

Da bi smanjili broj parametara, pravimo Naive Bayes uslovne pretpostavke nezavisnosti.Pretpostavljamo da su atributne vrednosti nezavisne jedna od druge s obzirom na klasu:

Jednačine (4.3) (4.4)

Uveli smo ov e ve nasumične promenljive a načinimo va različita generativna modelaeksplicitnim. je slučajna promenljiva za poziciju k u okumentu i uzima se kao vrednosttermina iz rečnika. P( = t|c) je verovatnoda a u okumentu klase c termin t de odi u pozicijuk. je nasumična promenljiva za termin rečnika i i uzima se kao vrednosti 0 (odsustvo) i 1(prisustvo). P( = 1|c) je verovatnoda a u okumentu klase c termin de odi- u bilo kompoložaju, a mož a više puta.


13/19

13

Ilustrujemo uslovnu pretpostavku nezavisnosti na slikama 4.1 i 4.2. Klasa China stvara vrednostiza svaki o atributa pet termina (multinomialno) ili šest binarnih atributa (Bernoulli) sao ređenom verovatnodom, nezavisno o vre nosti rugih atributa. Činjenica a okument uklasi China s a rži termin Taipei ne čini više verovatno ili manje verovatno a takođe sa ržiBeijing.

U stvarnosti, pretpostavka uslovne nezavisnost ne važi za po atke teksta. Uslovi su uslovnozavisni je ni o rugih. Ali, kao što demo ubrzo razmatrati, NB mo eli obro izvršavaju uprkospretpostavci uslovne nezavisnosti.

Slika 4.2

Čak i pretpostavljanjem uslovne nezavisnosti, još uvek imamo previše parametara zamutlinomialni mo el ako pretpostavimo rugačiju verovatnodu istribucije za svaku poziciju k udokumentu. Položaj termina u okumentu po sebi ne nosi informacije o klasi. iako postojirazlika između China sues France i France sues China , pojava China u poziciji 1 naspram pozicije3 dokumenta nije korisna u NB klasifikaciji jer gledamo svaki termin posebno. Pretpostavkauslovne nezavisnosti nas obavezuje na ovaj način obra e okaza.

Takođe, ako pretpostavimo različitu raspo elu termina za svaku poziciju k, mi bi morali aprocenimo rugi skup parametara za svako k. Verovatnoda a se bean pojavljuje kao prvoitermin dokumenta coffie bi mogla biti rugačija o toga a se pojavljuje kao rugi termin, i takodalje. To opet stvara probleme u proceni zbog skromnosti podataka.

Iz tih razloga, pravimo drugu pretpostavku nezavisnosti za multinomialni model, pozicionanezavisnost : uslovna verovatnoda za termin je ista nezavisno o položaja u okumentu.

Jednačina (4.5)

za sve pozicije , , termine t i c klase. Dakle, imamo poje inačnu istribuciju termina kojavaži za sve pozicije i možemo a koristimo X kao njen simbol.


14/19

14

Sa pretpostavkama uslovnih i pozicionih nezavisnosti, samo nam treba procena Q (M|C|)parametre P( |c) (multinomialni model) ili P( |c) (Bernoulli modela), po jedan za svakutermin-klasa kombinaciju, umesto b roja koji je bar eksponencijalni u M, veličini rečnika.Pretpostavke nezavisnosti smanjuju broj parametara koji se procenjuju na nekoliko redovaveličine.

Tabela 4.1

Da rezimiramo, generišemo okument u multinomialnom mo elu (slika 4.1) prvo birajudi klasuC = c sa P(c) g e je C nasumična promenljiva uzimajudi vre nosti iz C kao vre nosti. Sle ededemo generisati termin u poziciji k sa P( = |c) za svaku od nd pozicija dokumenta. sviimaju isti distribuciju oko termina za dati c. U primeru na slici 5.4, pokazujemo generaciju ( ,

, , , ) = (Beijing, i Taipei, pri ruži, WTO), koja o govara okumentu je ne rečeniceBeijing and Taipei join WTO .

Za potpuno o ređeni mo el generacije okumenta, takođe bi morali a efinišemo i stribucijuP( |c) kroz užine. Bez toga, multinomialni mo el je simbolični mo el generacije nego mo elgeneracije dokumenata.

Generišemo okument u Bernoulli mo elu (slika 4.2) prvo birajudi klasu C = c sa P(c) i zatimgenerišemo binarni in ikator ei za svaki termin ti o rečnika (1 ≤ i ≤ M). U primeru na slici 4.2,pokazujemo generaciju ( , , , , , ) = (0, 1, 0, 1, 1, 1), o govarajudi, opet, na je no-rečeničnii okument Beijing and Taipei join WTO , gde smo pretpostavili da je and zaustavna reč.

Upoređujemo va mo ela u Tabeli 4.1, uključujudi je načine procena i pravila o luke.

Naive Bayes se tako zove jer su pretpostavke nezavisnosti koje pravimo su zaista veoma naivneza mo el priro nog jezika. Pretpostavka uslovne nezavisnosti kaže a su karakteristikenezavisne je ne o rugih s obzirom na klasu. Ovo retko važi za termine u okumentima. Umnogim slučajevima, suprotno je istina. Parovi hong , kong , london ili english su primeri visokozavisnih termina. Pore toga, multinimialni mo el čini pretpostavku pozicione nezavisnosti.


15/19

15

Bernoulli mo el ignoriše potpuno pozicije u okumentima, jer samo brine o odsustvu iliprisustvu.

Tabela 4.2

O govor je a, iako su procene verovatnode NB niskog kvaliteta, njegove klasifikacione o lukesu iznenađujude obre. Uzmite u obzir okument sa pravim verovatnodama P( |d) = 0.6 iP( | ) = 0.4 kao što je prikazano u Tabeli 4.2. Pretpostavite a sa rži mnoge termine koji supozitivni pokazatelji za i mnoge termine koji su negativni pokazatelji za . Stoga, kada sekoristi multinomialni mo el u je načini (5.13), P( ) ∏1≤k≤n P( | ) de biti mnogo vede o P( )∏1≤k≤n P( | ) (0.00099 vs 0.00001 u tabeli). Posle podele sa 0.001 da bi dobili dobroformirane verovatnode za P(c| ), završavamo sa je nom procenom koja je blizu 1.0 i je nomkoji je blizu 0.0. Ovo je uobičajeno: Pobe nička klasa u NB klasifikaciji obično ima mnogo veduverovatnodu o ruge klase i procene se o vajaju veoma značajno o pravih verovatnoda. Alio luka klasifikacije je zasnovana na tome, koja klasa obija najviše bo ova. Nije bitno kolikosutačno procene. Uprkos lošim procenama, NB procenjuje vedu verovatnodu za i stoga

o eljuje na korektnu klasu u tabeli 4.2 Tačan procena po razumeva precizno pre viđanje, aliprecizno pre viđanje ne znači tačnu procenu. NB klasifikatori procenjuju loše, ali čestoklasifikovati dobro.

Čak i ako to nije meto sa najvišom tačnošdu teksta, NB ima mnoge vrline sto ga čini jakim

kan i atom za klasifikaciju teksta. Ona se ističe ako postoji mnoge po je nako važne osobinekoje zaje nički oprinose o luci klasifikacije. Takođe je onekle robustan karakteristikama buke(kako je efinisano u sle edem o eljku) i konceptualnom zanočenju - postepenoj promenitokom vremena koncepta osnovne klase kao od predsednika SAD'a Billa Clintona do George W.Bush. Klasifikato ri poput KNN'a mogu biti pažljivo po ešei na i iosinkratska svojstvimao ređenog vremenskog perio a. Ovo de biti loče po njih ka a okumenati u nare nom perio uimaju neznatno različita svojstva.

Tabela 4.3

Bernoulli model je posebno robustan u odnosu na konceptualno zanošenje. Najvažnijipokazatelji za klasu su manje po ložni promeni. Tako, a mo el koji se oslanja na samo ovefunkcije ima vedu šansu a se o rži o ređeni nivo tačnosti u konceptualnom zanosu.


16/19

16

Glavna snaga NB-a je efikasnost: Obuka i klasi fikacija može a se postigne sa je nim prelazompo ataka. Zato što kombinuje efikasnost sa obrom tačnošdu često se koristi kao polaznaosnova u istaživanju klasifikacije teksta. Često je izborna meto a ako (i ) ceđenje nekoliko ekstraprocenata tačnosti nije vre no tru a u aplikaciji klasifikacije teksta, (ii) veoma velika količinapo ataka za obuku je ostupna i više se obija na obuci na velikoj količini po ataka negokoristedi bolji klasifikator na manjem obučavajudem skupu, ili (ii ) ako se njegova robusnost na

konceptualnom z anosu može eksploatisati.

4.1 Varijanta mutlinomialnog modela

Alternativa formalizacija multinomialnog modela predstavlja svaki dokument d kao M-dimenzionalni vektor broja ( , ... , ) gde je termin učestalost u d. P(d|c) sezatim izračunava na sle edi način;

Jednačina (4.6)

Uz napomena da je izostaviljen multinomialni faktor.

Je načina (4.6) je ekvivalentna mo elu sekvence u je načini (2.1), kao P(X = |c)

= 1 za

termine koji se ne javljaju u d ( = 0) i termin koji se javlja ≥ 1 puta de oprineti faktori u je načini(2.1) i u je načini (4.6).

5. Implemantacija Naive Bayes klasifikatora


17/19

17

Pošto o va nave ena mo ela NaiveBayes ima nesto kompleksniju implementaciju, on je odabran kaomo el koji de se koristiti u aplikaciji koja vrši klasifikaciju okumenata.

5.1. Interfejs aplikacije

Grafički interfejs aplikacije je po eljen u tri celine koje pre stavljaju etape prilikom klasif ikacije

dokumenata.

Slika 5.1: GUI aplikacije

Prvi deo aplikacije orjentisan je na treniranje mo ela. I u njemu imamo mogudnost ao aberemo više irektorijuma u kojima se nalaze trenažni okumenti koji pre stavljajuo govarajude klase. Postupak za o abir irektoijuma svo i se na upisivanje željenog imena zaklasu u polje „Class name“, a zatim i o abir irektorijuma klikom na ugme „Select Documents


18/19

18

Fol er“. Nakon o abira klase i trenažnih okumenata koji pripa aju toj klasi, klikom na ugme„Asign ocuments to class“ vrši se o ela okumenata klasi i ona se smešta u listu, iz koje semože ukloniti klikom na ugme „Delete“. Pošto su o ate sve željene klase i okumenti, možese pokrenuti trenažni postupak klikom na ugme „Train“.

Drugi, kao i tredi eo aplikacije služi za korišdenje mo e naučenog mo ela, kako klasifikovali

konkretni dokumenti, za koje nije unapred poznato kojoj klasi pripadaju. Konkretno u drugomelu vrši se o abir okumenata koji de poslužiti kao test okumenti. Dokumenati na kojima dese vršiti klasifikacija o abiraju se klikom na ugme „A Document“. Nakon o abira okumentavrši se njegova o ela u listu, iz koje se može ukloniti selekovanjem okumenta i klikom na„Delete“. Ka a su svi željeni okumenti za klasifikaciju o ati, klikom na ugme „Test“započinje postupak klasifikacije tih okumenata. Rezultat klasifikacije prezentuje se u tredem

elu aplikacije po nazivom „Results“. G e je u listi naznačeno za svaki okument koji jeo abran za klasifikaciju kojoj klasi pripa a na osnovu obijenih razultata korišdenjem NaiveBayes algoritma.

5.2. Arhitektura aplikacije

Document – objekti ove klase se koriste za reprezentaciju teksta koji koristimo za trening ili predikciju.Sa rži po atak o klasi okumenta i hashmap objekat koji sa rži parove (reč, frekvencijapojavljivanja).

NaiveBayesKnowledgeBase – čuva “znanje” koje je klasifikator prikupio u toku učenja. Sa rži brojobservacija, broj kategorija i svojstava kao i kolekciju verovatnoda za naučene reči kao parove (reč, verovatnoda).

FeatureExtraction – klasa vrši feature selection i kreira neophodni FeatureStats objekat. FeatureStatsobjekat sa rži metriku pojavljivanja ključnih reči u kategorijama, broj kategorija i ukupni brojobservacija. Ova statistika se koristi od strane feature selection algoritma (Chisquare).

TextTokenizer – koristi se za tokenizaciju teksta i čuvanje istog uDocument objektu.

NaiveBayes – implemetira osnovni oblik Multinomial Naive Bayes klasifikator teksta koji je detaljnoopisan u prethodnom tekstu.


19/19

19

6. Literatura

1. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze : Introduction toInformation Retrieval , Cambridge University Press, 2008.

2. Fabrizio Sebastiani : Text Classification via Supervised Learning - Techniques and Trends3. Tom M. Mitchell, Machine Learning, The McGraw-Hill Companies, Inc., 19974. Naive Bayes classifier, http://en.wikipedia.org/wiki/Naive_Bayes_classifier , 05.05.2014.5. Data Mining Algorithms In R/Classification/Naïve Bayes,

http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayes , 05.05.2014
http://nlp.stanford.edu/~manning/http://theory.stanford.edu/~pragh/http://www.cis.uni-muenchen.de/personen/professoren/schuetze/http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayeshttp://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayeshttp://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayeshttp://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayeshttp://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayeshttp://www.cis.uni-muenchen.de/personen/professoren/schuetze/http://theory.stanford.edu/~pragh/http://nlp.stanford.edu/~manning/