K N N (KNN) KLASIFIKATOR - University of...

K NEAREST NEIGHBORS (KNN) KLASIFIKATOR Jelena Jovanovic Email: jeljov@gmail.com

Web: http://jelenajovanovic.net

INSTANCE-BASED LEARNING

•  kNN spada u kategoriju tzv. Instance-based metoda m. učenja

•  Zajednička svojstva ovih metoda: •  Sve instance iz skupa za trening se čuvaju u memoriji •  Kada se pojavi nova instanca koju je potrebno klasifikovati

•  Pronalazi se k trening instanci koje su “najbliže” novoj instanci •  Klasa nove instance se procenjuje na osnovu k najbližih trening instanci

K NEAREST NEIGHBORS (KNN)

•  Jedna od najbazičnijih Instance-based metoda m. učenja

•  Posmatra sve instance kao tačke u n-dimenzionalnom prostoru •  n je broj atributa kojima su instance opisane

•  Koristi odgovarajuću metriku za računanje blizine/udaljenosti instanci

•  Klasifikuje instancu tako što bira najpopularniju klasu među najbližim susedima te instance

KNN PRIMER ZA K = 3

Slika preuzeta iz knjige “An Introduction to Statistical Learning”, str. 40

METRIKE ZA PROCENU ‘BLIZINE’ INSTANCI Euklidska distanca

• xi i xj su instance čija se udaljenost računa

• a1(x), a2(x),…,an(x) je vektor atributa (features) kojim je svaka instanca predstavljena

METRIKE ZA PROCENU ‘BLIZINE’ INSTANCI • 

Euklidska vs Manhattan distanca

Izvor slike: http://blog.csdn.net/kikitamoon/article/details/42119415

METRIKE ZA PROCENU ‘BLIZINE’ INSTANCI •  Euklidska i Manhattan metrika su najpopularnije, ali, zavisno od

konkretnog problema klasifikacije, koristite se i druge metrike, izvedene iz ovih osnovnih

•  Na primer, u slučaju da želimo da dodatno istaknemo velike razlike između instanci, a one manje stavimo u drugi plan, možemo koristiti metrike sa višim stepenom

•  Npr. metrike koje računaju sumu razlika atrubuta podignutih na 3. ili 4. stepen

NORMALIZACIJA VREDNOSTI ATRIBUTA

• 

NOMINALNI ATRIBUTI

•  U slučaju nominalnih atributa, tj. atributa čije su vrednosti simboličke, a ne numeričke, razlika vrednosti atributa ap dveju instanci xi i xj je •  1, ukoliko apj ≠ api •  0, ukoliko apj = api

KAKO ODREDITI PARAMETAR K?

•  Postupkom kros-validacije pronaći K koje garantuje dobre performance klasifikatora, a pri tome ne dovodi do problema over-fitting-a

•  Najčešće se za K bira neparan broj, kako bi se bez dileme mogla izabrati dominantna klasa među K najbližih suseda

•  Generalno, što K ima manju vrednost, to je kNN metoda fleksibilnija, odnosno sklonija over-fitting-u

PRIMER OVER-FITTING-A (K = 1) I UNDER-FITTING-A (K = 100)

PRIMER OPTIMALNE VREDNOSTI ZA K (K = 10) ZA DATI SKUP PODATAKA

POREĐENJE GREŠKE NA TRENING I TEST PODACIMA

Kako se K smanjuje, tako i greška na trening setu (kontinuirano) opada; međutim, na test setu, to smanjenje greške u jednom trenutku prestaje (K=10) i od tada greška samo raste

ZAHVALNICE Ovi slajdovi su delimično zasnovani na: • Poglavlju 2 knjige “An Introduction to Statistical Learning” (link)

• Poglavlju 4.7 knjige “Data Mining: Practical Machine Learning Tools and Techniques. 3rd Edition” (link)

• Prezentaciji “k Nearest Neighbor” preuzetoj sa SlideShare.net (link)

K N N (KNN) KLASIFIKATOR - University of...

Documents

CLASSIFICATION TREES - University of Belgradeai.fon.bg.ac.rs/.../Decision-classification-trees.pdf · The main idea behind classification trees • Divide the predictor space into

Cross-validation, Bias, Variance - University of Belgradeai.fon.bg.ac.rs/.../Cross-validation-over-fitting... · CROSS VALIDATION Often used approach for validating ML models, as

Klasifikator IAMA

RDF, RDFS i JSON-LD 2016 - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2016/10/RDF-RDFS-i...(subjekat predikat objekat) • Elementi grafa • Čvor (predstavljanje subjekta

III Dolasci na UKUPNO - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2015/12/II-kol...III kolokvijum Dolasci na vezbe UKUPNO Ocena 564/14 Jevremović Jovana 0.00 414/14

Treniranje i testiranje - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2015/04/Treniranje-i...Stratifikovana kros-validacija 10-fold cross-validation • k = 10 • Dataset

1. RAZRED - Naslovnicaos-odra-zg.skole.hr/.../1072/File/TOP_LISTA_RAZREDI.pdf · 2015. 10. 19. · 1 1. RAZRED NAJPOPULARNIJE I NAJČITANIJE KNJIGE 1. Škrinjarić, S. Gospođica

PU 4 Bayes klasifikacija.ppt - lejla-bm.com.ba · Bayesov klasifikator je optimalan s obzirom na minimizaciju klasifikacione greške vjerovatno

Text mining methods - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2018/02/TopicModeling... · 2018-02-21 · 4 TOPIC MODELINGMETHODS Topic modeling methods are statistical

POSTUPAK KLASIFIKACIJE TEKSTA TEMELJEN NA K-NN …textmining.zemris.fer.hr/rezultati/doc/Diplomski rad 1410 - Renee Ahe… · Procjenjivanje vjerojatnosti za naivni Bayesov klasifikator.....21

RDF, RDFS & JSON-LD - University of Belgradeai.fon.bg.ac.rs/.../10/RDF_RDFS_JSON-LD_eng_2016-.pdf · RDF, RDFS & JSON-LD ... • Syntax for serializing RDF data into JSON format

Text mining methods - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2017/01/Topic...Text mining methods: Topic modelling & Graph-based keywords extraction Анализа

KLASIFIKACIJA - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2015/04/Klasifikacija... · 2016. 6. 16. · klasifikacija tweet poruka prema iskazanom stavu (poz./neg.)

UNIVERSITET U OSLUnajpoznatije i najpopularnije književno djelo, satirična drama Jazavac pred sudom, kao i poznate i u školskoj lektiri zastupljene pripovijetke Jablan , Mrguda,

NAIVNI BAYESOV KLASIFIKATOR · Bayesov klasifikator [20]. V strojnem učenju naivni Bayesov klasifikator pripada družini enostavnih verjetnostnih klasifikatorjev, ki temeljijo na

II III Dolasci na - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2016/11/P2-evidencija-poena-2016_20171.pdf169/15 Milenković Dimitrije 0.00 5 415/15 Jovana Mijatović

PODATKOVNO SKLADIŠČE KOT OSNOVA ZA ODKRIVANJE … · Naivni Bayesov klasifikator rezultate vizualiziramo z uporabo nomograma, za posamezne razrede, če je informacijski prispevek

› ... › 10852 › 26151 › Kocic.pdf?sequence=1 · UNIVERSITET U OSLU2014-12-26 · najpoznatije i najpopularnije književno djelo, satirična drama Jazavac pred sudom, kao i

Classification: Naïve Bayes - University of Belgradeai.fon.bg.ac.rs/wp-content/uploads/2016/10/Naive-Bayes-Labs-2016.pdf · Naive Bayes classifier • Based on the Bayes rule •

K-means Clustering - University of Belgradeai.fon.bg.ac.rs/.../2017/09/WholesaleCustomersClustering_handout.pdf · K-means Clustering Dataset Wholesale Customer dataset contains data