25
Analiza e të dhënave Pjesa 2a Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova

Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Analiza e të dhënave

Pjesa 2a – Pëshkrimi i shpërndarjes së një variable të vetme

Prof. Ass. Dr. Ermir Rogova

Page 2: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Hyrje

Qëllimi ynë është të paraqesim të dhëna një një

formë e cila ka kuptim për njerëzit. Veglat që

përdoren për të kryer këtë përfshijnë:

Grafet: bar, pie, histogramet, scatter, dhe time series

Përmbledhjet numerike: numërimet, përqindjet,

mesataret dhe matjet e ndryshueshmërisë

Tabelat me përmbledhje numerike: totalet, mesataret

dhe numërimet të grupuara sipas kategorive

Përmbledhja e të dhënave ashtu që informacioni i

rëndësishëm të duket qartë është sfiduese.

Page 3: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Hyrje

Janë katër hapa në analizën e të dhënave:

Njihe problemin që duhet të zgjidhet.

Mbledh të dhëna që ndihmojnë për të kuptuar dhe

pastaj zgjidhur problemin.

Analizo të dhënat duke përdorur veglat e duhura.

(Analiza ndonjëherë mund të përsërisë hapat.)

Vepro sipas kësaj analize duke ndryshuar

politikat, ndërmarrur iniciativat, publikuar raporte,

e të tjera.

Page 4: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Konceptet themelore

Disa koncepte të rëndësishme

Popullatat dhe mostrat

Bashkësitë e të dhënave

Variablat dhe vëzhgimet

Tipet / llojet e të dhënave

Page 5: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Popullatat dhe mostrat

Një popullatë përfshin të gjitha entitetet me interes në një studim (njerëzit, familjet, makinat, etj.).

Shembuj Të gjithë votuesit potencial në zgjedhjet e

përgjithshme

Të gjithë parapaguesit e televizionit kabllovik

Të gjitha faturat e dorzuara për reimbursim nga punëtorët e të gjitha ministrive

Një mostër është një nënbashkësi e populates, shpesh e zgjedhur me shans dhe mundësisht përfaqsuese e populates si tërësi.

Page 6: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Bashkësitë e të dhënave,

variablat dhe vëzhgimet

Një bashkësi e të dhënave është zakonisht

një matricë drejtëkëndëshe e të dhënave, me

variabla në kolona dhe vëzhgime në rreshta.

Një variabël (apo fushë apo tipar) është një

karakteristikë e antarëve të një populate, si

psh. gjatësia, gjinia apo paga.

Një vëzhgim (apo rast or shënim) është një

listë e të gjitha vlerave të variablave për një

antar të vetëm të një popullate.

Page 7: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Të dhëna nga një studim (survey)

mjedisor

Objektivi: Ilustrimi i variablave dhe vëzhgimeve në një bashkësi tipike të të dhënave.

Zgjidhja: Bashkësia përfshin vëzhgimet për 30 persona të cilët iu përgjigjën një pyetësori në lidhje me politikat mjedisore të presidentit.

Variablat përfshijnë moshën, gjininë, shtetin, nr. e fëmijëve, pagën dhe mendimin.

Përfshij një rresht që liston emrat e variablave.

Përfshij një kolonë që tregon indeksin/numrin e vëzhgimit.

Page 8: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Tipet / Llojet e të dhënave

Një variable është numerike nëse mbi të mund të kryhen veprime aritmetikore.

Përndryshe, variabla është kategorike.

Ekziston edhe një lloj i të dhënave, variabla e tipitdatë.

Exceli ruan data si numra, por datat trajtohen ndryshe në krahasim me numrat e zakonshëm.

Një variable kategorike është rëndore nëse ekziston një rënditje natyrale e vlerave të mundshme të saj.

Nëse nuk ka rënditje natyrale, ajo është emërore.

Page 9: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Tipet / Llojet e të dhënave

Variablat kategorike mund të kodohen numerikisht.

Një variabël binare shënohet si 0–1 për kategorinë specifike

Shënohet si 1 për të gjitha vëzhgimet në atë kategori dhe 0 për të gjitha vëzhgimet jo në atë kategori.

Një variabël shporte korrespondon me një variabël numerike e cila është kategorizuar në kategori diskrete.

Këto kategori zakonisht quhen shporta (bins).

Page 10: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Tipet / Llojet e të dhënave

Page 11: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Tipet / Llojet e të dhënave

Një variabël është diskrete nëse rezulton prej një numrimi, si p.sh. numri i fëmijëve.

Një variabël e vazhdueshme është rezultat i një matje të vazhdueshme si p.sh. pesha apo gjatësia.

Të dhënat Cross-sectional janë të dhëna nga disa mostra të populates në një pikë specifike kohore.

Seritë kohore (time series) janë të dhëna historike (të mbledhura gjatë një periudhe kohore).

Page 12: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Tipet / Llojet e të dhënave

Page 13: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet përshkruese për variablat

kategorike

Egzistojnë vetëm disa mundësi për të

përshkruar një variabël kategorike, të gjitha

bazohen në numërim:

Numëro kategoritë.

Jepju emra kategorive.

Numëro vëzhgimet në secilën kategori. (Numërimi

resultues mund të raportohet si “numërim i

papërpunuar” ose si përqindje të totaleve.)

Pasi ti keni numërimet, ato mund ti paraqitni grafikisht,

zakonisht si shtylla ose si rrathë (pie) grafikë.

Page 14: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Shitjet në Supermarket

Objektivi: Të përmbledhim variablat kategorike në një bashkësi të madhe të të dhënave.

Zgjidhja: Bashkësia e të dhënave pëmban transaksionet e bëra nga klientët e supermarketit gjatë një periudhe dy vjeqare.

Fëmijët, Njësitë e shitura, dhe Të hyrat janë numerike.

Data e blerjes është variabël datë.

Transaction dhe Customer ID janë vetëm për identifikim.

Të gjitha variablat tjera janë kategorike.

Page 15: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Shitjet në Supermarket

Për numërimet në kolonën S, përdoret funksioni, COUNTIF. Për përqindjet në kolonën T, pjesto secilin numrim me totalin

vëzhgimeve.

Grafikonet duhet të jenë të thjeshta ashtu që informacioni që ato përmbajnë të shfaqet sa më qartë që është e mundur

Page 16: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Shitjet në Supermarket

Një tjetër mënyrë efektive përtë gjetur numërimet për njëvariable kategorike ështëpërdorimi i variablave binare.

Rishkruaj secilën variable ashtuqë një kategori zëvendësohetme 1 dhe të gjitha të tjerat me 0.

Kjo mund të bëhet me njëformulë të thjeshtë IF.

Gjej numrimin e asaj kategorieduke mbledhur njëshat.

Gjej përqindjen e asaj kategorieduke përdorur mesataren e zerove dhe njëshave.

Page 17: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet përshkruese për variablat

numerike

Ka shumë mënyra për të përmbledhur variablatnumerike, si me përmbledhje numerike ashtu edheme grafikë.

Fillojmë me një variable numerike siç është Salary (paga), ku është një vëzhgim për secilin person. Qëllimi ynë është të mësojmë se si këto paga janë tëshpërndara ndërmjet njerëzve duke pyetur:1. Cilat janë pagat më “tipike”?

2. Sa të shpërndara janë pagat?

3. Cilat janë pagat “ekstreme” në të dyja anët?

4. A është grafika e pagave simetrike me një vlerë të mesit, apo anon në njërin drejtim?

5. A mos ka grafika e pagave ndonjë tipar tjetër tëçuditshëm përpos animit të mundshëm?

Page 18: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet përshkruese për variablat numerike

Në vijim do të fokusohemi në variablën Salary.

Matjet e tendencës qëndrore

Minimumi, Maximumi, Përqindëshi, dhe Kuartalet

Matjet e ndryshueshmërisë

Rregullat empirike për interpretimin e devijimit

standard

Matjet e formës

Matjet përmbledhëse numerike

Page 19: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Pagat në Baseball

Objektivi: Të mësojmë si pagat janë të shpërndara tetë gjithë lojtarët e MLB 2015.

Zgjidhja: Bashkësia e të dhënave përmban të dhënambi 868 lojtarët e bejzbollit në Major League tësezonës 2015. Variablat janë emri i lojtarit, skuadra, pozita dhe paga.

Page 20: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet e tendencës qëndrore

Mesatarja (mean) është mesatarja e të gjithavlerave. Nëse bashkësia e të dhënave përfaqëson një mostër

prej një populate më të madhe, kjo matje quhetmesatare e mostrës dhe shënohet me (“X-bar”).

Nëse bashkësia e të dhënave përfaqëson të gjithëpopullatën, ajo quhet mesatare e populatës dheshënohet me μ.

Në Excel®, mesatarja llogaritet me funksioninAVERAGE.

Page 21: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet e tendencës qëndrore

Mediani është vëzhgimi qëndror (në mes) kur

të dhënat renditen prej vlerës më të vogël deri

te ajo më e madhja.

Nëse numri i vëzhgimeve është tek, mesi është

saktësisht vëzhgimi që gjendet në mes.

Nëse numri i vëzhgimeve është çift, mesi

zakonisht definohet si mesatarja e dy vëzhgimeve

në mes.

Në Excel®, mesi llogaritet me funksionin

MEDIAN.

Page 22: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Matjet e tendencës qëndrore

Moda është vlera e cila paraqitet më së

shpeshti.

Në shumicën e rasteve ku variabla është

kontinuale, mode nuk është shumë interesante,

sepse shpesh është rezultat i disa përpjekjeve me

fat.

Mirpo, jo gjithmonë është rezultat I fatit dhe mund

të zbulojë informacion interesant..

Në Excel®, mode llogaritet me funksionin

MODE.

Page 23: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Shembull: Pagat në Baseball

Page 24: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Minimumi, Maximumi, Përqindëshi,

dhe Kuartalet

Për çfardo përqindje p, përqindëshi i p-të është vlerae tillë që një përqindje p e të gjitha vlerave janë mëpak se ai. P.sh. Përqindëshi i 20të është vlera nën të cilën mund të

gjenden 20% e vëzhgimeve.

Kuartalet ndajnë të dhënat në katër grupe, secila me nga një çerek të të gjitha vëzhgimeve. Kuartali i parë, dytë dhe tretë janë përqindëshit që

korrespondojnë me p = 25%, p = 50%, and p = 75%.

Sipas definicionit, kuartali i dytë (p = 50%) është ibarabartë me mesin (median).

Minimumi dhe maximumi llogariten me funksionetMIN dhe MAX, kurse përqindëshit dhe kuartaet me funksionet PERCENTILE dhe QUARTILE.

Page 25: Analiza e të dhënave e të dhënave 2a.pdfAnaliza e të dhënave Pjesa 2a –Pëshkrimi i shpërndarjes së një variable të vetme Prof. Ass. Dr. Ermir Rogova Hyrje Qëllimi ynë

Pyetje ???