Upload
josipa-miletic
View
133
Download
5
Embed Size (px)
DESCRIPTION
u seminaru se nalaze počeci statistike (ukratko objašnjeno i dat je primjer)
Citation preview
SadržajUVOD..................................................................................................................................................2
1. Aritmetička sredina....................................................................................................................3
2. Mod............................................................................................................................................4
3. Medijan......................................................................................................................................6
4. Kvartili........................................................................................................................................8
5. Dijagram rasipanja....................................................................................................................11
POPIS SLIKA, TABLICA, DIJAGRAMA..................................................................................................15
LITERATURA......................................................................................................................................16
PRILOG..............................................................................................................................................17
1
UVOD
U samom uvodu ću pokušat objasnit osnovne pojmove vezane za statistiku.
Statistika - je grana primijenjene matematike koja se bavi analizom podataka.
Neki primjeri korištenja statistike:
-ispitivanja glasača prije/u tijeku izbora
-ispitivanje ljudi općenito o bilo kojoj temi
-vođenje statistike u proizvodnji procesora, utvrđivanje postotka ispravnih procesora (yield)
-vođenje statistike u proizvodnji, prije i poslije svake kontrole
-primijenjena statistika na području biomedicinskih znanosti (biostatistika)
-primijenjena statistika u području geoznanosti, tj. prostorna statistika ili geostatistika.
Najčešća logička greška u statistici je nereprezentativan uzorak pri ispitivanju. Samo
ispitivanje može biti sociološki izvedeno savršeno (ispitanici popunjavaju upitnik neometani i
anonimno), matematička analiza je izvedena bez grešaka (zbroj svih izbora daje 100%, ne
manje ili više, što se također može dogoditi), no rezultati ipak nemaju previše veze s
realnošću.
Uzorak može biti nereprezentativan iz više razloga:
-premali broj ispitanika
-ispitanici samo jednog spola
-ispitanici samo određene dobi.
Rezultati dobiveni valjanom analizom nereprezentativnog uzorka su nevaljani, kao i oni
dobiveni nevaljanom analizom reprezentativnog uzorka.
Reprezentativan uzorak je onaj koji dobro reprezentira populaciju kojoj pripada, a najbolje
se postiže slučajnim odabirom članova.
Mali uzorak je najčešće onaj koji je manji od N=30, a neki smatraju i od N=50. Za male
uzorke vrijede ponešto modificirana pravila i statistički računi.
2
1. Aritmetička sredina
Aritmetička sredina je jedna od središnjih vrijednosti koje se koriste u statistici koji se
računa za neki skup brojeva kao kvocijent zbroja članova i broja članova skupa:
x = x1+…+ xn
n
Popularno se naziva još i prosjek. Aritmetička sredina se dobije tako što se zbroj vrijednosti promatranog obilježja podijeli s njihovim brojem. Aritmetička sredina, kao prosječna vrijednost obilježja svih jedinica skupa, izravnava apsolutne razlike između podataka promatrane serije.
Primjer 1.
U ovom primjeru ću izračunati prosječan broj prvi put registriranih motornih vozila od 2001.-2010. godine.
1
Slika 1. Prvi put registrirana cestovna motorna vozila, www.dzs.hr
x = x1+…+ xn
n =
135914+128793+143726+137107+141467+157767+153548+144518+81231+6438310
x=128 845.4
1 Državni zavod za statistiku, www.dzs.hr
3
Prosječni godišnji broj prvi put registriranih cestovnih motornih vozila (od 2001.-2010.) iznosi 128 845,4 vozila.
2. Mod
Mod je oblik kvalitativnog ili kvantitativnog obilježja koji se najčešće pojavljuje, odnosno oblik
obilježja s najvećom frekvencijom. Kod nominalnih obilježja mod se određuje brojanjem.
Kod grupiranih podataka mod izračunavamo tako da najprije odredimo modalni razred :
-u distribuciji frekvencije s jednakim veličinama razreda , modalni je razred onaj s
najvećom frekvencijom;
-u distribuciji frekvencije s razredima nejednakih veličina, modalni je razred onaj s
najvećom korigiranom frekvencijom.
Mod se računa po formuli:
Mo = L1 + b−a
(b−a)+(b−c) * i
L1 – donja granica modalnog razreda
b – najveća (korigirana) frekvencija
a – korigirana frekvencija ispred b
c – korigirana frekvencija iza b
i – veličina modalnog razreda
4
Primjer 1.
2
Tablica 1. Računanje moda, autor
Mo = L1 + b−a
(b−a)+(b−c) * i = 50 + 172−162
(172−162)+(172−46) * 5= 55,36
Najčešća dob u kojoj se ''postaje'' kapetan je 55,36 godina.
2 Podaci skinuti sa stranice ''Department of transport'', www.dft.gov.uk
5
16 <20 20 <25 25 <30 30 <35 35 <40 40 <45 45 <50 50 <55 55 <60 60 <620
100200300400500600700800900
1000
Kapetan
Dijagram 1. Broj kapetana u odnosu na njihovu dob, autor
3. Medijan
Medijan je vrijednost obilježja koja uređeni niz podataka dijeli na dva istobrojna dijela.
Utvrđuje se samo za numeričke i redoslijedne nizove.
Distribucija frekvencija s razredima :
- potrebno je odrediti kumulativni niz
- potrebno je utvrditi medijalni razred –onaj gdje frekvencija prvi put obuhvaća vrijednost (ako
je N paran broj) N2
ili ( ako je N neparan broj ) N +12
- medijan izračunavamo izrazom:
Me= L1 + n2–∑ f i
f med * i
L1 – donja granica kvartilnog razreda
n/2 – polovina članova niza
∑ f i - zbroj frekvencija do medijalnog razreda
f med - frekvencija medijalnog razreda
i – veličina kvartilnog razreda
6
Primjer 1.
3
Tablica 2. Računanje medijana, autor
Me= L1 + n2–∑ f i
f med * i = 30 +
79−4637 * 5= 34,45
3 Podaci skinuti sa stranice ''Department of transport'', www.dft.gov.uk
7
Dob od 34,45 godina dijeli glavne časnike na dva jednaka dijela; jedan je mlađi od 34,45
godina (ili jednak),a drugi je stariji od 34,45 godina (ili jednak).
8
4. Kvartili
Kvartili su vrijednosti statističkog obilježja koje statistički niz dijele na četiri jednaka dijela.
Mogu se podijeliti na: donji kvartil (Q1), te gornji kvartil (Q2)
Donji kvartil
Dijeli statistički niz na četiri jednaka dijela u omjeru 1 : 3, odnosno 25% elemenata
statističkog skupa ima vrijednost obilježja manju od donjeg kvartila, a 75% elemenata
statističkog skupa ima vrijednost obilježja veću od donjeg kvartila.
Gornji kvartil
Dijeli statistički niz na četiri jednaka dijela u omjeru 3 : 1, odnosno 75% elemenata
statističkog skupa ima vrijednost obilježja manju od gornjeg kvartila, a 25% elemenata
statističkog skupa ima vrijednost obilježja veću od gornjeg kvartila.
Kvartili se računaju prema formuli:
Qi = L1 + i N4
−∑ f m
f kv * j
L1 – donja granica kvartilnog razreda
∑ f m - zbroj frekvencija do kvartilnog razreda
f kv - frekvencija kvartilnog razreda
j – veličina kvartilnog razreda
4.1. Raspon varijacije
Pomoću raspona varijacije možemo odrediti 50% središnjih podataka, a računa se po
formuli:
Iq = Q3 – Q1
9
Primjer 1.
4
Tablica 3. Računanje kvartila, autor
Q1 = L1 + i N4
−∑ f m
f kv * j = 25 +
39,5−442 * 5= 29,22
Q2 = L1 + i N4
−∑ f m
f kv * j = 30 +
79−4637 * 5= 34,45
Q3 = L1 + i N4
−∑ f m
f kv * j = 45 +
118,5−10910 * 5= 49,75
Iq = Q3 – Q1 = 49,75 – 29,22 = 20,53
Prema nađenim podacima 25% časnika mlađe je od 29,22 godine; 50% ih je mlađe od 34,45
godina; a 75% ih je mlađe od 49,75 godina,odnosno 25% ih je starije od 49,75 godina.
4 Podaci skinuti sa stranice ''Department of transport'', www.dft.gov.uk
10
Središnjih 50% časnika se nalazi u dobnoj razlici od 20,53 godine (od 29,22 god- 49,75 god).
4.2. Koeficijent kvartilne devijacije
Koeficijent kvartilne devijacije je relativna nepotpuna mjera raspršenosti, a računa se kao
omjer interkvartila i zbroja kvartila.
Vq = Q3−Q1Q3+Q1
Ako koeficijent kvartilne devijacije bude približno 0 onda je disperzija mala.
Ako koeficijent kvartilne devijacije bude približno 1 onda je disperzija velika.
Izračunat ću koeficijent kvartilne devijacije na podacima iz prethodnog primjera.
Vq = Q3−Q1Q3+Q1
= 49,75 –29,2249,75+29,22 = 0,25
Iz ovoga možemo zaključiti da je disperzija relativno mala zbog toga jer iznosi svega 0,25.
11
5. Dijagram rasipanja
Dijagram rasipanja je pomoćno sredstvo pri odabiru modela statističkog odnosa dviju pojava.
Crta se u pravokutnom koordinatnom sustavu s aritmetičkim mjerilima na osima. Mjerila na
osima ne moraju započeti s nulama. Dijagram rasipanja u pravokutnom koordinatnom
sustavu točkama prikazuje parove vrijednosti dviju promatranih numeričkih varijabli. Pri tome
su xi vrijednosti nezavisne varijable X, a yi vrijednosti zavisne varijable Y.
Primjer 1.
Iz nađene tablice 5 napravila sam dijagram rasipanja.
Slika 2. Unutarnji i međunarodni prijevoz opasnih tvari, autor
5 Državni zavod za statistiku, www.dzs.hr
12
3000 3100 3200 3300 3400 3500 3600 3700 3800 3900 4000100120140160180200220240260280300
Dijagram rasipanja
Unutarnji prijevoz
Međ
unar
odni
prij
evoz
Dijagram 2. Unutarnji i međunarodni prijevoz opasnih tvari, autor
Nakon modela rasipanja prati se i mjeri stupanj jakosti statističke povezanosti koji se
nazivaju koeficijenti pojava. Pokazatelji jakosti nazivaju se koeficijentima korelacije. Ako je
statistički odnos pojave po obliku linearan razlikovat ćemo i smjer veze koji može biti
pozitivan i negativan. Prati li porast jedne pojave porast druge pojave, ili ako pad jedne prati
pad druge – pozitivna korelacija,a ako porast jedne pojave prati pad druge ili obrnuto
riječ je o negativnoj korelaciji.
3000 3100 3200 3300 3400 3500 3600 3700 3800 3900 4000100120140160180200220240260280300
Linija regresije
Unutarnji prijevoz
Međ
unar
odni
prij
evoz
Dijagram 3. Linija regresije, autor
13
5.1. Linearna regresijska jednadžba
U dijagram rasipanja također možemo ucrtati liniju regresije koju određujemo pomoću
jednadžbe linearne regresije:
ŷi = a + bxi
Vrijednosti ordinata ŷi nazivaju se regresijske vrijednosti. Regresijske vrijednosti razlikuju
se od stvarnih vrijednosti jer je povezanost pojava statistička. Navedene razlike nazivaju se
rezidualnim odstupanjima:
ui = y ‐ ŷ5.1.1. Određivanje članova a i b u jednadžbi
a – naziva se konstantnim članom, regresijska vrijednost varijable Y kada varijabla X poprimi vrijednost 0.
a = y - bx
b – naziva se regresijskim koeficijentom, pokazuje za koliko se u prosjeku promijeni vrijednost zavisne varijable Y za jediničnu promjenu vrijednosti nezavisne varijable X.
b= ∑ x i yi –n ⋅ x ⋅ y
∑ x i2– n ⋅ x2
14
Primjer 1.
Iz već pronađene i spomenute tablice izračunat ću koeficijente regresijske jednadžbe.
Tablica 4. Računanje koeficijenata regresijske jednadžbe, autor
x = 287738
= 3596,625
y = 16968
= 212
b= ∑ x i yi –n ⋅ x ⋅ y
∑ x i2– n ⋅ x2
= 6051615– 8 ⋅3596,625 ⋅212104797691 –8 ⋅(3596,625)2 = -0,036
a = y - bx = 212 – (- 0,036) · 3596,625 = 341,47
Jednadžba regresije za odabrane podatke glasi:
ŷi = 341,47 – 0,036 xi
15
POPIS SLIKA, TABLICA, DIJAGRAMA
Redni broj Naziv slike, tablice, dijagrama Stranica1. Slika 1. Prvi put registrirana
cestovna motorna vozila3.
2. Tablica 1. Računanje moda 5.3. Dijagram 1. Broj kapetana u
odnosu na njihovu dob5.
4. Tablica 2. Računanje medijana 7.5. Tablica 3. Računanje kvartila 9.
6.Slika 2. Unutarnji i
međunarodni prijevoz opasnih tvari
11.
7.Dijagram 2. Unutarnji i
međunarodni prijevoz opasnih tvari
12.
8. Dijagram 3. Linija regresije 12.
9.Tablica 4. Računanje
koeficijenta regresijske jednadžbe
14.
16
LITERATURA
Internet:
1. Državni zavod za statistiku, www.dzs.hr 2. Department of transport, www.dft.gov.uk3. Wikipedia, http://hr.wikipedia.org
17
PRILOG
18