25.04.2013.
1
SOPuM
Linearna regresija
i korelacija
Na prolom asu
Jednofaktorska analiza varijanse
25.04.2013.
2
Na ovom asu
Jednostavna linearna regresija i korelacija
Viestruka jednostavna regresija i korelacija
Regresija i korelacijaRegresiona i korelaciona analiza je statistika metoda koja se korsti zamodeliranje i ispitivanje odnosa izmeu dve ili vie promenljivih.
Jednostruka linearna regresija i korelacija
To znai da se posmatra odnos dve promenljive - X i Y i ispituje se da lije njihova meusobna zavisnost linearna.
Ispitivanje se vri preko n parova mertenja (((( )))) (((( ))))n nx ,y , , x ,y1 1
Prvi korak je konstruisanje dijagrama rasipanja, odnosno dvo-dimenzionalnog koordinatnog sistema u koji se unosi n parovaopservacija
25.04.2013.
3
1
2
3
4
5
6
7
8
9
10
11
1213
14
15
40 45 50 55 60 65 70 75 80 85
x
90
95
100
105
110
115
120
125
130
135
y1
2
3
4
5
6
7
8
9
10
11
1213
14
15
Dijagram rasipanja
Na osnovu dijagrama rasipanja pretpostavlja se da je regresionazavisnost linearna ili se moe prilagoditi linearnoj (to je ono toradimo), odnosno oblika
i i iy a x b e= + += + += + += + +
gde su:
a i b parametri regresione prave ili regresioni koeficijenti
ei sluajna greka ili rezidual
xi i yi promenljive ija se meusobna veza ispituje, gde je xinezavisna promenljiva, a yi zavisna
Pretpostavlja se da se reziduali rasporeuju nezavisno, po normalnoj raspodeli sa sredinom 0 i varijansom 2
Da bi se postavila regresiona prava potrebno je oceniti parametrea i b. Ova ocena se vri preko metode najmanjih kvadrata.
25.04.2013.
4
Ocenjenaregresiona prava
y
Preko metoda najmanjih kvadrata dobija se sistem jednaina za ocenu parametara linearne regresione zavisnosti
xy ax bx= += += += +2
y ax b= += += += +
(((( ))))xy x y
ax x
==== 22
b y ax= = = = ocene parametara regresione prave
gde su:
n n
i ii i
y a x n b= == == == =
= + = + = + = + 1 1
n n n
i i i ii i i
y x a x b x= = == = == = == = =
= + = + = + = + 21 1 1
: n
n
ii
x xn ====
==== 1
1
n
ii
y yn ====
==== 1
1 ni i
i
xy y xn ====
==== 1
1
n
ii
x xn ====
==== 2 21
1
n
ii
y yn ====
==== 2 21
1
25.04.2013.
5
Ocenjena vrednost regresione linije je
y ax b= += += += +
i unosi se u dijagram rasipanja
1
2
3
4
5
6
7
8
9
10
11
1213
14
15
40 45 50 55 60 65 70 75 80 85
x
90
95
100
105
110
115
120
125
130
135
y1
2
3
4
5
6
7
8
9
10
11
1213
14
15
Postavljenu regresionu zavisnost je potrebno i potvrditi. To se radi na dva naina, zavisno od toga kakve su promenljive:
preko koeficijenta korelacije r, u sluaju da su obe promenljive sluajne
preko analize varijanse, ako je jedna promenljiva deterministika
Koeficijent korelacije pokazuje jainu veze taaka koje se rasipajuoko regresione prave i postavljene regresione prave.
Vrednost mu se kree iskljuivo u granicama (-1,+1).
Raunska vrednost je:
Koeficijent korelacije
(((( )))) (((( ))))xy x y
rx x y y
====
2 22 2
25.04.2013.
6
Jaina korelacione zavisnosti smanjuje pribliavanjem koeficijentakorelacije nuli.
U praksi je esto potrebno doneti odluku na osnovu koeficijentakorelacije.
Praktine preporuke za odreivanje postojanja regresionezavisnosti preko koeficijenta korelacije su:
[[[[ ]]]]r . ; 0 9 1
[[[[ ))))r . ; . 0 7 0 9
[[[[ ))))r . ; . 0 5 0 7
[[[[ ))))r ; . 0 0 5
veza je apsolutna
veza je vrlo jaka,
veza je slaba
ne postoji korelaciona veza
Testiranje postojanja regresione zavisnosti preko analize varijanse
Uticajni faktor koji se ispituje je regresiona suma kvadrata.
n-1total
n-2greka
1regresija
F0ocena varijanse fSKizvor varijacije
(((( ))))r SK a xy x y= = = = rrr
SKS
f====2 r
e
SS
2
2
e T rSK SK SK= = = = eee
SKS
f====2
(((( ))))TSK y y= = = = 22
Regresiona zavisnost postoji ukoliko je , ,nF F >>>>0 1 2
Tabela za analize varijanse je
25.04.2013.
7
Bez obzira da li se za dokazivanje regresione zavisnosti koristikoeficijent korelacije ili analiza varijanse, tumaenje regresionezavisnosti se vri preko koeficijenta determinacije
Koeficijent determinacije - r2(%) predstavlja procenat od ukupnevarijacije koji se moe objasniti postavljenom regresionomzavisnou
Predvianje vrednosti nove zavisne sluajne promenljive
j jy a x b= += += += +
Procedura1. Definisanje promenljivih
2. Konstruisanje dijagrama rasipanja
3. Pretpostavljanje linearne zavisnosti
4. Odreivanje parametara regresione prave
5. Potvrivanje regresione zavisnosti - preko r ili ANOVA
6. Odreivanje i tumaenje koeficijenta determinacije
7. Predvianje (opciono)
25.04.2013.
8
Primer 1Petnaest studenata grupe za Industrijsko inenjerstvo izabrano jena sluajan nain. Kod studenata su poreene ocene koje sudobili na prvim kolokvijumima iz Kvanitativnih metoda iOperacionih istraivanja i rezultati su prikazani u tabeli. Potrebnoje: Utvrditi da li postoji odgovarajua linearna regresionazavisnost izmeu podataka, potvrditi tu zavisnost, izvritidodatna ispitivanja koja su potrebna, predvideti koja ocena iz OIse moe oekivati od studenta koji je na KV dobio 7.2.
KV OI KV OI KV OI
8.6 8 7.5 8.2 6.9 7.1
10 9.1 6.3 5.2 9.4 9.5
8.6 8.8 7.6 7.1 7.6 7.2
4.5 5.2 6.3 5.4 3.1 2.2
9.7 9.1 7.5 7 6.3 5.1
1. Definisanje promenljivihx - ocena iz kvantitatitivnih metoda - KV - sluajna, nezavisna
y - ocena iz operacionih istraivanja - OI - sluajna, zavisna
2. Konstruisanje dijagrama rasipanja
OI vs. KV
3 4 5 6 7 8 9 10
KV
2
3
4
5
6
7
8
9
10
OI
25.04.2013.
9
3. Pretpostavljanje linearne zavisnosti
i i iy a x b e= + += + += + += + +
4. Odreivanje parametara regresione prave
(((( ))))n
ii
x x . .n ====
= = + += = + += = + += = + +1
1 18 6 6 3
15
(((( ))))n
ii
y y .n ====
= = + += = + += = + += = + +1
1 18 5 1
15
(((( ))))n
i ii
xy y x . . .n ====
= = + + = = + + = = + + = = + + 1
1 18 6 8 6 3 5 1
15
(((( ))))n
ii
x x . .n ====
= = + += = + += = + += = + +2 2 2 21
1 18 6 6 3
15
(((( ))))n
ii
y y .n ====
= = + += = + += = + += = + +2 2 2 21
1 18 5 1
15
merenje x y x2 y2 xy1 8.6 8 73.96 64 68.8
2 10 9.1 100 82.81 91
3 8.6 8.8 73.96 77.44 75.68
4 4.5 5.2 20.25 27.04 23.4
5 9.7 9.1 94.09 82.81 88.27
6 7.5 8.2 56.25 67.24 61.5
7 6.3 5.2 39.69 27.04 32.76
8 7.6 7.1 57.76 50.41 53.96
9 6.3 5.4 39.69 29.16 34.02
10 7.5 7 56.25 49 52.5
11 6.9 7.1 47.61 50.41 48.99
12 9.4 9.5 88.36 90.25 89.3
13 7.6 7.2 57.76 51.84 54.72
14 3.1 2.2 9.61 4.84 6.82
15 6.3 5.1 39.69 26.01 32.13
109.9 104.2 854.93 780.3 813.85
sredina 7.327 6.947 56.995 52.02 54.257
25.04.2013.
10
(((( ))))xy x y . . . .
a .. . .x x
= = = == = = == = = == = = = 222
54 257 7 327 6 947 3 3611 014
56 995 7 327 3 153
b y ax . . . .= = = = = = = = = = = = 6 647 1 014 7 327 0 480
i iy . x .= = = = 1 014 0 48OI vs. KV
OI= -.48 + 1.014 * KV
3 4 5 6 7 8 9 10
KV
2
3
4
5
6
7
8
9
10
OI
5. Potvrivanje regresione zavisnosti
(((( )))) (((( ))))xy x y
rx x y y
====
2 22 2
(((( )))) (((( )))). . .
r .. . . .
= == == == = 2 2
54 257 7 327 6 9470 951
56 995 7 327 52 02 6 947
[[[[ ]]]]r . ; 0 9 1r .= = = = 0 951 korelaciona veza je absolutna
6. koeficijent determinacije
(((( ))))r . % . %= == == == =2 20 951 100 90 516
7. Predvianje
.y . . . .= == == == =7 2 1 014 7 2 0 48 6 8
Kada je ocena iz KV 7.2, predviena ocena iz OI je
25.04.2013.
11
Radnik je dobio da proizvodi novi proizvod. Tokom 6 dana meren jebroj dobrih proizvoda koje je napravio. Podaci su prikazani u tabeli.Postaviti odgovarajui regresioni model i odrediti koeficijentkorelacije.
Primer 2
dan 1 2 3 4 5 6
dobri proizvodi 13 14 16 23 36 50
1. Definisanje promenljivih
y - broj dobrih proizvoda - sluajna
x - dan - deterministika
y vs. x
1, 13 2, 143, 16
4, 23
5, 36
6, 50
1 2 3 4 5 6
x
10
15
20
25
30
35
40
45
50
55
y
1, 13 2, 143, 16
4, 23
5, 36
6, 50
2. Konstruisanje dijagrama rasipanja
25.04.2013.
12
3. Pretpostavljanje linearne zavisnosti
i i iy a x b e= + += + += + += + +
Kako? TransformacijaTransformacijaa xy b e = = = =
(((( ))))Y ln y====
(((( ))))B ln b====i i iY B a x e = + += + += + += + +
ax by e ++++====
(((( ))))y ln ax b= += += += +ye ax b= += += += +
by ax====
x y Y x2 Y2 xY
1 1 13 2.565 1 6.579 2.565
2 2 14 2.639 4 6.965 5.278
3 3 16 2.772 9 7.687 8.318
4 4 23 3.135 16 9.831 12.542
5 5 36 3.584 25 12.842 17.918
6 6 50 3.912 36 15.304 23.472
21 18.608 91 59.208 70.092
prosek 3.5 3.101 15.167 9.868 11.682
4. Odreivanje parametara regresione prave
(((( ))))xY xY . . .
a .. .x x
= = == = == = == = = 222
70 092 3 5 3 1010 284
15 167 3 5
25.04.2013.
13
B Y ax . . . .= = == = == = == = =3 101 0 284 3 5 2 108
B .b e e .= = == = == = == = =2 108 8 232i. x
iy . e= = = = 0 2848 232
5. Potvrivanje regresione zavisnosti
izvor varijacije SK f ocena varijanse F0regresija 1.409 1 1.409 61.766**
greka 0.091 4 0.023
total 1.500 5
6. koeficijent determinacije
(((( ))))r . % . %= == == == =2 20 932 100 86 8
Viestruka regresiona i korelaciona analiza je statistika metoda koja sekoristi za modeliranje i ispitivanje odnosa vie promenljivih.
To znai da se posmatra meusobni odnos i zavisnost vie promenljivih Y- zavisne i X1,...., Xm - nezavisnih m=1,2,.... Pretpostavlja se da je zavisnostlinearna.
Ispitivanje se vri preko n parova opservacija, gde se zavisna promenljivaporedi sa svim nezavisnim. Mogue je raditi poreenje zavisne promenljive ipojedinih nezavisnih.
Kod viestruke linearne regresije samo se u pojedinim sluajevima crtadijagrama rasipanja
Viestruka linerna regresija i korelacija
25.04.2013.
14
gde su:
a, b,c ..., s su parametri regresione zavisnosti ili regresioni koeficijenti
ei sluajna greka ili rezidual
Pretpostavlja se da se reziduali rasporeuju nezavisno, po normalnoj raspodeli sa sredinom 0 i varijansom 2
Da bi se postavila regresiona zavisnost potrebno je oceniti regresionekoeficijente, metodom najmanjih kvadrata.
Pretpostavlja se da je regresiona zavisnost linearna ili se moe prilagoditilinearnoj oblika
i i ji mi iy a x g x r x s e= + + + + + += + + + + + += + + + + + += + + + + + +1
xji i yi promenljive ija se meusobna veza ispituje, gde su xjinezavisne promenljive, dok je yi zavisna i ,n==== 1 j ,m==== 1
n n n n
i i ji mii i i i
y a x g x r x n s= = = == = = == = = == = = =
= + + + + + = + + + + + = + + + + + = + + + + + 11 1 1 1
(((( ))))1
n n n n
i i ji mii i i i
y a x g x r x n s= = = == = = == = = == = = =
= + + + + + = + + + + + = + + + + + = + + + + + 11 1 1 1
ix 1
(((( ))))n n n n
i i i mi i ii i i i
y x a x r x x s x= = = == = = == = = == = = =
= + + += + + += + + += + + + 2
1 1 1 11 1 1 1
(((( ))))2
(((( ))))n n n n
i mi i mi mi mii i i i
y x a x x r x s x= = = == = = == = = == = = =
= + + += + + += + + += + + + 2
11 1 1 1
(((( ))))m
25.04.2013.
15
n n n
i i mii i i
y a x r x n s= = == = == = == = =
= + + + = + + + = + + + = + + + 11 1 1
(((( ))))n n n n
i i i mi i ii i i i
y x a x r x x s x= = = == = = == = = == = = =
= + + += + + += + + += + + + 2
1 1 1 11 1 1 1
(((( ))))n n n n
i mi i mi mi mii i i i
y x a x x r x s x= = = == = = == = = == = = =
= + + += + + += + + += + + + 2
11 1 1 1
: n
j my a x g x r x s= + + + + += + + + + += + + + + += + + + + +1
myx a x r x x s x= + + + = + + + = + + + = + + + 2
1 1 1 1
m m m myx a x x r x s x= + + + = + + + = + + + = + + + 2
1
gde su:
n
ii
y yn ====
==== 1
1
n
ii
y yn ====
==== 2 21
1
n
ii
x xn ====
==== 1 11
1
n
ii
x xn ====
==== 2 21 11
1
n
i ii
yx y xn ====
==== 1 11
1
n
m mii
x xn ====
==== 1
1
n
m mii
x xn ====
==== 2 21
1
n
m i mii
yx y xn ====
==== 1
1
n
m i mi
x x x xn ====
==== 1 1 11
1
n
m i mi
x x x xn ====
==== 1 1 11
1
25.04.2013.
16
Postavljenu regresionu zavisnost je potrebno i potvrditi. To se radi na dva naina, zavisno od toga kakve su promenljive:
preko koeficijenta korelacije r, u sluaju da su sve promenljive sluajne
preko analize varijanse, ako je jedna promenljiva deterministika
Koeficijent korelacije pokazuje jainu veze izmeu svih parametararegresione zavisnosti. Mogu se raunati i pojedini parcijalni koeficijentikorelacije.
Vrednost mu se kree iskljuivo u granicama (-1,+1).
Raunska vrednost je:
Koeficijent korelacije
r
T
SKr
SK====
Testiranje postojanja regresione zavisnosti preko analize varijanse
Uticajni faktor koji se ispituje je regresiona suma kvadrata.
Tabela za analize varijanse je
Regresiona zavisnost postoji ukoliko je ,m,n mF F >>>>0 1
n-1total
n-m-1greka
mregresija
F0ocena varijanse fSKizvor
varijacije
rr
r
SKS
f====2 r
e
SS
2
2
ee
e
SKS
f====2
(((( ))))TSK y y= = = = 22
r T eSK SK SK= = = =
n
e ii
SK e====
==== 21
i i ie y y= = = =
25.04.2013.
17
Bez obzira da li se za dokazivanje regresione zavisnosti koristi koeficijentkorelacije ili analiza varijanse, tumaenje regresione zavisnosti se vripreko koeficijenta determinacije
Koeficijent determinacije - r2(%) predstavlja procenat od ukupne varijacijekoji se moe objasniti postavljenomregresionom zavisnou
Predvianje vrednosti nove zavisne sluajne promenljive
j j mj y a x r x s= + + += + + += + + += + + +1
Procedura1. Definisanje promenljivih
2. Pretpostavljanje linearne zavisnosti
3. Odreivanje parametara regresione prave
4. Potvrivanje regresione zavisnosti - preko r ili ANOVA
5. Odreivanje i tumaenje koeficijenta determinacije
6. Predvianje (opciono)
25.04.2013.
18
Primer 3
Sprovesti regresionu analizu i odrediti koeficijent korelacije zapodatke prikazane u tabeli:
y 10 11 13 14 15 16 17 19
x1 1 1 3 3 7 7 9 9
x2 5 5 7 7 9 9 8 8
x3 3 6 2 1 7 8 5 4
1. Definisanje promenljivihx1, x2 i x3 - sluajne, nezavisne promenljive
y - sluajna, zavisna promenljiva
2. Pretpostavka viestruka regresiona zavisnost oblika
i i i i iy ax bx cx d e ,i ,= + + + + == + + + + == + + + + == + + + + =1 2 3 1 8
3. Ocena regresionih koeficijenata
postavljanje sistema jednaina
i i i nii i i i
i i i i i i i ii i i i i
n
i i i i i i i ii i i i i
i i i i i i ii i i i
y a x b x c x dn
y x a x b x x c x x d x
y x a x x b x c x x d x
y x a x x b x x c x
= = = == = = == = = == = = =
= = = = == = = = == = = = == = = = =
= = = = == = = = == = = = == = = = =
= = = == = = == = = == = = =
= + + += + + += + + += + + +
= + + += + + += + + += + + +
= + + += + + += + + += + + +
= + += + += + += + +
8 8 8 8
1 21 1 1 1
8 8 8 8 82
1 1 1 2 1 3 11 1 1 1 1
8 8 8 82
2 1 2 2 2 3 21 1 1 1 1
8 8 8 82
3 1 3 2 3 31 1 1 1
n
ii
n
d x====
++++ 31
25.04.2013.
19
y ax bx cx d
yx ax bx x cx x dx
yx ax x bx cx x dx
yx ax x bx x cx dx
= + + += + + += + + += + + +
= + + += + + += + + += + + +
= + + += + + += + + += + + +
= + + += + + += + + += + + +
1 2 3
21 1 1 2 1 3 1
22 1 2 2 2 3 2
23 1 3 2 3 3 3
mer. y x1 x2 x3 x12 x2
2 x32 x1x2 x1x3 x2x3 yx1 yx2 yx3
1 10 1 5 3 1 25 9 5 3 15 10 50 30
2 11 1 5 6 1 25 36 5 6 30 11 55 66
3 13 3 7 2 9 49 4 21 6 14 39 91 26
4 14 3 7 1 9 49 1 21 3 7 42 98 14
5 15 7 9 7 49 81 49 63 49 63 105 135 105
6 16 7 9 8 49 81 64 63 56 72 112 144 128
7 17 9 8 5 81 64 25 72 45 40 153 136 85
8 19 9 8 4 81 64 16 72 36 32 171 152 76
115 40 58 36 280 438 204 322 204 273 643 861 530
sred. 14.4 5 7.25 4.5 35 54.8 25.5 40.2 25.5 34.1 80.4 107.6 66.2
. a . b . c . d .
. a . b . c . d .
. a . b . c . d .
. a . b . c . d .
+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =+ + + =
5 00 7 250 4 500 1 00 14 375
35 00 40 250 25 500 5 00 80 375
40 25 54 750 34 125 7 25 107 625
25 50 34 125 25 500 4 50 66 250
d .==== 10 144
tako da je regresiona zavisnost
y . x . x . x .= + += + += + += + +1 2 30 868 0 131 0 236 10 144
a .==== 0 868
b .==== 0 131
c .= = = = 0 236
25.04.2013.
20
4. Potvrivanje regresione zavisnosti - preko ANOVA ili r
5. Koeficijenta determinacije
r . %====2 93 419
.r .
.= == == == =
59 6710 966
63 875
Ukupni koeficijent korelacije je
Primer 4
Izvreno je ispitivanje promene viskoznosti ulja zavisno od promene radnetemperature. Rezultati su prikazani u tabeli. Potrebno je premaodgovarajuoj proceduri sprovesti odgovarajuu regresionu i korelacionuanalizu.
promena viskoznosti t promena viskoznosti t
14.2 2.5 31.5 15.0
13.9 5.0 40.3 17.5
15.5 7.5 51.5 20.0
18.9 10.0 64.3 22.5
24.3 12.5 78.9 25.0
1. Definisanje promenljivih
zavisna promenljiva y
nezavisna promenljiva x
25.04.2013.
21
visk vs. t
2 4 6 8 10 12 14 16 18 20 22 24 26
t
10
20
30
40
50
60
70
80
visk
2. Predpostavlja se polinomijalna zavisnost sa polomom drugog reda
i i i iy ax bx c e= + + += + + += + + += + + +2
3. Ocena regresionih koeficijenata
n n n
i i ii i i
n n n n
i i i i ii i i i
n n n n
i i i i ii i i i
y a x b x nc
y x a x b x c x
y x a x b x c x
= = == = == = == = =
= = = == = = == = = == = = =
= = = == = = == = = == = = =
= + += + += + += + +
= + += + += + += + +
= + += + += + += + +
2
1 1 1
2 3
1 1 1 1
2 3 4 2
1 1 1 1
y ax bx c
yx ax bx cx
yx ax bx cx
= + += + += + += + +
= + += + += + += + +
= + += + += + += + +
2
2 3
2 3 4 2
25.04.2013.
22
mer y x x2 x3 x4 xy x2y
1 14.2 2.5 6.2 15.6 39.0625 35.5 88.8
2 13.9 5 25 125 625 69.5 347.5
3 15.5 7.5 56.25 421.9 3164.1 116.2 871.9
4 18.9 10 100 1000 10000 189 1890
5 24.3 12.5 156.2 1953.1 24414.06 303.8 3796.9
6 31.5 15 225 3375 50625 472.5 7087.5
7 40.3 17.5 306.2 5359.4 93789.06 705.2 12341.9
8 51.5 20 400 8000 160000 1030 20600
9 64.3 22.5 506.2 11390.6 256289.1 1446.8 32551.9
10 78.9 25 625 15625 390625 1972.5 49312.5
suma 353.3 137.5 2406.2 47265.6 989570.3 6341 128888.8
sred 35.3 13.75 240.6 4726.6 98957 634.1 12888.9
. a . b . c .
. a . b . c .
. a . b . c .
+ + =+ + =+ + =+ + =+ + =+ + =+ + =+ + =
+ + =+ + =+ + =+ + =
13 75 240 625 1 0 35 33
240 625 4726 562 13 35 634 1
4726 562 98957 0312 240 625 12888 875
a .= = = = 1 244
b .==== 0 150
c .==== 16 380
y . x . x .= + += + += + += + +21 244 0 15 16 38
25.04.2013.
23
4. Potvrivanje regresione zavisnosti - preko ANOVA
izvor varijacije SK focena
varijanse F
regresija 4728.945 2 2364.472 262719*
greka 0.056 6 0.009
total 4729.001 9 . , ,F .====0 05 2 6 5 143
r . %====2 99 99
5. Koeficijenta determinacije
Domai 06Za dobijene podatke potrebno je:
1. Reiti jednostavnu linearnu regresiju ikorelaciju
2. Reiti viestruku linearnu regresiju ikorelaciju
Domai 06 nosi 2% ocene
Recommended