Upload
andra-buica
View
242
Download
1
Embed Size (px)
Citation preview
8/12/2019 Analiza Datelor Copy
1/29
PROIECT
ANALIZA DATELOR
ACADEMIA DE STUDII ECONOMICE BUCURETI FACULTATEA DE CIBERNETIC, STATISTIC I INFORMATIC ECONOMIC
Grupa: 1034
8/12/2019 Analiza Datelor Copy
2/29
Facultatea de Cibernetic, Statistic i Informatic Economic
1
Cuprins1. Analiza datelor ................................................................................................................................ 2
a. Definirea datelor ......................................................................................................................... 2
b. Analiza indicatorilor .................................................................................................................... 3
b.1. Venituri totale la nivelul bugetelor locale (VT) ........................................................................ 3
b.2. Cheltuieli totale la nivelul bugetelor locale (ChT) .................................................................... 4
b.3. Durata medie de via (DV) ...................................................................................................... 5
b.4. Rata omajului (RS) ................................................................................................................... 6
b.5. Numrul cantinelor sociale (CS) ............................................................................................... 7
b.6. Numrul seciilor sportive (SS) ................................................................................................. 7
b.7. Numrul sportivilor legitimai (SL) ........................................................................................... 8
b.8. Capacitatea turistic (CT) ......................................................................................................... 9b.9. Numrul bibliotecilor (BL) ...................................................................................................... 10
b.10. salariul mediu net (SN) ......................................................................................................... 11
2. Analiza componentelor principale ................................................................................................ 12
a. Standardizare ............................................................................................................................ 12
b. Matricea de corelaie ................................................................................................................ 13
c. Matricea de covarian ............................................................................................................. 14
d. Valori proprii ............................................................................................................................. 14
e. Vectori proprii ........................................................................................................................... 15f. Criterii de determinare a numrului de componente principale ............................................ 16
i. Criteriul pantei (screeplot) .................................................................................................... 16
ii. Criteriul procentului de acoperire ......................................................................................... 16
iii. Criteriul lui Kaiser .................................................................................................................. 16
g. Matricea factorilor .................................................................................................................... 17
3. Concluzii ........................................................................................................................................ 18
8/12/2019 Analiza Datelor Copy
3/29
Facultatea de Cibernetic, Statistic i Informatic Economic
2
1. Analiza datelora. Definirea datelor
Am ales de pe site-ul Institutului Naional de Statistic datele statistice a 20 de judee dinRomnia pentru a realiaza o analiz comparativ a acestora. Acestea sunt ordonate n ordineaflabetic i luate aleator din cele 42 judee din Romnia: Arge, Brila, Braov, Bucureti, Cluj,Constana, Covasna, Dolj, Gorj, Hunedoara, Iai, Ilfov, Mehedini, Olt, Prahova, Sibiu, Suceava, Timi,Vaslui i Vrancea.
Am ales 10 indicatori pe care i-am folosit n aceast analiz i acetia sunt: veniturile totale lanivelul bugetelor locale (VT),cheltuielile totale la nivelul bugetelor locale (ChT),durata medie devia (DV),rata omajului (RS),numrul cantinelor sociale (CS),numrul seciilor sportive (SS),numrul sportivilor legitimai (SL),capacitatea turistic (CT),numrul bibliotecilor (BL)i salariul
mediu net (SN).
Urmresc n primul rnd s studiez modul n care aceti indicatori se influeneaz reciproc idac exist sau nu legturi ntre ei. Scopul aceste analize este extragerea unui numr ct mai mic decompontente omogene care s recupereze cea mai mare parte din informaia total oferit de dateleorginale n vederea realizrii clasificrii acestor judee.
Datele sunt urmtoarele: Jude Prescurtare VT ChT DV RS CS SS SL CT BL SN
Arge AG 1246,7 1220,7 73,5 7,6 3 207 6715 4899 542 1269
Brila BR 584,1 534,2 73,5 8,7 0 65 3148 2082 187 1125Braov BV 1286,1 1237,1 72,3 7,1 5 259 8598 17795 218 1304Bucureti B 4238,7 3870,1 74,2 4,9 7 638 27459 11196 402 1864Cluj CJ 1505,5 1389,9 74,9 4,9 5 366 8808 6960 287 1389Constana CT 1470,9 1356,4 72,8 5,8 6 291 8300 12464 325 1328Covasna CS 412,9 384,0 73,4 10,0 2 91 2031 3638 177 1062Dolj DJ 1209,6 1150,5 73,3 9,8 1 238 6310 1646 369 1269Gorj CJ 727,0 715,3 73,6 10,9 3 99 3596 1967 231 1490Hunedoara HD 838,9 687,6 73,7 8,9 2 180 4742 6909 249 998Iai IS 1422,8 1311,3 73,7 7,0 1 226 5944 3367 554 1322
Ilfov IF 1030,9 955,3 72,1 2,7 1 126 2901 2292 106 1717Mehedini MH 605,1 546,5 72,6 10,5 3 75 1969 1524 186 1321Olt OT 760,4 722,0 72,6 8,1 2 141 3191 547 316 1214Prahova PR 1535,9 1480,8 73,9 8,6 1 202 5464 9906 405 1323Sibiu SB 952,2 900,9 73,8 5,8 3 148 4575 6538 222 1342Suceava SV 1282,0 1225,9 74,3 7,3 6 185 3898 8033 330 1091Timi TM 1482,6 1399,8 73,7 3,7 6 234 6364 6857 355 1409Vaslui VS 748,2 724,7 72,6 11,4 3 74 2063 773 305 1071Vrancea VR 654,3 650,3 73,9 7,4 1 90 2775 1816 237 1091
8/12/2019 Analiza Datelor Copy
4/29
Facultatea de Cibernetic, Statistic i Informatic Economic
3
b. Analiza indicatorilor
Pentru o analiz complet a clasificrii judeelor, n prim faz voi analiza separat fiecarevariabil n parte.
Cu ajutorul Excel, am folosit funcia Descriptive Statistics, pentrufiecare indicator n parteam calculat media, mediana, abaterea standard, minimul, maximul i pentru cte date s -au calculataceti indicatori.
VT ChT DV RS CS SS SL CT BL SN
Mean 1199,74 1123,165 73,4065 7,555 3,05 196,75 5942,55 5560,45 300,15 1299,95
Standard Error 178,8207 163,414 0,161242 0,536729 0,467215 29,49013 1234,076 1024,496 26,00296 48,10895
Median 1120,25 1052,9 73,56 7,5 3 182,5 4658,5 4268,5 296 1312,5
Standard Deviation 799,7105 730,8094 0,721098 2,400323 2,089447 131,8839 5518,957 4581,685 116,2888 215,1498
Kurtosis 11,68855 11,06502 -0,45414 -0,53319 -0,96937 6,003478 13,24443 1,117939 0,390483 1,587274
Skewness 3,058039 2,942086 -0,13332 -0,29292 0,503597 2,092071 3,37715 1,148859 0,720626 1,078612Minimum 412,9 384 72,14 2,7 0 65 1969 547 106 998
Maximum 4238,7 3870,1 74,85 11,4 7 638 27459 17795 554 1864
Count 20 20 20 20 20 20 20 20 20 20
ncrcm i n R datele prin comandadate
8/12/2019 Analiza Datelor Copy
5/29
Facultatea de Cibernetic, Statistic i Informatic Economic
4
1 0 0 0
2 0 0 0
3 0 0 0
4 0 0 0
Dac s-ar nltura val
Observm din histograma, diagrama de densitate i
oricare alt jude.
b.2. Cheltuieli totale la nivelul bugetelor locale (ChT)summary(ChT) :
Min. 1st Qu. Median Mean 3rd Qu. Max.384.0 708.4 1053.0 1123.0 1323.0 3870.0
Cheltuielile totale la nivelul judeelor pentru cele 20 de nregistrri sunt exprimate nmilioane de lei. Media cheltuielilor este de 1053 milioane de lei, cea mai mare valoare este de 3870milioane de lei ce aparine Bucuretiului, iar cea mai mic valoare este de 384 milioane de lei,aparinnd Covasnei. Abaterea standard este de 730.8094 de milioane de lei fa de medie.
Observm c histograma, bloxpotul i diagrama de densitate seamn foarte bine cu cele aleprimei variabile, c putem face aceleai observaii ca la venituri totale ale judeelor i de aici putemafirma c cele dou variabile, veniturile i cheltuielile sunt puternic corelate ntre ele, lucru pe care l
Histogram of VT
VT
F r e q u e n c y
0 1000 2000 3000 4000
0
2
4
6
8
Histogram of ChT
ChT
F r e q u e n c y
0 1000 2000 3000 4000
0
2
4
6
8
0 1000 2000 3000 4000
0 e + 0 0
2 e - 0
4
4 e - 0
4
6 e - 0
4
8 e - 0
4
density.default(x = ChT)
N = 20 Bandwidth = 226.6
D e n s i t y
5 0 0
1 5 0 0
2 5 0 0
3 5 0 0
8/12/2019 Analiza Datelor Copy
6/29
Facultatea de Cibernetic, Statistic i Informatic Economic
5
vom ntri mai trziu cu ajutorul matricei de corelaie.
b.3. Durata medie de via (DV)Durata medie a vieii este exprimat n ani i reprezint n medie ct triete un locuitor al
judeului respectiv.
Min. 1st Qu. Median Mean 3rd Qu. Max.72.10 72.75 73.55 73.42 73.82 74.90
Observm c durata medie de via variaz foarte puin ntre cele 20 de judee alese, astfelcea mai mic valoare este de 72,1 ani regsit n judeul Ilfov, valoarea medie este de 73.55 de ani,iar maximul est de 74,9 ani regsit n Cluj ( astfel se reconfirm faptul c ardelenii sunt nitepersoane calme), avnd o abatere standard de 0,721098 ani.
Din cele 3 grafice nu observm niciun outlier, observm o i o asimetrie negativ. Kurtosis =-0.45414 i Skewness =-0.13332
Histogram of DV
DV
F r e q u e n c y
72.0 72.5 73.0 73.5 74.0 74.5 75.0
0
1
2
3
4
5
6
7
71 72 73 74 75 76
0 . 0
0 . 1
0 . 2
0 . 3
0 . 4
0 . 5
density.default(x = DV)
N = 20 Bandwidth = 0.3563
D e n s i t y
8/12/2019 Analiza Datelor Copy
7/29
Facultatea de Cibernetic, Statistic i Informatic Economic
6
b.4. Rata omajului (RS) Rata omajului celor 20 de judee este calculat n
procente (%).
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.700 5.800 7.500 7.555 9.125 11.400
n ceea ce privete rata omajului, avem odistribuie aproape normal, cu o uoar simetri enegativ. Procentul minim de omeri dintre cele 20 de judee alese este de 2.7% aparinnd judeului Ilfov,media este de 7.555%, mediana de 7.5%, iar cei maimuli omeri, n proporie de 11.40% i gsim n judeul Vaslui. Abaterea standard a ratei oma juluieste de 2,400323%.
Histogram of RS
RS
F r e q u e n c y
2 4 6 8 10 12
0
1
2
3
4
5
6
0 5 10 15
0 . 0
0
0 . 0
5
0 . 1
0
0 . 1
5
density.default(x = RS)
N = 20 Bandwidth = 1.187
D e n s i t y
7 2
. 0
7 2
. 5
7 3
. 0
7 3
. 5
7 4
. 0
7 4
. 5
7 5
. 0
4
6
8
1 0
8/12/2019 Analiza Datelor Copy
8/29
Facultatea de Cibernetic, Statistic i Informatic Economic
7
b.5. Numrul cantinelor sociale (CS) n ceea ce privete numrul cantinelor sociale din fiecare jude, un rezumat al acestei
variabile este:
Min. 1st Qu. Median Mean 3rd Qu. Max.0.00 1.00 3.00 3.05 5.00 7.00
Numrul cantinelor sociale variaz de la un jude la altul ntre 0 cantine sociale (spre ex judeul Vaslui) i 7 cantine sociale (Bucuretiul). Media este de 3.05 cantine sociale per jude,mediana fiind 3. Putem observa din histogram c ntre 4 cantine nu exist n niciun jude,predomin ns judeele care nu au o cantin sau au doar una, ns nu sunt de neglijat nici judeelecare au 3 sau 6 cantine sociale. Din bloxpotul variabilei CS observm c nu avem niciun outlier,neobservnd ns c niciun jude nu are 4 cantine sociale, ns fiind foarte bine delimitate i vizibilecuartilele 1 (1 cantin) i cuartila 3 (5 cantine)
b.6. Numrul seciilor sportive (SS) Acest indicator arat cte secii sportive se gsesc n judeul respectiv.
Histogram of CS
CS
F r e q u e n c y
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
-2 0 2 4 6 8 10
0 . 0
0
0 . 0
5
0 . 1
0
0 . 1
5
density.default(x = CS)
N = 20 Bandwidth = 1.033
D e n s i t y
0
1
2
3
4
5
6
7
8/12/2019 Analiza Datelor Copy
9/29
8/12/2019 Analiza Datelor Copy
10/29
Facultatea de Cibernetic, Statistic i Informatic Economic
9
n ceea ce privete numrul de sportivi legitimai, avem un minim de 1969 sportivi ce aparin judeului Mehedini i un numr maxim de 27460 de sportivi, n Bucureti. Media este de 5943sportivi n fiecare jude, iar mediana de 4658 sortivi. Abaterea standard este de 5518,957 sportivi,aceasta fiind att de mare din cauza outlierului. Privind comparativ boxploturile i diagramele dedensitate a variabilelor secii sportive i sportivi legitimi ne ndeamn s credem c exist o corelaie ntre acestea. Totui, faptul c judeul cu cele mai puine secii sportive nu este i judeul cu cei mai
puini sportivi nu ne ajut s confirmm aceast teorie. Vom realiza apoi matricea de corelaiepentru a vedea exact dac exist sau nu o legtur ntre acestea i ct de puternic este.
b.8. Capacitatea turistic (CT) Min. 1st Qu. Median Mean 3rd Qu. Max.
547 1929 4268 5560 7228 17800
0 5000 15000 25000 0
. 0 0 0 0 0
0 . 0
0 0 0 5
0 . 0 0
0 1 0
0 . 0
0 0 1 5
density.default(x = SL)
N = 20 Bandwidth = 1242
D e n s i t y
Histogram of SL
SL
F r e q u e n c y
0 5000 10000 20000 30000
0
2
4
6
8
1 0
5 0 0 0
1 5 0 0 0
2 5 0 0 0
8/12/2019 Analiza Datelor Copy
11/29
Facultatea de Cibernetic, Statistic i Informatic Economic
10
Pentru capacitatea turistic a fiecrui jude n parte regsim cea mai mic capacitate n
judeul Olt (doar 547), iar cea mai mare capacitate n Bucureti, cu o valoare de 17800. Media este de5560 de turiti per jude, iar mediana de 4268. Privind graficele, n general judeele au o capacitatede sub 5000 tur iti, prezentnd astfel o simetrie pozitiv, iar Bucuretiul este din nou un outlierpentru aceast indicator, depind cu mult tendina general.
b.9. Numrul bibliotecilor (BL)Min. 1st Qu. Median Mean 3rd Qu. Max.
106.0 221.0 296.0 300.2 358.5 554.0
Histogram of CT
CT
F r e q u e n c y
0 5000 10000 15000 20000
0
2
4
6
8
1 0
-5000 0 5000 10000 20000
0 e + 0 0
4 e - 0
5
6 e - 0
5
8 e - 0
5
1 e - 0
4
density.default(x = CT)
N = 20 Bandwidth = 1955
D e n s i t y
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
8/12/2019 Analiza Datelor Copy
12/29
Facultatea de Cibernetic, Statistic i Informatic Economic
11
n ceea ce privete numrul de biblioteci existente ntr-un jude, numrul minim regsit este
de 106, n judeul Ilfov, iar cel mai mare numr este 554 n judeul Iai.Media este de 300.2 biblioteci/ jude, iar mediana este de 296. Abaterea medie este de 116,2888 biblioteci. Observm o distribuiecu asimetrie pozitiv, predominnd valorile mai mici.
b.10. salariul mediu net (SN)Min. 1st Qu. Median Mean 3rd Qu. Max.
998 1116 1312 1300 1354 1864
Histogram of BL
BL
F r e q u e n c y
100 200 300 400 500 600
0
1
2
3
4
5
6
0 200 400 600 0
. 0 0 0 0
0 . 0
0 1 0
0 . 0
0 2 0
0 . 0
0 3 0
density.default(x = BL)
N = 20 Bandwidth = 50.73
D e n s i t y
Histogram of SN
SN
F r e q u e n c y
800 1000 1200 1400 1600 1800 2000
0
2
4
6
8
1 0
1 0 0
2 0 0
3 0
0
4 0 0
5 0 0
8/12/2019 Analiza Datelor Copy
13/29
Facultatea de Cibernetic, Statistic i Informatic Economic
12
Romnii din cele 20 de judee obin n medie unsalariu de 1300 lei pe lun, cei mai bine pltii fiind bineneles Bucuretenii cu un salariumediu net de 1863 lei pe lun, iar salariile cele mai mici fiind de 998 lei pe lun.
Observm cu ajutorul Boxplotului c Bucuretiul este din nou un outlier pentru acestindicator. Din aceast cauz, putem observa cu uurin c indicatorul prezint o asimetrienegativ.
2. Analiza componentelor principalea. StandardizarePentru standardizarea datelor am folosit n Excel funcia prin care am sczut media i am mprit
la dispersia indicelui, obinnd astfel matricea:
Jude VT ChT DV RS CS SS SL CT BL SN
AG 0,070697 0,13964 0,08806 0,018747 -0,02393 0,07772 0,139963 -0,23181 2,079736 -0,14385
BR -0,75171 -0,79529 0,129663 0,477019 -1,45972 -0,99898 -0,50635 -0,33594 -0,97301 -0,81315
BV 0,1196 0,161975 -1,57607 -0,18956 0,933261 0,472006 0,481151 0,244936 -0,70643 0,018824
B 3,784292 3,7478 1,142009 -1,1061 1,890452 3,345747 3,898644 0,000983 0,875837 2,621662
CJ 0,391913 0,37007 2,001809 -1,1061 0,933261 1,283326 0,519201 -0,15561 -0,11308 0,413898
CT 0,348969 0,324447 -0,89655 -0,73115 1,411857 0,714644 0,427155 4,194914 0,213692 0,130374
CS -0,96419 -0,99984 -0,00901 1,018613 -0,50253 -0,80184 -0,70875 -0,27842 -1,059 -1,10597
DJ 0,02465 0,044036 -0,13382 0,935291 -0,98112 0,312775 0,06658 -0,35206 0,592061 -0,14385
CJ -0,57434 -0,54865 0,296076 1,393562 -0,02393 -0,74118 -0,42518 -0,3402 -0,59464 0,883338
HD -0,68369 -0,72256 0,448622 0,560341 -0,50253 -0,12701 -0,21753 -0,1575 -0,43985 -1,40344
IS 0,289268 0,263026 0,33768 -0,23122 -0,98112 0,221786 0,000263 -0,28844 2,182928 0,102487
IF -0,19715 -0,2218 -1,75635 -2,02264 -0,98112 -0,53646 -0,55111 -0,32818 -1,66955 1,938417
MH -0,72564 -0,77854 -1,16004 1,226918 -0,02393 -0,92316 -0,71998 -0,35657 -0,98161 0,097839
OT -0,53289 -0,53953 -1,18777 0,227053 -0,50253 -0,42272 -0,49856 -0,39269 0,136299 -0,39949
PR 0,429645 0,493865 0,615035 0,435358 -0,98112 0,039808 -0,08671 -0,04671 0,901635 0,107135
SB -0,29483 -0,29589 0,490225 -0,73115 -0,02393 -0,36964 -0,24779 -0,17121 -0,67203 0,195445SV 0,114511 0,146722 1,280686 -0,10624 1,411857 -0,08909 -0,37046 -0,11595 0,256689 -0,97118
800 1000 1400 1800 0
. 0 0 0 0
0 . 0
0 1 0
0 . 0
0 2 0
density.default(x = SN)
N = 20 Bandwidth = 87.53
D e n s i t y
1 0 0 0
1 2 0 0
1 4 0 0
1 6 0 0
1 8 0 0
8/12/2019 Analiza Datelor Copy
14/29
Facultatea de Cibernetic, Statistic i Informatic Economic
13
TM 0,36349 0,383553 0,351547 -1,60603 1,411857 0,282445 0,076364 -0,15942 0,471671 0,506856
VS -0,54803 -0,53585 -1,1323 1,601867 -0,02393 -0,93074 -0,70295 -0,38434 0,041707 -1,06414
VR -0,66457 -0,63718 0,670506 -0,06457 -0,98112 -0,80942 -0,57394 -0,34578 -0,54304 -0,97118
Prin calculobservm c media este 0, iar dispersia este 1.
Scopul analizei componentelor este de a reduce semnificativ numrul acestora, cu pierderede informaie minim, exact cum am prezentat i la nceputul lucrrii. Caracteristicile rezultate nurma caracteristicilor iniiale sunt componentele principale. Ne dorim s alegem componentele careasigur redundana minim. Pentru aceasta trebuie fcute cteva analize ce vor fi prezentate n celece urmeaz.
b. Matricea de corelaie Matricea de corelaie pentru aceste date va fi o matrice simetric de 10 x 10, avnd pe diagonala
principal 1, iar restul valorilor fiind cuprinse ntre-1 i 1. Valorile apropiate de -1 sau 1 reprezint ostrns corelaie ntre cele dou variabile n sens negativ (cnd una crete, cealalt scade), respectiv n sens pozitiv.
Pentru a obine matricea de corelaie, se poate obine prin programul R rulnd urmtorul script:
> a fix(a)> c fix(c)
sau prin folosirea Excel-ului, cu ajutorul funciei Correlation:VT ChT DV RS CS SS SL CT BL SN
VT 1ChT 0,99878 1DV 0,352158 0,351385 1RS -0,4754 -0,47473 -0,14721 1CS 0,585019 0,588187 0,214603 -0,39516 1
SS 0,944903 0,940618 0,3948 -0,50661 0,642557 1SL 0,968385 0,963199 0,329218 -0,41126 0,585101 0,953885 1CT 0,516226 0,520871 0,099482 -0,39354 0,634456 0,599057 0,537876 1BL 0,447109 0,462733 0,32969 -0,05219 0,152244 0,436464 0,36319 0,128308 1
SN 0,68817 0,690673 -0,00737 -0,58041 0,343395 0,608989 0,647519 0,226546 0,063633 1
Conform acestei matrici avem o puternic corelaie ntre :
- Veniturile totale i Cheltuielile totale, cu un coefficient de 0.99878, dup cum bnuiam iobservnd diagramele celor dou variabile;
- Venituri totale i Secii sportive un coeficient de 0.944903;
8/12/2019 Analiza Datelor Copy
15/29
8/12/2019 Analiza Datelor Copy
16/29
Facultatea de Cibernetic, Statistic i Informatic Economic
15
0.380829713 0.184022138 0.063104380 0.020066432 0.000769058
Astfel, putem spune c prima component are valoarea proprie 6.068170054, nsemnnd cexplic 60,68% din variana total, a doua component are valoarea proprie 1.403931535,reprezentnd 14,04% din informaie. Primele 2 componente mpreun explic aproape 7 5% din
informaie. Ce-a de-a 3-a compontent are valoarea proprie 1.026446363, ceea ce nseamn cexplic 10,26% din informaie. Cele 3 compontente mpreun explic aproape 85% din informaiatotal.
Este uor observabil faptul c valorile proprii scad din ce n ce mai mult pentru c acesteapreiau informaia din datele iniiale, n ordine descresctoare.
e. Vectori propriiPentru a determina vectorii proprii am rulat n R urmtorul script:
> acp acp$loadings
Rezultatul este:
8/12/2019 Analiza Datelor Copy
17/29
Facultatea de Cibernetic, Statistic i Informatic Economic
16
Putem astfel construi compontentele principale, fiind combinaii liniare ntre variabileleiniiale i vectorii proprii, astfel:
w1 = -0.4*CT + 0.145*DV + 0.113* RS 0.121*CS 0.144*SL + 0.429* CT + 0.254*BL+0.715*SN
w2 = -0.4*CT + 0.144*DV + 0.119*RS + 0.478*CT + 0.250*BL 0.697*SN
w3 = -0.158*CT + 0.558*ChT 0.123*DV -0.697*RS -0.292*CS +0.32*SL
w4 = 0.245*CT + 0.362*ChT +0,4*RS -0,573*CS + 0,320*SL
w5 = -0,292*CT -0,129*ChT -0,514*DV -0,791*SS
i aa mai departe i pentru w6, w7, w8, w9 i w10.
f. Criterii de determinare a numrul ui de componente principalePentru a alege un numr de componente principale care s preia ct mai mult din
informaia iniial voi utiliza 3 criterii de alegere: i. Criteriul pantei (screeplot)
n urma realizrii Scree plotului, tietura ar trebui s se fac ntre 3 i 4, fiind explicat .....
ii. Criteriul procentului de acoperireAcesta se bazeaz pe ct de mult informaie acoper componentele. n cazul acesta,
primele 3 componente acoper 8,498547952, adic 85% din informaia total, aadar le putemconsidera componente principale.
iii. Criteriul lui KaiserPe baza valorilor proprii obinute, primele 3 (CT, ChT i DV) dintre componente au valori
proprii mai mari dect 1, aadar voi considera numrul viitoarelor compontante principale ca fiind 3.
n concluzie, pstrez 3 elemente : CT, ChT i DV.
8/12/2019 Analiza Datelor Copy
18/29
Facultatea de Cibernetic, Statistic i Informatic Economic
17
g. Matricea factorilor
Prin rularea scriptului n R:acp$scoresscor
8/12/2019 Analiza Datelor Copy
19/29
Facultatea de Cibernetic, Statistic i Informatic Economic
18
Putem observa n acest grafic gradul de corelare ntre cele 3 componente principale i valorileiniiale, observnd de unde se preia informaia pentru fiecare component principal.
3. Concluzii n Romnia, n urma analizrii celor 20 de judee pe baza a 10 indicatori, informaia a fost
sintetizat n primele3 componente principale, ce preiau aproximativ 85% din informaia iniial, fiindun procent relevant.
-1.2-1
-0.8-0.6-0.4-0.2
00.2
0.40.60.8
0 2 4 6 8 10 12
Component Pattern
Comp.1 Comp.2 Comp.3
-1.2-1
-0.8
-0.6-0.4-0.2
00.20.40.60.8
1 2 3 4 5 6 7 8 9 10
Component Pattern Profiles
Comp.1 Comp.2 Comp.3
8/12/2019 Analiza Datelor Copy
20/29
Facultatea de Cibernetic, Statistic i Informatic Economic
19
Analiza Cluster n aceast parte voi trata o continuare a Analizei Componentelor Principale, n care am sintetiatinformaia celor 20 de judee din Romnia caracterizate de cei 10 indicatori. Voi lucra n continuarepe datele celor 20 de judee, ns nu pe matricea iniial ci pe matricea componentelor principale.
Comp.1 Comp.2 Comp.3-0,4742354 1,45413008 0,357518092,4349323 0,10813033 0,38186234
-1,1750243 -1,94049833 -2,02354745-8,3850499 0,06385062 1,08251085-2,1267129 0,50440265 -0,51949196-1,6951523 -1,03964127 -1,328091452,4918204 0,0836626 -0,60784780,5446114 0,9796588 1,049526031,3343128 -0,0297504 0,545913821,2181046 0,63455019 -0,96846656
-0,4425017 1,70074965 1,240567550,6365976 -3,39121323 1,99020105
2,1999643 -0,8503872 0,256293571,6139184 -0,1769513 0,7099227
-0,5173126 1,07029931 0,098151720,2528997 -0,5611052 -0,24938422
-0,4678511 0,90286508 -1,6969745-1,6540686 -0,4518033 -0,420474212,3152182 0,4174189 -0,045329361,8955289 0,5216319 0,1471398
Matricea distanelorPentru a afla matricea distanelor rulm n R urmtorul program
8/12/2019 Analiza Datelor Copy
21/29
Facultatea de Cibernetic, Statistic i Informatic Economic
20
d
8/12/2019 Analiza Datelor Copy
22/29
Facultatea de Cibernetic, Statistic i Informatic Economic
21
Regsim pe axa OX sunt elementele iniiale, iar pe axa OYsunt distanele dintre obiecte.
Observm din nou o foarte mare diferen ntre Bucureti i restul judeelor din Romnia. Amconsdierat c cea mai bun tietur ca fiind cea desenat cu rou, mprind astfel obiectele n 4 clustere.
n R exemplicifm acest lucru astfel:
solutie
8/12/2019 Analiza Datelor Copy
23/29
Facultatea de Cibernetic, Statistic i Informatic Economic
22
Comparnd cele dou ploturi obinute, remarc c 4 clustere este o alegere mai bun de clasificare aobiectelor studiate deoarece avera ge silhouette width este 0.32, egal pentru ambele, ns pentru k=3avem 2 obiecte 8 i 10 care sunt negative, ceea ce nseamn c nu au fost clasificate corect. Deasemenea, obiectul 16 este foarte aproape de 0, nsemnnd c nu este prea asemntor cu cel lalteobiecte din clusterul 1.
Pentru k=4, avem un singur obiect clasificat eronat, obiectul 10, ns avem valori mai apropiate de 1 n acest caz, dect n cazul cu k=3, artnd omogenitatea mai mare a obiectelor n cluster. Considerc o mprire a obiectelor n 4 clustere este mai apropiat de realitate.
Pentru a mpri fiecare obiect n clustere am rulat n R:
solutie
8/12/2019 Analiza Datelor Copy
24/29
Facultatea de Cibernetic, Statistic i Informatic Economic
23
Deci avem urmtoarele clustere ce conin obiectele: Cluster 1: 1, 8, 10, 11, 15, 16, 17Cluster 2: 2, 7, 9, 12, 13, 14, 19, 20Cluster 3: 3, 5, 6, 18,Cluster 4: 4
Metoda CentroiduluiAceast metod se bazeaz pe distanele dintre centroizii a dou clustere.
Rulez n R :
fit
8/12/2019 Analiza Datelor Copy
25/29
Facultatea de Cibernetic, Statistic i Informatic Economic
24
Observm c este diferit fa de dendograma prin metoda Ward.
n acest caz, aleg ca cea mai bun variant pare a fi tietura roie, mprind astfel obiectele n 3clustere.
Prin apelarea func iei silhouette obinem toate elementele pozitive, ceea ce nseamn c elementeleau fost clasificate n clasele corecte.
1243
136
1814
2165
97
1119
82017
11510
Silhouette width s i
0.0 0.2 0.4 0.6 0.8 1.0
Silhouette plot of (x = cutree(fit, k = 3), dis
Average silhouette width : 0.38
n = 20 3 clusters C j j : n j | ave i Cj s i
1 : 18 | 0.42
2 : 1 | 0.003 : 1 | 0.00
8/12/2019 Analiza Datelor Copy
26/29
Facultatea de Cibernetic, Statistic i Informatic Economic
25
Verificnd prin aceast metod pentru 4 clustere, obinem din nou c toate elementele sunt pozitivei n plus, ele sunt mai bine repartizate, trecnd mai multe dintre ele de 0.6 i media distanelor cu0.01 mai mic.
Algoritmi de partiionare. Metoda kmeans Rulm n R scriptul:
d
8/12/2019 Analiza Datelor Copy
27/29
Facultatea de Cibernetic, Statistic i Informatic Economic
26
[1] 0.00000 24.46294 23.43307(between_SS / total_SS = 68.8 %)Continund cu scriptul de mai jos, putem vedea pe ultima coloan n ce clas a fost repartizatobiectul.
solutia
8/12/2019 Analiza Datelor Copy
28/29
Facultatea de Cibernetic, Statistic i Informatic Economic
27
Sumele de ptrate Variabilitatea intraclas : solutia$withinss
[1] 43.407506 22.498035 6.402743
Variabilitatea primului cluster este de 43.40, ceea ce nseamn c exist o varian mare ntreobiectele clasei acesteia. Cea de- a doua are variana de 22.49, iar ce -a de-a 3-a o varian ninteriorul clasei de 6.4, ceea ce sugereaz c obiectele sunt destul de asemntoare ntre ele.
Variabilitatea interclasa: solutia$betweenss [1] 81.09051
Variabilitatea dintre cele 3 clase este de 81.09 care este destul de mare.
Variabilitatea total : solutia$totss
[1] 153.3988
Astfel, variabilitatea totala este egal cu 153.3988.
Variabilitatea total a interclaselor: solutia$tot.withinss [1] 72.30828
Concluzie final:
De-alungul studiului celor 20 de judee din Romnia, pot spune cu certitudine c Bucuretiul nu artrebui s fie considerat printre acestea deoarece, dei este doar un municipiu n esena sa, dinpunctul de vedere al tuturor indicatorilor utilizai este un outlier.
8/12/2019 Analiza Datelor Copy
29/29
Facultatea de Cibernetic, Statistic i Informatic Economic
Prin toate metodele algoritmilor ierarhici utilizate Bucuretiul a fost pus ntr-un cluster separat, bachiar i judeul Ilfov, judeul din mprejurul Bucuretiului prin metoda Centroidului este singur ntr-uncluster. n cazul metodei K-means, Bucuretiul a fost pus n primul cluster dereglnd foarte multomogenitatea clusterului.