Upload
stefan-samara
View
110
Download
5
Embed Size (px)
Citation preview
Analiza Multidimensionala a Datelor
HIERARCHICAL CLUSTER ANALYSIS
Pentru exemplificarea acestui algoritm vom presupune c managerul unei firme de transport dorete s afle cum sunt grupate autoturismele pe pia, acesta dorind s achiziioneze 7 laptopuri pentru societatea sa.
Managerul s-a oprit asupra a 10 autoturisme cuprinznd mrci foarte cunoscute ca:
Dacia, KIA, VW, Renault, Audi, BMW sau Colt.
Despre autoturismele respective managerul are informaii referitoare la pre, capacitate cilindric, masa maxim, putere, lungime, lime, greutate, ehipamente suplimentare, garanie i numr locuri.
Pentru a proceda la gruparea acestora, managerul a ntocmit o baz de date n SPSS 16.0, cu 10 variabile definite dup cum urmeaz:
Marca variabil nominal, definit string, de 20 de caractere, aliniere la dreapta, ea definete marca autoturismului.Pre variabil de proporie, definit numeric, de 8 caractere i 2 zecimale, aliniere la dreapta, ea reprezint preul final de cumprare a mainii.Capacitate cilindric (CapCil) variabil de proporie, definit numeric, de 4 caractere i 2 zecimale, aliniere dreapta, reprezentnd capacitatea cilindric a motorului, exprimat n centrimetri cubi.Masa maxim (MasaMax) variabil de proporie, de 4 caractere, aliniere la dreapta, reprezint masa total maxim autorizat msurat n kg.Putere variabil de proporie, definit numeric, de 3 caractere, aliniere la dreapta, reprezint puterea maxim a motorului n kW.
Lungime variabil de proporie, de 6 caractere i 2 zecimale, aliniere la dreapta, reprezint lungimea mainii n cm.
Lime variabil de proporie, definit numeric, de 6 caractere i 2 zecimale, aliniere la dreapta, ea reprezint limea mainii n cm.
Greutate variabil de proporie, definit numeric, de 8 caractere i 2 zecimale, aliniere la dreapta, reprezint greutatea proprie a autoturismului, n kg.Echipamente suplimentare (EchipSup) variabil de proporie, definit numeric, de 1 caracter, aliniere la dreapta, reprezint echiparea suplimentar a mainii ( 1- DA, 2 NU).
Garania variabil de proporie, definit numeric, de 2 caractere, aliniere la dreapta, ea reprezint garania ofertit de firma de la care cumpr n ani.
Numr locuri (NrLocuri) variabil de proporie, definit numeric, de 8 caractere, aliniere la dreapta, ea reprezint numrul de locuri pe scaune.Baza de date astfel obinut va fi utilizat pentru a aplica analiza grupurilor. Deoarece baza de date are 10 variabile se va utiliza prima metod de analiz, i anume Hierarchical Cluster Analysis.
Aceast procedur identific grupurile relativ omogene de cazuri (sau variabile) dup anumite caracteristici selectate, folosind un algoritm care ncepe cu fiecare caz (sau variabil) ntr-un grup separat, combinnd grupurile pn rmne unul singur. Se pot analiza variabilele netransformate sau se poate alege dintr-o varietate de transformri standardizate. Distana sau msurile similare sunt generate de procedura Proximities (de proximitate). Pentru a ajuta la alegerea celei mai bune soluii, statisticile sunt prezente n fiecare etap.
Pentru aceasta din meniul Analyze se selecteaz opiunea Clasify apoi Hierarchical Cluster Analysis. Dup selectarea procedurii va aprea o fereastr care permite selectarea variabilelor de grupare i posibilitatea personalizrii. Cmpul Variable(s) permite selectarea variabilelor pentru sau dup care se face gruparea. Variabilele sunt trimise n acest cmp prin intermediul sgeii.
Cmpul Label Cases by permite selectarea variabilei ce indic numele fiecrui caz n parte. Variabila este trimis n acest cmp prin intermediul sgeii.
Cmpul Cluster permite alegerea modalitii de grupare: pentru variabile sau pentru cazuri. Dac se alege gruparea variabilelor, cmpul Label Cases by va deveni indisponibil.
Cmpul Display permite optarea pentru afiarea sau nu a statisticilor sau a graficelor.
n fereastra Variables se selecteaz variabilele pre, capacitate cilindric, masa maxim, putere, lungime, lime, greutate, ehipamente suplimentare, garanie i numr locuri. n fereastra Label cases by selectm variabila Marca.n cmpul Cluster bifm cases.n cmpul Display bifm ambele opiuni.
n ferestra Statistics bifm Agglomeration Schedule, Proximity Matrix, iar n cmpul Cluster membership bifm Range of solutions de la 2 la 4.
n ferestra Plots bifm Dendogram, la cmpul Icicle bifm All clusters, iar la Orientation bifm Vertical.
n ferestra Method alegem la Cluster method Between-groups linkage, n cmpul Measure bifm Interval i alegem Squared Euclidean distance; n cmpul Transform values alegem Z scores i bifm By variables. n cmpul Transform measures nu bifm nici o opiune.
Interpretarea Outputului
Outputul obinut n urma procesrii conin urmtoarele elemente:
Case Processing Summarya
Cases
ValidMissingTotal
NPercentNPercentNPercent
10100,0%0,0%10100,0%
a. Squared Euclidean Distance used
Acest tabel prezint procentajul de variabile valide, 100% n cazul nostru. De asemenea se arat care este numrul total de variabile utilizate n analiz, 10, att procentual ct i absolut.
n tabelul urmtor sunt prezentate distanele dintre fiecare caz n parte. Pe linia oblic acestea au valoarea 0 deoarece distana dintre aceeai variabil nu este calculat.
Proximity matrix este o matrice simetric, astfel c toate elementele prezente deasupra diagonalei principale sunt trecute i sub aceast diagonal. Datele tabelului sunt ptratele distanelor Euclidiene pentru toate perechile de cazuri.Se poate observa c valoarea cea mai mic este pentru perechea ( 6-7) altfel spus, acest caz este cel mai asemntoare din punctul de vedere al caracteristicilor pe care le ntrunesc. Astfel putem observa c Renault Clio i Renault Symbol au cele mai multe caracteristici n comun.
Agglomeration Schedule
StageCluster CombinedCoefficientsStage Cluster First AppearsNext Stage
Cluster 1Cluster 2Cluster 1Cluster 2
167,047002
26101,706103
3265,926024
42510,761305
52312,823406
62815,992508
71419,189008
81222,289769
91938,269800
Din acest tabel se poate observa cum s-au grupat cazurile n fiecare faz de grupare. n a doua coloan, Cluster Combined, sunt prezentate cazurile grupate. n cea de-a treia coloan, Coefficients, sunt coeficienii distanelor dintre elementele grupate. n a patra coloan, Stage cluster First Appears, ne este artat numrul fazei n care au mai aprut fiecare din cele dou elemente. Ultima coloan, Next Stage, ne spune n ce faz va mai aprea elementul din primul grup i n ce faz se va modifica el.
Cluster Membership
Case4 Clusters3 Clusters
1:Dacia MCV 111
2:Kia Ceed 221
3:VW Passat 221
4:Dacia VAN 311
5:Dacia Logan 221
6:Renault Clio 221
7:Renault Symbol 221
8:Audi A6 221
9:BMW X5 432
10:Colt 221
n tabelul Cluster Membership , n funcie de numrul grupurilor formate, sunt afiate cazurile ce intr n componena lor. n situaia de fa, se observ c cazul 1 ( Dacia MCV), indiferent de numrul grupurilor ce se formeaz, aparine aceluiai grup 1. Cazurile 9, atunci cnd se formeaz 4 grupuri, alctuiete singur grupul 4.
Pentru o vizualizare mai clar a modului de grupare a cazurilor :
Vertical IciclePrezint graficul tabeluilui Aglomeration schedule. Vertical Icicle este un grafic ce afieaz paii n formarea grupurilor. Coloanele corespund cazurilor, iar rndurile corespund numrului de grupuri. Acest tip de grafic se citete de jos n sus.
* * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Renault Clio 6
Renault Symbol 7
Colt 10
Kia Ceed 2
Dacia Logan 5
VW Passat 3
Audi A6 8
Dacia MCV 1
Dacia VAN 4
BMW X5 9
ANALIZA COMPONENTELOR PRINCIPALEDup analiza autoturismelor, managerul a cerut o analiz a celor mai cotate 25 de dealeri auto care pot s-i ofere mainile dorite. Pentru ndeplinirea obiectivelor se va folosi ca i metod analiza componentelor principale n SPSS.
Distribuia unor firme (un eantion de 25) ce activeaz pe piaa comerului cu autoturisme dup volumul vnzrilor (milioane lei), cifra de afaceri (milioane lei), numrul de clieni, numrul de angajai, cota de pia (procente), valoarea investiiilor (milioane lei), volumul datoriilor (milioane lei), pierderilor (milioane lei) i al profitului (milioane lei) din anul 2008 se prezint astfel: companievol_vanzcifra_afclientinr_angajcota investitdatorii profitpierderi
1250758040215803065
2300909040530904060
360016010055870457045
41004060201.515752075
542013090654.550854055
6360110100353401106035
7700185250501090257015
8560180100353.575659010
942014521040465606025
10150607015220452570
1160017090555.565506520
12750195220656.595209510
138401902607088030905
149101952804011100251005
156301801302099035755
16520130120608.560753540
1731095200255351005555
182008085302.525703565
1945015012035375506535
20520160170405.545808530
21390120150354.545455045
22410180190507.585458010
23620160240655.580457525
2455017523060680358525
2570019025070775709515
Descrierea bazei de date in SPSS
Variabile:
companie Numele companiei, variabil nominal, string
vol_vanz Volumul vnzrilor, variabil numeric, scal
cifra_af - Cifra de afaceri, variabil numeric, scal
clienti Numrul de clieni, variabil numeric, scal
nr_angaj Numrul de angajai, variabil numeric, scal
cota Cota de pia; variabil numeric, scal
investit Valoarea investiiilor, variabil numeric, scal
datorii Valoarea datoriilor, variabil numeric, scal
profit Valoarea profitului, variabil numeric, scal
pierderi Valoarea pierderilor, variabil numeric, scal.
Pai n SPSS, folosind analiza componentelor principale:
Analyse/Data reduction/Factor
Descriptives: Univariate Descriptives, Correlation Matrix (Coefficients, Determinant, KMO)
Extraction: Number of factors: 2 (axe factoriale)
Rotation: Loading plots
Scores: Save as variables, Display factor score coefficient matrix.
Descriptive Statistics
MeanStd. DeviationAnalysis N
vol_vanz490,40208,99525
cifra_af141,8046,32025
clienti155,4070,68025
nr_angaj44,6016,38925
cota5,36002,6161425
investit60,200026,3185625
datorii58,200024,6170725
profit63,600023,9583025
pierderi33,800022,5129625
Acest tabel prezint valorile mediei i ale abaterilor medii ptratice.
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,774
Bartlett's Test of SphericityApprox. Chi-Square258,758
df36,000
Sig.,000
Statistica este folosit pentru a se testa ipoteza de independen dintre variabile:
H0 : calc teoretic ipoteza de independen
H1 : calc >teoretic ipoteza de dependenn acest caz calc =258.758 > teoretic = =0.05, v=36 43.773 i valoarea sig.(=0.000) < =0.05 se respinge ipoteza de independen H0.
i statistica KMO este folosit pentru a se testa ipoteza de independen dintre variabile. Aceasta are o valoare 0.774 > 0.5 ceea ce arat c metoda ACP poate fi aplicat (ntre variabile exist legturi statistice).
Communalities
InitialExtraction
vol_vanz1,000,918
cifra_af1,000,938
clienti1,000,650
nr_angaj1,000,867
cota1,000,649
investit1,000,930
datorii1,000,720
profit1,000,816
pierderi1,000,873
Extraction Method: Principal Component Analysis.
Acest tabel prezint variana variabilelor iniiale, care au ntotdeauna valoarea 1.
n urmtorul tabel sunt trecute valorile proprii ale matricii corelaiilor (Initial Eigenvalues) i variana explicat de fiecare ax factorial (Total Varaince Explained). Suma valorilor proprii msoar ineria sau variana total a norului de puncte. Pe baza datelor din acest output se alege numrul de axe factoriale care se interpreteaz i anume, conform criteriului Benzcre, se aleg axele care explic cel puin 70% din variana total, n acest caz este suficient primul ax factorial ce explic 73.168% din variana total i evidenieaz cele mai importante diferene dintre companii din punct de vedere al variabilelor considerate.
Total Variance Explained
ComponentInitial EigenvaluesExtraction Sums of Squared Loadings
Total% of VarianceCumulative %Total% of VarianceCumulative %
16,58573,16873,1686,58573,16873,168
2,7768,61881,786,7768,61881,786
3,5556,16687,951
4,4525,01992,970
5,3924,35397,324
6,1141,26198,585
7,066,73499,319
8,046,50899,827
9,016,173100,000
Extraction Method: Principal Component Analysis.
Component Matrixa
Component
12
vol_vanz,956,068
cifra_af,968,033
clienti,803,074
nr_angaj,615,699
cota,804-,053
investit,957-,121
datorii-,685,500
profit,903,001
pierderi-,930,092
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
Component Matrix arat coordonatele variabilelor pe axele factoriale, component 1 reprezint primul ax factorial i component 2 cel de al doilea ax factorial.
Component Score Coefficient Matrix
Component
12
vol_vanz,145,087
cifra_af,147,042
clienti,122,095
nr_angaj,093,901
cota,122-,068
investit,145-,156
datorii-,104,645
profit,137,002
pierderi-,141,118
Extraction Method: Principal Component Analysis.
Component Scores.
Acest output arat contribuia variabilelor la ineria unui ax factorial.
Primul ax factorial care explic 73.168% din variana total evidenieaz o legtur direct ntre volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului i o legtur invers ntre aceste apte variabile i valoarea datoriilor i a pierderilor. (primele apte variabile au coordonate pozitive pe primul ax factorial, iar ultimele variabile au coordonate negative pe primul ax factorial). Cu ct valoarea datoriilor este mai mare cu att pierderile vor fi mai mari iar volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului vor nregistra valori mai mici.
Primul ax factorial evidenieaz dou grupe de companii, ntre care se nregistreaz cele mai mari deosebiri. Prima grup este format din firmele 1, 2, 6, 17 iar cea de a doua din firmele 3, 11, 12, 13, 24, 22. Prima grup se caracterizeaz prin datorii i pierderi mai mari dect nivelul mediu i cu volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului mai mici, spre deosebire de firmele din cea de a doua grup. Firma 20 se caracterizeaz prin valori foarte apropiate de nivelul mediu. n aceeai situatie se afl i firma 16 care are valori apropiate de nivelul mediu. Firmele 5 i 25 se caracterizeaz prin datorii mai mari i numr de angajai mai ridicat.
Situaia formrii a 4 grupuri
9
4
2 3 5 6 7
8 10
1
Situaia formrii a 3 grupuri
9
2 3 5 6 7
8 10
1
4
Situaia formrii a 2 grupuri
9
1 2 3 4 5 6 7 8 10
PAGE 4
_1163890682.unknown