Upload
ernesta-santini
View
213
Download
0
Embed Size (px)
Citation preview
ANALISI DEI DATISTATISTICI
DOTT.SSA LARA BERZIERI
ESERCITAZIONE CAPITOLI 8 E 9
ESERCIZIO 1
Considerata la seguente matrice dei dati avente 5 unità e 3 variabili:
si calcolino la matrice delle distanze euclidee e quella della città a blocchi sugli scostamenti standardizzati;
kcal proteine carboidrati1.MAGNUM 325 3,9 32,22.LIUK 105 0,8 23,73.MAGNIFICO 333 4,6 38,64.FIORDIFRAGOLA 62 0,5 12,25.LEMONISSIMO 53 0,0 13,0
ESERCIZIO 1
le variabili sono espresse in unità di misura diverse calcolo scostamenti standardizzati
zi = (xi –M)/ Z (kcal) Z (proteine) Z (carboidrati)
1.MAGNUM 1,056 0,913 0,7102.LIUK -0,499 -0,546 -0,0213.MAGNIFICO 1,113 1,243 1,2614.FIORDIFRAGOLA -0,803 -0,687 -1,0105.LEMONISSIMO -0,867 -0,923 -0,941
ESERCIZIO 1
CALCOLO DISTANZA EUCLIDEA
TRA MAGNUM E LIUK
=2,254
p
sjsisij xxd
1
22 )(
222122 )021,0(71,0)546,0(913,0)499,0(056,1 d
ESERCIZIO 1
ESERCIZIO 1
746,3
)021,0(71,0)546,0(913,0)499,0(056,1121
d
CALCOLO DISTANZA CITY-BLOCK
TRA MAGNUM E LIUK
p
sjsisij xxd
1
ESERCIZIO 1
ESERCIZIO 1 si verifichi se tra le suddette
matrici esiste una relazione monotona
GRADI NELLE MATRICI IDENTICI1:MAGNUM 2:LIUK 3:MAGNIFICO 4:FIORDIFRAGOLA 5:LEMONISSIMO
1:MAGNUM 5 2 7 8
2:LIUK 6 3 4
3:MAGNIFICO 9 10
4:FIORDIFRAGOLA 1
5:LEMONISSIMO
1:MAGNUM 2:LIUK 3:MAGNIFICO 4:FIORDIFRAGOLA 5:LEMONISSIMO
1:MAGNUM 5 2 7 8
2:LIUK 6 3 4
3:MAGNIFICO 9 10
4:FIORDIFRAGOLA 1
5:LEMONISSIMO
Distanza City Block
Distanza euclidea
ρ = 1
ESERCIZIO 2
Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.
1: IPERCOOP 2: ESSELUNGA 3: GS 4: PAM 5: SMA1: IPERCOOP 0 15,776 11,829 14,629 22,1792: ESSELUNGA 0 15,772 8,953 16,7543: GS 0 14,822 21,8654: PAM 0 17,4735: SMA 0
Distanza City-BlockCaso
ESERCIZIO 2
Si costruisca il corrispondente dendrogramma con il metodo del legame singolo
Si proponga un opportuno “taglio” di tale dendrogramma, se ne illustrino le informazioni e si descrivano le ulteriori elaborazioni statistiche che occorrerebbero effettuare per poter valutare quali sono i gruppi di ipermercati più convenienti per il consumatore.
ESERCIZIO 2
ANALISI DEI GRUPPIMETODO DI FORMAZIONE DEI GRUPPI: NON GERARCHICO K-MEDIE
GERARCHICO forniscono una “famiglia” di partizioni partendo da quella banale in cui tutti gli elementi sono distinti (g=n) sino a quella in cui tutte unità sono riunite in un unico gruppo (g=1)
ESERCIZIO 2
I diversi metodi gerarchici differiscono per il CRITERIO DI CALCOLO DELLA DISTANZA TRA DUE GRUPPI
Legame singolo (single linkage): Distanza = MINIMO delle distanze tra
gli elementi di un gruppo e quelli dell’altro
ESERCIZIO 2
Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.
1: IPERCOOP 2: ESSELUNGA 3: GS 4: PAM 5: SMA1: IPERCOOP 0 15,776 11,829 14,629 22,1792: ESSELUNGA 0 15,772 8,953 16,7543: GS 0 14,822 21,8654: PAM 0 17,4735: SMA 0
Distanza City-BlockCaso
ESERCIZIO 2
Cluster 1 Cluster 21 2 4 8,953
2 1 3 11,829
3 2 1 14,629
4 1 5 16,754
STADIOCluster accorpati
Coefficienti
ESERCIZIO 2 DENDROGRAMMA
•E’ un diagramma ad albero, verticale o orizzontale (SPSS), per la rappresentazione della successione di partizioni
•Le “radici” dell’albero sono le unità iniziali
•A livelli crescenti di distanza si uniscono i gruppi (elementi) tra loro
•In SPSS le distanze sono riscalate nell’intervallo 0 - 25 per rendere comparabili i dendrogrammi ottenuti con metodi diversi
ESERCIZIO 2
CLUSTER DI APPARTENENZA- SOLUZIONE CON 3 GRUPPI
CALCOLO MEDIE DI GRUPPO PER CIASCUNA VARIABILE
1: IPERCOOP 22: ESSELUNGA 13: GS 24: PAM 15: SMA 3
Caso 3 CLUSTER
ESERCIZIO 3
Si sono classificate 10 aziende in base a 4 indicatori di bilancio standardizzati, utilizzando il legame medio. Spss ha fornito il seguente “programma di agglomerazione” (1 Coca-cola; 2 Microsoft; 3 IBM; 4 Intel; 5 Nokia; 6 HP; 7 American Exp; 8 Sony; 9 Samsung; 10 Pepsi)-
Si commenti il significato delle quantità che compaiono nella tabella.
Si costruisca il corrispondente dendrogramma e se ne illustrino le informazioni.
ESERCIZIO 3
Cluster 1 Cluster 2 Cluster 1 Cluster 21 1 10 ,409 0 0 4
2 4 5 ,623 0 0 4
3 6 8 ,721 0 0 6
4 1 4 ,728 1 2 5
5 1 9 1,727 4 0 6
6 1 6 2,146 5 3 8
7 2 3 2,433 0 0 8
8 1 2 2,794 6 7 9
9 1 7 3,070 8 0 0
STADIOCoefficienti
Cluster accorpati Stadio di formazione Stadio successivo
ESERCIZIO 3Interpretazione del “programma di agglomerazione” di SPSS•Stadio = passo della classificazione gerarchica
•Cluster accorpati = “gruppi” (elementi) che si uniscono
•Stadio di formazione del cluster:
•se =0 indica che il “gruppo” è costituito da una singola unità;
•se =1, 2, 3, …indica un gruppo di più elementi che si è formato in precedenza, al passo corrispondente
•Stadio successivo = indica il passo in cui il gruppo ottenuto si riunirà ad altri gruppi
ESERCIZIO 3
TRADE-OFF TRA OMOGENEITA’ INTERNA E SINTESI DELLA PARTIZIONE
2 SOLUZIONE RAGIONEVOLI: CON 3 GRUPPI (CON 4 GRUPPI)
PRESENZA OUTLIER: AMERICAN EXPRESS
ESERCIZIO 4
Il dendrogramma riportato di seguito visualizza la classificazione di 7 notebook, ottenuta con il metodo del legame completo in base a 6 variabili standardizzate. Sapendo che il valore massimo delle distanze è uguale a 5,9, si ricostruisca la corrispondente tabella chiamata “Programma di agglomerazione” in Spss e si illustrino tutte le informazioni che essa fornisce.
DENDROGRAMMA
ESERCIZIO 4
DENDROGRAMMA CON LIVELLI DI DISTANZA RISCALATI NELL’INTERVALLO 0-25
CALCOLO LIVELLI ORIGINARI APPROSSIMATIVI TRAMITE PROPORZIONE
ESEMPIO CALCOLO COFFICIENTE STADIO 5 5,9:25=X:18
ESERCIZIO 4
Cluster 1 Cluster 2 Cluster 1 Cluster 21 5 6 ,236 0 0 4
2 1 2 1,180 0 0 3
3 1 4 2,360 2 0 4
4 5 1 3,304 1 2 5
5 5 7 4,248 1 0 6
6 5 3 5,900 1 0 0
Stadio successivo
STADIOCluster accorpati
Coefficienti
Stadio di formazione
ESERCIZIO 5 – ACP e cluster
Si è applicata l’analisi delle componenti principali a 260 regioni europee, considerando 16 indicatori di benessere su vari aspetti economici e sociali.
Estraendo le prime due componenti principali si è ottenuto il relativo biplot: si commentino le informazioni da esso desumibili.
ESERCIZIO 5
37%
20%
COMMENTO AL BIPLOT
La percentuale di varianza totale delle 16 variabili spiegata dalle prime 2 CP estratte è pari al 57% e supera il valore soglia, che è uguale a 0,44.
ANALISI COMPLESSIVAMENTE VALIDA
COMMENTO AL BIPLOT
Poiché n>100, si è applicata l’analisi dei gruppi NON GERARCHICA, scegliendo K=5 e assegnando un simbolo diverso a ciascun cluster;
Gruppi di regioni con benessere superiore alla media: quarto e secondo;
Gruppi di regioni con benessere inferiore alla media: terzo e primo.