28
ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

Embed Size (px)

Citation preview

Page 1: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ANALISI DEI DATISTATISTICI

DOTT.SSA LARA BERZIERI

ESERCITAZIONE CAPITOLI 8 E 9

Page 2: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

Considerata la seguente matrice dei dati avente 5 unità e 3 variabili:

si calcolino la matrice delle distanze euclidee e quella della città a blocchi sugli scostamenti standardizzati;

kcal proteine carboidrati1.MAGNUM 325 3,9 32,22.LIUK 105 0,8 23,73.MAGNIFICO 333 4,6 38,64.FIORDIFRAGOLA 62 0,5 12,25.LEMONISSIMO 53 0,0 13,0

Page 3: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

le variabili sono espresse in unità di misura diverse calcolo scostamenti standardizzati

zi = (xi –M)/ Z (kcal) Z (proteine) Z (carboidrati)

1.MAGNUM 1,056 0,913 0,7102.LIUK -0,499 -0,546 -0,0213.MAGNIFICO 1,113 1,243 1,2614.FIORDIFRAGOLA -0,803 -0,687 -1,0105.LEMONISSIMO -0,867 -0,923 -0,941

Page 4: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

CALCOLO DISTANZA EUCLIDEA

TRA MAGNUM E LIUK

=2,254

p

sjsisij xxd

1

22 )(

222122 )021,0(71,0)546,0(913,0)499,0(056,1 d

Page 5: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

Page 6: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

746,3

)021,0(71,0)546,0(913,0)499,0(056,1121

d

CALCOLO DISTANZA CITY-BLOCK

TRA MAGNUM E LIUK

p

sjsisij xxd

1

Page 7: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1

Page 8: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 1 si verifichi se tra le suddette

matrici esiste una relazione monotona

GRADI NELLE MATRICI IDENTICI1:MAGNUM 2:LIUK 3:MAGNIFICO 4:FIORDIFRAGOLA 5:LEMONISSIMO

1:MAGNUM 5 2 7 8

2:LIUK 6 3 4

3:MAGNIFICO 9 10

4:FIORDIFRAGOLA 1

5:LEMONISSIMO

1:MAGNUM 2:LIUK 3:MAGNIFICO 4:FIORDIFRAGOLA 5:LEMONISSIMO

1:MAGNUM 5 2 7 8

2:LIUK 6 3 4

3:MAGNIFICO 9 10

4:FIORDIFRAGOLA 1

5:LEMONISSIMO

Distanza City Block

Distanza euclidea

ρ = 1

Page 9: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.

1: IPERCOOP 2: ESSELUNGA 3: GS 4: PAM 5: SMA1: IPERCOOP 0 15,776 11,829 14,629 22,1792: ESSELUNGA 0 15,772 8,953 16,7543: GS 0 14,822 21,8654: PAM 0 17,4735: SMA 0

Distanza City-BlockCaso

Page 10: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

Si costruisca il corrispondente dendrogramma con il metodo del legame singolo

Si proponga un opportuno “taglio” di tale dendrogramma, se ne illustrino le informazioni e si descrivano le ulteriori elaborazioni statistiche che occorrerebbero effettuare per poter valutare quali sono i gruppi di ipermercati più convenienti per il consumatore.

Page 11: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

ANALISI DEI GRUPPIMETODO DI FORMAZIONE DEI GRUPPI: NON GERARCHICO K-MEDIE

GERARCHICO forniscono una “famiglia” di partizioni partendo da quella banale in cui tutti gli elementi sono distinti (g=n) sino a quella in cui tutte unità sono riunite in un unico gruppo (g=1)

Page 12: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

I diversi metodi gerarchici differiscono per il CRITERIO DI CALCOLO DELLA DISTANZA TRA DUE GRUPPI

Legame singolo (single linkage): Distanza = MINIMO delle distanze tra

gli elementi di un gruppo e quelli dell’altro

Page 13: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.

1: IPERCOOP 2: ESSELUNGA 3: GS 4: PAM 5: SMA1: IPERCOOP 0 15,776 11,829 14,629 22,1792: ESSELUNGA 0 15,772 8,953 16,7543: GS 0 14,822 21,8654: PAM 0 17,4735: SMA 0

Distanza City-BlockCaso

Page 14: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

Cluster 1 Cluster 21 2 4 8,953

2 1 3 11,829

3 2 1 14,629

4 1 5 16,754

STADIOCluster accorpati

Coefficienti

Page 15: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2 DENDROGRAMMA

•E’ un diagramma ad albero, verticale o orizzontale (SPSS), per la rappresentazione della successione di partizioni

•Le “radici” dell’albero sono le unità iniziali

•A livelli crescenti di distanza si uniscono i gruppi (elementi) tra loro

•In SPSS le distanze sono riscalate nell’intervallo 0 - 25 per rendere comparabili i dendrogrammi ottenuti con metodi diversi

Page 16: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 2

CLUSTER DI APPARTENENZA- SOLUZIONE CON 3 GRUPPI

CALCOLO MEDIE DI GRUPPO PER CIASCUNA VARIABILE

1: IPERCOOP 22: ESSELUNGA 13: GS 24: PAM 15: SMA 3

Caso 3 CLUSTER

Page 17: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 3

Si sono classificate 10 aziende in base a 4 indicatori di bilancio standardizzati, utilizzando il legame medio. Spss ha fornito il seguente “programma di agglomerazione” (1 Coca-cola; 2 Microsoft; 3 IBM; 4 Intel; 5 Nokia; 6 HP; 7 American Exp; 8 Sony; 9 Samsung; 10 Pepsi)-

Si commenti il significato delle quantità che compaiono nella tabella.

Si costruisca il corrispondente dendrogramma e se ne illustrino le informazioni.

Page 18: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 3

Cluster 1 Cluster 2 Cluster 1 Cluster 21 1 10 ,409 0 0 4

2 4 5 ,623 0 0 4

3 6 8 ,721 0 0 6

4 1 4 ,728 1 2 5

5 1 9 1,727 4 0 6

6 1 6 2,146 5 3 8

7 2 3 2,433 0 0 8

8 1 2 2,794 6 7 9

9 1 7 3,070 8 0 0

STADIOCoefficienti

Cluster accorpati Stadio di formazione Stadio successivo

Page 19: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 3Interpretazione del “programma di agglomerazione” di SPSS•Stadio = passo della classificazione gerarchica

•Cluster accorpati = “gruppi” (elementi) che si uniscono

•Stadio di formazione del cluster:

•se =0 indica che il “gruppo” è costituito da una singola unità;

•se =1, 2, 3, …indica un gruppo di più elementi che si è formato in precedenza, al passo corrispondente

•Stadio successivo = indica il passo in cui il gruppo ottenuto si riunirà ad altri gruppi

Page 20: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 3

TRADE-OFF TRA OMOGENEITA’ INTERNA E SINTESI DELLA PARTIZIONE

2 SOLUZIONE RAGIONEVOLI: CON 3 GRUPPI (CON 4 GRUPPI)

PRESENZA OUTLIER: AMERICAN EXPRESS

Page 21: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 4

Il dendrogramma riportato di seguito visualizza la classificazione di 7 notebook, ottenuta con il metodo del legame completo in base a 6 variabili standardizzate. Sapendo che il valore massimo delle distanze è uguale a 5,9, si ricostruisca la corrispondente tabella chiamata “Programma di agglomerazione” in Spss e si illustrino tutte le informazioni che essa fornisce.

Page 22: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

DENDROGRAMMA

Page 23: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 4

DENDROGRAMMA CON LIVELLI DI DISTANZA RISCALATI NELL’INTERVALLO 0-25

CALCOLO LIVELLI ORIGINARI APPROSSIMATIVI TRAMITE PROPORZIONE

ESEMPIO CALCOLO COFFICIENTE STADIO 5 5,9:25=X:18

Page 24: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 4

Cluster 1 Cluster 2 Cluster 1 Cluster 21 5 6 ,236 0 0 4

2 1 2 1,180 0 0 3

3 1 4 2,360 2 0 4

4 5 1 3,304 1 2 5

5 5 7 4,248 1 0 6

6 5 3 5,900 1 0 0

Stadio successivo

STADIOCluster accorpati

Coefficienti

Stadio di formazione

Page 25: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 5 – ACP e cluster

Si è applicata l’analisi delle componenti principali a 260 regioni europee, considerando 16 indicatori di benessere su vari aspetti economici e sociali.

Estraendo le prime due componenti principali si è ottenuto il relativo biplot: si commentino le informazioni da esso desumibili.

Page 26: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

ESERCIZIO 5

37%

20%

Page 27: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

COMMENTO AL BIPLOT

La percentuale di varianza totale delle 16 variabili spiegata dalle prime 2 CP estratte è pari al 57% e supera il valore soglia, che è uguale a 0,44.

ANALISI COMPLESSIVAMENTE VALIDA

Page 28: ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI ESERCITAZIONE CAPITOLI 8 E 9

COMMENTO AL BIPLOT

Poiché n>100, si è applicata l’analisi dei gruppi NON GERARCHICA, scegliendo K=5 e assegnando un simbolo diverso a ciascun cluster;

Gruppi di regioni con benessere superiore alla media: quarto e secondo;

Gruppi di regioni con benessere inferiore alla media: terzo e primo.