36
20/12/2019 1 Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2019-2020 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Tipi di analisi dei dati ANALISI MONOVARIATA considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate. Consente di pervenire ad una conoscenza più accurata dei dati. In presenza di dati campionari, è necessaria per valutare la struttura del campione. ANALISI BIVARIATA studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche. ANALISI MULTIVARIATA Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche.

Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella Mingo A.A. 2019-2020

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Tipi di analisi dei dati

ANALISI MONOVARIATA

considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate.

Consente di pervenire ad una conoscenza più accurata dei dati.

In presenza di dati campionari, è necessaria per valutare la struttura del campione.

ANALISI BIVARIATA

studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche.

ANALISI MULTIVARIATA

Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche.

Page 2: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

2

X =

X1 X2 … Xj … Xp

u1 x11 x12 … x1j … x1p

u2 x21 x22 … x2j

… x2p

… … … … … … …

ui xi1 xi2 … xij

… xip

… … … … … … …

un xn1 xn2 … xnj … Xnp

Il punto di partenza: la matrice dei dati

Insieme di informazioni, numeri o codici alfanumerici, disposte su righe e colonne. Alle righe corrisponde un insieme omogeneo I Alle colonne corrisponde un insieme omogeneo J

I. Mingo 2019-2020

Tipi di matrici di dati: Unità x Variabili

Caratteristiche:

Righe e colonne non rappresentano gli stessi elementi :

– in riga sono rappresentate le unità di analisi,

– in colonna le variabili

Insieme I= unità /Insieme J= Variabili

Esempi :

– Tabella inventario

– Matrice di dati qualitativi

– Matrice di intensità

– Matrice di ranghi

– Matrice di preferenze

– Matrice di punteggi

I. Mingo 2019-2020

Page 3: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

3

Tabella inventario o matrice di dati unità/variabili

Matrice di dati Mnp con dati di tipo misto. L’applicazione di tecniche di analisi richiede la selezione e/o la parziale trasformazione delle variabili

I. Mingo 2019-2020

Matrice di dati qualitativi

Matrice di intensità

Matrice di dati Qnp con caratteri di tipo qualitativo (nominale e/o ordinale).

Matrice di dati Inp con caratteri di tipo quantitativo (discreti e /o continui)

I. Mingo 2019-2020

Page 4: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

4

Matrice di preferenze Matrice di ranghi

Matrice di dati Pnp che contiene il rango dato da ciascuna unità statistica ai caratteri osservati in base alla propria preferenza. I valori sono espressi da 1 a p , numero di entità da valutare

Matrice di dati Rnp che contiene il rango assegnato a ciascuna unità statistica secondo l’intensità assunta su ciascuno dei caratteri osservati I valori sono espressi da 1 a n , numero di unità da ordinare.

I. Mingo 2019-2020

Matrice di punteggi

Matrice di dati Pnp che contiene valori discreti aventi un campo definito di variazione (es. 1-10; 1 -5; 0-100) indicanti, per esempio, per ciascuna unità statistica un dato punteggio o l’intensità di soddisfazione /insoddisfazione o il grado di accordo/ disaccordo)

I. Mingo 2019-2020

Page 5: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

5

Tipi di matrici di dati: Matrici Unità x Unità

Sono matrici nxn in cui l’insieme di unità I rappresentato in riga è

omogeneo rispetto a quello J rappresentato in colonna.

Gli elementi possono essere misure di similarità/dissimilarità fra

le unità statistiche oppure di intensità di flussi in matrici di

scambio

Possono essere :

• Simmetriche se gli elementi rappresentati nel triangolo

superiore alla diagonale principale sono speculari rispetto a

quelle del triangolo inferiore (es. matrici di distanze

geografiche)

• Non simmetriche : se gli elementi rappresentati nel triangolo

superiore alla diagonale principale non sono speculari rispetto

a quelle del triangolo inferiore

I. Mingo 2019-2020

Esempio di matrice unità/unità: Matrice di distanza

- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Simmetrica - La diagonale principale presenta valori nulli

I. Mingo 2019-2020

Page 6: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

6

Esempio di matrice unità/unità: Matrice di scambio

- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Non simmetrica - La diagonale principale presenta valori nulli

I. Mingo 2019-2020

Tipi di matrici di dati: Matrici Variabili x Variabili (pxp)

Sono matrici pxp in cui l’insieme di unità I rappresentato in riga è

omogeneo rispetto a quello J rappresentato in colonna.

Gli elementi possono essere variabili o modalità di variabili.

Sono matrici di questo tipo

– Matrice di varianza e covarianza: i cui elementi sono indici

di dispersione tra le p variabili considerate;

– Matrice di correlazione: i cui elementi sono indici di

correlazione tra le p variabili considerate;

I. Mingo 2019-2020

Page 7: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

7

Esempio di matrice variabili/variabili

Matrice di

varianza/covarianza Matrice di correlazione

-Quadrata

-Simmetrica

- Tutti gli elementi della diagonale principali

sono uguali a uno.

- Quadrata

- Simmetrica

- Tutti gli elementi della diagonale principali sono

uguali alla varianza di ciascuna delle p variabili.

I. Mingo 2019-2020

Introduzione all’analisi Multidimensionale

I. Mingo 2019-2020

Page 8: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

8

Che cosa è l’Analisi Multidimensionale dei Dati?

Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l’analisi di grandi quantità di dati

I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche

Il concetto di “dimensione” viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio “multi-variato”.

Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all’avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software.

I. Mingo 2019-2020

Approccio esplorativo-descrittivo

• Nella sua impostazione originaria, l‘AMD analizza le relazioni tra le

variabili sulla base degli strumenti della geometria euclidea e

dell'algebra, prescindendo da qualunque assunzione probabilistica.

• Il suo approccio è originariamente di tipo esplorativo:

– si analizzano i dati per “cogliere indizi” utili alla formulazione di

ipotesi distributive delle variabili

– si tratta simultaneamente con variabili numerose e spesso

eterogenee riguardo al loro livello di misurazione

• Le tecniche di AMD possono essere dunque considerate un

sottoinsieme di quello più ampio dell’Analisi Multivariata che

comprende anche altre tecniche di approccio non esplorativo.

I. Mingo 2019-2020

Page 9: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

9

Un’approccio tipico di AMD:

I principi della Scuola Francese dell’ Analyse des

données

1. La statistica non è calcolo delle probabilità

2. Il modello deve seguire i dati non l’inverso

3. è opportuno trattare simultaneamente informazioni

concernenti il maggior numero possibile di dimensioni

4. Per l’analisi dei fenomeni complessi è indispensabile il

computer

5. L’uso del computer implica l’abbandono di ogni tecnica

concepita prima dell’avvento del calcolo automatico (Benzècri 1973)

I. Mingo 2019-2020

AMD: classificazione delle tecniche Criterio: Metrica

Analisi metrica: adatta a variabili quantitative

Analisi non metrica: applicabile a variabili di qualsiasi scala di misura

Criterio: Simmetria

Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali

Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti).

Criterio: Linearità

Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X1, X2, …,Xk è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale

Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale).

I. Mingo 2019-2020

Page 10: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

10

Alcune finalità delle tecniche di AMD

Riduzione dei dati • Descrizione dei dati rilevati mediante forme semplici e compatte

analitiche e/o grafiche • Costruzione di indici sintetici

Evidenziazione strutture latenti

Raggruppamento e ricerca di tipologie • Definizione automatica di classi di unità più omogenee

Discriminazione • Identificazione delle caratteristiche che differenziano due o più

insiemi di unità.

I. Mingo 2019-2020

Strategie di analisi

• Nella prassi della ricerca le tecniche di AMD vengono

concatenate e possono costituire a loro volta il presupposto

per l’applicazione di altre tecniche.

• Una strategia è un processo di analisi dei dati che si avvale di

un insieme di tecniche statistiche combinate tra loro in vista

di determinati fini conoscitivi.

I. Mingo 2019-2020

Sintesi delle variabili

Ricerca di tipologie

Esempio di strategia

Matrice dati

Page 11: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

11

Tecniche multivariate di riduzione delle variabili:

L’analisi in componenti principali

I. Mingo 2019-2020

Matrice di dati: rappresentazione geometrica

Ogni riga di una matrice di dati Xnp

quantitativi può essere

rappresentata come un vettore

numerico a p dimensioni che

indica le coordinate del punto-

unità nello spazio Rp detto delle

unità

Ogni colonna di una matrice di dati

Xnp quantitativi può essere

rappresentata come un vettore

numerico a n dimensioni che

indica le coordinate del punto-

variabile nello spazio Rn detto

delle variabili

I. Mingo 2019-2020

Page 12: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

12

Glossario: Vettore e spazio vettoriale

• Il piano cartesiano è un esempio di spazio

vettoriale

• Un vettore è un punto del piano cartesiano,

determinato da una coppia di numeri reali (x, y).

• Disegnando una freccia che parte nell'origine (0, 0)

e arriva in (x, y), si ottiene il significato fisico di

vettore applicato nell'origine;

• I vettori possono essere sommati e moltiplicati per

scalari e per altri vettori.

• Analogamente nello spazio n-dimensionale un

vettore è una ennupla di numeri reali (x1, x2, …xn).

I. Mingo 2019-2020

Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale

I. Mingo 2019-2020

All’aumentare degli n vettori di

riga xi aumenta anche la

numerosità dei punti

rappresentati nella nuvola dei

punti-unità nello spazio Rp.

All’aumentare dei p vettori

colonna aumenta la numerosità

delle dimensioni dello spazio-

unità e dunque la complessità

dei dati in analisi.

n punti in R2

n punti in R3

Page 13: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

13

Glossario Baricentro e Inerzia totale

• Il baricentro di una nuvola di punti-unità è il vettore delle medie

delle variabili

• La dispersione totale della nuvola dei punti unità intorno al loro

baricentro si definisce varianza totale o inerzia totale.

• Essa può essere calcolata sommando gli elementi della diagonale

principale (traccia) della matrice di varianza e covarianza.

I. Mingo 2019-2020

L’analisi in componenti principali (ACP)

• E’ una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili:

– si basa sulle correlazioni esistenti tra di esse

– individua una serie di p fattori comuni o componenti, di importanza decrescente.

– Le componenti sono:

• combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l’informazione

• non sono correlati tra di loro.

Esempi di applicazione:

•Quali sono le dimensioni del benessere dei comuni italiani?

• In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali ?

•In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto?

I. Mingo 2019-2020

Page 14: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

14

ACP : approccio geometrico

• Geometricamente, le componenti rappresentano un nuovo

sistema di coordinate ottenuto ruotando il sistema originale

con p assi coordinati

• L’obiettivo è di sceglierne un numero q ≤ p che spiegano la

massima parte della varianza originaria.

Y2

I. Mingo 2019-2020

Nell’esempio la somma delle distanze al

quadrato dai punti alla retta Y1 è

minimizzata • Y1 è una combinazione lineare delle variabili originarie

Correlazione e riduzione

Tasso di disoccupazione

3020100

Ta

sso

di d

iso

ccu

pa

zio

ne

gio

va

nile

70

60

50

40

30

20

10

0

r=0,976

r=0,002

Le caratteristiche dei punti-unità espresse dalle

due variabili (le due dimensioni del piano

cartesiano) possono essere riassunte da una

sola dimensione (la retta) che li sintetizza.

Non è possibile individuare una retta

che riassuma le due dimensioni poiché

sono indipendenti.

I. Mingo 2019-2020

Page 15: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

15

Uso del software : la correlazione

I. Mingo 2019-2020

Analisi in Componenti Principali (ACP) : il modello

A partire da un insieme di variabili quantitative originarie:

X1, X2 ,…, Xj,…, Xp

l’ACP conduce a un insieme di variabili non osservate

Y1,Y2,…,Yq (q≤p)

tale che ciascuna i-esima componente principale Yi sarà :

Yi = wi1X1 + wi2X2 + ..... + wipXp i=1,2,…q

Dove wij sono i pesi associati ad ogni variabile per ogni componente

I. Mingo 2019-2020

Page 16: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

16

ACP: calcolo della prima componente

• Si determineranno i pesi w1j della combinazione

lineare in modo da :

• rendere massima la varianza della componente

stessa:

var (Y1) = max

• e sotto la condizione che la somma dei quadrati dei

coefficienti wi1 della combinazione sia uguali a 1:

I. Mingo 2019-2020

ACP: calcolo delle altre componenti

• La seconda componente sarà determinata con le medesime

condizioni e con quella aggiuntiva che sia non-correlata con la

prima, valga cioè la relazione:

r (Y1 Y2) = 0 -> w11 w12 + w21 w22 + …wq1 wq2 =0

• Le successive componenti principali si determinano in modo

analogo; si avrà quindi:

var (Y1) var (Y2) … var (Yq)

e

r(Ys Yk) =0 s,k tale che sk

I. Mingo 2019-2020

Page 17: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

17

ACP : fasi

Fase 1

• La matrice iniziale: variabili e trasformazioni

Fase 2 • La scelta del software: elaborazione

Fase 3

• Lettura dell’output e interpretazione

I. Mingo 2019-2020

Progettazione di una ACP

• Scelta delle variabili da analizzare:

– Le variabili devono essere quantitative.

– Si può optare per l’uso di variabili

standardizzate (scelta necessaria se si dispone

di variabili espressi in differenti unità di misura) o

non standardizzate.

Fase 1

I. Mingo 2019-2020

Page 18: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

18

Esecuzione di una ACP

• Scelta del software:

• Si può fare ricorso a numerosi software statistici che

dispongono di procedure adatte all’applicazione dell’ACP:

• SPSS, SAS, STATA, SPAD, NCSI……...

Fase 2

I. Mingo 2019-2020

Uso del software Spss : esecuzione ACP

I. Mingo 2019-2020

Page 19: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

19

Lettura dell’output e interpretazione

Analisi delle variabili in input

Caratteristiche dei fattori estratti:

Numero e quote di varianza spiegata

Comunalità

Correlazioni fattori/variabili

Punteggi delle variabili

Punteggi delle unità

Rappresentazioni grafiche

Fase 3

I. Mingo 2019-2020

Analisi delle variabili in input

I. Mingo 2019-2020

L’analisi delle statistiche descrittive monovariate precede l’applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti.

Test che ci consentono di stabilire se la struttura di correlazione delle variabili

usate è adatta all’applicazione di una analisi di tipo fattoriale.

KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1.

Test di Bartlett significativo (con sig < 0.05).

Page 20: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

20

ACP: risultati

• La risoluzione del problema di massimo vincolato, applicato

alla matrice di correlazione R (o a quella di varianza e

covarianza S) tra le p variabili , conduce ad ogni passo a

trovare :

var (Yi) = λi (i=1,2,…q)

dove λi è l’iesimo autovalore della matrice R, pertanto

per la condizione di varianza decrescente:

λ1 > λ2 > λ3 >… λq

i coefficienti w1i, w2i,…,wq1 sono l’autovettore associato ad

ogni λi

I. Mingo 2019-2020

Le caratteristiche dei fattori : numero e quote di varianza spiegata

I. Mingo 2019-2020

•Nell’ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10).

•A ciascun fattore è associato un autovalore i (eigenvalue) e una quota di varianza decrescente • i /) i (i=1,2,…q)

• Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100.

Page 21: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

21

Quanti fattori considerare?

•Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici:

fissare un livello minimo di percentuale cumulata di spiegazione della

varianza e considerare fattori che cumulativamente consentono di raggiungere

la soglia prefissata;

- Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della

varianza di ognuna delle p variabili originarie, cioè

0,95p x 100

Al crescere del numero di variabili ci si può accontentare di una % minore

scegliere i fattori con autovalore >1 a prescindere dalla percentuale di

varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla

varianza media ( somma degli autovalori/ p);

rappresentare graficamente gli autovalori rispetto all’ordine di estrazione

(scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i

cui autovalori si collocano prima del punto di flesso della spezzata (Cattel).

I. Mingo 2019-2020

Scree test

I. Mingo 2019-2020

Page 22: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

22

La bontà della riduzione: la comunalità

• Per valutare la ‘bontà’ dell’operazione, che riduce il

numero di dimensioni da p a q (ossia da 10 a 2),

possiamo fare riferimento alla comunalità di

ciascuna variabile originaria:

• Misura la percentuale di varianza di ciascuna variabile spiegata dalle

componenti estratte

I. Mingo 2019-2020

Il significato di ogni fattore : le correlazioni con le variabili

I. Mingo 2019-2020

I coefficienti di correlazione tra ogni

fattore e le variabili originarie

consentono di attribuire alla

dimensione sintetica un “etichetta” :

• il segno del coefficiente indica il tipo

di relazione lineare diretta (+) o

inversa (-);

•L’entità del coefficiente indica la

forza della relazione.

Page 23: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

23

Il grafico delle componenti

I. Mingo 2019-2020

•Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all’asse evidenzia la correlazione prossima a |1| . •La lontananza indica una correlazione debole.

La rotazione delle componenti

• Per agevolare la interpretazione delle componenti si può

applicare una rotazione ortogonale degli assi fattoriali in modo

da minimizzare il numero di variabili che sono fortemente

correlate con ogni fattore.

• Il peso dei fattori è così distribuito più uniformemente e

l’interpretazione dei fattori è semplificata.

• Questo tipo di rotazione è denominata Varimax

I. Mingo 2019-2020

Page 24: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

24

La rotazione modifica: -l’autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti

I. Mingo 2019-2020

I punteggi fattoriali

I. Mingo 2019-2020

Punteggi delle variabili sui fattori

Punteggi delle unità sui fattori

autovettori standardizzati: wij/√ij)

Page 25: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

25

ACP: i punteggi in SPSS

• Il punteggio (score) di ogni componente è definito da:

• Yi = wi1X1 + wi2X2 + ..... + wipXp

dove w ij è il peso (autovettore) della prima componente

e della iesima variabile

• Avendo imposto la condizione di normalizzazione i pesi

hanno media nulla e varianza pari all’autovalore di ogni

componente.

• Ciò riflette l’importanza di ogni componente ma presenta

lo svantaggio di non rendere direttamente comparabili le

diverse componenti.

• A tal fine si possono ricavare pesi standardizzati, con

varianza unitaria, dividendo per ogni fattore l’ autovettore

per la radice quadrata del rispettivo autovalore.

• SPSS adotta poi diverse procedure per calcolare i

punteggi delle unità statistiche sulle componenti.

• Per ogni unità statistica il punteggio sul fattore è la sua

coordinata nel nuovo sistema di riferimento (cfr. grafico

slide precedente) .

I. Mingo 2019-2020

Introduzione alla Cluster analysis Tecniche e software

Page 26: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

26

Individuare tipologie….

… è uno degli scopi della classificazione

Classificare vuol dire…

• individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo – il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà

• scegliere un punto vista su cui basare tale distinzione

• Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate .

•Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei.

I. Mingo 2019-2020

Tecniche automatiche per individuare tipologie:

Cluster Analysis (analisi dei gruppi – classification automatique)

La cluster analysis è un insieme di tecniche multivariate

esplorative, basate sull'assunzione che le variabili e le unità

statistiche possono essere considerate delle dimensioni del

fenomeno studiato rappresentabili su spazi geometrici.

I gruppi omogenei vengono ottenuti in modo induttivo,

automaticamente (unsupervised classification), mediante

l’applicazione di algoritmi e non con criteri soggettivi.

La classificazione a cui consente di pervenire si fonda sul

concetto di prossimità (dissimilarità / similarità ) tra le diverse

unità nello spazio, definito da un sistema di assi cartesiani

ciascuno dei quali riporta i valori assunti da una delle variabili

rilevate.

I. Mingo 2019-2020

Page 27: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

27

Individuazione di tipologie Esempio

% pop. usa posta elettronica

8070605040

% p

op

. ch

e u

sa

In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

Basilicata

Puglia

Campania

M olise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Romagna

Liguria

Friuli

Veneto

Trentino

Lombardia

Valle d'Aosta

Piemonte

Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili.

Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d’Aosta-Toscana)

Tanto più le regioni sono distanti sul piano tanto più sono diverse rispetto alle due variabili considerate (es. Basilicata ed Emilia Romagna)

I gruppi omogenei si possono individuare in base alla distanza : deve essere minima all’interno di un gruppo e massima tra gruppi diversi.

I. Mingo 2019-2020

Tipi di dati

Matrice di dati Xnp

Matrice di dissimilarità Xnn d(i, j) misura di dissimilarità tra dati

Matrice di similarità Xnn d’(i, j)=sim= misura di similarità tra dati

I. Mingo 2019-2020

Page 28: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

28

Dissimilarità e distanza

• La scelta della misura di dissimilarità è fondamentale nella strategia

operativa della cluster analysis ed è condizionata dal tipo di variabili

sulla base dei quali si vuole effettuare la classificazione.

• Le misure di dissimilarità soddisfano le seguenti proprietà:

1. d (a,b)=0 se a=b (identità);

2. d(a,b) ≥ 0 se a≠ b (non negatività)

3. d(b,a)=d(a,b) (simmetria);

• se a queste tre proprietà si aggiunge anche la seguente:

d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare).

• si ottengono misure di distanza, utilizzabili per variabili quantitative .

I. Mingo 2019-2020

Alcune distanze per variabili quantitative

– distanza euclidea (E)

– la distanza City Block (assoluta)o di Manhattan

(AB+BC)

– la distanza di Mahalanobis che considera le

varianze e covarianze tra i caratteri considerati e

consente di ottenere distanze depurate dalla

interdipendenza eventualmente presente tra le

variabili.

I. Mingo 2019-2020

B

A

E

A B

C

Page 29: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

29

Matrice di distanze: esempio

Matrice delle distanze

,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,795

4,140 ,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,010

7,628 8,857 ,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,288

3,471 4,100 10,913 ,000 4,528 7,716 13,315 8,458 15,700 15,255 18,881

2,617 2,309 6,815 4,528 ,000 3,189 9,800 4,604 11,517 10,878 14,451

5,314 4,624 4,554 7,716 3,189 ,000 8,065 3,330 8,846 7,948 11,413

9,849 12,020 3,624 13,315 9,800 8,065 ,000 5,204 4,123 5,308 8,228

5,131 6,818 2,500 8,458 4,604 3,330 5,204 ,000 7,272 7,072 10,749

12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272 ,000 1,838 4,111

12,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838 ,000 3,677

15,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677 ,000

Caso

5:Veneto

6:Friuli0Venezia Giuli

7:Liguria

8:Emilia Romagna

9:Toscana

10:Umbria

11:Marche

12:Lazio

13:Abruzzo

14:Molise

15:Campania

5:Veneto

6:Friuli0Ve

nezia Giuli 7:Liguria

8:Emilia

Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania

Distanza euclidea

Questa è una matrice di dissimilarità

Caratteristiche:

•È quadrata: gli elementi in riga sono uguali a quelli in colonna

•E’ simmetrica rispetto alla diagonale principale

•Gli elementi della diagonale principale sono uguali a 0.

I. Mingo 2019-2020

Misure di dissimilarità e similarità per dati binari

Tabella di contingenza per coppie di dati binari:

•Coefficiente di matching semplice:

•Coefficiente di Jaccard: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure.

• Distanza euclidea per dati binari:

I. Mingo 2019-2020

Page 30: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

30

Cluster analysis : tipi di tecniche

Cluster gerarchica aggregativa:

Utilizza algoritmi che partendo da un numero n di gruppi pari al numero dei casi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad un gruppo unico in cui sono raggruppati tutti i casi originari. Genera un albero di aggregazione o dendrogramma.

Cluster analysis non gerarchica:

parte da una situazione di un numero di gruppi predeterminato a priori e giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo) la suddivisione in gruppi.

conduce a un'unica partizione dei dati da analizzare, comporta pertanto ipotesi precise circa le modalità di strutturazione del collettivo statistico considerato e,a volte, la scelta delle unità intorno alle quali aggregare le altre unità del gruppo.

Si utilizza soprattutto quando le unità in analisi sono molto numerose.

Tecniche miste:

che utilizzano sia algoritmi gerarchici che non gerarchici.

I. Mingo 2019-2020

Cluster Analysis: fasi

Fase 1

• La matrice iniziale

Fase 2

• La scelta del software e dell’algoritmo: elaborazione

Fase 3

• Lettura dell’output e interpretazione

Fase 4 • Descrizione dei gruppi ottenuti

I. Mingo 2019-2020

Page 31: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

31

Progettazione di una Cluster Analysis: la matrice iniziale

• Scelta delle variabili in base alle quali raggruppare le unità

statistiche:

– Le variabili possono essere quantitative o qualitative.

– Se le variabili sono quantitative si può optare per l’uso di

variabili standardizzate o non standardizzate.

– Il tipo di variabili incide sul tipo di misura di prossimità

(similarità o dissimilarità) da utilizzare

– Il numero delle unità statistiche incide sul tipo di tecnica

(gerarchica o non gerarchica) di cluster adottabile.

Fase 1

I. Mingo 2019-2020

Uso del software : Cluster analysis

I. Mingo 2019-2020

Fase 2

Page 32: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

32

Cluster gerarchica: si possono calcolare le distanze

-Tra due unità statistiche

% pop. usa posta elettronica

8070605040

% p

op

. ch

e u

sa

In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

Basilicata

Puglia

Campania

M olise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Romagna

Liguria

Friuli

Veneto

Trentino

Lombardia

Valle d'Aosta

Piemonte

Tra una unità ed un gruppo di unità

Tra due gruppi di unità

Si possono adottare diverse soluzioni per misurare le distanze tra gruppi di unità, considerando:

•le distanze fra le medie dei gruppi (group means)

•le distanze fra le loro unità più vicine (nearest neighbour)

•le distanze fra le loro unità più lontane (furthest neighbour)

•La media delle distanze fra tutte le unità di un gruppo e tutte quelle dell’altro (group average)

I. Mingo 2019-2020

Cluster gerarchica : algoritmo

Matrice dati Input: N Unità x p indicatori

Matrice distanze

D=min Formazione gruppo

C=N-1 ?

si

no Un gruppo di N unità

Scelta della misura di distanza:

- tra unità

- tra gruppi

Le differenti misure di distanza tra gruppi caratterizzano diversi metodi di cluster gerarchica aggregativa

I. Mingo 2019-2020

Page 33: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

33

Uso del software:cluster gerarchica

I. Mingo 2019-2020

Fase 2

Cluster gerarchica aggregativa Alcuni metodi di raggruppamento

I. Mingo 2019-2020

Metodo del legame singolo (nearest

neighbour ) :

la distanza tra il gruppo A e il gruppo B è

la distanza minore tra le unità del gruppo A

e quelle del gruppo B.

I gruppi che si ottengono hanno forma

allungata a losanga.

Metodo del legame completo (furthest

neighbour ):

la distanza tra il gruppo A e il gruppo B è

la distanza maggiore le unità del gruppo A e

quelle del gruppo B.

I gruppi che si ottengono hanno forma

circolare.

Page 34: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

34

Cluster gerarchica aggregativa Alcuni metodi di raggruppamento

Metodo legame medio fra i gruppi: considera la

media di tutte le distanze possibili tra i casi all'interno

di un cluster nuovo singolo determinato dalla

combinazione di un cluster A e di un cluster B.

Metodo della media entro i gruppi: la distanza tra il

gruppo A e il gruppo B è data dalla media aritmetica

delle distanze tra ogni unità del gruppo A e ogni unità

del gruppo B.

Metodo di Ward:

Per ogni gruppo viene calcolata la media di tutte

le variabili

Viene poi calcolata la distanza euclidea di ogni

unità dalla media del gruppo

Vengono sommati i quadrati delle distanze per

tutte le unità

Ad ogni step di aggregazione vengono fusi i

gruppi per i quali risulta minimo l'incremento della

somma dei quadrati delle distanze all'interno del

gruppo.

I. Mingo 2019-2020

Lettura dell’output Programma di agglomerazione e dendrogramma

• Il processo di agglomerazione delle

unità indica i vari step con cui le unità

vengono aggregate in corrispondenza a

un indice di distanza che aumenta al

crescere dei passi di agglomerazione.

• Il dendrogramma rappresenta

graficamente tale processo.

I. Mingo 2019-2020

Programma di agglomerazione

Stadio Cluster accorpati

Coefficienti

Stadio di formazione del cluster Stadio

successivo Cluster 1 Cluster 2 Cluster 1 Cluster 2

d

i

m

e

n

s

i

o

n

0

1 31 42 4591,350 0 0 37

2 11 23 5464,530 0 0 30

3 29 93 7445,270 0 0 22

4 6 49 7623,230 0 0 26

5 12 16 7660,920 0 0 23

6 20 71 8499,170 0 0 38

7 77 103 8979,810 0 0 32

8 22 52 9129,370 0 0 40

9 53 81 9208,590 0 0 40

10 64 65 9628,290 0 0 20

11 1 30 9776,430 0 0 27

12 21 44 9848,570 0 0 34

13 7 69 10383,720 0 0 25

14 19 91 10597,110 0 0 33

15 48 68 11512,560 0 0 47

…. …. …. …. …. …. ….

86 14 36 94970,380 78 63 92

87 9 18 99761,677 81 62 94

88 2 3 102031,156 82 85 90

89 1 6 102913,471 77 80 91

90 2 31 114558,490 88 74 95

91 1 19 139465,534 89 84 94

92 14 55 143272,756 86 79 95

93 79 94 146681,990 0 0 97

94 1 9 183965,139 91 87 98

95 2 14 207466,536 90 92 96

96 2 15 229907,319 95 0 99

97 72 79 239277,085 0 93 101

98 1 37 266105,127 94 0 100

99 2 4 374810,001 96 0 100

100 1 2 427052,823 98 99 102

101 54 72 559967,397 0 97 102

102 1 54 1122564,349 100 101 0

Fase 3

Page 35: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

35

I. Mingo 2019-2020

Tagliare un dendrogramma (albero di aggregazione)

3 gruppi

4 gruppi

5 gruppi

Quali criteri adottare per tagliare un dendrogramma?

• Sezionare l’albero all’altezza del massimo salto tra i livelli di

distanza a cui sono avvenute le aggregazioni

– g+1 d-gd=max

• Sezionare l’albero dove si trovano i gruppi coesi, applicando test

statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.)

La valutazione di un gruppo è effettuata sia riguardo alle proprietà statistiche sia in termini sostanziali, analizzando cioè le caratteristiche dei gruppi ottenuti.

I. Mingo 2019-2020

Page 36: Metodi statistici per le ricerche di mercato...per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche

20/12/2019

36

Descrizione dei gruppi

• L’intervallo di soluzioni salvato genera nella

matrice nuove variabili categoriali che indicano

per ciascuna unità statistica l’appartenenza ai

gruppi ottenuti nelle diverse soluzioni.

• Queste nuove variabili possono essere utilizzate

per descrivere mediante ulteriori analisi le

caratteristiche dei gruppi ottenuti.

I. Mingo 2019-2020

Fase 4

Strategia di analisi per l’individuazione di tipologie

Scelta di una o più variabili, indicatori di un fenomeno

Individuazione di unità aventi caratteristiche simili rispetto agli indicatori considerati: tipi o gruppi omogenei [ Scelte da effettuare: tipo di cluster analysis, misure di prossimità tra unità e tra gruppi, numero di gruppi,….]

Descrizione dei gruppi sulla base degli indicatori iniziali e di altre variabili che agevolano l’interpretazione

I. Mingo 2019-2020