Upload
duilio-carletti
View
220
Download
1
Embed Size (px)
Citation preview
L’analisi fattoriale è un procedimento matematico-statistico che, partendo dalle risposte date da un gruppo di soggetti ad una serie di item, permette di identificare delle caratteristiche psicologiche, dette fattori, che non emergono a prima vista e che presumibilmente spiegano o influenzano le risposte ai test.Essenzialmente si tratta di una procedura di sintesi dei dati, tramite la quale è possibile individuare gli item che si raggruppano assieme (e quindi compongono un fattore). L’obiettivo dell’analisi fattoriale è individuare il fattore o i fattori che si presume siano la causa delle correlazioni osservate tra i punteggi.
Analisi fattoriale
Storia dell’analisi fattoriale
La nascita dell’analisi fattoriale viene di solito attribuita a Charles Spearman che nel 1904 pubblica su Amer. J. Of Psych. un articolo dal titolo “General Intelligence, objectively determined and measured” dove propone la Teoria dei Due Fattori. Sebbene nel 1901 Karl Pearson abbia pubblicato un articolo in cui descrive il “metodo degli assi principali”, Spearman ha dedicato 40 anni della propria vita allo sviluppo dell’analisi fattoriale, per cui viene considerato il vero fondatore della tecnica. Altri principali contribuenti furono: Cyril Burt, Godefrey H. Thomson, J. C. Maxwell Garnett, Karl Holzinger, oltre a K. Pearson. Secondo la Teoria dei Due Fattori di Spearman, la misurazione dell’intelligenza con un determinato questionario o test dipende da due fattori, uno generale (detto fattore g) e uno specifico (fattore s). Il fattore g costituisce la componente invariabile dell’abilità intellettiva, mente il fattore s è la componente variabile da condizione a condizione.
Negli anni ’30 l’analisi fattoriale viene ulteriormente sviluppata. La teoria dei due fattori di Spearman non sempre risultava adeguata per spiegare i risultati ad una serie di test. Perciò si aprirono le porte per il raggruppamento in più fattori, ossia dell’analisi dei fattori multipli.
Tuttavia gli autori cercavano il più possibile, mantenendosi fedeli alle origini, di mantenere limitato il numero di fattori. L.L. Thurstone è considerato come il fondatore dell’analisi multifattoriale. Tuttavia non è stato il primo a separarsi dalla teoria di Spearman. Thurstone è famoso soprattutto per il metodo del centroide per la soluzione dei fattori principali. Ma il maggiore contributo di Thurstone è stato la generalizzazione del metodo di Spearman della differenza tra le tetrodi al rango della matrice di correlazione come base per il calcolo del numero di fattori comuni. Egli si rese conto che una differenza zero nelle tetrade corrisponde alla scomparsa di determinanti di ordine superiore e definì questa nozione della scomparsa di determinanti di ordine superiore come segno della presenza di più di un singolo fattore. Questo permise un ulteriore miglioramento dell’analisi fattoriale.Kelley utilizzò l’analisi fattoriale per la selezione del personale nell’esercito. In seguito l’analisi fattoriale trovò applicazione in branche come le scienze politiche, economiche e in medicina.
Cosa sono i fattori? I dati di partenza sono costituiti dalla matrice di correlazione o covarianze tra le variabili. Da tale matrice si estraggono le saturazioni dei fattori, ossia le correlazioni di ciascuna variabile con l’ipotetico costrutto del fattore. La somma dei quadrati delle saturazioni di una data variabile dà la comunalità di quella variabile.Infine, per poter avere una chiara interpretazione della matrice delle saturazioni, è necessario applicare un tecnica di rotazione degli assi fattoriali.
Passi principali per eseguire l’analisi fattoriale:1. calcolare la matrice di correlazione tra variabili2. calcolare la matrice delle saturazioni fattoriali3. calcolare le comunalità delle variabili4. applicare una tecnica di rotazione degli assi fattoriali5. interpretare i dati ottenuti con l’analisi
Premessa: se i punteggi da correlare sono ricavati da test diversi, occorre, prima di calcolare la matrice di correlazioni, trasformare i punteggi grezzi in punti z standardizzati. In questo modo i punteggi ottenuti con diversi test sono disposti lungo un unico continuum di valori con la stessa media .X =0
Una volta trasformati i punteggi grezzi in punti zeta, si calcolano le correlazioni tra i punteggi dei diversi test.é anche possibile utilizzare l'analisi fattoriale per veder come si raggruppano gli item di uno stesso test. Ad esempio, se il test misura la depressione, è possibile che gli item siano stati differenziati in modo da misurare le 9 dimensioni della depressione stabilite dal DSM IV. L'analisi fattoriale in questo caso servirebbe a verificare se effettivamente gli item si raggruppano in 9 fattori, confermando così la loro validità.
L'analisi fattoriale si divide in:
1. Analisi fattoriale esplorativa (AFE). Viene applicata quando lo psicologo non sa quanti e quali fattori permettono di ragguppare i dati. Problemi: il numero di fattori dipende dalle tecniche di rotazione degli assi selezionate; è difficile a volte definire la natura del fattore; è difficile stabilire un criterio che stabilisca il numero minimo di fattori.
2. Analisi fattoriale confermativa (AFC). Viene applicata quando lo psicologo sa quanti sono i fattori e cerca di verificare se i dati verificano il raggruppamento ipotizzato. Problemi: se i dati non verificano il modello occorre stabilire che cosa ha impedito la verifica; occorrono numerosi dati per verificare in modo attendibile il modello; l'esito della verifica può cambiare a seconda del tipo di rotazione fattoriale selezionata. La AFC viene eseguita utilizzando programmi che si basano su modelli di equazioni strutturali. I più diffusi sono il LISREL di Joreskog e Sorbom (1981; 1984; 1988) e l’EQS di Bentler (1985; 1989).
Basi teoriche dell'analisi fattoriale
Se esistono più fattori nel determinare la variabilità dei punteggi, allora la varianza dei punteggi è interpretabile come la somma di tante quote di varianza, ciascuna determinata dal singolo fattore.
Ad esempio: se abbiamo un test tx che misura un tratto psicologico in cui
intervengono tra fattori A, B e C, allora la varianza totale del test s2x è
scomponibile nella somme di tre quote di varianza, una per ciascun fattore, ossia:
sx2=sA
2sB2sC
2
Ciascuna di queste quote costituisce una certa proporzione di varianza rispetto alla varianza totale del test.
s x2
s x2 =1=
s A2
sx2
sB2
sx2
sC2
sx2
Per ragioni di comodità e semplicità, indichiamo
a x2=
s A2
sx2 , bx
2=sB
2
sx2 , c x
2=sC
2
sx2
Dato che rappresenta la proporzione di varianza dovuta al fattore A rispetto alla varianza totale del test, allora costituisce il quadrato del coefficiente di correlazione del fattore A con l'intero test t
x, ossia:
Lo stesso si applica agli altri fattori:
Da cui:
ossia la radice quadrata della proporzione di varianza dovuto al singolo fattore rispetto alla varianza totale del test è la correlazione tra il test e quel fattore.
a x2=r xA
2
ax2
bx2=rxB
2 cx2=rxC
2
xAxx
A r=a=s
s2
2
xBxx
B r=b=s
s2
2
xCxx
C r=c=s
s2
2
La correlazione test-fattore viene definita tecnicamente saturazione o peso fattoriale del test.
quando un soggetto esegue un test, una certa quota del suo punteggio è determinata da una fattore, un'altra quota da un altro fattore e così via. Dato che il punteggio dell'i-esimo soggetto è espresso in punti zeta, allora:
dove indica la quota del punteggio al test tx dovuta al fattore A, è la
saturazione del test nel fattore A e è il punteggio del soggetto nel fattore. La quota del punteggio nel test che un soggetto ottiene per l'incidenza del fattore è espressa da un'equazione di regressione semplice.Analogamente per i fattori B e C, abbiamo:
Il punteggio totale nel test è dato dalla somme dei tre punteggi parziali:
e nello stesso modo, lo stesso soggetti i in un altro test ty in cui sono presenti i
tra fattori A, B e C, può essere espresso fattorialmente come:
AixAixAAix za=zr=z
Aixzxa
Aiz
BixBix zb=z CixCix zc=z
CixBixAixix zc+zb+za=z
CiyBiyAiyiy zc+zb+za=z
indicando con rxy
la correlazione dei punteggi ottenuti nei test tx e t
y, in cui
ipotizziamo operino solo due fattori A e B, essa è data da:
per cui l'equazione precedente diventa:
quindi la correlazione tra due test è uguale alla somma dei prodotti delle reciproche saturazioni fattoriali. In definitiva:
1. I tratti psicologici sono interpretabili in termini di N dimensioni fattoriali2. Le dimensioni fattoriali sono reciprocamente indipendenti3. I test ne costituiscono una misura
N
zzab+
N
zbb+
N
zzba+
N
zaa=
N
zz=r AiBi
yxBi
yxBiAi
yxAi
yxyx
xy 22
Questi valori diventano zero, dato che si assume chei fattori siano tra loro indipendentiQuesti valori diventano 1, dato che la varianza dei punti z è 1
yxyxxy bb+aa=r
Come si calcolano le saturazioni fattoriali?
Le procedure di calcolo variano a seconda del modello matematico adottato. I due modelli di AF più noti sono:1. Il modello con due fattori di Spearman2. Il modello multifattoriale di Thurstone
Il modello a due fattori
Tale modello stabilisce che il punteggio del singolo soggetto ad un test dipende da un fattore generale, indicato con G e da un fattore specifico per ciascun test, indicato da S. Avremo tanti fattori S quanti sono i test. In termini matematici:
La varianza dei punteggi al test tx è data da:
Le correlazioni tra test e fattori sono:
xSixGixix zu+za=z
222 1 xxx u+a==s
xxG a=r xxxS u=r
La formula che esprime la correlazione tra due test tx e t
y è:
per cui l'equazione diventa:
Supponiamo di avere somministrato 4 test t1, t
2, t
3, e t
4. La matrice delle
correlazioni R tra i punteggi ai 4 test è:
yxyxxy uu+aa=r
Dato che i fattori specifici non sono tra loro correlati, allora il prodotto dell saturazioni si annulla
yxxy aa=r
0,500 0,729 0,4670,500 0,542 0,347
0,729 0,542 0,5070,467 0,347 0,507
t1
t2
t3
t4
t1 t2 t3 t4
0,500 0,729 0,4670,500 0,542 0,347
0,729 0,542 0,5070,467 0,347 0,507
t1
t2
t3
t4
t1 t2 t3 t4
Il calcolo delle tetradi:
I valori delle tetradi tendono a zero.Perchè?
Il fatto si spiega se si interpretano i coefficienti di saturazione fattoriale:
ne deriva che:
0,500 0,3470,729 0,507
prima tetrade:
0.0060.3470.7290.5070.50024313421
=
=rrrr
0,729 0,4670,542 0,347
seconda tetrade:
0.0020.4670.5420.3470.72914232413
=
=rrrr
r13=a1 a3 r24=a2 a4
r 23=a2 a3 r14=a1 a4
r13 r24− r23 r14=a 1 a3 a 2 a 4−a 2 a 3a 1 a 4=0
r 21 r 24
r31 r34
r13 r14
r 23 r 24
In teoria, l'annullamento delle tetradi è giustificato dal fatto che le tetradi esprimono la differenza tra le composizioni delle saturazioni fattoriali.
Da questa constatazione deriva la procedura per il calcolo delle saturazioni fattoriali. Se abbiamo tra test t
k, t
m e t
n, allora
da cui
Inoltre dato che
per cui
In questo modo possiamo calcolare le saturazioni del fattore specifico S da quelle del fattore generale G.
r km rkn=ak am ak an=ak2 am an=ak
2 rmn
mn
knkmk r
rr=a
221 xx u+a=
21 xx a=u
0,500 0,729 0,4670,500 0,542 0,347
0,729 0,542 0,5070,467 0,347 0,507
t1
t2
t3
t4
t1 t2 t3 t4
calcolo delle saturazioni fattorialidel fattore generale G:
0.82
0.542
0.7290.500
23
13121 ==
r
rr=a
0.61
0.507
0.3470.542
34
24232 ==
r
rr=a
0.89
0.347
0.5070.542
24
34323 ==
r
rr=a
0.57
0.542
0.5070.347
23
43424 ==
r
rr=a
calcolo delle saturazioni fattorialidel fattore specifico S:
0.5720.8211 2211 ==a=u
0.7930.6111 2222 ==a=u
0.4560.8911 2233 ==a=u
0.8220.5711 2244 ==a=u
Matrice delle saturazioni fattoriali
test0,820 0,5720,610 0,793
0,890 0,4560,570 0,822
t1
t2
t3
t4
G S1 S 2 S 3 S 4
Matrice delle comunanze e dei fattori specifici
comunanza (h2) :
La comunanza è la somma delle saturazioni dei fattori generali. Dato che nel modello a due fattori n = 1, allora . La quota di varianza dei fattori S è elevata al quadrato.
h x2=∑
i=1
n
aix2
hx2=aix
2
test comunanze fattore S0,672 0,3270,371 0,629
0,790 0,2100,324 0,676
t1
t2
t3
t4
G S1 S 2 S 3 S 4
t1
t2
t3
t4
t1
t2
t3
t4
Nel test 1, il 67,2% di varianza è dovuta al fattore G e il 32,7% al fattore S.Nel test 2, il 37,1% di varianza è dovuta al fattore G e il 62,9% al fattore S.Nel test 3, il 79,0% di varianza è dovuta al fattore G e il 21,0% al fattore S.Nel test 4, il 32,4% di varianza è dovuta al fattore G e il 67,6% al fattore S.
Matrice dei residui R'
Moltiplicando tra di loro le saturazioni fattoriali si ottiene la matrice dei residui R':
Calcolando la differenza tra la matrice originaria delle correlazioni R e la matrice R' si ottiene la matrice dei residui R - R':
0,672 0,500 0,730 0,4670,500 0,372 0,543 0,348
0,730 0,543 0,792 0,5070,467 0,348 0,507 0,325
t1
t2
t3
t4
t1 t2 t3 t4
0,000 -0,001 0,0000,000 -0,001 -0,001
-0,001 -0,001 0,0000,000 -0,001 0,000
t1
t2
t3
t4
t1 t2 t3 t4
I dati del modello a due fattori presentato nell'esempio sono dati teorici, in quanto manca la componente di errore.Nei dati empirici, ossia nei punteggi ai test, è sempre presente la componente di varianza dovuta agli errori. Per cui il modello completo della saturazione fattoriale prevede anche una quota di varianza dovuta all'errore:
dove è la saturazione fattoriale della componente di varianza dovuta all'errore (specifico per ogni test).
xEixxSixGixix ze+zu+za=z
xe
Il modello multifattoriale
Nel modello multifattoriale il punteggio del soggetto al test non dipende solo dal fattore specifico S, ma anche da due o più fattori generali o comuni, indicati con F. Supponendo di avere m fattori generali, indicati con F
1, F
2, ..,, F
m, allora
il punteggio è dato da:
Le saturazioni fattoriali sono:
La varianza del test è:
dato che .
La correlazione tra due test è data dalla somma dei prodotti delle saturazioni dei due test nei medesimi fattori generali:
xSixmFixmFix2Fix1ix zu+za++za+za=z ...
21
mxmxmxx2xx1 Fr=aFr=aFr=a ...21
2222222 ...1 xxxmx2x1zx u+h=u+a++a+a==s2222 ... xmx2x1 a++a+a=h
ymxmy2x2y1x1xy aa++aa+aa=r ...
0,415 0,349 0,570 0,376 0,3510,415 0,391 0,336 0,415 0,296
0,349 0,391 0,298 0,198 0,1890,570 0,336 0,298 0,349 0,337
0,376 0,415 0,198 0,349 0,6260,351 0,296 0,189 0,337 0,626
t1
t2
t3
t4
t1 t2 t3 t4
Supponiamo di avere 6 test:t1 = intervista di giudici
t2 = contruzione con cubi (Gesell)
t3 = vocabolario figurato (Terman)
t4 = significato di vocaboli (Terman)
t5 = disegno della figura umana (Goodenough)
t6 = test visuo-motorio (Bender-Santucci)
Matrice di correlazioni tra i sei test:
t5
t6
t5 t6
Utilizzando la tecnica delle tetradi è possibile calcolare le saturazioni fattoriali per i sei test. Tali saturazioni vanno poi a comporre la matrice dell saturazioni fattoriali. Dato che i test in tutto sono sei, si ipotizza, all'inizio, un numero massimo di fattori generali pari a sei.
0,754 0,222 -0,373 -0,078 -0,486 0,0220,688 0,204 0,391 -0,549 0,088 -0,153
0,549 0,570 0,399 0,458 0,019 0,0600,708 0,181 -0,538 0,027 0,419 -0,005
0,731 -0,500 0,164 -0,024 0,030 0,4300,685 -0,559 0,080 0,266 -0,033 -0,373
t1
t2
t3
t4
F1 F2 F3 F4
t5
t6
F5 F6
Con la matrice delle saturazioni dei fattori generali possiamo fare diversi calcoli.Ad esempio, possiamo calcolare la quota di varianza del test t
1 dovuta ai fattori
generali :
0.9890.0220.4860.0780.3730.2220.754 222222
216
215
214
213
212
211
21
=+++++
=a+a+a+a+a+a=h
1-0.989 è la quota di varianza dovuta al fattore specifico e all'errore.
La correlazione tra i due test t1 e t
2 è:
0.4150.1530.0220.0880.486
0.5490.0780.3910.3730.2040.2220.6880.75426162515241423132212211112
=+
++++
=aa+aa+aa+aa+aa+aa=r
Dalla matrice delle saturazioni dei fattori generali è possibile calcolare gli eigenvalue o autovalori dei sei fattori. Ad esempio, l'eigenvalue del fattore F
1 è:
La stessa procedura si applica per gli altri fattori. É possibile così ottenere la matrice degli eigenvalue e delle proporzione di varianza totale spiegata per ciascun fattore e la percentuale cumulativa di varianza totale spiegata.
La proporzione di varianza totale spiegata è:
2.8510.6850.7310.7080.5490.6880.754 222222
261
251
241
231
221
2111
=+++++
=a+a+a+a+a+a=eigenvalue
p. di varianza spiegata di F i=eigenvalue
n. di fattoriF
p. di varianza spiegata di F1=2.851
6=0.475
La percentuale cumulativa di varianza totale spiegata si ottiene sommando le percentuali della varianze totali spiegate da ciascun fattore. Per cui
2,851 0,475 47,517 47,517
1,010 0,168 16,833 64,350
0,774 0,129 12,900 77,250
0,590 0,098 9,833 87,083
0,421 0,070 7,017 94,100
0,352 0,059 5,867 99,967
F1
F2
F3
F4
F5
F6
eigenvalueprop. var. tot.spiegata
perc. var. tot.spiegata
perc. cum. var. tot. spiegata
Quanti fattori scegliere? Esistono diverse procedure:
1. Scree-plot di Cattell2. Procedura Kaiser -Guttman3. Saturazioni > 0,304. Matrice dei residui
2,8511,010
0,7740,590
0,4210,352
Lo Scree-plot di Cattell:
F1
F2
F3
F4
F5
F6
eigenvalue
1 2 3 4 5 60
0.5
1
1.5
2
2.5
3
Scree plot
numero di fattori generali
eig
en
valu
e
Lo Scree-plot di Cattell permette, tramite un grafico che in ascissa riporta il numero di fattori e in ordinata gli eigenvalue, di stabilire il numero di fattori da scegliere. Di solito, la scelta è fatta in corrispondenza di una brusca variazione della pendenza del grafico, indicata, in questo caso dalla freccia rossa. Questa procedura è molto discussa perché non consente un'accurata selezione dei fattori.
2,8511,010
0,7740,590
0,4210,352
Procedura Kaiser-Guttman
F1
F2
F3
F4
F5
F6
eigenvalue Consiste nella selezione degli eigenvalue maggiori di 1.Nel nostro esempio, solo due fattori generali sono maggiori di uno.
Saturazioni >0,30
I programmi per calcolatori usano una procedura iterativa per l'estrazione dei fattori, ossia una procedura che ripete ciclicamente i calcoli delle saturazioni. Tale procedura si interrompe se le saturazioni calcolate (in valore assoluto) sono inferiori a 0,30. L'interruzione della procedura determina il numero di fattori in cui sono raggruppabili i punteggi dei test.
0,377 -0,728 0,065 -0,033 0,118
0,282 -0,680 0,087 0,109 0,1320,321 -0,692 -0,122 -0,104 -0,146
0,515 0,184 0,384 0,138 -0,1970,592 0,149 0,356 0,289 0,069
0,442 0,133 0,350 0,373 -0,1400,511 0,229 0,193 -0,454 0,062
0,615 0,196 -0,051 -0,265 -0,0490,663 0,309 0,293 -0,381 -0,036
0,451 0,248 -0,466 0,087 0,1790,544 0,334 -0,504 0,184 0,096
0,363 0,325 -0,530 0,106 -0,1112,845 2,010 1,301 0,739 0,177
Esempio di estrazione dei fattori da una serie di punteggi ottenuti da 12 test con il metodo delle saturazioni inferiori a 0,30.
t1
t2
t3
t4
t5
t6
t7
t8
t9
t 10
t 11
t 12
F1 F2 F3 F4 F5
eigenvalue
Matrice dei residui
I programmi al computer possono ricalcolare la matrice delle correlazioni tra i test ad ogni nuova estrazione dei fattori. Se la differenza tra la matrice di correlazioni calcolata R' e la matrice di correlazioni originaria ha tutte differenze inferiori a 0,1, ossia se
R – R' < 0,1
allora la procedura di estrazione dei fattori si interrompe. L'interruzione della procedura determina il numero di fattori in cui sonno raggruppabili i punteggi dei test.
Necessità delle rotazioni fattoriali
Una volta stabilito il numero massimo di fattori, l'analisi prosegue con le rotazioni fattoriali. Le rotazioni fattoriali servono per rendere le saturazioni chiaramente interpretabili. L'obiettivo è l'eliminazione della saturazioni doppie o triple, ecc..., che rendono più difficile l'interpretazione dei dati.
Esempio di matrice delle saturazioni facilmente interpretabile:
Esempio di matrice non facilmente interpretabile:
0,080 0,846
0,707 0,0110,037 0,652
0,544 0,0990,589 0,157
0,098 0,435
t1
t2
t3
t4
t5
t6
F1 F2
I test hanno saturazioni in un solo fattore. In questo caso non occorre la rotazione degli assi.
0,080 0,846
0,632 0,7070,037 0,652
0,345 0,5300,589 0,456
0,435 0,098
t1
t2
t3
t4
t5
t6
F1 F2
La matrice mostra delle saturazioni doppie per alcuni test. In questo caso occorre la rotazione degli assi.
Metodi di rotazione fattoriale:Esistono due classi di metodi di rotazione fattoriale: rotazioni ortogonali e oblique. Le prime presuppongono che i fattori siano tra loro non correlati. Le seconde che i fattori siano tra lo correlati. In altri termini, le rotazioni ortogonali presuppongono una coincidenza tra la correlazione variabile-fattore e la saturazione di quest’ultimo, mentre le seconde no, in quanto parte della varianza della variabile dipende da altri fattori.
1) Rotazioni ortogonali: a) VARIMAX: massimizza la varianza delle saturazioni delle variabili all’interno di ogni fattore. In questo modo le saturazioni alte diventano più alte e quelle basse più basse, separando maggiormente i fattori. b) QUARTIMAX: massimizza la varianza delle saturazioni per riga. In tal modo è possibile concentrare più varianza possibile per ogni variabile su un unico fattore.
2) Rotazioni oblique:a) OBLIMIN: semplifica la matrice delle saturazioni facendo in modo che le variabili abbiano saturazioni il più possibile vicine a zero in tutti i fattori tranne uno.b) Rotazione di PROCUSTE: La matrice originale vine ruotata verso una matrice “bersaglio” che ha caratteristiche definite dal ricercatore. La soluzione iniziale viene ruotata in modo da renderla più simile possibile alla matrice bersaglio.c) PROMAX: la matrice delle saturazioni viene trasformata in una più semplice usando i metodi Quartimax o Varimax. Le saturazioni vengono poi elevate alla seconda, terza, quarta o a potenze maggiori in modo da rendere le saturazioni basse sempre più basse e la matrice sempre più semplice. La matrice più semplice viene usata come matrice bersaglio per una rotazione di Procuste che viene effettuata sulla matrice originale non ruotata.