Modelli e strumenti della previsione sociale Stefano Nobile

Modelli e strumenti della previsione

sociale

Stefano Nobile

Modelli e strumenti della previsione sociale 2

Modelli previsionali nelle scienze sociali La previsione richiede una struttura teorica sottostante. Per

questo motivo, quando si parla di previsione nelle scienze sociali, il ricorso alle tecniche di analisi sarebbe insufficiente. Occorre fare riferimento ai modelli.

Pur tuttavia, si danno casi in cui le opzioni di analisi dei dati indirizzano verso un ambito ibrido.

Una delle strade più frequentate nell’analisi dei dati in senso previsionale è quello delle serie storiche, che implicano un assunto teleologico secondo il quale la variabile indipendente tempo implica determinati effetti sulla variabile dipendente.

Il quadro complessivo di tecniche e modelli di analisi dei dati in senso previsionale può essere schematizzato come segue:


Modelli previsionali nelle scienze sociali

Previsione(analisi dei dati)

tecniche modelli

Analisidiscriminante

serie storiche

Regressionelineare e logistica

Analisi dei percorsiCausali

(path analisys)

ibridi

Reti neuraliartificiali


Le serie storiche Gli ambiti d’applicazione sono i più disparati. Tra questi si possono

citare l’evoluzione strutturale della mortalità infantile, il monitoraggio sanitario, l’aggiornamento sequenziale delle scorte, la previsione di aggregati economici e finanziari, il problema dei mutamenti climatici nel nostro pianeta (Piccolo, 1990: 11).

Fra gli obiettivi più rilevanti delle serie storiche vanno ricordati: La previsione La simulazione Il controllo L’analisi strutturale La ricerca di dati anomali L’analisi econometrica L’individuazione di componenti non osservabili La classificazione e la discriminazione Le rappresentazioni grafiche


Le serie storiche Una serie storica è una sequenza di intensità (o di frequenze) di

uno stesso fenomeno rilevate in corrispondenza di tempi diversi. La variabilità del fenomeno è dunque osservata rispetto al tempo:

esso riassume tutto ciò che induce modificazioni nel fenomeno di interesse; in altre parole, gli effetti dell’evoluzione delle determinanti e di tutti i fenomeni concomitanti con quello oggetto di studio sono composti e sintetizzati in un’unica informazione, il tempo. Da tale punto di vista, lo studio di una serie storica equivale all’analisi di una distribuzione doppia dove il carattere antecedente logico è il tempo e la variabile dipendente (effetto) il fenomeno considerato.

Il tempo è una variabile continua. Tuttavia raramente l’osservazione di un fenomeno è registrata con continuità (s.s. continua, come, ad esempio, un pennino di un apparecchio che tracciasse su un nastro continuo la temperatura istante per istante); quasi sempre, invece, il fenomeno viene registrato in una sequenza discreta di istanti o di intervalli di tempo (s.s. discreta), generalmente equispaziati (ad esempio, serie storiche annuali, mensili, giornaliere).


Le serie storiche L’analisi delle serie storiche è rivolta essenzialmente allo studio

dell’andamento delle intensità del fenomeno osservato rispetto al tempo, per cercare di comprendere il meccanismo generatore ditale andamento, al fine di formulare previsioni sui livelli che il fenomeno assumerà in futuro (extrapolazione).

L’obiettivo è quello di costruire un modello che racchiuda le leggi che governano il processo, da poter utilizzare in diversi modi:

descrittivo–normativo: si richiede che il modello rappresenti nel modo più fedele possibile la realtà, nel tentativo di individuare relazioni tra la variabile in esame e le leggi che governano il sistema;

simulativo: si vuole poter riprodurre il comportamento del sistema sotto determinate condizioni ed osservare gli output relativi a determinati valori di ingresso;

previsionale: si vogliono estendere al futuro le modalità di funzionamento del sistema osservate nel passato, per avere una stima puntuale o un intervallo di previsione per gli istanti futuri.


Le serie storiche Come si è visto, il tempo può essere interpretato come la sintesi

degli effetti che le dinamiche dei fenomeni interagenti con quello oggetto di studio esercitano sulla naturale evoluzione di quest’ultimo. Ma di tali fenomeni, presi individualmente, si perde ogni traccia e allora non resta che spostare l’attenzione dalle determinanti della dinamica della serie storica a meccanismi interni della serie stessa che è necessario individuare (Ballatori, 1986: 296).

Un elenco, pressoché universalmente accettato, di tali meccanismi interni di una s.s., detti componenti, per serie riferite a tempi sub-annuali (trimestri, mesi, settimane, giorni), è il seguente:

trend, o componente di fondo; ciclo, o componente ciclica; componente stagionale; componente casuale o erratica.

Se la s.s. è composta da dati annuali o pluriennali, essa assorbe la componente stagionale che, in tal caso, non è più evidenziabile.


Le serie storiche Il trend è la tendenza di fondo che caratterizza la dinamica del fenomeno nel lungo

periodo. Le determinanti che sono sintetizzate nell’«effetto trend» sono generalmente quei fenomeni sociali di lenta evoluzione, come ad esempio l’ammontare della popolazione, l’evoluzione dei gusti dei consumatori, se la serie storica è relativa al consumo di un determinato prodotto, e così via.

Nelle serie storiche relative a fenomeni economici, sociali, meteorologici sono presenti componenti caratterizzate da andamenti sinusoidali di lungo periodo, chiaramente pluriannuali, chiamate cicli (esempi di cicli sono le fasi di espansione e di recessione delle economie capitalistiche, le intensità di radiazioni connesse alla periodicità delle macchie solari). In una stessa serie storica possono essere presenti più componenti cicliche, di diverso periodo, così come è possibile che esse, nel lungo periodo, mutino di periodicità, in maniera evolutiva o semplicemente casuale.

Molti fenomeni sociali ed economici presentano il fenomeno della stagionalità connessa soprattutto alle condizioni climatiche. In tal caso massime e minime intensità del fenomeno si ripresentano ogni anno all’incirca nello stesso periodo. La componente stagionale è quella che riassume tali movimenti. Si osservi, però, che periodicità di diversa ampiezza sono presenti anche nei fenomeni biologici (andamenti circadiani, circum-annuali), sebbene non siano stati ancora sufficientemente studiati.

La componente casuale comprende sia effetti di natura strettamente accidentale, che effetti relativi a componenti che non sono state prese in esame, ossia a componenti diverse dal trend, ciclo e dalla componente stagionale.


Le componenti delle serie storiche

L’analisi discriminante

Stefano Nobile


L’analisi discriminante L’analisi discriminante «consente di mettere in evidenza i legami

esistenti tra una variabile qualitativa da spiegare e un insieme di variabili quantitative esplicative» (Bouruche, Saporta, 1980).

Essa inoltre permette di prevedere le modalità della variabile da spiegare a partire dai valori assunti dalle variabili esplicative

A differenza della cluster analisys, che usa variabili per costruire classificazioni, l’analisi discriminante parte da una classificazione già nota. Tramite un insieme di variabili cardinali che sono ridotte e sintetizzate da alcune funzioni latenti discriminanti, cerca di dare conto della variabile qualitativa utilizzata.

La prima funzione discriminante è quella che massimizza il rapporto tra la varianza tra i gruppi e quella interna ai gruppi. Le successive funzioni si calcolano analogaente aggiungendo il vincolo dell’ortogonalità (Di Franco, 1997: 93).

Il numero totale di funzioni discriminanti estraibili è uguale al numero più piccolo tra le variabili (v) e (k – 1) gruppi noti, dove i gruppi corrispondono alle modalità della variabile qualitativa (categoriale) utilizzata


L’analisi discriminante Tra le applicazioni più diffuse dell’analisi

discriminante, vanno annoverate, oltre alla sociologia, discipline come la medicina (per l’aiuto nelle diagnosi), la meteorologia e il credit scoring.

Riguardo a quest’ultimo, la naturale applicazione di questo tipo di analisi nell’ambito bancario del rischio di credito è quello di discriminare, all’interno di una popolazione di individui che richiedono un prestito ad una determinata banca, tra quelli propensi a restituire il credito da quelli non propensi sulla base di un insieme di informazioni quali lo stipendio, beni ipotecabili e il tipo di prestito che si richiede.


L’analisi discriminante Per esempio, un istituto di credito che voglia

razionalizzare l’erogazione dei prestiti finanziari può classificare i sui clienti rispetto al pagamento dei debito in due classi: puntuali e insolventi. Avendo a disposizione un insieme di informazioni sui clienti, come il reddito annuale, il totale di tasse pagate, il valore delle proprietà del cliente e altre variabili di questo tipo, sarà possibile individuare con l’AD una funzione discriminante. Con questi dati l’istituto di credito potrà prevedere per i nuovi clienti, conoscendo i loro stati sulle variabili discriminanti, quali rischiano di non restituire i crediti ricevuti, minimizzando la probabilità di un’errata previsione (Di Franco, 1997: 93).


L’analisi discriminante Un esempio più sociologico è il seguente. Supponiamo di

aver condotto una ricerca su un campione di studenti dell’università e di essere interessati alle loro carriere. Individuiamo la variabile categoriale discriminante nella loro posizione di studenti articolata in due modalità: studenti in corso; studenti fuori corso.

A questo punto dobbiamo individuare un insieme di variabili cardinali che possano rendere conto delle differenze presenti fra gli studenti in corso e quelli fuori corso. Ad esempio le variabili potrebbero essere: il numero di corsi frequentati per ogni anno accademico; il numero di seminari frequentati per ogni anno accademico; il numero di esami sostenuti per ciascun anno accademico; la media dei voti agli esami; il tempo medio trascorso fra un esame e l’altro; e così via.


L’analisi discriminante Grazie a queste variabili possiamo ricavare una funzione

lineare discriminante che è in grado di evidenziare le differenze principali fra gli studenti in corso e quelli fuori corso. L’utilità dell’analisi discriminante non è solo limitata all’aspetto descrittivo di una classificazione dei casi. Come detto, può essere usata in funzione previsionale. Ciò significa che si potranno usare le funzioni discriminanti individuate nella fase descrittiva dell’analisi per classificare un insieme di casi (ad esempio un campione di studenti alla fine del primo anno del loro corso di studi universitario) per prevedere quali di questi presentano alte probabilità di andare fuori corso. Disponendo di queste informazioni si potranno mettere in atto delle iniziative tese a contenere il fenomeno della dispersione universitaria (Di Franco, 2007: 153)


L’analisi discriminante Come nell’analisi in componenti principali, si

determina una nuova variabile, combinazione lineare delle precedenti. Tuttavia, non si tratta più di ottenere una variabile di varianza massima, ma una variabile che separi al meglio i tre gruppi tra loro.

La nuova variabile sarà perfettamente discriminante se assumerà lo stesso valore su tutti gli individui di uno stesso gruppo e valori differenti sugli individui appartenenti a gruppi distinti.


Analisi discriminante decisionale Immaginiamo di conoscere di un certo

individuo soltanto gli stati sulle proprietà esplicative ma non si sappia a quale gruppo appartiene. È possibile attribuirlo a uno dei gruppi facendo ciò con un minimo rischio di errore?


Analisi discriminante decisionale Tra i tanti metodi esistenti per discriminare i

gruppi in base alle variabili esplicative selezionate, i più noti sono: Il metodo geometrico, che consiste nell’attribuire un

individuo al gruppo il cui centro di gravità è più vicino Il metodo bayesiano, che consiste nell’attribuire un

individuo al gruppo più probabile. Naturalmente l’efficacia della nostra previsione

dipenderà, ex post facto, dalla misura dell’errore nel confronto tra situazione reale e situazione prevista.


L’analisi discriminante Prima di procedere, bisogna scegliere:

Il criterio di discriminazione da usare Le variabili da sottoporre all’AD Il criterio per la scelta delle variabili

A questo punto, è bene analizzare media e scarto tipo per ciascuna delle variabili all’interno dei singoli gruppi: nel caso in cui si riscontrassero valori troppo simili, le variabili che riportano tali valori andrebbero scartate perché non sufficientemente discriminanti. A questo scopo viene utilizzato il test di tolleranza minimo.

Elevando al quadrato il coefficiente di correlazione canonica, otteniamo la proporzione di varianza che ciascuna delle funzioni discriminanti ottenute riproducono dall’appartenenza alle diverse classi della variabile dipendente presa in considerazione.


L’analisi discriminante. Le fasi dell’analisi scelta dei casi analisi monovariata delle differenze tra

gruppi articolata in diverse fasi: analisi monovariata di medie e scarti-tipo delle

variabili nei gruppi considerati; analisi della matrice di correlazione entro i

gruppi, ottenuta dalla media delle matrici delle covarianze per tutti i gruppi;

esame dei valori dei test F e Lambda relativi alle differenze tra le medie dei gruppi


L’analisi discriminante. Le fasi dell’analisi Verifica delle assunzioni (Barbaranelli, 2006: 181)

Ogni soggetto deve appartenere a uno solo dei gruppi che a priori definiscono la classificazione

Bisogna avere almeno 20 soggetti nel gruppo con numerosità minore Il numero delle variabili indipendenti deve essere inferiore al numero

di soggetti di ogni gruppo Nessuna variabile indipendente deve essere una combinazione lineare

di altre variabili indipendenti, né presentare correlazioni troppo elevate con esse (assenza di multicollinearità). Va ricordato che il potere discriminante di una variabile è tanto maggiore quanto meno essa correla con le altre variabili indipendenti. La tenuta di questa assunzione può essere verificata attraverso i parametri di tolleranza e VIF. Poiché questi ultimi non vengono forniti in output dall’analisi discriminante, si possono ottenere con una regressione multipla che utilizzi come variabili indipendenti le stesse scelte per l’AD e come dipendente una qualsiasi altra variabile. I valori del test devono risultare alti (dal 70% in su).


L’analisi discriminante. Le fasi dell’analisi




L’analisi discriminante. Le fasi dell’analisi Le matrici delle

varianze-covarianze tra le variabili indipendenti nelle popolazioni da cui i gruppi sono estratti devono essere omogenee (omoschedasticità). Questa assunzione viene esaminata con il test M di Box.



Nelle popolazioni da cui i gruppi sono estratti, tutte le variabili indipendenti e le loro combinazioni lineari devono avere distribuzione normale. Questa assunzione può essere esaminata tramite la distanza di Mahalanobis (da realizzare anche con la regressione, ma trascurabile).

Le relazioni tra le variabili indipendenti devono essere lineari (trascurabile).


L’analisi discriminante. Le fasi dell’analisi Per l’individuazione delle funzioni discriminanti si

possono usare diversi criteri: il criterio diretto: tutte le variabili sono introdotte

inizialmente nell’analisi per poi essere progressivamente escluse se non superano il test di tolleranza, la cui soglia può essere fissata a priori (default 0,001);

il criterio stepwise (passo-passo); le variabili sono introdotte una alla volta in base alla loro capacità di discriminazione (le prime variabili immesse sono quelle che hanno una capacità discriminativa più elevata). Questo criterio è efficace quando le variabili discriminanti sono ridondanti (molto correlate tra loro), oppure hanno scarso potere discriminativo


L’analisi discriminante. Le fasi dell’analisi Nell’analisi discriminante possono essere individuate tante

funzioni discriminanti quanto sono i gruppi della variabile dipendente meno 1. a condizione che il numero di variabili indipendenti utilizzate sia maggiore del numero dei gruppi. Viceversa, il numero massimo di funzioni discriminanti è uguale al numero di variabili indipendenti.

Interpretazione delle funzioni discriminanti individuate attraverso: La varianza riprodotta (autovalore), costituita dal rapporto

tra la somma dei quadrati degli scarti dalla media tra i gruppi e la somma dei quadrati degli scarti dalla media entro i gruppi;

il coefficiente di correlazione canonica, costituito dal grado di correlazione tra il punteggio discriminante e i gruppi. Più elevata è la correlazione, migliore è la capacità discriminativa della funzione. Se si eleva al quadrato il coefficiente di correlazione canonica si misura la proporzione di varianza totale dovuta alla differenza tra i gruppi;


L’analisi discriminante. Le fasi dell’analisi lambda di Wilks che esprime la proporzione di varianza

non riprodotta dalla divisione in gruppi: più elevato è lambda, minore è l’efficacia della funzione. Si noti che, nel caso di variabili dicotomiche, la somma tra il coefficiente di correlazione canonica al quadrato e lambda è uguale a i (si scompone la varianza totale in due termini: la varianza riprodotta dalla funzione discriminante che viene rappresentata dal quadrato del coefficiente di correlazione canonica e la varianza non riprodotta dalla funzione discriminante che viene rappresentata da lambda);

Il Chi2 calcolato sul valore di lambda, tra i due coefficienti esiste una relazione matematica per cui i valori di lambda possono essere facilmente trasformati in valori di Chi2, che costituisce un test ulteriore per il controllo dell’ipotesi che esistano differenze significative tra le medie dei gruppi.




L’analisi discriminante. Le fasi dell’analisi Per l’interpretazione della funzione discriminante si analizzano i coefficienti

che rappresentano il contributo delle variabili originarie alle singole funzioni. Questi coefficienti sono standardizzati; il loro segno indica il tipo di associazione (diretta se positivo, inversa se negativo). Tuttavia, è anche possibile richiedere i coefficienti non standardizzati tramite la finestra di dialogo statistiche. Se, dopo aver visionato la matrice relativa ai Coefficienti standardizzati della funzione discriminante canonica si vuole valutare ulteriormente importanza di una variabile nel contribuire alla funzione discriminante, si può ricorrere alla matrice di struttura. Se il valore di questi coefficienti è maggiore di 0,30, vuol dire che la variabile condivide con la funzione discriminante almeno il 9% della varianza e quindi può essere considerata come un “marker” sufficientemente adeguato per interpretare la funzione discriminante (Barbaranelli, 2006: 186). Inoltre, per facilitare l’interpretazione le due matrici di coefficienti possono essere ruotate con il metodo Varimax. In genere si consiglia di ruotare soltanto le funzioni che risultano statisticamente significative. La rotazione non può essere chiesta da menù ma solo tramite sintassi, con il seguente comando:

/rotate = coeff structure Poiché le due matrici possono fornire indicazioni divergenti, si tende a

privilegiare l’uso della matrice di struttura




L’analisi discriminante. La fase della classificazione Se le funzioni discriminanti si rivelano adeguate si

ripartiscono i casi secondo una funzione di classificazione che si ottiene matematicamente dalle funzioni discriminanti e dai punteggi medi dei gruppi ottenuti nella fase precedente: analisi delle rappresentazioni grafiche nelle quali si proiettano,

all’interno di uno spazio formato dalle prime due funzioni discriminanti, i confini dei casi assegnati alle classi in base alle funzioni discriminanti (mappa territoriale) e i loro centroidi;

il calcolo per ogni caso di tanti punteggi quante sono le funzioni discriminanti, che permettono di assegnarlo, con una certa probabilità, al gruppo più vicino. Ogni caso sarà quindi assegnato a un gruppo, noto a priori, e al gruppo ottenuto attraverso l’AD.

dal confronto delle due classificazioni (quella nota a priori e quella ottenuta attraverso AD) si ottiene la percentuale di casi che risultano ben classificati, cioè collocati nello stesso gruppo


L’analisi discriminante: grafici dei gruppi separati










La sintassi in SPSS relativa all’analisi discriminanteDISCRIMINANT /GROUPS=clu4_1(1 4) (serve a definire la variabile dipendente ovvero la variabile che specifica i raggruppamenti pre-

definiti di soggetti. Il ricercatore deve specificare i valori minimo e massimo che vengono utilizzati per differenziare i gruppi (nel nostro caso abbiamo quattro gruppi, che hanno etichette progressive da 1 a 4). Non è possibile ovviamente specificare più di una variabile dipendente)

/VARIABLES=n e o a c (serve invece a definire le variabili indipendenti che vengono inserite per rendere ragione della appartenenza dei soggetti ai diversi gruppi definiti dalla variabile dipendente. Le variabili devono essere a intervalli equivalenti o dicotomiche)

/ANALYSIS ALL (può essere utilizzato per definire diverse analisi discriminanti sugli stessi dati, ma analizzando insiemi diversi di variabili. Nel nostro caso vengono analizzate tutte le variabili indipendenti specificate col comando precedente)

/PRIORS EQUAL (serve per definire le probabilità a priori di appartenenza ai gruppi, utilizzate nella fase di classificazione. L’opzione di default è che un soggetto abbia la stessa probabilità di essere classificato in ciascun gruppo (ed è quella specificata nel nostro caso). Ovviamente l’utente può specificare valori differenti, se questo si rende necessario)

/STATISTICS=MEAN STDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV TABLE (Il comando serve a richiedere una serie di statistiche supplementari che possono arricchire l’output oltre quanto viene fornito di default. MEAN e STDDEV servono per richiedere le medie e le deviazioni standard delle variabili indipendenti nei gruppi. UNIVF serve per richiedere i testi univariati dell’analisi della varianza che esaminano la significatività della differenza delle medie delle variabili indipendenti tra i differenti gruppi. BOXM serve per richiedere il test M di Box per la verifica dell’assunzione dell’omogeneità delle matrici di varianza/covarianza. COEFF serve per richiedere in output i coefficienti delle funzioni di classificazione: anche se la procedura non utilizza questi coefficienti per classificare i casi utilizzati nell’analisi, essi possono essere utilizzati per classificare altri soggetti che appartengono a campioni differenti. RAW consente di ottenere i coefficienti non standardizzati delle funzioni discriminanti. TABLE consente di visualizzare i risultati del processo di classificazione dei dati: nel caso in cui l’analisi fosse stata condotta selezionando un gruppo di soggetti dal file, la tabella conterrà due sezioni separate, una per i soggetti utilizzati nell’analisi e una per i soggetti non selezionati. CROSSVALID consente di effettuare il processo di classificazione tramite la procedura della “classificazione autoesclusiva”. Infine, specificando “ALL”, verranno riportate in output tutte le statistiche disponibili, quindi sia quelle di default, sia quelle descritte ora, sia altre che sono ottenibili da menù)

CROSSVALID /PLOT=COMBINED SEPARATE MAP /CLASSIFY=NONMISSING POOLED .


L’analisi discriminante: classificazione originale e cross-validata a confronto Nella classificazione finale si ottengono due

tabelle: una si riferisce alla classificazione originale, l’altra a quella cross-validata. La prima (originale) presenta i risultati della

riclassificazione effettuata su tutti i soggetti. La seconda (cross-validata) presenta invece i risultati

della riclassificazione effettuata con il metodo della classificazione auto-esclusiva. Secondo questo metodo ogni soggetto è classificato tramite i risultati delle funzioni di classificazione derivate da tutti i soggetti tranne quello in esame. A margine della tabella viene indicata la percentuale di casi classificati correttamente secondo entrambe le procedure.


L’analisi discriminante: classificazione originale e cross-validata a confronto


L’analisi discriminante: la mappa territoriale

Mappa territoriale (Assumendo che tutte le funzioni eccetto le prime due siano uguali a zero) Discriminante canonica Funzione 2 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 6,0 11 14 2211 14 221 14 211 14 2211 14 221 14 4,0 211 14 2211 14 221 14 211 14 221 14 211 14 2,0 2211 14 221 * 14 211 14 2211 14 221 1114 21111111334 * ,0 * 2333333 34 23 34 23 * 34 23 34 23 34 23 34 -2,0 23 34 23 34 23 34 23 34 23 34 23 34 -4,0 23 34 23 34 23 34 23 34 23 34 23 34 -6,0 23 34 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 Funzione discriminante canonica 1

La regressione lineare


La regressione lineare La regressione lineare è una tecnica che esamina la relazione lineare tra

una o più variabili esplicative (variabili indipendenti) e una (e solo una) variabile criterio (variabile dipendente) (Mastrolilli et al., 2004: 152)

Nel caso in cui si ipotizzi la presenza di una sola variabile esplicativa, avremo una regressione semplice; nel caso di più variabili esplicative, la regressione sarà multipla.

Nelle scienze umane è molto difficile applicare il modello della regressione lineare, in quanto solo raramente si dispone di variabili cardinali, specie quando la tecnica di raccolta dei dati è l’intervista con questionario (Di Franco, 2009: 131)

Statisticamente, il punto di partenza della regressione è rappresentato da una matrice che riassume le correlazioni tra la variabile dipendente e la/le variabile/i indipendente/i.

Il punto di arrivo è rappresentato da: Un insieme di parametri che riassumono la relazione tra VD e VI Una statistica per l’esame della significatività dei parametri e un valore di

probabilità associato a ognuno di questi parametri Un valore che riassume la proporzione di varianza della VD che

complessivamente è spiegata dalle VI.


La regressione lineare Per poter procedere, bisogna rispettare i seguenti criteri:

VI e VD devono essere di tipo quantitativo Per ciascun valore della VI, la distribuzione della VD deve essere

normale La varianza della distribuzione della VD deve essere costante per tutti i

valori della VI. La varianza di ogni variabile indipendente deve essere maggiore di 0

(Barbaranelli, 2006: 22) Esistono poi altre condizioni, relative alla tecnica di campionamento, ai

residui e alle relazioni tra VI, che possono essere trascurati (per approfondimenti, si veda Barbaranelli, 2006: 23).

La regressione calcola il valore del coefficiente che lega una VD, o criterio, a una VI, o predittore.

Nel caso di più VI, verrà calcolato un coefficiente per ogni predittore separatamente e verrà fornito un indice complessivo che riporta la percentuale di varianza della VD spiegata dalle VI, ovvero quanto l’insieme dei predittori riesce a spiegare la variabile criterio (Mastrolilli et al., 2004: 153).


Regressione e correlazione Le equazioni di regressione possono essere considerate come le “leggi”

della scienza. In altre parole, esse servono a dare conto della misura con cui una certa variabile dipendente Y può variare in ragione del cambiamento di una variabile indipendente X.

Il concetto di regressione precede logicamente quello di correlazione ed è più importante di esso sotto il profilo teorico (Blalock, 1960: 478)

Se la regressione di Y su X è lineare, ovvero se la relazione è a linea retta, possiamo scrivere un’equazione come segue:

Y = a + bX dove a indica il punto d’intersezione con l’asse delle ordinate e b

l’inclinazione della retta. Dal punto di vista concettuale, b rappresenta la quota di variazione di Y rispetto ad X (ossia di quanto varia Y rispetto ad X: se della metà, di un terzo, del doppio, eccetera) mentre a rappresenta un certo valore costante che deve essere sommato alla variabile indipendente per ottenere Y.

Se l’equazione, come in questo caso, ha soltanto due variabili, parleremo allora di regressione lineare bivariata.


La retta di regressione Tale modello di equazione è ovviamente assai poco realistico nel

caso delle scienze umane. Bisogna allora introdurre una componente residuale (e) che rappresenta i residui della regressione. Questi ultimi esprimono le differenze tra i valori effettivi e i corrispondenti valori previsti dall’equazione di regressione (Di Franco, 1997: 109). L’equazione assume allora la forma:

Y = a + bX + e Standardizzando i valori delle variabili, il termine noto (a)

scompare e la retta passa per l’origine degli assi, diventando:Y = bX + e

È ovvio che nelle scienze sociali la relazione tra due variabili è ben difficilmente esprimibile in maniera così netta. A questa insufficienza risponde la regressione multipla lineare. Questa implica la necessità di trovare un iper-piano che interpoli un iperspazio a n dimensioni, la cui funzione lineare può essere così espressa:

Y = a + b1X1 + b2X2 + b3X3 … + bnXn +e


Il metodo dei minimi quadrati L’introduzione di una

componente residuale nell’equazione deriva da una stima non perfetta dei valori della Y rispetto ai valori della X, a causa del fatto che i valori effettivi non sono collocati perfettamente sulla retta individuata. La differenza tra i valori stimati e i valori effettivi della Y si esprime in termini di residui dalla retta di regressione. Quando i dati non sono perfettamente allineati, ci sono infinite rette che possono interpolare la nuvola di punti. Si deve, quindi, trovare quella retta che, tra le infinite possibili, sia la migliore interpolatrice della nuvola. Questa retta sarà quella che minimizza la somma dei quadrati dei residui.


Il metodo dei minimi quadrati Con il metodo dei mini

quadrati si soddisfa la condizione di rendere minima la somma degli scarti al quadrato tra i valori effettivi e quelli predetti. L’elevazione al quadrato dei residui di previsione si impone per evitare che la somma algebrica degli scarti si annulli.

È comunque bene prendere in ogni caso l’abitudine di tracciare un diagramma a nuvola di punti prima di procedere con l’analisi; in molti casi l’osservare il diagramma sarà sufficiente a indicare se vale la pena procedere (Blalock, 1960: 488)


Il metodo dei minimi quadrati Il metodo dei minimi quadrati consiste dunque nel trovare

quell’unica retta che ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti tra i valori teorici sulla stessa linea e i valori empirici di Y (Blalock, 1960: 489). Pertanto, se misuriamo gli scarti dei punti sulle linee verticali tracciate da ciascuno dei punti stessi alla retta dei minimi quadrati, eleviamo al quadrato tali scarti e li sommiamo, la somma risultante sarà minore di quella ottenibile mediante qualsiasi altra linea retta.

La retta di regressione può quindi essere immaginata come quella retta che – tra le infinite rette del piano – minimizza le distanze dei punti dalla distribuzione bivariata.


Il calcolo dei coefficienti della retta di regressione Si supponga, a titolo di esempio, di volere

ricavare la probabile differenza di reddito tra bianchi e neri in una data città degli Stati Uniti partendo dai dati relativi ad altre città, per le quali si conosce la percentuale di neri (X) e la differenza di reddito tra bianchi e neri (Y).


Fonte: censimento USA, 1950

Percentuale di neri (X) Differenza di reddito (Y)

2.13 809

2.52 763

11.86 612

2.55 492

2.87 679

4.23 635

4.62 859

5.19 228

6.43 897

6.70 867

1.53 513

1.87 335

10.38 868


Il calcolo dei coefficienti della retta di regressione Nell’esempio riportato, b si ricava così:

Mentre a è:

L’equazione che si ottiene è pertanto:


La retta di regressione È ovvio che se la

variabile indipendente è una sola, la funzione lineare corrisponde all’equazione di una retta e il modello, come abbiamo già detto, si chiama bivariato.

Se le indipendenti sono due o più variabili si specifica un modello di regressione multipla e l’equazione lineare che dovrà essere calcolata avrà tante incognite quante sono le variabili indipendenti (Di Franco, 2009: 128)


Metodi di inserimento delle variabili Per poter procedere alla regressione lineare multipla, occorre innanzitutto, dopo

avere identificato quali possano essere le variabili indipendenti da inserire nel modello, scegliere tra le diverse procedure di immissione delle variabili all’interno del modello stesso.

La procedura per blocchi / default (enter), consiste nell’inserire simultaneamente tutte le variabili indipendenti nel modello. Parliamo in questo caso di regressione standard o simultanea. Si usa preferibilmente in situazioni di analisi esplorativa.

Nella procedura forward (avanti) il calcolatore inserisce come prima variabile indipendente quella che presenta il più alto valore del coefficiente di correlazione con la variabile dipendente; la variabile inserita per seconda è quella che presenta il più elevato valore del coefficiente di correlazione con i residui della precedente analisi, e così via.

La procedura backward (indietro) è l’inverso della precedente: tutte le variabili sono incluse nell’equazione iniziale, e vengono via via scartate quelle meno correlate con la dipendente, al netto dell’influenza che ciascuna di esse condivide con le altre;

La procedura stepwise (per passi) è una combinazione delle due strategie esaminate in precedenza: ogni volta che si inserisce una variabile nel modello, il calcolatore può anche eliminare la variabile che dà un ridotto contributo a riprodurre la varianza residua. Una volta raggiunta una soluzione soddisfacente, il calcolatore esibisce il modello finale e i valori dei coefficienti.

La procedura remove (rimozione) elenca a priori le variabili che si vuole siano sottoposte al test per l’eventuale eliminazione

Tutte e quattro queste procedure si riferiscono alla cosiddetta regressione statistica. Va inoltre ricordato che è possibile anche inserire le variabili con procedure miste.


Metodi di inserimento delle variabili


Statistiche della regressione multipla L’opzione Stime consente di

visualizzare in ouput i coefficienti di regressione e il loro errore standard

L’opzione adattamento del modello consente di elencare le variabili inserite ed eliminate dal modello di regressione e di visualizzare le statistiche di bontà di adattamento

Richiedendo il test di collinearità nel menù statistiche si ottiene l’indice di tolleranza. Quest’ultimo viene utilizzato per stimare quanto una VI è linearmente correlata alle altre VI. Questo parametro varia tra 0 e 1. Maggiore è questo valore, minore è la varianza che quella VI condivide con le altre VI, maggiore è il contributo che essa può fornire alla spiegazione della VD.

Lo stesso test esegue il VIF (Variance Inflaction Factor), che altro non è che il reciproco della tolleranza. Bassi valori indicano bassa collinearità e viceversa. Valori tra 5 e 10 sono indicativi di forte collinearità


Il test di collinearità Gli autovalori relativi alle diagnostiche di collinearità sono ottenuti effettuando

l’analisi in componenti principali della matrice dei prodotti scalari tra le variabili indipendenti e danno un’indicazione della correlazione tra le variabili indipendenti. Se molti autovalori sono prossimi a 0 le variabili sono fortemente correlate.

L’indice di collinearità deriva dagli autovalori: se è compreso tra 15 e 20 indica possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave.

Va però ricordato che la collinearità diventa un problema se una dimensione con un elevato indice di collinearità contribuisce in maniera sostanziale alla varianza di due o più variabili. Per verificare questo assunto, occorre leggere i valori che connettono le dimensioni con le variabili. Se non ci sono valori alti per una singola dimensione rispetto a più di una variabile, allora non ci sono problemi di collinearità.


Regressione lineare: opzioni Nella finestra opzioni di SPSS viene

data all’utente la possibilità di impostare ulteriori parametri relativi ai criteri di inserimento delle variabili all’interno del modello di regressione.

Se selezioniamo usa probabilità di F, una variabile viene inserita in equazione se il livello di significatività della F è minore del valore specificato in inserimento, ed viene rimossa se esso è maggiore del valore specificato in rimozione.

Se selezioniamo invece usa valore di F, una variabile viene inserita se il suo valore di F è maggiore del valore specificato in inserimento e rimossa se il valore di F è minore del valore specificato in rimozione.

L’opzione includi termine costante nell’equazione, che è selezionata di default, fa riferimento al valore assunto dalla variabile indipendente quando tutti i coefficienti di regressione sono pari a 0. Se l’opzione non viene selezionata, viene forzato il passaggio delle retta di regressione per l’origine degli assi, il che avviene raramente.


Statistiche descrittive nella regressione lineare multipla Nelle statistiche descrittive va posta particolare attenzione

a due indici: quello di asimmetria e quello di curtosi. Si ricorda che l'indice di curtosi mira a rilevare quanto

una distribuzione sia piatta o appuntita mentre l’indice di asimmetria rileva se e quanto una distribuzione non sia disposta simmetricamente attorno alla sua media, e se abbia una "coda" più lunga dell'altra.

Perché l’applicazione di un modello di regressione multipla vada a buon fine, bisogna controllare che questi due indici abbiano entrambi valori inferiori a |1| per ognuna delle variabili utilizzate.


Gli indici di asimmetria e curtosi Come si può ben vedere nell’esempio riportato, soltanto la

variabile relativa al controllo comportamentale presenta dei problemi di normalità. Tutte le altre variabili, infatti, hanno valori di asimmetria e curtosi inferiori a |1|.


Gli indici di asimmetria e curtosi Applicando la procedura “statistiche descrittive” e salvando i

valori delle variabili standardizzate, si possono vedere quali sono gli outliers che, una volta estromessi dall’analisi, possono migliorare il valore dell’indice di asimmetria della variabile CONTCO e portare quello della curtosi entro i limiti richiesti. L’esempio riportato sotto dimostra che mentre l’indice di curtosi è stato riportato entro valori normali, quello di asimmetria è stato ridimensionato ma conserva ancora un valore eccessivamente alto.


La lettura dei coefficienti L’output di SPSS produce, oltre alle statistiche di collinearità, una serie di coefficienti

assai utili per l’analisi dei risultati. Ecco come si presentano, colonna per colonna: Nella seconda colonna (B) è indicato il coefficiente di regressione multipla non standardizzato Nella terza colonna è riportato l’errore standard del coefficiente di regressione multipla non

standardizzato Beta indica il coefficiente di regressione multipla standardizzato T sta per “T di Student” Sig. T indica infine il livello di significatività della T di Student Infine, nella prima riga compaiono l’intercetta e l’errore standard


Le rappresentazioni grafiche Le rappresentazioni grafiche

servono sostanzialmente a controllare che gli assunti del modello di regressione (i residui devono essere distribuiti normalmente, avere media 0, avere la stessa varianza in tutte le VI, essere intercorrelati tra loro e con le VI) siano rispettati.

Le etichette disponibili si riferiscono a:

DEPENDT (variabile dipendente) ZPRED (valore predetto

standardizzato della VD) ZRESID (valore dei residui

standardizzati) DRESID (valore dei residui) ADJPRED (valore predetto della VD

corretto) SRESID (valore dei residui

studentizzati) SDRESID (errore standard della

previsione) È consigliabile verificare la capacità

predittiva del modello inserendo nel grafico DEPENDT e ADJPRED.


L’equazione di regressione multipla I coefficienti di regressione multipla

standardizzati visti nella precedente diapositiva servono dunque a ottenere l’equazione di regressione multipla, che è questa:Int = .194(ns) + .231(contco) + .291(compas) + .335(att)

È sulla base di questi coefficienti che è possibile impiegare la regressione lineare multipla in senso previsionale.


La verifica della capacità predittiva


Un esempio: l’astensionismo elettorale Nella letteratura nazionale e

internazionale è diffusa la tesi secondo cui la marginalità socioeconomica e la modesta capacità di mobilitazione delle forze politiche di sinistra (forze che tradizionalmente esaltano il valore della partecipazione popolare) siano fattori che attenuano il livello di partecipazione elettorale (cfr. Caciagli, Scaramozzino, 1983)


Un esempio: l’astensione del voto

% senza titolo di studio

% voti a sinistra

% astenuti









Documents

Modelli e strumenti della previsione sociale Stefano Nobile