Upload
nicoletta-lolli
View
233
Download
1
Embed Size (px)
Citation preview
ALBERI DECISIONALI terza parte
ALBERI DECISIONALI terza parte
Argomenti della lezioneArgomenti della lezione
Il metodo CHAID: Chi-Squared Automatic Interaction Detection
Il metodo CHAID: Chi-Squared Automatic Interaction Detection
Il test del chi-quadrato Il test del chi-quadrato
Il fattore di Bonferroni Il fattore di Bonferroni
Esempio di impiego degli alberi decisionali
Esempio di impiego degli alberi decisionali
Caratteristiche principali del metodo
CHAID
Caratteristiche principali del metodo
CHAID
CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,
ma mantiene distinte tutte le categorie che sono
eterogenee
CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,
ma mantiene distinte tutte le categorie che sono
eterogenee
CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni
per compiere gli aggiustamenti necessari per compiere
inferenze statistiche simultanee
CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni
per compiere gli aggiustamenti necessari per compiere
inferenze statistiche simultanee
CHAID, a differenza di altri metodi di partizione iterativa, è limitato
a caratteri di tipo ordinale e nominale
CHAID, a differenza di altri metodi di partizione iterativa, è limitato
a caratteri di tipo ordinale e nominale
Utilizza il test del chi-quadrato per saggiare
l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica
della partizione
Utilizza il test del chi-quadrato per saggiare
l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica
della partizione
Il test chi-quadrato di indipendenza
Il test chi-quadrato di indipendenza
ii jj
( n ij - nij )2( n ij - nij )2**
nijnij**x2 = x2 =
dovedove
è la frequenza empirica che corrisponde alla combinazione
della modalità i del primo carattere con la modalità j del secondo
carattere
è la frequenza empirica che corrisponde alla combinazione
della modalità i del primo carattere con la modalità j del secondo
carattere
nijnij
è la corrispondente frequenza teorica calcolata in accordo
all'ipotesi di indipendenza tra i due caratteri considerati
è la corrispondente frequenza teorica calcolata in accordo
all'ipotesi di indipendenza tra i due caratteri considerati
nij = ninjnij = ninj*
ESEMPIOESEMPIO
Famiglie secondo la zona
di residenza e il possesso
di personal computer
(frequenze empiriche)
Famiglie secondo la zona
di residenza e il possesso
di personal computer
(frequenze empiriche)
Zona geograficaZona geografica
Possesso di personal computer
Possesso di personal computer
Nord-CentroNord-Centro
MezzogiornoMezzogiorno In complessoIn complesso
SISI
NONO
In complessoIn complesso
150150
500500
650650
100100
250250
350350
250250
750750
10001000
Famiglie secondo la zona di residenza
e il possesso di personal computer
(frequenze teoriche)
Famiglie secondo la zona di residenza
e il possesso di personal computer
(frequenze teoriche)
Zona geograficaZona geografica
Possesso di personal computer
Possesso di personal computer
Nord-CentroNord-Centro
MezzogiornoMezzogiorno In complessoIn complesso
SISI
NONO
In complessoIn complesso
162,5162,5
487,5487,5
650,0650,0
87,587,5
262,5262,5
350,0350,0
250,0250,0
750,0750,0
1000,01000,0
Calcolo del test:Calcolo del test:
(500-487,5)2/487,5+
(87,5-100)2/87,5+
(162,5-150)2/162,5+
(250-262,5)2/262,5=
(500-487,5)2/487,5+
(87,5-100)2/87,5+
(162,5-150)2/162,5+
(250-262,5)2/262,5=
Il fattore di aggiustamento di Bonferroni
Il fattore di aggiustamento di Bonferroni
Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)
Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)
Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due
Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due
Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile
B
Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile
B
Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe
pari a:
Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe
pari a:
1-(1-a)15 > a1-(1-a)15 > a
Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni
Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni
1 - (1-a)M = Ma1 - (1-a)M = Ma
Per il predittore A la probabilità di commettere un errore del primo
tipo è semplicemente a
Per il predittore A la probabilità di commettere un errore del primo
tipo è semplicemente a
Se a è piccoloSe a è piccolo
Nel metodo CHAID si confronta il valore di a
associato con il test di indipendenza per la variabile
A con il valore di a per la variabile B corretto con
il fattore di Bonferroni
Nel metodo CHAID si confronta il valore di a
associato con il test di indipendenza per la variabile
A con il valore di a per la variabile B corretto con
il fattore di Bonferroni
Componenti di base del metodo
CHAID:
Componenti di base del metodo
CHAID:
11 Una variabile dipendente categoricaUna variabile dipendente categorica
22 Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni
Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni
33 Un insieme di parametri per l'esecuzione dell'analisiUn insieme di parametri per l'esecuzione dell'analisi
In ogni passo dell'analisi, ciascun sottogruppo è
analizzato e si identifica il miglior predittore, definito
come quello che ha il valore di a corretto con il
fattore di Bonferroni più piccolo
In ogni passo dell'analisi, ciascun sottogruppo è
analizzato e si identifica il miglior predittore, definito
come quello che ha il valore di a corretto con il
fattore di Bonferroni più piccolo
Tipi di variabili predittive in CHAID
Tipi di variabili predittive in CHAID
FluttuantiFluttuanti33
LibereLibere22
MonotonicheMonotoniche11
L'algoritmo CHAID:L'algoritmo CHAID:
Passo 1: FusionePasso 1: Fusione
Passo 2: DivisionePasso 2: Divisione
Passo 3: ArrestoPasso 3: Arresto
FusioneFusione
Per ciascun predittore
Per ciascun predittore
Forma la tabella a doppia entrata completa
Forma la tabella a doppia entrata completa
11
Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4
Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4
22
Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2
Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2
33
Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto
Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto
44
Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione
Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione
55
DivisioneDivisione
Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni
Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni
Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo
Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo
ArrestoArresto
Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati
analizzati o contengono troppo poche osservazioni
Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati
analizzati o contengono troppo poche osservazioni
Variabile dipendente: Variabile dipendente:
tasso di risposta ad una offerta promozionale di
abbonamento ad una rivista
tasso di risposta ad una offerta promozionale di
abbonamento ad una rivista
Esempio di impiego del metodo chaid
Esempio di impiego del metodo chaid
Variabili indipendenti
Variabili indipendenti
genere - 2 categorie -monotonica - (GENDER)
genere - 2 categorie -monotonica - (GENDER)
presenza di bambini - 2 categorie - monotonica (KIDS)
presenza di bambini - 2 categorie - monotonica (KIDS)
reddito familiare - 8 categorie - monotonica (INCOME)
reddito familiare - 8 categorie - monotonica (INCOME)
età del capofamiglia - 5 categorie -fluttuante (AGE)
età del capofamiglia - 5 categorie -fluttuante (AGE)
carta di credito - 2 categorie - monotonica (BANKCARD)
carta di credito - 2 categorie - monotonica (BANKCARD)
numero di componenti - 6 categorie - fluttuante - (HHSIZE)
numero di componenti - 6 categorie - fluttuante - (HHSIZE)
tipo di occupazione -4 categorie - libera (OCCUP)
tipo di occupazione -4 categorie - libera (OCCUP)
Rappresentazione del processo
di partizione tramite il dendrogramma
Rappresentazione del processo
di partizione tramite il dendrogramma
Total 0.02
81,040
Total 0.02
81,040
HHSIZEHHSIZE
OCCUPOCCUP GENDERGENDER-4--4--1--1-
-2--2- -3--3- -5--5- -6--6-
23 0.13
16,132
23 0.13
16,132
45 0.00 6,198
45 0.00 6,198
? - 0.04 33,326
? - 0.04 33,326
W 0.36 1,758
W 0.36 1,758
BO? 0.10
14,374
BO? 0.10
14,374
F - 0.05 7,795
F - 0.05 7,795
M - 0.04 25,531
M - 0.04 25,531
1 0.03
25,384
1 0.03
25,384
Interpretazione dei risultati
Interpretazione dei risultati
Comparazione dei tassi di risposta secondo la variabile ampiezza
familiare prima e dopo la fusione
Comparazione dei tassi di risposta secondo la variabile ampiezza
familiare prima e dopo la fusione
% di risposte% di risposte
HHSIZEHHSIZE FrequenzaFrequenza prima della fusioneprima della fusione
dopo la fusionedopo la fusione
11
22
33
44
55
dato mancantedato mancante
2538425384
1124011240
48924892
31873187
30113011
3332633326
1,091,09
1,491,49
1,591,59
1,791,79
2,062,06
0,870,87
1,091,09
1,521,52
1,521,52
1,921,92
1,921,92
0,870,87
Ordinamento dei segmenti secondo il tasso di risposta
Ordinamento dei segmenti secondo il tasso di risposta
RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta
11
22
Segmento 2
Segmento 2
Segmento 4
Segmento 4
Famiglie con due o tre componenti, capofamiglia impiegato
Famiglie con due o tre componenti, capofamiglia impiegato
2,392,39
1,921,92Famiglie con quattro componenti e più
Famiglie con quattro componenti e più
RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta
33
44
Segmento 3
Segmento 3
Segmento 1
Segmento 1
Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato
Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato
1,421,42
1,091,09Famiglie con un componenteFamiglie con un componente
RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta
55
66
Segmento 6
Segmento 6
Segmento 5
Segmento 5
Famiglie di cui non si conosce il numero di componenti, capofamiglia donna
Famiglie di cui non si conosce il numero di componenti, capofamiglia donna
1,081,08
0,810,81Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo
Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo