44
ALBERI DECISIONALI terza parte

ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Embed Size (px)

Citation preview

Page 1: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

ALBERI DECISIONALI terza parte

ALBERI DECISIONALI terza parte

Page 2: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Argomenti della lezioneArgomenti della lezione

Il metodo CHAID: Chi-Squared Automatic Interaction Detection

Il metodo CHAID: Chi-Squared Automatic Interaction Detection

Il test del chi-quadrato Il test del chi-quadrato

Il fattore di Bonferroni Il fattore di Bonferroni

Esempio di impiego degli alberi decisionali

Esempio di impiego degli alberi decisionali

Page 3: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Caratteristiche principali del metodo

CHAID

Caratteristiche principali del metodo

CHAID

Page 4: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,

ma mantiene distinte tutte le categorie che sono

eterogenee

CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,

ma mantiene distinte tutte le categorie che sono

eterogenee

Page 5: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni

per compiere gli aggiustamenti necessari per compiere

inferenze statistiche simultanee

CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni

per compiere gli aggiustamenti necessari per compiere

inferenze statistiche simultanee

Page 6: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

CHAID, a differenza di altri metodi di partizione iterativa, è limitato

a caratteri di tipo ordinale e nominale

CHAID, a differenza di altri metodi di partizione iterativa, è limitato

a caratteri di tipo ordinale e nominale

Page 7: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Utilizza il test del chi-quadrato per saggiare

l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica

della partizione

Utilizza il test del chi-quadrato per saggiare

l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica

della partizione

Page 8: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Il test chi-quadrato di indipendenza

Il test chi-quadrato di indipendenza

ii jj

( n ij - nij )2( n ij - nij )2**

nijnij**x2 = x2 =

Page 9: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

dovedove

è la frequenza empirica che corrisponde alla combinazione

della modalità i del primo carattere con la modalità j del secondo

carattere

è la frequenza empirica che corrisponde alla combinazione

della modalità i del primo carattere con la modalità j del secondo

carattere

nijnij

Page 10: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

è la corrispondente frequenza teorica calcolata in accordo

all'ipotesi di indipendenza tra i due caratteri considerati

è la corrispondente frequenza teorica calcolata in accordo

all'ipotesi di indipendenza tra i due caratteri considerati

nij = ninjnij = ninj*

Page 11: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

ESEMPIOESEMPIO

Famiglie secondo la zona

di residenza e il possesso

di personal computer

(frequenze empiriche)

Famiglie secondo la zona

di residenza e il possesso

di personal computer

(frequenze empiriche)

Page 12: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Zona geograficaZona geografica

Possesso di personal computer

Possesso di personal computer

Nord-CentroNord-Centro

MezzogiornoMezzogiorno In complessoIn complesso

SISI

NONO

In complessoIn complesso

150150

500500

650650

100100

250250

350350

250250

750750

10001000

Page 13: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Famiglie secondo la zona di residenza

e il possesso di personal computer

(frequenze teoriche)

Famiglie secondo la zona di residenza

e il possesso di personal computer

(frequenze teoriche)

Page 14: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Zona geograficaZona geografica

Possesso di personal computer

Possesso di personal computer

Nord-CentroNord-Centro

MezzogiornoMezzogiorno In complessoIn complesso

SISI

NONO

In complessoIn complesso

162,5162,5

487,5487,5

650,0650,0

87,587,5

262,5262,5

350,0350,0

250,0250,0

750,0750,0

1000,01000,0

Page 15: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Calcolo del test:Calcolo del test:

(500-487,5)2/487,5+

(87,5-100)2/87,5+

(162,5-150)2/162,5+

(250-262,5)2/262,5=

(500-487,5)2/487,5+

(87,5-100)2/87,5+

(162,5-150)2/162,5+

(250-262,5)2/262,5=

Page 16: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Il fattore di aggiustamento di Bonferroni

Il fattore di aggiustamento di Bonferroni

Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)

Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)

Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due

Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due

Page 17: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile

B

Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile

B

Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe

pari a:

Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe

pari a:

1-(1-a)15 > a1-(1-a)15 > a

Page 18: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni

Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni

1 - (1-a)M = Ma1 - (1-a)M = Ma

Per il predittore A la probabilità di commettere un errore del primo

tipo è semplicemente a

Per il predittore A la probabilità di commettere un errore del primo

tipo è semplicemente a

Se a è piccoloSe a è piccolo

Page 19: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Nel metodo CHAID si confronta il valore di a

associato con il test di indipendenza per la variabile

A con il valore di a per la variabile B corretto con

il fattore di Bonferroni

Nel metodo CHAID si confronta il valore di a

associato con il test di indipendenza per la variabile

A con il valore di a per la variabile B corretto con

il fattore di Bonferroni

Page 20: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Componenti di base del metodo

CHAID:

Componenti di base del metodo

CHAID:

Page 21: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

11 Una variabile dipendente categoricaUna variabile dipendente categorica

22 Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni

Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni

33 Un insieme di parametri per l'esecuzione dell'analisiUn insieme di parametri per l'esecuzione dell'analisi

Page 22: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

In ogni passo dell'analisi, ciascun sottogruppo è

analizzato e si identifica il miglior predittore, definito

come quello che ha il valore di a corretto con il

fattore di Bonferroni più piccolo

In ogni passo dell'analisi, ciascun sottogruppo è

analizzato e si identifica il miglior predittore, definito

come quello che ha il valore di a corretto con il

fattore di Bonferroni più piccolo

Page 23: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Tipi di variabili predittive in CHAID

Tipi di variabili predittive in CHAID

FluttuantiFluttuanti33

LibereLibere22

MonotonicheMonotoniche11

Page 24: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

L'algoritmo CHAID:L'algoritmo CHAID:

Passo 1: FusionePasso 1: Fusione

Passo 2: DivisionePasso 2: Divisione

Passo 3: ArrestoPasso 3: Arresto

Page 25: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

FusioneFusione

Page 26: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Per ciascun predittore

Per ciascun predittore

Page 27: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Forma la tabella a doppia entrata completa

Forma la tabella a doppia entrata completa

11

Page 28: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4

Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4

22

Page 29: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2

Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2

33

Page 30: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto

Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto

44

Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione

Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione

55

Page 31: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

DivisioneDivisione

Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni

Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni

Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

Page 32: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

ArrestoArresto

Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati

analizzati o contengono troppo poche osservazioni

Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati

analizzati o contengono troppo poche osservazioni

Page 33: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Variabile dipendente: Variabile dipendente:

tasso di risposta ad una offerta promozionale di

abbonamento ad una rivista

tasso di risposta ad una offerta promozionale di

abbonamento ad una rivista

Esempio di impiego del metodo chaid

Esempio di impiego del metodo chaid

Page 34: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Variabili indipendenti

Variabili indipendenti

Page 35: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

genere - 2 categorie -monotonica - (GENDER)

genere - 2 categorie -monotonica - (GENDER)

presenza di bambini - 2 categorie - monotonica (KIDS)

presenza di bambini - 2 categorie - monotonica (KIDS)

reddito familiare - 8 categorie - monotonica (INCOME)

reddito familiare - 8 categorie - monotonica (INCOME)

età del capofamiglia - 5 categorie -fluttuante (AGE)

età del capofamiglia - 5 categorie -fluttuante (AGE)

Page 36: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

carta di credito - 2 categorie - monotonica (BANKCARD)

carta di credito - 2 categorie - monotonica (BANKCARD)

numero di componenti - 6 categorie - fluttuante - (HHSIZE)

numero di componenti - 6 categorie - fluttuante - (HHSIZE)

tipo di occupazione -4 categorie - libera (OCCUP)

tipo di occupazione -4 categorie - libera (OCCUP)

Page 37: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Rappresentazione del processo

di partizione tramite il dendrogramma

Rappresentazione del processo

di partizione tramite il dendrogramma

Page 38: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Total 0.02

81,040

Total 0.02

81,040

HHSIZEHHSIZE

OCCUPOCCUP GENDERGENDER-4--4--1--1-

-2--2- -3--3- -5--5- -6--6-

23 0.13

16,132

23 0.13

16,132

45 0.00 6,198

45 0.00 6,198

? - 0.04 33,326

? - 0.04 33,326

W 0.36 1,758

W 0.36 1,758

BO? 0.10

14,374

BO? 0.10

14,374

F - 0.05 7,795

F - 0.05 7,795

M - 0.04 25,531

M - 0.04 25,531

1 0.03

25,384

1 0.03

25,384

Page 39: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Interpretazione dei risultati

Interpretazione dei risultati

Comparazione dei tassi di risposta secondo la variabile ampiezza

familiare prima e dopo la fusione

Comparazione dei tassi di risposta secondo la variabile ampiezza

familiare prima e dopo la fusione

Page 40: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

% di risposte% di risposte

HHSIZEHHSIZE FrequenzaFrequenza prima della fusioneprima della fusione

dopo la fusionedopo la fusione

11

22

33

44

55

dato mancantedato mancante

2538425384

1124011240

48924892

31873187

30113011

3332633326

1,091,09

1,491,49

1,591,59

1,791,79

2,062,06

0,870,87

1,091,09

1,521,52

1,521,52

1,921,92

1,921,92

0,870,87

Page 41: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

Ordinamento dei segmenti secondo il tasso di risposta

Ordinamento dei segmenti secondo il tasso di risposta

Page 42: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

11

22

Segmento 2

Segmento 2

Segmento 4

Segmento 4

Famiglie con due o tre componenti, capofamiglia impiegato

Famiglie con due o tre componenti, capofamiglia impiegato

2,392,39

1,921,92Famiglie con quattro componenti e più

Famiglie con quattro componenti e più

Page 43: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

33

44

Segmento 3

Segmento 3

Segmento 1

Segmento 1

Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato

Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato

1,421,42

1,091,09Famiglie con un componenteFamiglie con un componente

Page 44: ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

55

66

Segmento 6

Segmento 6

Segmento 5

Segmento 5

Famiglie di cui non si conosce il numero di componenti, capofamiglia donna

Famiglie di cui non si conosce il numero di componenti, capofamiglia donna

1,081,08

0,810,81Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo

Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo