Obiettivi Utilizzare Rialto per lanalisi di un caso studio:
Churn
Slide 3
Caso studio: Churn E un dataset disponibile presso lUCI
Repository Contiene 20 attributi e 3333 tuple Le informazioni sono
relative al fenomeno dellattrition di una compagnia telefonica
Slide 4
Attrition? Customer attrition (o customer churn nel caso di
compagnie telefoniche) indica il passaggio di clienti da una
azienda ad una concorrente
Slide 5
Dettagli (1/3) State: categorico, codici relativi ai 50 stati
USA pi quello del distretto della Columbia Account length: integer,
tempo di vita totale dellaccunt Area code: categorico Phone number:
essenzialmente si comporta alla stregua di un ID International
Plan: binario dicotomico, yes o no VoiceMail Plan: binario
dicotomico, yes o no Number of voice mail messages: integer
Slide 6
Dettagli (2/3) Total day minutes: continuo, minuti usati dal
cliente durante il giorno Total day calls: integer Total day
charge: continuo, addebito di una chiamata durante il giorno Total
evening minutes: continuo, minuti usati dal cliente durante la sera
Total evening calls: integer Total evening charge: continuo,
addebito di una chiamata durante la sera
Slide 7
Dettagli (3/3) Total night minutes: continuo, minuti usati dal
cliente durante la notte Total night calls: integer Total night
charge: continuo, addebito di una chiamata durante la notte Total
international minutes: minuti usati dal cliente per fare chiamate
internazionali Total international calls: integer Total
international charge: continuo, probabilmente basato su due
precedenti variabili Number of calls to customer service:
integer
Slide 8
Correlazione tra variabili (1/2) Il dataset contiene 3
variabili potenzialmente correlate: minutes, calls, and charge. E
molto probabile che la variabile charge possa essere funzione di
minutes e call. Per valutare possibili correlazioni possiamo
utilizzare lo scatter plot.
Slide 9
Correlazione tra variabili (2/2) Esempio: day charge e day
mins
Slide 10
Analisi Esplorativa degli Attributi Categorici In questa fase
interessante indagare come questi attributi si distribuiscono
rispetto alla variabile obiettivo
Slide 11
Analisi Esplorativa degli Attributi Categorici International
Plan: InternationalPlan=yes Churn?CountPerc False1865.58
True1374.11 InternationalPlan=no Churn?CountPerc False266479.93
True34610.38
Slide 12
Analisi Esplorativa degli Attributi Categorici In figura
mostrato un confronto tra la percentuale di churners (rosso) e
nonchurners (blu) tra i clienti che avevano scelto il piano
internazionale (s, 9,69% dei clienti) o no (no, 90,31% dei
clienti). Il grafico sembra indicare che una buona percentuale di
coloro i quali hanno un piano internazionale sono churning, ma
difficile esserne sicuri.
Slide 13
Cross Tabulation su International Plan International Plan
ChurnNoYes False.2664186 True.346137 Nella tabella mostrato il
risultato della cross-tabulazione.
Slide 14
Analisi (1/2) Si noti che la somma dei valori contenuti nella
prima colonna coincide col numero totale di coloro i quali non
erano titolari del piano internazionale, 3010 (2664 + 346) ;
viceversa dicasi per la seconda colonna. La prima riga nella
tabella mostra il numero di coloro i quali non abbandonano la loro
compagnia, mentre la seconda riga mostra viceversa i rinunciatari.
Il dataset contiene un totale di 483 (346 + 137) churners rispetto
ai 2850 (2664 + 186) non- churners; ossia il 14,5% (483 / (483 +
2.850)) dei clienti totali sono churners.
Slide 15
Analisi (2/2) Si noti che il 42,4% (137 / (137 + 186)) di
coloro i quali che sono titolari di un piano internazionale sono
anche churned, rispetto al solo 11.5% (346 / (346 + 2.664)) di
coloro che non ne sono titolari. I clienti che hanno selezionato il
piano internazionale e che abbandonano la loro compagnia sono
percentualmente il triplo rispetto a quelli che non lo hanno
selezionato. Questa analisi sul piano internazionale indica che:
Forse dovremmo indagare sulle cause piano che inducono i clienti
con un piano internazionale a lasciare la loro compagnia! Quello
che ci aspettiamo che utilizzando un algoritmo di data mining per
prevedere labbandono del servizio, il modello utilizzer la presenza
o meno del piano internazionale nel profilo del cliente per
prevedere labbandono.
Slide 16
Analisi Esplorativa degli Attributi Categorici VoiceMail Plan
VoiceMail=yes Churn?CountPerc False84225.26 True802.4 VoiceMail=no
Churn?CountPerc False200860.25 True40312.09
Slide 17
Cross Tabulation su VoiceMail Plan Nella tabella mostrato il
risultato della cross-tabulazione. VoiceMail Plan ChurnNoYes
False.2008842 True.40380
Slide 18
Analisi (1/2) Prima di tutto, possiamo notare che 922 (842 +
80) clienti hanno il piano VoiceMail, mentre il 2411 (2008 + 403)
non lo hanno. Possiamo quindi individuare che il 16.7% (403/2411)
di coloro i quali non possiedono il piano VoiceMail sono churners,
rispetto allo 8,7% (80/922) dei clienti che hanno il piano
VoiceMail. In prima istanza possiamo dire che i churners senza la
tariffa VoiceMail sono percentualmente il doppio rispetto ai
churners con questo piano.
Slide 19
Analisi (2/2) Questa analisi del piano VoiceMail ha indicato
che: Forse dovremmo diffondere maggiormente questa tariffa al fine
di migliorare la fidelizzazione. Ci aspettiamo che un qualsiasi
algoritmo di data mining, per predire churn, tenga in
considerazione lattributo che indica la presenza del piano
tariffario VoiceMail
Slide 20
Dati Anomali La prima situazione anomala riguarda larea code :
questo campo contiene solo attributi numerici, ma viene trattato
come nominale. Il motivo di tale scelta dipende dal fatto che
ognuno dei valori (408, 415 e 510) rappresenta una corrispondente
area geografica.
Slide 21
Dati Anomali 1/2 I codici corrispondono ad aree geografiche
presenti in California Problema: La cross tabulation con state ci
indica che quei codici sono sparsi su tutti gli stati membri degli
USA E possibile che un esperto di dominio sia in grado di spiegare
questa situazione o che effettivamente che il campo contenga dati
errati. In prima analisi i due attributi per le ragioni descritte
saranno omessi
Slide 22
Dati Anomali 2/2
Slide 23
Analisi Esplorativa degli Attributi Numerici Per lanalisi
ovvero la valutazione degli attributi numerici saranno utilizzate
alcune misure come: Il massimo, il minimo, la media, la deviazione
standard, e la mediana.
Slide 24
Analisi Esplorativa degli Attributi Numerici
MassimoMinimoMediaDev. St.Mediana Account
Length2431101,064839,81613101 VMail Message5108,0990113,686310 Day
Mins350,80179,775154,45922179,4 Day Calls1650100,435620,06607101
Day Charge59,64030,562319,25804530,5 Eve
Mins363,70200,980350,70624201,4 Eve Calls1700100,114319,91964100
Eve Charge30,91017,083544,31002117,12 Night
Mins39523,2200,87250,56626201,2 Night Calls17533100,107719,56567100
Night Charge17,771,049,0393252,2755319,05 Intl
Mins20010,237292,79142110,3 Intl Calls2004,4794482,4608454 Intl
Charge5,402,7645810,753662,78 CustServ
Calls901,5628561,3152941
Slide 25
Analisi Esplorativa degli Attributi Numerici In prima istanza
possiamo osservare che il campo Account Length ha come valore
minimo 1, come valore massimo 243, mentre media e mediana assumono
valori allincirca uguali (101) Tale valori ci indicano una
simmetria nei dati Le stesse osservazioni si possono effettuare su
diversi campi, tra cui tutti i minutes, charge, e call.
Slide 26
Analisi Esplorativa degli Attributi Numerici Gli altri campi
voice mail messages e customer service calls non sembrano mostrare
alcuna simmetria. In particolare: La mediana per voice mail
messages zero, ci sta ad indicare che almeno met dei cliente non
hanno messaggi voicemail. Questo risultato, naturalmente, indica
che meno della met dei clienti scelgono il piano VoiceMail, come
visto sopra.
Slide 27
Analisi Esplorativa degli Attributi Numerici La media di
chiamate al servizio clienti (1.563) superiore alla mediana (1.0),
mostrando una certa simmetria destra, come anche indicato dal
numero massimo di chiamate il servizio clienti ossia 9.
Slide 28
Analisi Esplorativa degli Attributi Numerici
Slide 29
Slide 30
I clienti che hanno chiamato il servizio clienti meno di tre
volte hanno un tasso di abbandono marcatamente inferiore a quello
dei clienti che hanno chiamato il servizio clienti di quattro o pi
volte. Questo analisi sulle chiamate al servizio clienti ha
indicato che: Dobbiamo monitorare attentamente il numero di
chiamate al servizio clienti per ciascun cliente. Alla terza
chiamata, dovrebbero essere offerti forti incentivi per conservare
la fidelizzazione dei clienti. Ci dobbiamo aspettare che qualunque
algoritmo di data mining che venga usato per prevedere se il
cliente churn, probabilmente utilizzer il numero di chiamate al
servizio clienti per effettuare la predizione.
Slide 31
Riassunto dei risultati dellanalisi condotta Account
lengthNessuna ovvia relazione con churn, ma mantenuto Area
codeAnomalo. Omesso dal modello. Phone numberSi comporta come un
ID. Omesso dal modello. International PlanPredittivo di Churn.
Mantenuto. VoiceMail PlanPredittivo di Churn. Mantenuto. Number of
voice mail messagesNessuna ovvia relazione con churn, ma mantenuto
Total day minutesPredittivo di Churn. Mantenuto. Total day
callsNessuna ovvia relazione con churn, ma mantenuto Total day
chargeFunzione di minutes. Omesso dal modello. Total evening
minutesPredittivo di Churn. Mantenuto. Total evening callsNessuna
ovvia relazione con churn, ma mantenuto Total evening
chargeFunzione di minutes. Omesso dal modello. Total night
minutesNessuna ovvia relazione con churn, ma mantenuto Total night
callsNessuna ovvia relazione con churn, ma mantenuto Total night
chargeFunzione di minutes. Omesso dal modello. Total international
minutesNessuna ovvia relazione con churn, ma mantenuto. Total
international callsNessuna ovvia relazione con churn, ma mantenuto
Total international chargeFunzione di minutes. Omesso dal modello.
Customer service callsPredittivo di Churn. Mantenuto.
Slide 32
Binning Il binning un insieme di tecniche volte alla
categorizzazione dei dati: Discretizzazione di dati numerici in
classi Esempio 1: possiamo suddividere lattributo day minutes in
tre classi: low, medium, high Esempio 2: possiamo suddividere le et
di una popolazione nelle classi: bambino, adulto, anziano
Raggruppamento di dati categorici in classi Esempio: possiamo
decidere di raggruppare i valori dellattributo state in macro
regioni, e di sostiuire questultimo con un nuovo attributo che
chimeremo region. Quindi i valori California, Oregon, Washington,
Alaska e Hawai verranno convertiti nel singolo valore Pacific, ad
indicare che per la nostra analisi serve solo sapere la regione
territoriale di interesse e non il singolo stato di appartenenza
(stiamo aumentando la granularit)
Slide 33
Binning Il binning un insieme di tecniche a cavallo tra
lanalisi ed il pre processamento dei dati. Esistono tante strategie
per il binning di dati numerici: Creare classi di uguale
estensione, cos come abbiamo visto per gli istogrammi di uguale
estensione (equal-width histograms). Provare a creare classi che
contengano lo stesso numero di tuple. Provare a partizionare i dati
in funzione della variabile target di tutta lanalisi di mining. In
questo modo cerchiamo di identificare comportamenti comuni
allinterno dei dati che riferiscono ad uno stesso valore di
attributo target
Slide 34
Binning sullesempio proposto Come presentato prima i clienti,
che hanno effettuato meno di 4 chiamate al servizio clienti, hanno
un tasso di abbandono pi basso di quelli che hanno chiamato il
servizio clienti 4 o pi volte. Potremmo decidere di raggruppare il
valore di customer service calls in due classi: low e high.
Slide 35
Binning sullesempio proposto Questa figura mostra che il tasso
di abbandono degli utenti con un basso numero di chiamate al
servizio utenti di 11.25%, mentre il tasso di abbandono degli altri
utenti del 51.69%, quasi 5 volte pi grande.
Slide 36
Binning con Rialto Loperazione proposta pu essere eseguita in
Rialto utilizzando il filtro Custom Discretizer
Slide 37
Suddivisione del dataset Utilizzando il filtro Splitter
dividiamo il dataset iniziale in 2 sotto dataset Il primo conterr
il 66% delle tuple e sar utilizzato in fase di training del modello
Il secondo che conterr le rimanenti tuple sar utilizzato per la
fase di validazione
Slide 38
Creazione del modello La scelta del modello da utilizzare
ricaduta sul RuleLearner, un classificatore a regole disponibile in
Rialto
Slide 39
Motivazioni Il motivazioni della scelta di tale algoritmo sono
molteplici: Il RuleLerner particolarmente efficace nellidentificare
classi di minoranza; Il modello generato facilmente
comprensibile.
Slide 40
Il modello
Slide 41
Risultati (1/2) Utilizzando il classificatore a regole
otteniamo