Analisi esplorativa Caso Studio Churn. Obiettivi Utilizzare Rialto per lanalisi di un caso studio: Churn

Embed Size (px)

Citation preview

  • Slide 1
  • Analisi esplorativa Caso Studio Churn
  • Slide 2
  • Obiettivi Utilizzare Rialto per lanalisi di un caso studio: Churn
  • Slide 3
  • Caso studio: Churn E un dataset disponibile presso lUCI Repository Contiene 20 attributi e 3333 tuple Le informazioni sono relative al fenomeno dellattrition di una compagnia telefonica
  • Slide 4
  • Attrition? Customer attrition (o customer churn nel caso di compagnie telefoniche) indica il passaggio di clienti da una azienda ad una concorrente
  • Slide 5
  • Dettagli (1/3) State: categorico, codici relativi ai 50 stati USA pi quello del distretto della Columbia Account length: integer, tempo di vita totale dellaccunt Area code: categorico Phone number: essenzialmente si comporta alla stregua di un ID International Plan: binario dicotomico, yes o no VoiceMail Plan: binario dicotomico, yes o no Number of voice mail messages: integer
  • Slide 6
  • Dettagli (2/3) Total day minutes: continuo, minuti usati dal cliente durante il giorno Total day calls: integer Total day charge: continuo, addebito di una chiamata durante il giorno Total evening minutes: continuo, minuti usati dal cliente durante la sera Total evening calls: integer Total evening charge: continuo, addebito di una chiamata durante la sera
  • Slide 7
  • Dettagli (3/3) Total night minutes: continuo, minuti usati dal cliente durante la notte Total night calls: integer Total night charge: continuo, addebito di una chiamata durante la notte Total international minutes: minuti usati dal cliente per fare chiamate internazionali Total international calls: integer Total international charge: continuo, probabilmente basato su due precedenti variabili Number of calls to customer service: integer
  • Slide 8
  • Correlazione tra variabili (1/2) Il dataset contiene 3 variabili potenzialmente correlate: minutes, calls, and charge. E molto probabile che la variabile charge possa essere funzione di minutes e call. Per valutare possibili correlazioni possiamo utilizzare lo scatter plot.
  • Slide 9
  • Correlazione tra variabili (2/2) Esempio: day charge e day mins
  • Slide 10
  • Analisi Esplorativa degli Attributi Categorici In questa fase interessante indagare come questi attributi si distribuiscono rispetto alla variabile obiettivo
  • Slide 11
  • Analisi Esplorativa degli Attributi Categorici International Plan: InternationalPlan=yes Churn?CountPerc False1865.58 True1374.11 InternationalPlan=no Churn?CountPerc False266479.93 True34610.38
  • Slide 12
  • Analisi Esplorativa degli Attributi Categorici In figura mostrato un confronto tra la percentuale di churners (rosso) e nonchurners (blu) tra i clienti che avevano scelto il piano internazionale (s, 9,69% dei clienti) o no (no, 90,31% dei clienti). Il grafico sembra indicare che una buona percentuale di coloro i quali hanno un piano internazionale sono churning, ma difficile esserne sicuri.
  • Slide 13
  • Cross Tabulation su International Plan International Plan ChurnNoYes False.2664186 True.346137 Nella tabella mostrato il risultato della cross-tabulazione.
  • Slide 14
  • Analisi (1/2) Si noti che la somma dei valori contenuti nella prima colonna coincide col numero totale di coloro i quali non erano titolari del piano internazionale, 3010 (2664 + 346) ; viceversa dicasi per la seconda colonna. La prima riga nella tabella mostra il numero di coloro i quali non abbandonano la loro compagnia, mentre la seconda riga mostra viceversa i rinunciatari. Il dataset contiene un totale di 483 (346 + 137) churners rispetto ai 2850 (2664 + 186) non- churners; ossia il 14,5% (483 / (483 + 2.850)) dei clienti totali sono churners.
  • Slide 15
  • Analisi (2/2) Si noti che il 42,4% (137 / (137 + 186)) di coloro i quali che sono titolari di un piano internazionale sono anche churned, rispetto al solo 11.5% (346 / (346 + 2.664)) di coloro che non ne sono titolari. I clienti che hanno selezionato il piano internazionale e che abbandonano la loro compagnia sono percentualmente il triplo rispetto a quelli che non lo hanno selezionato. Questa analisi sul piano internazionale indica che: Forse dovremmo indagare sulle cause piano che inducono i clienti con un piano internazionale a lasciare la loro compagnia! Quello che ci aspettiamo che utilizzando un algoritmo di data mining per prevedere labbandono del servizio, il modello utilizzer la presenza o meno del piano internazionale nel profilo del cliente per prevedere labbandono.
  • Slide 16
  • Analisi Esplorativa degli Attributi Categorici VoiceMail Plan VoiceMail=yes Churn?CountPerc False84225.26 True802.4 VoiceMail=no Churn?CountPerc False200860.25 True40312.09
  • Slide 17
  • Cross Tabulation su VoiceMail Plan Nella tabella mostrato il risultato della cross-tabulazione. VoiceMail Plan ChurnNoYes False.2008842 True.40380
  • Slide 18
  • Analisi (1/2) Prima di tutto, possiamo notare che 922 (842 + 80) clienti hanno il piano VoiceMail, mentre il 2411 (2008 + 403) non lo hanno. Possiamo quindi individuare che il 16.7% (403/2411) di coloro i quali non possiedono il piano VoiceMail sono churners, rispetto allo 8,7% (80/922) dei clienti che hanno il piano VoiceMail. In prima istanza possiamo dire che i churners senza la tariffa VoiceMail sono percentualmente il doppio rispetto ai churners con questo piano.
  • Slide 19
  • Analisi (2/2) Questa analisi del piano VoiceMail ha indicato che: Forse dovremmo diffondere maggiormente questa tariffa al fine di migliorare la fidelizzazione. Ci aspettiamo che un qualsiasi algoritmo di data mining, per predire churn, tenga in considerazione lattributo che indica la presenza del piano tariffario VoiceMail
  • Slide 20
  • Dati Anomali La prima situazione anomala riguarda larea code : questo campo contiene solo attributi numerici, ma viene trattato come nominale. Il motivo di tale scelta dipende dal fatto che ognuno dei valori (408, 415 e 510) rappresenta una corrispondente area geografica.
  • Slide 21
  • Dati Anomali 1/2 I codici corrispondono ad aree geografiche presenti in California Problema: La cross tabulation con state ci indica che quei codici sono sparsi su tutti gli stati membri degli USA E possibile che un esperto di dominio sia in grado di spiegare questa situazione o che effettivamente che il campo contenga dati errati. In prima analisi i due attributi per le ragioni descritte saranno omessi
  • Slide 22
  • Dati Anomali 2/2
  • Slide 23
  • Analisi Esplorativa degli Attributi Numerici Per lanalisi ovvero la valutazione degli attributi numerici saranno utilizzate alcune misure come: Il massimo, il minimo, la media, la deviazione standard, e la mediana.
  • Slide 24
  • Analisi Esplorativa degli Attributi Numerici MassimoMinimoMediaDev. St.Mediana Account Length2431101,064839,81613101 VMail Message5108,0990113,686310 Day Mins350,80179,775154,45922179,4 Day Calls1650100,435620,06607101 Day Charge59,64030,562319,25804530,5 Eve Mins363,70200,980350,70624201,4 Eve Calls1700100,114319,91964100 Eve Charge30,91017,083544,31002117,12 Night Mins39523,2200,87250,56626201,2 Night Calls17533100,107719,56567100 Night Charge17,771,049,0393252,2755319,05 Intl Mins20010,237292,79142110,3 Intl Calls2004,4794482,4608454 Intl Charge5,402,7645810,753662,78 CustServ Calls901,5628561,3152941
  • Slide 25
  • Analisi Esplorativa degli Attributi Numerici In prima istanza possiamo osservare che il campo Account Length ha come valore minimo 1, come valore massimo 243, mentre media e mediana assumono valori allincirca uguali (101) Tale valori ci indicano una simmetria nei dati Le stesse osservazioni si possono effettuare su diversi campi, tra cui tutti i minutes, charge, e call.
  • Slide 26
  • Analisi Esplorativa degli Attributi Numerici Gli altri campi voice mail messages e customer service calls non sembrano mostrare alcuna simmetria. In particolare: La mediana per voice mail messages zero, ci sta ad indicare che almeno met dei cliente non hanno messaggi voicemail. Questo risultato, naturalmente, indica che meno della met dei clienti scelgono il piano VoiceMail, come visto sopra.
  • Slide 27
  • Analisi Esplorativa degli Attributi Numerici La media di chiamate al servizio clienti (1.563) superiore alla mediana (1.0), mostrando una certa simmetria destra, come anche indicato dal numero massimo di chiamate il servizio clienti ossia 9.
  • Slide 28
  • Analisi Esplorativa degli Attributi Numerici
  • Slide 29
  • Slide 30
  • I clienti che hanno chiamato il servizio clienti meno di tre volte hanno un tasso di abbandono marcatamente inferiore a quello dei clienti che hanno chiamato il servizio clienti di quattro o pi volte. Questo analisi sulle chiamate al servizio clienti ha indicato che: Dobbiamo monitorare attentamente il numero di chiamate al servizio clienti per ciascun cliente. Alla terza chiamata, dovrebbero essere offerti forti incentivi per conservare la fidelizzazione dei clienti. Ci dobbiamo aspettare che qualunque algoritmo di data mining che venga usato per prevedere se il cliente churn, probabilmente utilizzer il numero di chiamate al servizio clienti per effettuare la predizione.
  • Slide 31
  • Riassunto dei risultati dellanalisi condotta Account lengthNessuna ovvia relazione con churn, ma mantenuto Area codeAnomalo. Omesso dal modello. Phone numberSi comporta come un ID. Omesso dal modello. International PlanPredittivo di Churn. Mantenuto. VoiceMail PlanPredittivo di Churn. Mantenuto. Number of voice mail messagesNessuna ovvia relazione con churn, ma mantenuto Total day minutesPredittivo di Churn. Mantenuto. Total day callsNessuna ovvia relazione con churn, ma mantenuto Total day chargeFunzione di minutes. Omesso dal modello. Total evening minutesPredittivo di Churn. Mantenuto. Total evening callsNessuna ovvia relazione con churn, ma mantenuto Total evening chargeFunzione di minutes. Omesso dal modello. Total night minutesNessuna ovvia relazione con churn, ma mantenuto Total night callsNessuna ovvia relazione con churn, ma mantenuto Total night chargeFunzione di minutes. Omesso dal modello. Total international minutesNessuna ovvia relazione con churn, ma mantenuto. Total international callsNessuna ovvia relazione con churn, ma mantenuto Total international chargeFunzione di minutes. Omesso dal modello. Customer service callsPredittivo di Churn. Mantenuto.
  • Slide 32
  • Binning Il binning un insieme di tecniche volte alla categorizzazione dei dati: Discretizzazione di dati numerici in classi Esempio 1: possiamo suddividere lattributo day minutes in tre classi: low, medium, high Esempio 2: possiamo suddividere le et di una popolazione nelle classi: bambino, adulto, anziano Raggruppamento di dati categorici in classi Esempio: possiamo decidere di raggruppare i valori dellattributo state in macro regioni, e di sostiuire questultimo con un nuovo attributo che chimeremo region. Quindi i valori California, Oregon, Washington, Alaska e Hawai verranno convertiti nel singolo valore Pacific, ad indicare che per la nostra analisi serve solo sapere la regione territoriale di interesse e non il singolo stato di appartenenza (stiamo aumentando la granularit)
  • Slide 33
  • Binning Il binning un insieme di tecniche a cavallo tra lanalisi ed il pre processamento dei dati. Esistono tante strategie per il binning di dati numerici: Creare classi di uguale estensione, cos come abbiamo visto per gli istogrammi di uguale estensione (equal-width histograms). Provare a creare classi che contengano lo stesso numero di tuple. Provare a partizionare i dati in funzione della variabile target di tutta lanalisi di mining. In questo modo cerchiamo di identificare comportamenti comuni allinterno dei dati che riferiscono ad uno stesso valore di attributo target
  • Slide 34
  • Binning sullesempio proposto Come presentato prima i clienti, che hanno effettuato meno di 4 chiamate al servizio clienti, hanno un tasso di abbandono pi basso di quelli che hanno chiamato il servizio clienti 4 o pi volte. Potremmo decidere di raggruppare il valore di customer service calls in due classi: low e high.
  • Slide 35
  • Binning sullesempio proposto Questa figura mostra che il tasso di abbandono degli utenti con un basso numero di chiamate al servizio utenti di 11.25%, mentre il tasso di abbandono degli altri utenti del 51.69%, quasi 5 volte pi grande.
  • Slide 36
  • Binning con Rialto Loperazione proposta pu essere eseguita in Rialto utilizzando il filtro Custom Discretizer
  • Slide 37
  • Suddivisione del dataset Utilizzando il filtro Splitter dividiamo il dataset iniziale in 2 sotto dataset Il primo conterr il 66% delle tuple e sar utilizzato in fase di training del modello Il secondo che conterr le rimanenti tuple sar utilizzato per la fase di validazione
  • Slide 38
  • Creazione del modello La scelta del modello da utilizzare ricaduta sul RuleLearner, un classificatore a regole disponibile in Rialto
  • Slide 39
  • Motivazioni Il motivazioni della scelta di tale algoritmo sono molteplici: Il RuleLerner particolarmente efficace nellidentificare classi di minoranza; Il modello generato facilmente comprensibile.
  • Slide 40
  • Il modello
  • Slide 41
  • Risultati (1/2) Utilizzando il classificatore a regole otteniamo
  • Slide 42
  • Risultati (2/2) ClassTP RateFP RatePrecisionRecallF-Measure False0.9830.2750.9540.9830.968 True0.7250.0170.8820.7250.796
  • Slide 43
  • Matrice di confusione classified asFalse.True. False139624 True68179