Introduzione al corsoDatawarehouse e fonti informative aziendali
DATA MINING
Luca Molteni
Programma e obiettivi del corso
• Il corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendali
• E’ strutturato in due principali moduli:1. Il primo è incentrato sul tema delle previsioni delle vendite:
saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA
2. La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela
Programma e obiettivi del corso
• Numerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicati
• Il corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logistica
• Il corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).
Materiale didattico
Consigli bibliografici• Paolo Giudici “Data Mining”, McGraw-Hill, 2005• John Hanke & Dean Wichern “Business
forecasting” – Eight Edition, Prentice Hall, 2005
MODULO UNOPrevisioni delle vendite
• Il corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsivi
• Alla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuro
SOFTWARE UTILIZZATI
– Excel– SPSS– Clementine (reti neurali)
6
Metodi e algoritmi di previsioneMetodi di previsione
Qualitativi-SoggettiviPanel di esperti
Valutazione del reparto vendite
Indagini di mercato
Delphi
Quantitativi-OggettiviSerie storicheMedia mobile
Decomposizione classica
Analisi di regressione
Exponential Smoothing
Alberi decisione
Reti neurali
Indicatori economiciModelli econometrici
Regressione multipla
MODULO DUEData Mining
“Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine
di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile”
“Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a
priori).“ (Berry, Linoff, 1997)
Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)
I temi di Data Mining saranno affrontati a partire dalla lezione numero 10
Knowledge Discovery in Database (KDD)
Il termine KDD indica l’intero processo di estrazione della conoscenza da un database, dall’individuazione degli obiettivi di business iniziali fino all’applicazione delle regole decisionali trovate
In quest’ambito, il termine Data Mining è stato impiegato per descrivere la fase del processo di KDD nel quale gli algoritmi di apprendimento vengono applicati ai dati
Nel contesto aziendale, l’utilità del risultato si traduce in un risultato di business e, pertanto, ciò che distingue il Data Mining da un’analisi statistica, non è tanto la quantità di dati che vengono analizzati o le particolari tecniche che vengono impiegate, quanto la necessità di operare in una modalità in cui la conoscenza delle caratteristiche del database, la metodologia di analisi e le conoscenze di business devono essere integrate
Fare Data Mining significa quindi seguire un processo
metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’applicazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica
Da un punto di vista operativo, il Data Mining è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi, all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati
Knowledge Discovery in Database (KDD)
Knowledge Discovery in Database (KDD)
Data Warehouse e fonti informative aziendali
L’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modello
A monte dei modelli ci deve essere perciò un’ambiente dati robusto e affidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto errati
Tale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti
Data Warehouse e fonti informative aziendali
Il Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di businessIl risultato di tale processo è un ambiente dati (Bill Inmon, 1996):
1. Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo interno
2. Orientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.)
3. Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura)
4. Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)
Data Warehouse: Architettura
Ambienti e Motore del
Data Warehouse
Processi ETL(Estrazione,Trasformazione eCaricamento)
Query & Reporting
Metadati (informazioni sui dati: tipo, origine, utilizzo, etc.)
Sistemi ERP
(Enterprise Resource Planning)
Dati Esterni
Database Operazionali
Data Mining
Fonti informative
aziendali
Data Warehouse:i Data Mart
Nelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale:
I DM, essendo pensati per una particolare dimensione aziendale, sono ambienti più piccoli (costituiscono una aggregazione e/o selezione dei dati del DWH) e focalizzati sulle esigenze specifiche degli utenti di quella funzione
Data Mart 1Marketing
Data Mart 3…
Data Mart 2Finanza
Data Warehouse
Data Warehouse vs. Database Operazionali
I Database Operazionali (o Transazionali) sono ambienti.. Orientati ai singoli processi aziendali Utilizzati per l’operatività quotidiana dell’azienda
(transazioni, produzione, contatti, …) Contengono in maniera dettagliata i dati attuali
dell’azienda (aggiornamento real-time) I dati sono normalizzati (non presentano ridondanze) ma la
sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggi
Il Data Warehouse è un ambiente.. Orientato ai centri d’interesse dell’azienda Utilizzato per analizzare il business (OLAP, Reporting, Data
Mining) a supporto dei processi decisionali Contiene in maniera aggregata i dati storici dell’azienda
secondo fotografie I dati sono denormalizzati (presentano ridondanze) ma la
sintesi delle informazioni è immediata
Data Warehousein sintesi..
Business Intelligenc
e
Data Mining
Data Warehous
e
Ambiente dati a supporto
delle decisionimanageriali
IntegratoSubject-oriented
Non Volatile
Tante fonti eterogenee
racchiuse in un unico contenitore
Estrazione, esplorazione ed analisi dei
dati finalizzata al business
Creazionevantaggio
competitivo
Pianificazionestrategie di medio-lungo
periodoOttimizzazione dei processi
Knowledge Discovery in
Database
Data MiningObiettivi e Tecniche
Market basket analysisGRANDE DISTRIBUZIONEWEBMINING
Click stream analysisWEBMINING
Descrizione e sintesi
Profiling e Segmentazione
Fidelizzazione e abbandono (Retention e Churn)
Propensione e Scoring
Risk management
Data MiningEsempio 1: Market Basket Analysis e GDO
La MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire:
quali combinazioni di prodotto sono vendutequando sono vendutein quale sequenza
Queste informazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore.Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessi
Utilizzando i risultati della MBA, i manager della GDO possono: mirare le strategie promozionali trovare la gestione ottimale dei reparti e/o dei prodotti sugli scaffali
(category management)
Data MiningEsempio 1: Market Basket Analysis
Quali combinazioni di prodotto sono vendute
Quando sono vendute
In quale sequenza
La MBA svolta su più livelli (reparto, categoria, prodotto, marca) può comportare diverse implicazioni nelle scelte promozionali: le regole danno informazioni su associazioni tra antecedente e conseguente. In particolare, rilevate con l’analisi tali associazioni, non andranno promozionati sia antecedente/i che conseguente perché una promozione dell’antecedente potrebbe portare ad aumenti di vendita del conseguente
Data MiningEsempio 1: Market Basket Analysis
Quali combinazioni di prodotto
sono vendute Quando sono
vendute In quale
sequenza
La MBA a livello di prodotto fornisce utili insight sulle relazioni di prodotti (anche all’interno di una stessa categoria, ma con diverse marche) per le scelte di composizione dello scaffale. Non solo: prodotti tra loro connessi potranno essere posizionati vicini o, al contrario, separati, in modo tale da invogliare e stimolare il cliente ad acquistare diversi prodotti
Le regole a livello di reparto, possono avere implicazioni importanti a livello di layout del punto vendita. Reparti
connessi andranno posizionati vicini o lontani
Le regole a livello di categoria forniscono evidenza statistica utile da adottare in ottica di Category Management, per razionalizzare e gestire la varietà di un assortimento o di una gamma di prodotti (facilitando la riduzione delle ridondanze ed il potenziamento delle alternative di scelta per il consumatore sulla base al suo comportamento di acquisto)
Le regole a livello di marca offrono informazioni sulle relazioni tra marche utili nelle scelte di composizione dello
scaffale
Data MiningEsempio 2: Customer Churn e settore Energy
• L’anticipazione del fenomeno dell’abbandono da parte dei propri clienti rappresenta per le imprese un elemento importante nel complesso delle azioni volte a stabilire un rapporto privilegiato e duraturo nel tempo con la clientela medesima
• L’implementazione di modelli di Churn porta allo sviluppo di un processo operativo che prevede:
l’assegnazione ad ogni cliente di una probabilità di abbandono su un orizzonte temporale definito
la selezione di una lista di nominativi ad “alto rischio”
la formulazione di proposte di prodotti/ servizi in grado di soddisfare le esigenze fino a quel momento non soddisfatte
l’attivazione di un’azione volta alla retention, che utilizza i canali ritenuti più opportuni per contattare i suddetti nominativi
la verifica a posteriori della riduzione ottenuta nel tasso di “Customer Attrition”
Data MiningEsempio 2: Customer Churn e settore Energy
Il Problema• Gli utilizzatori sono alla ricerca di fornitori in grado di dimostrarsi
flessibili nell’offerta ed efficienti nella gestione dei problemi tecnici
• L’insoddisfazione per queste ed altre dimensioni, in un contesto dove le barriere all’uscita si stanno sempre di più assottigliando, spinge l’utente a rivolgersi verso altri fornitori
• A seguito della liberalizzazione del mercato, il livello di Customer Churn del settore a livello europeo si è spinto oltre il 15% e L’Italia è un dei paesi dove il fenomeno è più accentuato
Obiettivi• Fornire una stima dell’abbandono dei clienti attraverso la
previsione della loro propensione a migrare verso i competitor • Implementazione di campagne di retention efficaci in modo da
prevenire il churn prima che esso si manifesti• Creare un modello di Customer Lifetime Value che, basandosi
anche sulla propensione all’abbandono stimata, permetta di introdurre una valida profilazione della clientela per riconoscere i clienti ad alto valore e focalizzare su di essi specifici programmi di loyalty
Data MiningEsempio 2: Customer Churn e settore Energy
Soluzioni
• Dopo aver raccolto internamente i dati sui clienti che nel passato hanno cambiato fornitore, è possibile creare un modello di scoring ad hoc che relazioni il fenomeno dell’abbandono alle altre informazioni presenti nel database aziendale (tipo di contratto stipulato, utilizzo, rapporti con l’assistenza tecnica, altre problematicità, etc.)
• I modelli generati attraverso algoritmi complessi (come reti neurali, alberi di classificazione e regressione logistica) permettono di classificare sia i clienti acquisiti sia i nuovi in funzione della loro probabilità di abbandono
• Viene attribuito lo score stimato a tutto il database aziendale in modo da poter monitorare con continuità le campagne di retention in atto e creare benchmark per verificare l’efficacia delle stesse
Data MiningEsempio 2: Customer Churn e settore Energy
Risultati Targeting della clientela offerte mirate e ottimizzazione delle campagne
Riduzione del tasso di abbandono
Valorizzazione dei clienti più profittevoli e incremento della marginalità
0% 20% 40% 60% 80% 100%0%
20%
40%
60%
80%
100%
Modello Selezione casuale
Percentile campione
Perc
en
tuale
di ch
urn
ers
• Il peggior 20% di clienti (in termini di probabilità di abbandono stimata dal modello) comprende quasi il 60% degli effettivi churners
• Raggiungendo la minoranza dei clienti con la più alta probabilità di abbandono l’azienda potrà, ottimizzando i costi di contatto, offrire prodotti e servizi che soddisferanno i bisogni che non erano stati soddisfatti fino a quel momento, prevenendo così il futuro abbandono
Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario
La misurazione del rischio di credito ha conosciuto in questi anni una forte evoluzione e, a seguito degli accordi di Basilea 2, una crescita dell’attenzione da parte degli operatori del settore
Gli algoritmi di Data Mining forniscono strumenti per la misurazione del rischio di credito che risultano fondamentali per ottenere in maniera rigorosa una grande molteplicità di informazioni e soluzioni statisticamente robuste, da coniugare con l'esperienza e la valutazione umana nei processi di decisione
In particolare, le tecniche di regressione multipla (lineare o logistica a seconda della tipologia del fenomeno oggetto di studio) sono frequentemente utilizzate dagli analisti del settore per stimare e prevedere le dimensioni principali connesse al rischio di credito quali la PD (probabilità di insolvenza o default), l’EAD (esposizione al momento del default) e LGD (tasso di perdita atteso in caso di insolvenza)
Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario
Attraverso gli algoritmi di Data Mining è possibile costruire, per esempio, modelli di previsione della Probabilità di insolvenza (PD) della clientela e suddividere il proprio parco clienti in classi sulla base di tale probabilità
La suddivisione della clientela in classi di rating fornisce ai manager della banca uno dei principali strumenti per..
1.Scegliere l'assetto ottimale dei processi di affidamento e di controllo del rischio di credito
2.Ottenere indicazioni fondamentali per la determinazione della quota di accantonamento patrimoniale da prevedere, evitando errori di valutazione che si ripercuoterebbero direttamente sul cliente
Classe di Rating
Probabilità di Default Minima
(% )
Probabilità di Default Massima
(% )
1AAA 0,015
2AA 0,016 0,330
3A 0,331 0,680
4BBB 0,681 1,850
5BB 1,851 3,560
6B 3,561 6,890
7CCC 6,891 11,220
8CC 11,221 19,860
9C 19,861