Download pptx - Data Mining

Introduzione al corsoDatawarehouse e fonti informative aziendali

DATA MINING

Luca Molteni

Programma e obiettivi del corso

• Il corso propone di introdurre il concetto di Data Mining e di presentare le principali tecniche statistiche che possono essere utilmente impiegate in quest’ambito per la soluzione di problemi aziendali

• E’ strutturato in due principali moduli:1. Il primo è incentrato sul tema delle previsioni delle vendite:

saranno presentati, a questo proposito, i metodi di decomposizione classica, di attenuazione esponenziale (Holt-Winters) e la modellistica ARIMA

2. La seconda parte del corso è dedicata al Customer Relationship Management ed in particolare ai temi legati alla profilazione della clientela, all’analisi del comportamento d’acquisto dei consumatori e allo scoring della clientela

Programma e obiettivi del corso

• Numerose sono le tecniche statistiche multivariate che è possibile impiegare per rispondere agli obiettivi conoscitivi indicati

• Il corso di Data Mining propone: algoritmi di classificazione ad albero, regressione lineare multipla, reti neurali, mappe di Kohonen, market basket analysis, analisi discriminante lineare e regressione logistica

• Il corso è caratterizzato da un alternarsi di lezioni di natura metodologica e di lezioni di natura più applicativa, mediante ricorso a una serie di casi aziendali e all’uso di specifici software diffusi sul mercato (SPSS e Modeler).

Materiale didattico

Consigli bibliografici• Paolo Giudici “Data Mining”, McGraw-Hill, 2005• John Hanke & Dean Wichern “Business

forecasting” – Eight Edition, Prentice Hall, 2005

MODULO UNOPrevisioni delle vendite

• Il corso prevede lo studio di tecniche di previsione quantitative che si basano proprio sull’uso di dati storici, dai quali l’analista cerca di comprendere la struttura sottostante il fenomeno per poi utilizzarla a scopi previsivi

• Alla base dell’analisi delle serie storiche vi è l’assunzione secondo cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente continuino a esercitare effetti analoghi anche nel futuro

SOFTWARE UTILIZZATI

– Excel– SPSS– Clementine (reti neurali)

6

Metodi e algoritmi di previsioneMetodi di previsione

Qualitativi-SoggettiviPanel di esperti

Valutazione del reparto vendite

Indagini di mercato

Delphi

Quantitativi-OggettiviSerie storicheMedia mobile

Decomposizione classica

Analisi di regressione

Exponential Smoothing

Alberi decisione

Reti neurali

Indicatori economiciModelli econometrici

Regressione multipla

MODULO DUEData Mining

“Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine

di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile”

“Processo di esplorazione ed analisi, in modo totalmente o parzialmente automatizzato, di una grande quantità di dati al fine di individuare schemi e regole significativi (non noti a

priori).“ (Berry, Linoff, 1997)

Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)

I temi di Data Mining saranno affrontati a partire dalla lezione numero 10

Knowledge Discovery in Database (KDD)

Il termine KDD indica l’intero processo di estrazione della conoscenza da un database, dall’individuazione degli obiettivi di business iniziali fino all’applicazione delle regole decisionali trovate

In quest’ambito, il termine Data Mining è stato impiegato per descrivere la fase del processo di KDD nel quale gli algoritmi di apprendimento vengono applicati ai dati

Nel contesto aziendale, l’utilità del risultato si traduce in un risultato di business e, pertanto, ciò che distingue il Data Mining da un’analisi statistica, non è tanto la quantità di dati che vengono analizzati o le particolari tecniche che vengono impiegate, quanto la necessità di operare in una modalità in cui la conoscenza delle caratteristiche del database, la metodologia di analisi e le conoscenze di business devono essere integrate

Fare Data Mining significa quindi seguire un processo

metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’applicazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica

Da un punto di vista operativo, il Data Mining è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi, all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati



Data Warehouse e fonti informative aziendali

L’implementazione corretta di metodologie di Data Mining non è sufficiente per garantire il raggiungimento di risultati attendibili e duraturi nel tempo vale la regola del “garbage in - garbage out”: per quanto un modello sia corretto e affinato non potrà mai sopperire alla scarsa correttezza/distorsione delle informazioni fornite in input al modello

A monte dei modelli ci deve essere perciò un’ambiente dati robusto e affidabile per evitare che informazioni errate in ingresso conducano e risultati altrettanto errati

Tale ambiente è identificabile nel Data Warehouse (DWH), ossia in un unico, completo e consistente “contenitore” di dati ottenuti da fonti eterogenee, costruito per gli utenti finali in modo che essi possano realizzare analisi finalizzate al raggiungimento degli obiettivi di business preposti

Data Warehouse e fonti informative aziendali

Il Data Warehausing si configura quindi come quel processo volto alla raccolta e alla gestione di dati da diverse fonti informative aziendali con il fine di rispondere alle diverse domande di businessIl risultato di tale processo è un ambiente dati (Bill Inmon, 1996):

1. Integrato: le diverse fonti confluiscono in un unico “contenitore” omogeneo al suo interno

2. Orientato ai soggetti: il DWH incentrato sui principali temi d’interesse aziendale (clienti, prodotti, canali, etc.) e non sulle singole applicazioni/processi (vendite, prestiti, traffico in uscita, etc.)

3. Non volatile: i dati contenuti nel DWH sono soggetti ad aggiornamenti periodici (generalmente mensili), che ne determinano la crescita continua, ma di fatto sono dati “statici” e non modificabili dagli utenti finali (accesso solo in lettura)

4. Variabile nel tempo: i dati archiviati nel DWH rappresentano una “fotografia” periodica della situazione dell’aziendale e coprono un orizzonte temporale di diversi anni (storicità estesa)

Data Warehouse: Architettura

Ambienti e Motore del

Data Warehouse

Processi ETL(Estrazione,Trasformazione eCaricamento)

Query & Reporting

Metadati (informazioni sui dati: tipo, origine, utilizzo, etc.)

Sistemi ERP

(Enterprise Resource Planning)

Dati Esterni

Database Operazionali

Data Mining

Fonti informative

aziendali

Data Warehouse:i Data Mart

Nelle aziende più grandi e articolate, l’ambiente centrale del DWH può essere suddiviso in più Data Mart, ossia in sotto ambienti alimentati dal DWH e dedicati ad una singola funzione aziendale:

I DM, essendo pensati per una particolare dimensione aziendale, sono ambienti più piccoli (costituiscono una aggregazione e/o selezione dei dati del DWH) e focalizzati sulle esigenze specifiche degli utenti di quella funzione

Data Mart 1Marketing

Data Mart 3…

Data Mart 2Finanza

Data Warehouse

Data Warehouse vs. Database Operazionali

I Database Operazionali (o Transazionali) sono ambienti.. Orientati ai singoli processi aziendali Utilizzati per l’operatività quotidiana dell’azienda

(transazioni, produzione, contatti, …) Contengono in maniera dettagliata i dati attuali

dell’azienda (aggiornamento real-time) I dati sono normalizzati (non presentano ridondanze) ma la

sintesi delle informazioni non è immediata in quanto richiede ulteriori passaggi

Il Data Warehouse è un ambiente.. Orientato ai centri d’interesse dell’azienda Utilizzato per analizzare il business (OLAP, Reporting, Data

Mining) a supporto dei processi decisionali Contiene in maniera aggregata i dati storici dell’azienda

secondo fotografie I dati sono denormalizzati (presentano ridondanze) ma la

sintesi delle informazioni è immediata

Data Warehousein sintesi..

Business Intelligenc

e

Data Mining

Data Warehous

e

Ambiente dati a supporto

delle decisionimanageriali

IntegratoSubject-oriented

Non Volatile

Tante fonti eterogenee

racchiuse in un unico contenitore

Estrazione, esplorazione ed analisi dei

dati finalizzata al business

Creazionevantaggio

competitivo

Pianificazionestrategie di medio-lungo

periodoOttimizzazione dei processi

Knowledge Discovery in

Database

Data MiningObiettivi e Tecniche

Market basket analysisGRANDE DISTRIBUZIONEWEBMINING

Click stream analysisWEBMINING

Descrizione e sintesi

Profiling e Segmentazione

Fidelizzazione e abbandono (Retention e Churn)

Propensione e Scoring

Risk management

Data MiningEsempio 1: Market Basket Analysis e GDO

La MBA indaga quanto l’acquisto di un prodotto influenzi l’acquisto di un altro (o anche quanto l’acquisto in un reparto porti poi all’acquisto in un altro reparto) e permette di capire:

quali combinazioni di prodotto sono vendutequando sono vendutein quale sequenza

Queste informazioni permettono di capire i prodotti più profittevoli e incoraggiare l’acquisto di prodotti che potrebbero essere altrimenti poco visti o difficili da ricordare per il consumatore.Per le analisi svolte a livello di reparto le implicazioni sono sulla vicinanza o lontananza di reparti che per i consumatori, in base al loro comportamento, sono connessi

Utilizzando i risultati della MBA, i manager della GDO possono: mirare le strategie promozionali trovare la gestione ottimale dei reparti e/o dei prodotti sugli scaffali

(category management)

Data MiningEsempio 1: Market Basket Analysis

Quali combinazioni di prodotto sono vendute

Quando sono vendute

In quale sequenza

La MBA svolta su più livelli (reparto, categoria, prodotto, marca) può comportare diverse implicazioni nelle scelte promozionali: le regole danno informazioni su associazioni tra antecedente e conseguente. In particolare, rilevate con l’analisi tali associazioni, non andranno promozionati sia antecedente/i che conseguente perché una promozione dell’antecedente potrebbe portare ad aumenti di vendita del conseguente

Data MiningEsempio 1: Market Basket Analysis

Quali combinazioni di prodotto

sono vendute Quando sono

vendute In quale

sequenza

La MBA a livello di prodotto fornisce utili insight sulle relazioni di prodotti (anche all’interno di una stessa categoria, ma con diverse marche) per le scelte di composizione dello scaffale. Non solo: prodotti tra loro connessi potranno essere posizionati vicini o, al contrario, separati, in modo tale da invogliare e stimolare il cliente ad acquistare diversi prodotti

Le regole a livello di reparto, possono avere implicazioni importanti a livello di layout del punto vendita. Reparti

connessi andranno posizionati vicini o lontani

Le regole a livello di categoria forniscono evidenza statistica utile da adottare in ottica di Category Management, per razionalizzare e gestire la varietà di un assortimento o di una gamma di prodotti (facilitando la riduzione delle ridondanze ed il potenziamento delle alternative di scelta per il consumatore sulla base al suo comportamento di acquisto)

Le regole a livello di marca offrono informazioni sulle relazioni tra marche utili nelle scelte di composizione dello

scaffale

Data MiningEsempio 2: Customer Churn e settore Energy

• L’anticipazione del fenomeno dell’abbandono da parte dei propri clienti rappresenta per le imprese un elemento importante nel complesso delle azioni volte a stabilire un rapporto privilegiato e duraturo nel tempo con la clientela medesima

• L’implementazione di modelli di Churn porta allo sviluppo di un processo operativo che prevede:

l’assegnazione ad ogni cliente di una probabilità di abbandono su un orizzonte temporale definito

la selezione di una lista di nominativi ad “alto rischio”

la formulazione di proposte di prodotti/ servizi in grado di soddisfare le esigenze fino a quel momento non soddisfatte

l’attivazione di un’azione volta alla retention, che utilizza i canali ritenuti più opportuni per contattare i suddetti nominativi

la verifica a posteriori della riduzione ottenuta nel tasso di “Customer Attrition”


Il Problema• Gli utilizzatori sono alla ricerca di fornitori in grado di dimostrarsi

flessibili nell’offerta ed efficienti nella gestione dei problemi tecnici

• L’insoddisfazione per queste ed altre dimensioni, in un contesto dove le barriere all’uscita si stanno sempre di più assottigliando, spinge l’utente a rivolgersi verso altri fornitori

• A seguito della liberalizzazione del mercato, il livello di Customer Churn del settore a livello europeo si è spinto oltre il 15% e L’Italia è un dei paesi dove il fenomeno è più accentuato

Obiettivi• Fornire una stima dell’abbandono dei clienti attraverso la

previsione della loro propensione a migrare verso i competitor • Implementazione di campagne di retention efficaci in modo da

prevenire il churn prima che esso si manifesti• Creare un modello di Customer Lifetime Value che, basandosi

anche sulla propensione all’abbandono stimata, permetta di introdurre una valida profilazione della clientela per riconoscere i clienti ad alto valore e focalizzare su di essi specifici programmi di loyalty


Soluzioni

• Dopo aver raccolto internamente i dati sui clienti che nel passato hanno cambiato fornitore, è possibile creare un modello di scoring ad hoc che relazioni il fenomeno dell’abbandono alle altre informazioni presenti nel database aziendale (tipo di contratto stipulato, utilizzo, rapporti con l’assistenza tecnica, altre problematicità, etc.)

• I modelli generati attraverso algoritmi complessi (come reti neurali, alberi di classificazione e regressione logistica) permettono di classificare sia i clienti acquisiti sia i nuovi in funzione della loro probabilità di abbandono

• Viene attribuito lo score stimato a tutto il database aziendale in modo da poter monitorare con continuità le campagne di retention in atto e creare benchmark per verificare l’efficacia delle stesse


Risultati Targeting della clientela offerte mirate e ottimizzazione delle campagne

Riduzione del tasso di abbandono

Valorizzazione dei clienti più profittevoli e incremento della marginalità

0% 20% 40% 60% 80% 100%0%

20%

40%

60%

80%

100%

Modello Selezione casuale

Percentile campione

Perc

en

tuale

di ch

urn

ers

• Il peggior 20% di clienti (in termini di probabilità di abbandono stimata dal modello) comprende quasi il 60% degli effettivi churners

• Raggiungendo la minoranza dei clienti con la più alta probabilità di abbandono l’azienda potrà, ottimizzando i costi di contatto, offrire prodotti e servizi che soddisferanno i bisogni che non erano stati soddisfatti fino a quel momento, prevenendo così il futuro abbandono

Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario

La misurazione del rischio di credito ha conosciuto in questi anni una forte evoluzione e, a seguito degli accordi di Basilea 2, una crescita dell’attenzione da parte degli operatori del settore

Gli algoritmi di Data Mining forniscono strumenti per la misurazione del rischio di credito che risultano fondamentali per ottenere in maniera rigorosa una grande molteplicità di informazioni e soluzioni statisticamente robuste, da coniugare con l'esperienza e la valutazione umana nei processi di decisione

In particolare, le tecniche di regressione multipla (lineare o logistica a seconda della tipologia del fenomeno oggetto di studio) sono frequentemente utilizzate dagli analisti del settore per stimare e prevedere le dimensioni principali connesse al rischio di credito quali la PD (probabilità di insolvenza o default), l’EAD (esposizione al momento del default) e LGD (tasso di perdita atteso in caso di insolvenza)

Data MiningEsempio 3: Sviluppo sistemi di Rating per il settore bancario

Attraverso gli algoritmi di Data Mining è possibile costruire, per esempio, modelli di previsione della Probabilità di insolvenza (PD) della clientela e suddividere il proprio parco clienti in classi sulla base di tale probabilità

La suddivisione della clientela in classi di rating fornisce ai manager della banca uno dei principali strumenti per..

1.Scegliere l'assetto ottimale dei processi di affidamento e di controllo del rischio di credito

2.Ottenere indicazioni fondamentali per la determinazione della quota di accantonamento patrimoniale da prevedere, evitando errori di valutazione che si ripercuoterebbero direttamente sul cliente

Classe di Rating

Probabilità di Default Minima

(% )

Probabilità di Default Massima

(% )

1AAA 0,015

2AA 0,016 0,330

3A 0,331 0,680

4BBB 0,681 1,850

5BB 1,851 3,560

6B 3,561 6,890

7CCC 6,891 11,220

8CC 11,221 19,860

9C 19,861