Upload
annemie-maas
View
215
Download
1
Embed Size (px)
Citation preview
1
Knowledge Discovery from Data (KDD)
Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data.
kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ...
en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...
2
Data MartsCRM
Legacy
ERP
SourceSystems
ExtractTransformLoad(ETL)
DataWarehouse
Architecture
External
Other Data
Metadata
Client/ Notification
Portal
Scorecards
Query and (Multidimensional)
Analysis(OLAP, Mining)
Reporting
Dashboards
Performance management
3
Verification driven analysis(Analyst proposes possible patterns, Verification by
the analyst)
Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques
Discovery driven data mining(Automated search for patterns,
Verification partly automatic)
Classification Segmentation Associations Sequence analysis
4
Data mining versus KDD
Knowledge Discovery From Data (KDD): “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996)
Data Mining: stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes
Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP)
5
Het KDD traject
Understandingwhat data is
needed for the application
Data Cleaning
Interpretation and
Evaluation
Data Transformation
(Binning, alpha to numeric, etc)
Data Mining
DataSelection
Source Data
KnowledgeApplication
Preprocessed Data
TransformedData
Patterns
Data MiningMart
Dumps of operational dataDumps of operational data
t
6
Data preprocessing Het nemen van een steekproef
Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference)
Types van data Continu (inkomen) categorisch
Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht
Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het
gemiddelde Extreme waarden (outliers)
Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = 10000 Euro per maand (correcte observatie)
Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen
betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant
niet aangekocht gedurende vorige 3 maand)
7
Data miningEen systeem waarmee het mogelijk is om
op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools).
Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse, ...).
Data mining is ontdekking-gebaseerd.
8
Data mining taken
Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie
Descriptieve data mining Associatie analyse Sequentie analyse Clustering ...
9
Predictieve data mining: classificatie
Voorspellen van een discrete doelvariabele op basis van andere variabelen
Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-
detectie, churn voorspelling, … Technieken:
Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken
10
Classificatie: beslissingsbomen
inkomen > 50.000 € nee ja
job > 3 jaar hoge schuldja nee ja nee
weinig hoog hoog weinigrisico risico risico
risico
11
Training set versus Test set
Age Car Type Risk20 Combi High18 Sports High40 Sports High50 Family Low35 Minivan Low30 Combi High32 Family Low40 Combi Low
trainingdata
Classification algorithm
Classifier(model)
if age < 31or Car Type =Sportsthen Risk = High
12
Training set versus Test set
Age Car Type Risk27 Sports High34 Family Low66 Family High44 Sports High
testdata
Classifier(model)
RiskHighLowLowHigh
13
Prediction
Age Car Type Risk27 Sports 34 Minivan 55 Family 34 Sports
newdata
Classifier(model)
RiskHighLowLowHigh
14
Scorecard voor credit scoring
So, a new customer applies for credit ……
AGE 32 120 pointsGENDER Female 180 pointsSALARY £1,150 160 points
Total 460 points
Let cut-off = 500
REFUSE CREDIT
Characteristic
NameAttribute
ScorecardPoints
AGE 1 Up to 26 100
AGE 2 26 - 35 120
AGE 3 35 - 37 185
AGE 4 37+ 225
GENDER 1 Male 90
GENDER 2 Female 180
SALARY 1 Up to 500 120
SALARY 2 501-1000 140
SALARY 3 1001-1500 160
SALARY 4 1501-2000 200
SALARY 5 2001+ 240
15
Predictieve data mining: regressie
Doelvariabele is continu Voorbeelden:
Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers
Technieken: Lineaire regressie Neurale netwerken
16
Descriptieve data mining: associatie-analyse
Detecteren van frequent voorkomende patronen tussen items
Voorbeeld: If a customer buys spaghetti, then the customer also
buys red wine in 70% of the cases. Toepassingen
Market basket analysis Web usage mining Recommender systems …
Transaction ID Items
00010002000300040005…00520053
Bread, Milk, AppleBread, Milk, Eggs, PenCold Drink, Chocolate, MilkBread, OrangeFish, Vegetables…Paper, PencilMeat, Oil, Milk
17
Associatie-regels: voorbeeld
E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has
confidence=3/4
Transaction Items
01020304
Wine Bread MilkWine Beer Butter MilkBread Beer Butter MilkWine Bread Butter Milk
0506
Bread Eggs Butter MilkWine Bread Beer
07 Wine Bread Butter
+
18
Market basket analyse
Detecteren welke producten vaak samen aangekocht worden
implicaties voor store layout shelve organisation target marketing product bundling
19
Diapers and Beer example
Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights.
After moving the beers next to the diapers, the beer sales increased by 15% on Fridays.
Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers?
20
Descriptieve data mining: sequentie analyse
Detecteren van temporele patronen Voorbeeld
Klant koopt eerst product X, daarna, product Y, daarna product Z
60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days.
21
Web usage mining
Web usage mining Minen van web logs voor het ontdekken van navigatie-
patronen van een web site Implicaties voor
Verbeteren van web site ontwerp Identificeren van prime advertisement locaties
Voorbeelden: 40% of clients who accessed the Web page with URL
/company/products/product1.html, also accessed /company/products/product2.html
30% of clients who accessed /company/announcements/special-offer.html, placed an online order in /company/products/product1
22
Descriptieve data mining: clustering
Identificeren van homogene groepen van subjecten
Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit
Voorbeeld: marktsegmentatie
23
Post processing
Visualiseren van de patronen (bv. met behulp van OLAP)
Interpreteren van de patronen Valideren van de patronen:
constrasteren van de patronen met domeinkennis
Integreren van de patronen in nieuwe systemen
24
Waarschuwing data mining
Een bepaald verband wijst niet noodzakelijk op causaliteit
(opletten voor transitiviteit!)
25
Data Mining bloopers
Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi).
Explanation: Correlation does not imply causality !
A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi).
Explanation: The field was mandatory in the entry systems and hitting 111111 was the easiest way to get to the next field !
26
Nieuwe data mining toepassingen: bestrijden van terrorisme
“Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004)
Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized
database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, e-mails websites and housing”
“A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004)
Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE)
27
Problemen en uitdagingen
Civil liberties? Privacy?“They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759)
Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs?
MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named.
How to create a testbed data set?
28
Algemeen voorbeeld organisatie van beslissingsprocesSwitch operationeel informatiesysteem voor het beheren
van de logistiek van een luchthaven.
Operationele
DB
DW
DB
gate allocation
air traffic control
billing
airport security
fuel
flight data
bagage handling
catering
Interne informatie
Evoluties aantal vluchten (land, bestemming, periode, ...)
Evoluties aantal passagiers (land, bestemming, maatschappij, transit, ...)
Evolutie bagagevolumes
Evolutie vertragingen
Externe informatie
Analoge gegevens van andere luchthavens
1
29
2
DW
DB
DM
DB
OLAP
Data mining
kennis
ter ondersteuning van beslissingen
maatschappij-profiel
OLAP
Data mining
kennis
Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S.
Verona – Brussel met snelle transitBrussel -> V.S.