65
Copyright © 2009 Oracle Corporation オラクル Data Mining TechnologiesProduct ManagementSr. Director Charlie Berger [email protected] Oracle Data Mining 11g Release 2 概要とデモ データウェアハウス ETL OLAP データマイニング Oracle 11g DB 統計

Oracle Data Mining 11g Release 2概要とデモ...•データを自動的に絞り込み、隠れたパターンを 見つけ、新しいインサイトを発見し、 予測を行います。•Data

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

<ここに画像を挿入>

Copyright © 2009 Oracle Corporation

オラクルData Mining Technologies、 Product Management、Sr. Director

Charlie [email protected]

Oracle Data Mining 11g Release 2概要とデモ

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

Copyright © 2009 Oracle Corporation

以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないでください。オラクルの製品に関して記載されている機能の開発、リリース、および時期については、弊社の裁量により決定されます。

Copyright © 2009 Oracle Corporation

概要

• 今日のBIには、単純なレポート作成以上のものが求められています。

• この期待に応えるため、企業は以下を必要としています。

• データの移動を解消

• 情報待機時間を短縮

• 分析を通じて、より優れたBIを提供

• ODMは、データベースから“分析データベース”へと変化を遂げ

• "Powered by Oracle Data Mining"アプリケーションを実現

• 簡単なデモ

1. Oracle Data Mining

2. ODM結果のOracle BI EEダッシュボードへの表示

3. ODMを組み込んだ、Oracle Sales Prospector

Copyright © 2009 Oracle Corporation

分析:戦略的かつミッション・クリティカルに

• Competing on Analytics、Tom Davenport著

• 「一部の企業は、データを収集/分析し、その結果に基づいて行動する能力なしには、事業を運営できない」

• 「データ分析を導入している組織は数多くあるが、ここまでの技量水準に達しているのは一握りの組織のみである。しかし、分析を競う企業は、消費財、金融、小売、旅行、エンターテイメントなど、さまざまな分野でリーダーとなっている。」

• 「組織は、問合せとレポーティングの枠を越えつつある」 - IDC(2006年)

• Super Crunchers、Ian Ayers著

• 「以前は、直感と経験だけで何とかやっていけたが時代は変わった。現在、一番肝心なのはデータである。」—Steven D. Levitt、Freakonomics著者

• 「データマイニングと統計分析は、突然クールになった。マーケティングや政治、そしてスポーツさえ分析の対象に。この複雑で重要なことが、こんなに面白い読み物になるとは。」—Wired

Copyright © 2009 Oracle Corporation

競争上の優位性最適化

予測モデリング

予測/推定

統計分析

アラート

問合せ/ドリルダウン

非定型レポート

標準レポート

インテリジェンス・レベル

競争上の優位性

起こりうる最善の事象は何か?

次に起こるのは何か?

この傾向が続く場合はどうするか?

なぜ発生したのか?

必要なアクションは何か?

問題は厳密にはどこにあるのか?

発生した回数、頻度、場所は?

何が起こったのか?

出典:Competing on Analytics、T. DavenportおよびJ. Harris著

$$分析$

アクセスと

レポーティング

Copyright © 2009 Oracle Corporation

Oracle Data Miningのオプション

Copyright © 2009 Oracle Corporation

Data Miningとは何か

•データを自動的に絞り込み、隠れたパターンを見つけ、新しいインサイトを発見し、予測を行います。

• Data Miningの機能• 顧客行動の予測(分類)

• 値の予測または推定(回帰)• 母集団の区分け(クラスタ化)• ビジネス上の課題に強い関連性を持った要因の特定(属性重要度)• ターゲットとなる人物または項目のプロファイリング(デシジョン・ツリー)

• 母集団内の重要な関係と“マーケットバスケット”の特定(関連付け)• 不正や"まれなケース"の発見(異常検出)

Copyright © 2009 Oracle Corporation

Oracle Data Miningのユースケース例• 小売

·顧客のセグメント化·反応モデリング·次に有望な製品の推奨·高価値顧客のプロファイリング

• 銀行· クレジット・スコアリング·債務不履行確率·顧客収益性·顧客ターゲティング

• 保険· リスク要因の特定·不正請求·保険契約のバンドル·従業員の維持

• 高等教育·卒業生による寄付·学生の獲得·学生の維持

· リスクのある学生の特定

• 医療·治療の推奨·治療結果の予測·不正検出·診断書の分析

• ライフ・サイエンス·創薬と薬物相互作用· (不)健康な患者の共通因子·がん細胞の分類·医薬品安全性調査

• 通信·顧客離れ· クロスセリングの機会の特定·ネットワーク侵入検知

• 公的機関·課税における不正と異常·犯罪分析·軍事偵察でのパターン認識

• 製造·欠陥の根本原因分析·保証分析·信頼性分析·生産高分析

• 自動車·顧客セグメント向けの特性バンドル·サプライヤの品質分析·問題診断

• 化学·新化合物の開発·分子クラスタリング·生成物収率分析

• 公益事業·送電線・電力設備の障害予測·製品バンドル·消費者による不正の検出

Copyright © 2009 Oracle Corporation

Data Miningが提供する優れた情報、価値あるインサイト、予測

契約期間(月)

携帯電話を頻繁に乗り換える顧客 対安定した顧客

セグメントNo.1:

IF CUST_MO > 14 AND INCOME < $90K, THEN Prediction = Cell Phone Churner, Confidence = 100%, Support = 8/39

セグメントNo.3:

IF CUST_MO > 7 AND INCOME < $175K, THEN Prediction = Cell Phone Churner, Confidence = 83%, Support = 6/39

参考文献:Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management、Michael J. A. Berry、Gordon S. Linoff著

インサイトと予測

Copyright © 2009 Oracle Corporation

デシジョン・ツリー・モデルを使用した生涯価値(LTV)の高い顧客の予測

>$500K <$500K

1軒 2軒以上 <=35>35

<42 < 2> 42 <80K

Age

LTV = HIGH LTV = Very_High LTV= Low LTV = Low

>80K

LTV = Medium

> 2

LTV = High

Mortgage_Amount

House_Own

Age Years_Cust Salary

単純モデル:ODMには、以下のマイニングを行うモデルがあります。

•非構造化データ(テキスト・コメントなど)

•トランザクション・データ(購入など)

IF (Mortgage_Amount > $500K AND House_Own = 2 or more AND Age = >42) THEN Probability(Lifetime Customer Value is “VERY HIGH” = 77%, Support = 15%

Copyright © 2009 Oracle Corporation

「原則的にすべてのモデルは間違っているが、そのいくつかは役に立つものもある」

- George Box 20世紀にもっとも影響力のあった統計学者の1人

品質管理、時系列分析、実験計画法、およびBayes推論の先駆者

Copyright © 2009 Oracle Corporation

Oracle Data Mining概要(分類)

ケース

名前 収入 年齢反応?1 =はい、0 =いいえ

Jones

Smith

LeeRogers

30,000

55,000

25,000

50,000

30

6723

44

1

1

00

関数関係:

Y = F(X1, X2, …, Xm)

モデル

履歴データ

Campos

Horn

Habers

Berger

40,500

37,000

57,200

95,600

52

73

32

34

新規データ.85

.74

.93

.65

予測 信頼度

1

0

0

1

?

?

?

?

入力属性 ターゲット

Copyright © 2009 Oracle Corporation

Oracle Data Mining11gアルゴリズムの概要

分類

相関ルール

クラスタ化

属性重要度

問題 アルゴリズム 適応性伝統的な統計テクニック

一般的/ルール/透明性

組込みアプリケーション

幅広い限定されたデータ/テキスト

最小記述長(MDL)属性の削減有用なデータの特定データ・ノイズの削減

階層的K平均法

階層的Oクラスタ

製品のグループ化テキスト・マイニング

遺伝子およびたんぱく質分析

アプリオリマーケットバスケット分析リンク分析

多重回帰(GLM)サポート・ベクター・マシン

伝統的な統計テクニック

幅広い/狭いデータまたはテキスト

回帰

特徴抽出 Non-Negative Matrix

Factorization(NMF)

テキスト分析特徴削減

ロジスティック回帰(GLM)デシジョン・ツリーNaive Bayes

サポート・ベクター・マシン(SVM)

1クラスSVM例なし

異常検出

A1 A2 A3 A4 A5 A6 A7

F1 F2 F3 F4

Copyright © 2009 Oracle Corporation

従来型の分析(SAS)環境

ソース・データ(Oracle、DB2、SQL Server、TeraData、

Ext. Tablesなど)

SAS

作業領域(SAS

データセット)

SAS処理(統計機能/

データマイニング)

処理の出力(SAS作業領域)

ターゲット(Oracleなど)

• SAS環境には以下が必要です。• データ移動

• データ複製

• セキュリティの低下

XXX

Copyright © 2009 Oracle Corporation

Oracleアーキテクチャ

ソース・データ(Oracle、DB2、SQL Server、TeraData、

Ext. Tablesなど)

• Oracle環境• データ移動の排除

• データ重複の排除

• セキュリティの維持

Copyright © 2009 Oracle Corporation

従来型の分析方法

数時間、数日、数週間

インデータベース・データマイニング

データ抽出

データの準備と変換

データマイニング・モデルの構築

データマイニング・モデルの

"スコアリング"

データの準備と変換

データのインポート

ソース

・デー

SAS作

業領域

SAS処

処理の

出力

ターゲ

ット

数秒、数分、または数時間

モデルの"スコアリング"

組込みデータの準備

データ準備

モデルの構築

Oracle Data Mining

結果• 短時間での“データ”から

“インサイト”の獲得• TCOの削減

•データ移動の排除•データ複製の排除

• セキュリティの維持

データはデータベース内のまま

SQL-データの準備と変換においてもっとも強力な言語

組込みデータを準備

データベースのSQLカーネル内における最新の機械学習アルゴリズム

モデルの"スコアリング"データはデータベース内のまま

節約

Copyright © 2009 Oracle Corporation

インデータベース・データマイニング利点

• ODMアーキテクチャにより向上• パフォーマンス、スケーラビリティ、データ・セキュリティ

• データはデータベース内にとどまる• 移動部分が尐なくなり、情報の待機時間が短縮

• 興味があり恣意的で複雑な問合せに簡単に追加可能• “SELECT Customers WHERE Income > 100K,

AND Probability(Buy Product A) > .85;”

• 現実的なスケーラビリティミッション・クリティカル・アプリケーションに適用可能

• 高コストなマテリアライズなしで、結果のパイプラインを実現

• 優れたパフォーマンスとスケーラビリティ• 高速スコアリング:単一CPUシステム上の250万レコードのスコアリングを6秒で実行

• リアルタイム・スコアリング:単一CPUシステム上の100モデルのスコアリングを0.085秒で実行

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

Copyright © 2009 Oracle Corporation

「1時間で世界を救えと言われたら、問題の定義に55分かけ、残り5分で解決策を考えよう」

- Albert Einstein http://www.wikihow.com/Define-a-Problem参照

Copyright © 2009 Oracle Corporation

どこから始めますか?

「不正解:今あるものすべてをカタログ化し、どのデータが重要であるかを決定する」

「正解:解決策からさかのぼって作業し、問題を明白に定義してから、調査結果とモデルの作成に必要なデータを正確に記述する」

- Smart (Enough) Systemsより抜粋

James Taylor、Neil Raden著

Copyright © 2009 Oracle Corporation

Oracle Data Miningと非構造化データ

• Oracle Data Miningは、非構造化データ(テキストなど)のマイニングを行います。

• ODMモデルにはフリー・テキストやコメントが含まれます。

• ドキュメントをクラスタ化および分類します。

• 非構造化テキストの前処理には、Oracle Textが使用されます。

Copyright © 2009 Oracle Corporation

例:シンプルな予測SQL

• 高価値顧客になる可能性が85%以上の顧客を選び、その年齢と住宅ローン残高を表示します。

SELECT * from(

SELECT A.CUSTOMER_ID, A.AGE,

MORTGAGE_AMOUNT,PREDICTION_PROBABILITY

(INSUR_CUST_LT27754_DT, 'VERY HIGH'

USING A.*) prob

FROM CBERGER.INSUR_CUST_LTV A)

WHERE prob > 0.85;

Copyright © 2009 Oracle Corporation

不正予測デモdrop table CLAIMS_SET;

exec dbms_data_mining.drop_model('CLAIMSMODEL');

create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000));

insert into CLAIMS_SET values

('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');

insert into CLAIMS_SET values ('PREP_AUTO','ON');

commit;

begin

dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION',

'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');

end;

/

Top 5 most suspicious fraud policy holder claims

select * from

(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,

rank() over (order by prob_fraud desc) rnk from

(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud

from CLAIMS

where PASTNUMBEROFCLAIMS in ('2 to 4', 'more than 4')))

where rnk <= 5

order by percent_fraud desc;

POLICYNUMBER PERCENT_FRAUD RNK

------------ ------------- ----------

6532 64.78 1

2749 64.17 2

3440 63.22 3

654 63.1 4

12650 62.36 5

Copyright © 2009 Oracle Corporation

Oracle Data Mining 11g

•データマイニング機能(サーバー)• PL/SQL APIとJava API

• 予測分析アプリケーションの開発および配置

•幅広いデータマイニング・アルゴリズム(12)

• 分類と回帰

• クラスタ化

• 異常検出

• 属性重要度

• 特徴抽出(NMF)

• 相関ルール(マーケットバスケット分析)

• 構造化データと非構造化データ(テキスト・マイニング)

• Oracle Data Miner(GUI)

• ウィザードを使用した、ガイド付きの簡単なデータマイニング

•予測解析• スプレッドシートを使用した"ワンクリック・データマイニング"

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

Copyright © 2009 Oracle Corporation

分析データベースが*すべて*を変える

つまり

尐ないデータ移動 = 迅速な分析であり、迅速な分析 = 企業全体のより優れたBIにつながります。

?x

データマイニング

統計関数 テキスト・マイニング

OLAP 予測解析

Copyright © 2009 Oracle Corporation

Oracle BI EE管理者は、Oracle Data Miningの結果を利用できます。

Oracle BI EEで、エンド

ユーザーへ表示する結果を定義します。

Oracle BI EEとの統合

Copyright © 2009 Oracle Corporation

例BI EEのレポートとダッシュボードに質の高い情報を提供

Oracle BI EE

やその他のツールを使用して、ODMの予測

および確率をデータベースから使用し、レポートに表示できます。

Oracle BI EEやそ

の他のツールを使用して、データベースでODMの予測お

よび確率をレポートに表示させることができます。

Copyright © 2009 Oracle Corporation

Oracle SQLの統計関数(すべてのOracle Databaseで無償)

Copyright © 2009 Oracle Corporation

11gの統計分析とSQL分析

• ランキング関数• rank、dense_rank、cume_dist、

percent_rank、ntile

• ウィンドウ集計関数(累積集計と移動集計)

• Avg、sum、min、max、count、variance、stddev、first_value、last_value

• LAG/LEAD関数• オフセットを使用した、直接的な行間参照

• レポート集計関数• Sum、avg、min、max、variance、stddev、

count、ratio_to_report

• 統計集計• Correlation、linear regression family、

covariance

• 線形回帰• 一連の番号ペアに対する、最小2乗(OLS)回帰直線のフィッティング

• COVAR_POP、COVAR_SAMP、COR関数と組み合わせて使用されることが多い

記述統計• DBMS_STAT_FUNCS:表に含まれる数値列を要約し、カウント、平均値、stats_mode、分散、標準偏差、中央値、変位値、+/- nシグマ値、上位または下位の5つの値を返す

• 相関関係• ピアソンの標本相関係数、スピアマンとケンドールの順位相関係数(いずれもノンパラメトリック)

• クロス集計• %統計による改善: カイ二乗、ファイ係数、

Cramer's V、一致係数、カッパ係数

• 仮説検定• スチューデントt検定、F検定、二項検定、ウィルコクソンの符号順位検定、カイ二乗、マン・ホイットニー検定、コルモゴロフ・スミルノフ検定、一方向ANOVA

• 分布フィッティング• コルモゴロフ・スミルノフ検定、アンダーソン・ダーリング検定、カイ二乗検定、正規分布、一様分布、ワイブル分布、指数分布

注:統計およびSQL分析は、Oracle Database Standard Editionに含まれます。

統計

Copyright © 2009 Oracle Corporation

記述統計

• 中央値と最頻値• 中央値:数字またはデータ型の値を取得し、中央の値を返します。

• 最頻値:もっとも度数の多い値を返します。

A. SELECT STATS_MODE(AGE) from LYMPHOMA;

B. SELECT MEDIAN(AGE) from LYMPHOMA;

C. SELECT TREATMENT_PLAN, STATS_MODE(LYMPH_TYPE)

from lymphoma GROUP BY TREATMENT_PLAN;

D. SELECT LYMPH_TYPE, MEDIAN(SIZE_REDUCTION) from

LYMPHOMA GROUP BY LYMPH_TYPE ORDER BY

MEDIAN(SIZE_REDUCTION) ASC;

> SQL

Copyright © 2009 Oracle Corporation

ロットAとBに対するオファー分割テスト

•ある母集団に“A”をオファーし、別の母集団に“B”をオファーします。

•期間“t”が経過したら、オファーAとBを受け取った顧客の購入額に対して中央値を計算します。

• t検定を実施し、結果を比較します。

•もし、一方のオファー結果が統計的に有意に優れている場合、パフォーマンスの高いオファーを全員に提示します。

Copyright © 2009 Oracle Corporation

t検定の独立サンプル(合併分散)

•顧客収入レベル(CUST_INCOME_LEVEL)の範囲内にある男性と女性への販売額(AMOUNT_SOLD)の平均値を比較する問合せ

SELECT substr(cust_income_level,1,22) income_level,

avg(decode(cust_gender,'M',amount_sold,null)) sold_to_men,

avg(decode(cust_gender,'F',amount_sold,null)) sold_to_women,

stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F')

t_observed,

stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value

FROM sh.customers c, sh.sales s

WHERE c.cust_id=s.cust_id

GROUP BY rollup(cust_income_level)

ORDER BY 1;

SQL Worksheet

Copyright © 2009 Oracle Corporation

相関関数

• CORR_S関数とCORR_K関数は、ノンパラメトリック相関または順位相関をサポートします(順序尺度を持つ式に相関関係を見つける)。

• 相関係数は、-1から1までの値をとり、• 1は、完全相関を意味します。

• -1は、負の完全相関を意味します。

• 0は、無関係を意味します。

• 次の問合せは、スピアマンの相関を使用して、年齢と体重に相関関係があるかどうかを特定します。

?x

select CORR_S(AGE, WEIGHT)

coefficient,

CORR_S(AGE, WEIGHT,

'TWO_SIDED_SIG')

p_value,

substr(TREATMENT_PLAN, 1,15)

as TREATMENT_PLAN

from CBERGER.LYMPHOMA

GROUP BY TREATMENT_PLAN;

Copyright © 2009 Oracle Corporation

の分析 対1. データベース内にある分析エンジン

基本的な統計機能(無償)

データマイニング

テキスト・マイニング

2. コスト(ODM: $23,000ドル/cpu)

単純な環境

シングル・サーバー

セキュリティ

3. ITプラットフォーム

SQL(標準)

Java(標準)

1. 外部の分析エンジン

基本的な統計機能

データマイニング

テキスト・マイニング(別売:SAS EM for Text)

高度な統計機能

2. コスト(SAS EM:15万ドル/5ユーザー)

データの複製

年間更新料(AUF)(毎年~45%)

3. ITプラットフォーム

SASコード(独自仕様)

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

Copyright © 2009 Oracle Corporation

の分析 対

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

1. データベース内にある分析エンジン

基本的な統計機能(無償)

データマイニング

テキスト・マイニング

2. コスト(ODM: $23,000ドル/cpu)

単純な環境

シングル・サーバー

セキュリティ

3. ITプラットフォーム

SQL(標準)

Java(標準)

1. 外部の分析エンジン

基本的な統計機能

データマイニング

テキスト・マイニング(別売:SAS EM for Text)

高度な統計機能

2. コスト(SAS EM:15万ドル/5ユーザー)

データの複製

年間更新料(AUF)(毎年~45%)

3. ITプラットフォーム

SASコード(独自仕様)

データウェアハウス

ETL

OLAP

データマイニング

Oracle 11g DB

統計

Copyright © 2009 Oracle Corporation

SASのインデータベース処理3カ年計画

•SASのインデータベース・イニシアチブの目標は・・・データベース・プロバイダとの間で技術的統合を強化することにある・・・

•・・・SASエンジンがDBMSに対してデータのロードや抽出を行う際、多くの場合、ネットワークを経由しなければならない。 これには、いくつもの課題が挙げられる。

• ・・・SASとDBMS間にあるネットワーク・ボトルネックにより、大量データへのアクセスが制限されている。

•・・・最終的な保存のためには、SASの処理結果をDBMS

に送り返す必要があり、さらにコストが上昇する。

参考文献:SAS In-Database Processing、ホワイト・ペーパー、2007年10月

Copyright © 2009 Oracle Corporation

簡単なデモ

1. Oracle Data Mining

2. Oracle Business Intelligence EE

3. CRM Sales Prospector

Copyright © 2009 Oracle Corporation

Oracle Data Mining + Oracle BI EE

Copyright © 2009 Oracle Corporation

クイック・デモ:Oracle Data Mining• シナリオ:保険会社

• 業務上の課題1. データをグラフ形式で確認し、ビジネスに対する理解を深める。

2. 保険契約を結ぶ(BUY_INSURANCE)顧客にもっとも関連の深い要因(属性)を特定する。

3. ベスト顧客のターゲティング

a. 非常に価値の高い顧客(VERY_HIGH VALUE)となるのはどのような人物であり、その要因は何か(IF..THEN..ルールによる表現)を理解するための予測モデルを構築する。

b. 将来的に、VERY_HIGH VALUE顧客となりそうな人々を予測する。

c. Oracle BI EEダッシュボードを使用して、結果を確認する。

• その他の業務課題(不正、クロスセリングなど)も含まれる。

• (すべてのプロセスはPL/SQLやJava APIを使用して自動化できます。)

Copyright © 2009 Oracle Corporation

Oracle Data Mining + Oracle BI EEデータの把握

Oracle Data Miningを使用すると、簡単にデータを視覚化できます。

Copyright © 2009 Oracle Corporation

Oracle Data Mining + Oracle BI EE適切な顧客ターゲティング

Oracle Data Miningのガイドに

従うと、簡単にデータマイニング・プロセスを実行できます。

Copyright © 2009 Oracle Corporation

Oracle Data Mining + Oracle BI EE高価値顧客のターゲティング

Oracle Data Miningでは、高価値顧客(HI_VALUE_CUSTOMERS)を差別化するモデルを構築できます。

Copyright © 2009 Oracle Corporation

Oracle Data Mining + Oracle BI EE高価値顧客のターゲティング

Oracle Data Miningでは、

高価値顧客となりそうな人物を優先順位付けしたリストを作成できます。

Copyright © 2009 Oracle Corporation

Oracle BI EEとの統合

Oracle Data Miningは、より多くの情報を提供し、優れたインサイトを与えます。

Copyright © 2009 Oracle Corporation

Oracle Data Mining尐ないコストで、より多くの情報と実行を

•ビジネス上の意志決定者

•優れた意思決定

•より高い価値をデータから抽出

•総所有コストを削減

•データ・アナリスト

•より迅速に結果を取得

•より多くの結果を取得

•簡単な使用方法

•インテグレーターとIT部門

•より高い価値を組織に

•作業は簡単に

• ITをコスト・センターから

プロフィット・センターへ転換

Copyright © 2009 Oracle Corporation

Oracle Data Miningの(SQLおよびJava)API

Copyright © 2009 Oracle Corporation

HCM予測デモdrop table HCM_SET;

exec dbms_data_mining.drop_model('HCMMODEL');

create table HCM_SET (setting_name varchar2(30), setting_value varchar2(4000));

insert into HCM_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');

insert into HCM_SET values ('PREP_AUTO','ON');

commit;

begin

dbms_data_mining.create_model('HCMMODEL', 'CLASSIFICATION',

'EMPL_DATA', 'EMPL_ID', 'CURR_EMPL', 'HCM_SET');

end;

/

-- accuracy (per-class and overall)

col actual format a6

select actual, round(corr*100/total,2) percent, corr, total-corr incorr, total from

(select actual, sum(decode(actual,predicted,1,0)) corr, count(*) total from

(select CURR_EMPL actual, prediction(HCMMODEL using *) predicted

from EMPL_DATA_JUNE07)

group by rollup(actual));

-- top 5 very high value, current employees most likely to leave

select * from

(select empl_id, round(prob_leave*100,2) percent_leave,

rank() over (order by prob_leave desc) rnk from

(select empl_id, prediction_probability(HCMMODEL, 'NO' using *) prob_leave

from EMPL_DATA_JUNE07

where CURR_EMPL = 'YES' and LTV_BIN = 'VERY HIGH'))

where rnk <= 5

order by percent_leave desc;

ACTUAL PERCENT CORR INCORR TOTAL

------------ ---------- ---------- ---------- ----------

NO 84.04 3133 595 3728

YES 80.61 8159 1963 10122

81.53 11292 2558 13850

Elapsed: 00:00:01.51

SQL>

EMPL_ID PERCENT_LEAVE RNK

---------- ------------- ----------

772858 96.84 1

775441 95.65 2

777992 92.1 3

773473 91.51 4

771813 90.21 5

Elapsed: 00:00:00.29

SQL>

Copyright © 2009 Oracle Corporation

予測分析のユースケース• 登場人物

• ピーター:Data Mining Analyst

• サリー:Marketing Manager

• ピーターは、デシジョン・ツリー分類モデルとしてtree_modelを構築

• ピーターは、このツリー・モデルの参照およびスコアリング権限をサリーに付与

GRANT SELECT MODEL ON tree_model TO Sally;

• サリーは、このモデルに満足し、モデルの導入に同意

• サリーは、新しいモデルとピーターの算出した顧客への接触コストを利用して、顧客データベースのスコアリングを行い、営業部長に新しいコンタクト・リストを送付

CREATE TABLE AS SELECT cust_name, cust_phone FROM customersWHERE prediction(Peter.tree_model cost matrix (0,5,1,0) using *) = „responder‟;

Copyright © 2009 Oracle Corporation

リアルタイム予測with

records as (select78000 SALARY,250000 MORTGAGE_AMOUNT,6 TIME_AS_CUSTOMER,12 MONTHLY_CHECKS_WRITTEN,55 AGE,423 BANK_FUNDS,'Married' MARITAL_STATUS,'Nurse' PROFESSION,'M' SEX,4000 CREDIT_CARD_LIMITS,2 N_OF_DEPENDENTS,1 HOUSE_OWNERSHIP from dual)

select s.prediction prediction, s.probability probabilityfrom (

select PREDICTION_SET(INSUR_CUST_LT68054_DT, 1 USING *) psetfrom records) t, TABLE(t.pset) s;

新規データを伴うシングル・レコードへの即時適用(コールセンターからの入力データなど)

Copyright © 2009 Oracle Corporation

複数モデルの予測と最適化 with records as (select

178255 ANNUAL_INCOME,30 AGE, 'Bach.' EDUCATION, 'Married' MARITAL_STATUS, 'Male' SEX, 70 HOURS_PER_WEEK, 98 PAYROLL_DEDUCTION from dual)

select t.* from (

select 'CAR_MODEL' MODEL, s1.prediction prediction, s1.probability probability, s1.probability*25000 as expected_revenue from (

select PREDICTION_SET(NBMODEL_JDM, 1 USING *) pset from records ) t1, TABLE(t1.pset) s1

UNIONselect 'MOTOCYCLE_MODEL' MODEL, s2.prediction prediction, s2.probability probability, s1.probability*2000

as expected_revenue from (select PREDICTION_SET(ABNMODEL_JDM, 1 USING *) pset from records ) t2, TABLE(t2.pset) s2

UNIONselect 'TRICYCLE_MODEL' MODEL, s3.prediction prediction, s3.probability probability, s1.probability*50 as

expected_revenue from (select PREDICTION_SET(TREEMODEL_JDM, 1 USING *) pset from records ) t3, TABLE(t3.pset) s3

UNIONselect 'BICYCLE_MODEL' MODEL, s4.prediction prediction, s4.probability probability, s1.probability*200 as

expected_revenue from (select PREDICTION_SET(SVMCMODEL_JDM, 1 USING *) pset from records ) t4, TABLE(t4.pset) s4

) t

order by t.expected_revenue desc;

複数モデルを即時適用し、期待収益順にソート

Copyright © 2009 Oracle Corporation

Oracle Sales Prospector

Copyright © 2009 Oracle Corporation

Oracle Data Mining

Oracle Open WorldでのLarry Ellisonによる基調講演2007年11月

• 顧客データベースのデータマイニング機能が統合された、ホスト型オンデマンドCRM Fusion Applicationを発表

Copyright © 2009 Oracle Corporation

売上げを伸ばすには?

製品

顧客

参考資料

• どのような顧客がどの製品を購入しているか?

• 商談成立に役立つ参考資料はどちらか?

• 顧客と類似点の多い見込み顧客はどちらか?

営業担当者

Copyright © 2009 Oracle Corporation

Oracle Data Mining = 販売科学

Oracle Sales Prospector

ODM予測をSocial CRM

ダッシュボードに表示します。

Oracle Database 11g

Social CRMスキーマは、Oracle Database

EE 11g + Data

Miningオプションに同梱されています。

Copyright © 2009 Oracle Corporation

Oracle Data

Miningによる、購入見込みの予測

Oracle Data Miningによる

顧客が購入しそうな製品の推奨

Oracle Data Mining

による適切な参考文献の提案

Copyright © 2009 Oracle Corporation

Oracle Retail Data Model

Copyright © 2009 Oracle Corporation

Oracle Retail Data Model

• Oracle Data Miningは、分析レポート向けのデータマイニングを自動的に行います。

• Oracle Data Miningは、追加設定なしで、顧客プロファイルを生成します。

Copyright © 2009 Oracle Corporation

まとめ

Copyright © 2009 Oracle Corporation

Oracle Data Mining

• 次世代予測アプリケーションを実現• 自動的にデータマイニングを行うアプリケーションを素早く構築

• 一度の構築で、どこでも実行可能

• パラレル処理と分散処理

• 業界標準のSQL APIとJava API

• インデータベース・データマイニングにおいて業界をリード• 業界トップのRDBMS(Oracle Database)のオプション

• 分類、回帰、属性重要度

• クラスタ化、マーケットバスケット分析、異常検出、特徴抽出

• 最先端のアルゴリズム:SVM、1クラスSVM、NMF、拡張可能なGLM

Copyright © 2009 Oracle Corporation

Oracle Data Mining

• より多くのデータを活用して、より多くの情報を• 使いやすいOracle Data Minerグラフィカル・ユーザー・インタフェース

• さまざまなインデータベース・データマイニングのアルゴリズムと統計機能

• テキスト、トランザクション・データ、スター・スキーマ・データのマイニング

• XML、セマンティックRDF、空間データ、OLAPデータのマイニング

• アナリストとIT部門の障壁を崩す• 分析結果およびモデルを組織全体へ迅速に流布

• リアルタイム予測モデルと新たなインサイトをSQL問合せに追加

• データ移動の解消、セキュリティの徹底

Copyright © 2009 Oracle Corporation

Getting Started

Copyright © 2009 Oracle Corporation

データマイニング・プロジェクト

• 「大多数のBI専門家は、データマイニングへの期待に色めき立っているが、どこから始めるのか、またどのように準備するのかが分からず、途方に暮れている。」

• 「実際に開始されたモデリング・イニシアチブにおいても、51%のデータマイニング・プロジェクトは、実行されなかったか、価値を理解できなかったか、または最終的な成果が測定不可能であった。」

• 「実際に導入が行われた予測モデルもほとんどのケースで正しく機能していない。」

• 「年間収益が5000万ドルを上回る組織では、データマイニング・テクノロジーを導入するかしないかは問題ではない。いつ導入するかの問題である。」

http://www.the-modeling-agency.com

Copyright © 2009 Oracle Corporation

Oracle Data Miningについて• Oracle Data Miningの無償評価版をダウンロードし、実際に使用することができます。『 Oracle Data

Mining管理者ガイド』には、データベースをインストールし、ユーザー・アカウントをセットアップする方法が記載されています。Oracle Database Enterprise Edition(10g Release 2または11g)は、Oracle Technology Networkからダウンロードできます。Oracle Database EEをインストールすると、デフォルトでOracle Data Miningオプションがインストールされます。データ・アナリストまたはデータマイニングを初めて行う場合、無償のグラフィカル・ユーザー・インタフェース・オプションであるOracle Data Minerをダウンロードしてください。ODMでサポートされるアルゴリズムの概要と、各アルゴリズムのドキュメントへのリンクは、こちらを参照してください。.

• すぐに開始する場合、『Oracle Data Mining概要』の第1章を読むと、Oracle Data Miningの機能と用語について把握できます。次に、『Oracle Data Mining Tutorial 』を実行すると、Oracle Data Minerグラフィカル・インタフェースの使用法が詳しく理解できます。.csv形式のテキスト・ファイルに保存した独自データをOracle Data Minerにインポート(「Data」→「Import」)すると、データマイニングを開始できます。

• アプリケーション開発者の場合、『Oracle Data Miningアプリケーション開発者ガイド』とOracle Data Miningのサンプル・プログラムを参照して、SQLまたはJavaベースのデータマイニング・アプリケーション構築を開始してください。

• Oracle Data Miningの学習用に次のデータセットが提供されています。

CUST_INSUR_LTV(dmpファイル)、CD_BUYERS(dmpファイル)、EMPL_DATA(dmpファイル)、LYMPHOMA(dmpファイル)

• ODMのサーバーベースのPL/SQL APIまたはJava APIを使用すると、あらゆるレポートやエンタープライズ・アプリケーションに対して、予測分析機能を統合できます。デモ用サンプル・コードについては、『ODM Sample Programs』を参照してください。

• Oracle Universityで提供されているOracle Data Miningコース

• Installing Data Miner (Oracle By Example)

• Solving Business Problems with Data Mining(Oracle By Example)

http://www.oracle.com/technology/products/bi/odm/odm_education.html

<ここに画像を挿入>

Copyright © 2009 Oracle Corporation

追加情報

連絡先(電子メール):[email protected]

Oracle Data Mining 11g •oracle.com/technology/products/bi/odm/index.html

Oracle Statistical Functions•http://www.oracle.com/technology/products/bi/stats_fns/index.html

Oracle Business Intelligenceソリューション•oracle.com/bi

http://search.oracle.com

oracle data mining

質疑応答

このプレゼンテーションは、情報提供を唯一の目的とするものであり、いかなる契約または協定にも組み込むことはできません。