Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Oracle Machine LearningおよびAdvanced Analytics 12.2の新機能
MS Engineering、MBA Sr. Director Product Management、Advanced Analytics and Machine Learning、Charlie Berger [email protected]
www.twitter.com/CharlieDataMine
データではなく、アルゴリズムを動かす
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
免責条項
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
下記事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。マテリアルやコード、機能の提供をコミットメント(確約)するものではなく、購買を決定する際の判断材料になさらないで下さい。オラクルの製品に関して記載されている機能の開発、リリース、および時期については、弊社の裁量により決定されます。
ビッグ・データとディルバート
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. | 3
機械学習/分析+データウェアハウス+ Hadoop
• 不統一なプラットフォーム
–データの重複が増える
–データ移動の待機時間が増える
–セキュリティの問題が増える
–ストレージの重複が増える
–バックアップの重複が増える
–システムの重複が増える
–より大きな領域と強力な機能が必要になる
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
従来の方法 vs Oracleの機械学習/予測分析
• 従来の方法 - “データよ、移動せよ” - “データを動かすな!”
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. | 5
従来の方法 vs Oracleの機械学習/予測分析
• 従来の方法 - “データよ、移動せよ” - “アルゴリズムよ、移動せよ!”
さらにシンプルかつスマートなデータ管理+分析/機械学習アーキテクチャ
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. | 6
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
おもな機能
並列処理のスケーラブルなデータ・マイニング・アルゴリ
ズムとR統合
インデータベースとHadoopの統合、データの移動なし
データ・アナリスト、データ・サイエンティストおよび開発者
developers
ドラッグ・アンド・ドロップのワークフロー、RおよびSQL API
データ管理を強力で高度な分析/予測分析プラットフォー
ムに拡張
エンタープライズ規模の予測分析をデプロイし、アプリ
ケーションを有効化
Oracle Machine Learning/Advanced Analyticsスケーラブルなエンタープライズ規模の予測分析を最短期間で提供
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
• 分類
– Naïve Bayes– ロジスティック回帰(GLM)
– ディシジョン・ツリー
– ランダム・フォレスト
– ニューラル・ネットワーク
– サポート・ベクター・マシン
– 明示的セマンティック分析
– 混合ガウス・モデル
• クラスタリング
– 階層型k-means– 階層型O-Cluster– 期待値最大化(EM)
• 異常検出
– 1クラスSVMサポート・ベクター・マシン(SVM)
• 回帰
– 一般化線形モデル
– サポート・ベクター・マシン(SVM)
– ランダム・フォレスト
– 線形モデル
– 段階的線形回帰
– LASSO
• 相関ルール
– Apriori
• 属性評価
– 最小記述長
– 主成分分析(PCA)– 非管理型ペアワイズKLダイバージェンス
• 予測問合せ
• 統計関数
基本統計:median、stdev、t-test、F-test、Pearson’s、Chi-sq、Anovaなど
• テキストのアルゴリズム・サポート
– アルゴリズムでテキスト・タイプをサポート
– トークナイゼーションとテーマ抽出
– 明示的セマンティック分析(ESA)document similarity
• 特徴抽出
– 主成分分析(PCA)– 非負行列因子分析
– 特異値分解(SVD)
• 時系列
– 単純指数平滑法
– – 二重指数平滑法
• オープン・ソースのMLアルゴリズム
– 埋込みRの実行によるCRAN Rアルゴリズム・パッケージ
– Spark MLlibアルゴリズム統合
Oracle Machine Learning/Advanced Analyticsのアルゴリズム
A1 A2 A3 A4 A5 A6
+ 非構造化データ、構造化データ、トランザクション・データをマイニングする機能+ SQL “Partition-By”モデルのサポート
データ管理と高度な分析のためのプラットフォーム
Oracle Database Enterprise Edition
Oracle Machine Learning/Advanced Analyticsのプラットフォームデータ管理プラットフォームに組み込まれた機械学習アルゴリズム
“Oracle Machine Learning”データベース・エディション
機械学習アルゴリズム統計関数とRの統合による
スケーラブルな並列処理分散のインDB実行
Oracle Database Enterprise Edition
Oracle BDA Hadoop“Oracle ML”
ビッグ・データ・エディション機械学習アルゴリズム
統計関数とRの統合によるスケーラブルな並列処理分散の実行
HQL
Oracle Cloud
“情報の生成者”データ・サイエンティスト、Rユーザー、市民データ・サイエンティスト
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
“情報の消費者”BIアナリスト、マネージャー 機能ユーザー(HCM、CRM)
Big Data SQL
“情報の生成者”データ・サイエンティスト、Rユーザー、市民データ・サイエンティスト
クラウドにおいて機械学習を共同で行い分析手法を共有するデータ・サイエンティスト向けの新しいZeppelinノートブック・ベースのUI
データ管理と高度な分析のためのプラットフォーム
Oracle Database Enterprise Edition“Oracle Machine Learning”
データベース・エディション機械学習アルゴリズム
統計関数とRの統合によるスケーラブルな並列処理分散のインDB実行
Oracle Database Enterprise Edition
Oracle BDA Hadoop“Oracle ML”
ビッグ・データ・エディション機械学習アルゴリズム
統計関数とRの統合によるスケーラブルな並列処理分散の実行
HQL
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Big Data SQL
Oracle Machine Learning/Advanced Analyticsのプラットフォームデータ管理プラットフォームに組み込まれた機械学習アルゴリズム
Oracle Advanced Analytics 12.2モデル構築時間(パフォーマンス)
非公式
結果の読取り方法として、2つのチップ(X5(IntelおよびLinux)とT7(SparcおよびSolaris))が比較されます。この2つの方法では、並列度の上昇(DOP)に伴ってスケーラビリティ(秒単位の時間)を測定します。このデータには、カーディナリティの高いカテゴリ列も含まれており、9Kのマイニング属性で変換します(爆発を必要とするアルゴリズムの場合)。Copyright © 2016, Oracle and/or its affiliates. All rights reserved.12.1との比較はなく、12.1のアルゴリズムは、このサイズのデータでは実行することができなかったと言えます。
Oracle Advanced Analytics 12.2のアルゴリズム 行数(ミリ秒)
T7-4(SparcおよびSolaris) X5-4モデル構築時間 (秒/並列度)
属性評価 640 28秒/512すごい!これは速い!
44秒/72
k-meansクラスタリング 640 161秒/256 268秒/144
期待値最大化 159 455秒/512 588秒/144
Naive Bayesの分類 320 17秒/256 23秒/72
GLMの分類 640 154秒/512 363秒/144
GLMの回帰 640 55秒/512 93秒/144
サポート・ベクター・マシン(IPMソルバー) 640 404秒/512 1411秒/144
サポート・ベクター・マシン(SGDソルバー) 640 84秒/256 188秒/72
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
追加の関連データと
"エンジニアド機能"
センサー・データ、テキスト、非構造化データ、
トランザクション・データ、空間データなど
履歴データ Assembled履歴データ
予測とインサイト
機械学習と高度な分析の手法データの準備と高度な分析プロセスはインデータベースで実行
予測のために"スコアリングされる“
履歴または現在のデータ
Oracle Database 12c
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
• 統合型のデータ管理と組込み型の
予測分析
• 従業員を全方位から分析
• HCMデータを単一ソースから入手
• 対話型ダッシュボードと“What if”分析
• 必要に応じたカスタマイズにより、予測モ
デルに入力変数を追加
• モバイル+ Oracle Cloudソリューション
1
アプリによる予測例:HCM Cloud - ワークフォース予測多機能、統合、組込み、自動化、対話型を特徴とする“予測ができるHCM”ソリューション
追加の関連データと
"エンジニアド機能"
センサー・データ、テキスト、
非構造化データ、トランザクション・
データ、空間データなど
履歴データ 収集された
履歴データ
予測とインサイト
Oracle Database 12c
予測のために"スコアリングされる"履歴または現在のデータ
データはDatabaseとHadoopに残る
インデータベースで発生するモデル構築とスコアリング
データ並列呼出しでOracle Rパッケージを使用
Oracle ITへの投資を活用
データの重複がない
別個の分析サーバーが不要
エンタープライズ規模のアプリケーションの提供
ML/予測分析およびコード生成用GUI Oracle Rインタフェースでデータベースを
HPCエンジンとして活用
おもな利点
Oracle Machine Learning/Advanced Analytics
従来の分析
数時間、数日、または数週
データ抽出
Data Prep &データの
準備と変換
データ・マイニング・モデル構築
データ・マイニング・モデルの“スコアリング”
データの
準備と変換
データのインポート
コスト削減
モデルの“スコアリング”埋込みデータの準備
データの準備
モデル構築
Oracle Advanced Analytics
数秒、数分、または数時間
スケーラブルなエンタープライズ規模のML/予測分析を最短期間で提供
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
おもな機能
並列処理のスケーラブルなデータ・マイニング・アルゴリズムとR統合
インデータベースとHadoopの統合、データの移動なし
データ・アナリスト、データ・サイエンティストおよび開発者ドラッグ・アンド・ドロップのワークフロー、RおよびSQL API データ管理を強力で高度な分析/予測分析プラットフォームに拡張
エンタープライズ規模の予測分析をデプロイし、アプリケーションを有効化
Oracle Machine Learning/Advanced Analyticsスケーラブルなエンタープライズ規模の予測分析を最短期間で提供
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analyticsを分かりやすく表すと……
– “人間が操作する”問合せ
– ドメインの専門知識
– 何らかの“ルール”の定義と管理が必要
SQL問合せ– SELECT
– DISTINCT
– AGGREGATE
– WHERE
– AND OR
– GROUP BY
– ORDER BY
– RANK
従来のSQL Oracle Advanced Analytics - SQL &– 自動化されたナレッジ検出、モデル構築、デプロイ
– マイニング/分析対象となる“適切な”データを集めるためのドメインの専門知識
分析可能なSQLの“動詞”– PREDICT
– DETECT
– CLUSTER
– CLASSIFY
– REGRESS
– PROFILE
– IDENTIFY FACTORS
– ASSOCIATE
+
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
• データベースとの相互作用が可能なR言語
• R-SQL透過フレームワークがR関数をオーバーロードし、スケーラブルなインデータベース実行を実現
• データの選択、操作、および変換での関数オーバーロード
• 標準Rの場合と同様にグラフィカルな結果とフロー制御をインタラクティブに表示標準Rの場合と同様にグラフィカルな結果とフロー制御をインタラクティブに表示
• Oracle Databaseによって制御されているデータベース・サーバーで、実行するユーザー定義R関数を送信
• 30以上の強力なデータ・マイニング・アルゴリズム(回帰、クラスタリング、AR、DTなど)30以上の強力なデータ・マイニング・アルゴリズム(回帰、クラスタリング、AR、DTなど)
• Oracle Data Mining SQLデータ・マイニング関数の実行(ORE.odmSVM、ORE.odmDTなど)
• "R"で記述されていても、独自のインデータベースSQL関数(機械学習アルゴリズムと統計関数)として実行
• Leverage database strengths:SQL並列処理、大規模なデータセットへの拡張、セキュリティなど、データベースの特長を利用
• SQL、R、およびBig Data SQLを介してOracle DatabaseとHadoopのビッグ・データにアクセス
その他のRパッケージ
Oracle R Enterprise(ORE)のパッケージ
1R -> SQL透過"プッシュダウン"
• データベース管理の並列処理のためOracle DBによって起動されるRエンジン行と並列処理
• ore.groupApply高パフォーマンス・スコアリング
• 起動されたRエンジンに効率よくデータを転送
• map-reduce方式のアルゴリズムとアプリケーションをエミュレートUnity IC30塗工システム
• Rスクリプトの本番デプロイメントと自動実行を有効化
R -> SQL
結果
インデータベースの高度な分析のSQL関数
R Engine その他のRパッケージ
Oracle R Enterpriseのパッケージ
埋込みRパッケージのコールアウト
R
結果
Oracle Advanced AnalyticsOracle R Enterpriseの計算エンジンの仕組み
1 2 3
Oracle Database 12c
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Text全Oracle Databaseが元来備えている機能
• Oracle Textでは、Oracleデータベース、ファイル、およびWeb上に保存されたテ
キストやドキュメントの索引作成、検索、および分析に標準のSQLを使用する
• Oracle Textは多言語をサポートしており、高度な関連性ランキング・テクノロジー
によって検索の質を高めている
• Oracle Advanced AnalyticsはOracle Textを使用して、OAAのSQL ML/データ・マイニン
グ機能向けに非構造化データを前処理(“トークン化”)する
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Fiserv電子決済のリスク分析
目的
データを使用した詐欺の監視、把握、予測により、年間2億ドルの損失を防止
解決策
2014年に、モデル開発のためOAA分析を採用
詐欺管理のツールを選択するときには、スピードを重要視
OAAはモデル構築、可視化、本番プロセスとの統合において高速で柔軟なソリューションとなった
「詐欺管理のツールを選択するときには、スピードが重要な要素でした。Oracle Advanced Analyticsは、モデル構築、可視化、本番プロセスとの統合において、高速かつ柔軟なソリューションでした。」
– Fiserv Inc.、Director of Risk Analytics、Miguel Barrera氏– Fiserv Inc.、Risk Analytics Manager、Julia Minkowski氏
3か月ロジスティック回帰の実行とデプロイ
(SAS使用) 1か月ツリーとGLMの見積もりとデプロイ
見積もりに1週間、ルールの設定に1週間オンライン・アプリ
ケーションで
見積もりとデプロイに1日ツリー+ GLMモデル(Oracle Advanced Analyticsを使用)
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analytics
© 2014 Fiserv, Inc. or its affiliates.
Rexer Analyticsによる2016年のデータ・マイナー調査10人のデータ・マイナーのうち6人が、分析用データは数日のキャプチャで準備
可能だが、モデルのデプロイには相当な時間がかかると報告している。回答者のうち60 %が、デプロイの期間は3週間から1年に及ぶと答えている。
見過ごされがちなデプロイだが、これがもっとも重要!
デプロイが容易
UK National Health Service医療詐欺との戦い
目的
新しいインサイトを利用してコスト削減額を特定し、目標を達成する
医療詐欺と受給資格の誤用を特定および防止し、コストを削減する
既存のデータを活用してビジネスと生産性を変革する解決策
医療詐欺とエラーを減らすことで、最大1億ポンド(1億5,600万ドル)が削減される可能性があることを特定した
例外検出によって、詐欺行為(一部の歯科医が1つの治療を複数の部分に分割し、複数の治療として請求)を発見した
何十億件もの記録を一度に分析し、長期治療している患者を調べ、薬の処方パターンを分析して患者ケアを改善した
「Oracle Advanced Analyticsのデータ・マイニング機能とOracle Exalyticsのパフォーマンスは本当に印象深いものでした。すべてのソ
リューションが非常に高速で、当社の投資はごく短期のうちに価値を生み出しました。現在は当社の持つデータをさらに有効活用できるようになり、NHS全体でコストを大幅に削減できています」
– NHS Business Services Authority、Head of Information Services、Nina Monckton氏
Oracle Exadata Database Machine
Oracle Advanced Analytics
Oracle Exalytics In-Memory Machine
Oracle Endeca Information Discovery
Oracle Business Intelligence EE
最新情報: 3億ポンドを詐欺として確認
その他4億ポンド以上について不正の疑いがあることを検出
現在、クラウドに移行中
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
分析方法の迅速な構築、評価、デプロイさまざまなデータのソースと種類を利用
考慮事項:• 顧客層• 購入履歴• 最近の購入実績• コメントとツイート非構造化データも
アルゴリズムによってマイニングされる
トランザクションのPOSデータ
デプロイするためのSQLスクリプトとワークフローAPIを生成
インライン予測モデルによる入力データの補強
SQL結合と任意のSQL変換および問合せ - SQLの力
モデル化手法
Advanced Analytics
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
より多くのデータに対応 - モデルの予測能力向上
• 関連データのソースが増えると、モデルの精度が飛躍的に向上する
Naïve Guessまたはランダム
100 %
0 %入力サイズ
回答
者 変数20個以上のモデル
変数75個以上のモデル
変数250個以上のモデル
“ビッグ・データ”と、以下のような数百~数千の入力変数を使用するモデル:• 顧客層データ• POSの購入トランザクション・データ
• “非構造化データ”、テキストとコメント
• 空間位置データ• 行動の長期的な履歴と最近の履歴Web訪問
• センサー・データ• その他
100 %
エンジニアド機能 - ドメインの知識(ベスト・モデルの鍵)を反映する派生属性/変数
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
グラフと組み合わせて使用するビッグ・データ分析
– 危険な顧客
– 政府の承認プロセス
– 医療費請求
– IoTの予測分析
グラフと空間データのソースが強化されたOracle Advanced Analytics/Machine Learningトランザクション・ネットワークのリレーションシップ・データ• 新しいエンジニアド機
能の追加
– ゾーンで使用された時間の割合
– 合計時間/対象者との接触数
• 入手可能なデータを
使用したより精度の
高い予測 トランザクションの地理的位置データ。エリアで費やされた時間の割合や、付近で“ヒット”した数として表される
データと“エンジニアド機能”が向上すると、予測モデルと予測インサイトの向上につながる
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
DX Marketingクラウドベースの予測分析とデータベース・マーケティング
目的
解決策
「市場展開までの期間が大幅に短縮され、4~6週間だったものが1週間未満になり、結果として以前よりも早く新しいクライアントと接触できるようになりました。オラクルのDBCSを使い始めてから6か月で、収益が25 %も飛躍的に増加しました。」
– DX Marketing
クラウドベースのソリューション
収益の増加
市場展開までの期間の短縮
Oracle Cloud
Oracle Advanced Analytics
DX Marketing Expands Customer Acquisition with Oracle Cloud –YouTubeビデオ
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
顧客データのホストとして検討したソリューション・ベンダーは、SASとオラクルの2社のみでした。SASはITインフラストラクチャをゼロから構築し、1年かけて開発するプラ
ンを提示しました。しかし、インフラストラクチャの管理に必要な人員(管理者、セキュリティのスペシャリスト、アナリストなど)の数や、必要とされるセキュリティおよびHIPPAのコンプライアンスについて考えると、オラクルのDBCSソリューションの方が
はるかに魅力的だったため、オラクル製品を採用することに決定しました。オラクルのソリューションには次の特長がありました。
スケーラビリティ
データ・マイニングなどの分析ツールが標準で付属
HIPPAコンプライアンスおよびセキュリティのための機能が標準で付属
必要なリソースが少なく、現在はデータ・エンジニアと予測分析エキスパートの2名のアナリストのみで、エコシステム全体を管理
Zagrebačka Bank (クロアチア最大の銀行)デプロイ後18か月で現金融資が15 %増加
ZabaBankオラクル・カスタマー・スナップショット(OTN)
目的
データの準備に3日間、モデルの構築に24時間を要していた
クレジット・リスクのモデル化と対象顧客キャンペーンの“実用的な分析”に要する時間の短縮
解決策
ZabaはSASからOracle Advanced Analyticsプラットフォームに移行し、統計モデリングと予測分析を実施
Oracle DatabaseとOracle Advanced Analyticsのセキュリティ、信頼性、パフォーマンス、スケーラビリティを活用した予測分析を行い、データの準備、変換、モデル構築、モデル・スコアリングをインデータベースで実行することで、予測のパフォーマンスが向上
「Oracle Advanced Analyticsでは、何千もの属性の計算をパラレル実行しています。これはオープン・ソースのRでは不可能なことでした。データを移動させずにOracle Databaseで分析できるので、当社の機敏性が高まりました。Oracle Advanced Analyticsのおかげで、クオリティに関する決定を適切なタイミングで下せるようになり、現金融資のビジネスが15 %伸びました。」
– Zagrebačka Bank、Head of BI Dev.、Jadranka Novoselovic氏
「当社がオラクルを選んだ理由は、当社のデータ・モデリング・プロセス全体が、最高のパフォーマンスと最高レベルの統合を備える、1つのマシンで実行されるからです。当社はOracle Databaseを使用していたため、Oracle Advanced Analyticsのオプションを有効にするだけで済み、新しいツールを導入する必要はありませんでした。」
Zagrebačka Bank、BI Dev.、ICT coordinator、Sinisa Behin氏
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Data Miner GUI“市民データ・サイエンティスト"が簡単に使用できる
• 分析手法の定義時の使用が容易で、共有可能
• SQL Developer拡張機能
• ワークフローAPIと、即時デプロイメント用のSQLコードの生成
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
共有、自動化、デプロイ分析手法をすぐに“運用可能に”する
• Oracle Data Minerワークフローの共有
•ワークフローAPIによる完全自動化
• データ分析手法をすぐにデプロイ
• SQLスクリプトの生成• SQLスクリプトとして手法をデプロイ
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
詐欺予測デモ自動インデータベース分析手法
Automated Monthly “Application”!Just add:CreateView CLAIMS2_30AsSelect * from CLAIMS2Where mydate > SYSDATE – 30
Time measure: set timing on;
drop table CLAIMS_SET;exec dbms_data_mining.drop_model('CLAIMSMODEL');create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000)); insert into CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');insert into CLAIMS_SET values ('PREP_AUTO','ON'); commit;begindbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION', 'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');
end;/
-- Top 5 most suspicious fraud policy holder claimsselect * from(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,
rank() over (order by prob_fraud desc) rnk from(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud from CLAIMSwhere PASTNUMBEROFCLAIMS in ('2to4', 'morethan4'))) where rnk <= 5order by percent_fraud desc;
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analyticsリアルタイムのスコアリング、予測、推奨
• その場で、シングル・レコードに(コール・センターなどからの)新しいデータが適用される
Call Center
Web Webモバイル
Get Advice
ソーシャル・メディア
電子メール
R
Select prediction_probability(CLAS_DT_1_5, 'Yes'USING 7800 as bank_funds, 125 as checking_amount, 20 ascredit_balance, 55 as age, 'Married' as marital_status,250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership)
from dual;
応答の可能性:
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
BranchOffice
R:関数のオーバーロードによる透過性インデータベース集計関数の呼出し
> aggdata <- aggregate(ONTIME_S$DEST,
ONTIME_S
インDB統計
Oracle Database
Oracle SQLselect DEST, count(*) from ONTIME_S group by DEST
Oracle Advanced Analytics ORE
クライアント・パッケージ
透過レイヤー
+ by = list(ONTIME_S$DEST), + FUN = length)
> class(aggdata) [1] "ore.frame" > class(aggdata) [1] "ore.frame" attr(,"package") [1] "OREbase" > head(aggdata) Group.1 x 1 ABE 237 2 ABI 34 3 ABQ 1357 4 ABY 10 5 ACK 3 6 ACT 33
データベース・サーバー
Oracle Cloud
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
R:関数のオーバーロードによる透過性インデータベース・データ・マイニング・モデルの呼出し(サポート・ベクター・マシン)
CUST
インDBマイニング・モデル
Oracle Database
Oracle PL/SQLBEGIN DBMS_DATA_MINING.CREATE_MODEL( model_name => ’SVM_MOD’, mining_function => dbms_data_mining.classification...
Oracle Advanced Analytics ORE
クライアント・パッケージ
透過レイヤー
> svm_mod <- ore.odmSVM(BUY~INCOME+YRS_CUST+MARITAL_STATUS,data=CUST, "classification", kernel="linear")
> summary(svm_mod) Call: ore.odmSVM(formula = BUY ~ INCOME + YRS_CUST + MARITAL_STATUS, data = CUST, type = "classification", kernel.function = "linear")
Settings: v a l u e p r e p . a u t o o nactive.learning al.enablecomplexity.factor 46.044899c o n v . t o l e r a n c e 1 e - 0 4kernel.function linear
Coefficients: class variable value estimate 1 0 INCOME5.204561e-052 0 MARITAL_STATUS M 4.531359e-053 0 MARITAL_STATUS S 4.531359e-054 0 YRS_CUST1.264948e-045 0 (Intercept)9.999269e-016 1 INCOME2.032340e-057 1 MARITAL_STATUS M 2.636552e-068 1 MARITAL_STATUS S 2.636555e-069 1 YRS_CUST1.588211e-0410 1 (Intercept)9.999324e-01
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
データベース・サーバー
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016 Oracle and/or its affiliates.All rights reserved.
40
Copyright © 2016 Oracle and/or its affiliates.All rights reserved.
41
Copyright © 2016, Oracle and/or its affiliates.All rights reserve d. |
ORAAH:HDFSデータのSparkによる機械学習Sparkキャッシングを使用するORAAHカスタム並列分散GLMモデルの呼出し
> # Formula definition:Cancelled flights (0 or 1) based on other attributes > form_oraah_glm2 <- CANCELLED ~ DISTANCE + ORIGIN + DEST + F(YEAR) + F(MONTH) + + F(DAYOFMONTH) + F(DAYOFWEEK) > system.time(m_spark_glm <- orch.glm2(formula=form_oraah_glm2, ont1bi)) ORCH GLM: processed 6 factor variables, 25.806 sec ORCH GLM: created model matrix, 100128 partitions, 32.871 sec ORCH GLM: iter 1, deviance 1.38433414089348300E+09, elapsed time 9.582 sec ORCH GLM: iter 2, deviance 3.39315388583931150E+08, elapsed time 9.213 sec ORCH GLM: iter 3, deviance 2.06855738812683250E+08, elapsed time 9.218 sec ORCH GLM: iter 4, deviance 1.75868100359263200E+08, elapsed time 9.104 sec ORCH GLM: iter 5, deviance 1.70023181759611580E+08, elapsed time 9.132 sec ORCH GLM: iter 6, deviance 1.69476890425481350E+08, elapsed time 9.124 sec ORCH GLM: iter 7, deviance 1.69467586045954760E+08, elapsed time 9.077 sec ORCH GLM: iter 8, deviance 1.69467574351380850E+08, elapsed time 9.164 sec user system elapsed 84.107 5.606 143.591
YARN:Apache Sparkジョブ
42
分散インメモリ計算カスタムSpark Javaアルゴリズムの分散インメモリ計算
/user/oracle/ontime_s
3
Oracle R Advanced Analytics for Hadoop
クライアント・パッケージ
Sparkベースの機械学習アルゴリズム・
モジュール
1
5
Oracle Distribution of R version 3.1.1 (--) -- "Sock it to Me"> Connects to Spark1 > spark.connect("yarn-client",memory="24g")
> # Attaches the HDFS file for use within R > ont1bi <- hdfs.attach("/user/oracle/ontime_1bi")
Oracle Advanced Analytics 12.2、Oracle Data Miner 4.2およびORAAH 2.7新機能 + ロード・マップ
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• すべてのアルゴリズムで大幅なパフォーマンスの向上
– 新しいパラレル・モデルの構築/再設計されたインフラストラクチャの適用により、新しいアルゴリズムの迅速な導入が可能
– ビッグ・データやクラウドでのユースケースで、より大きなデータ・ボリュームに拡張
• 非管理型機能の選択肢
– 数値およびカテゴリ属性のペアワイズ相関向けの非管理型アルゴリズム(カルバック・ライブラー・ダイバージェンス(KLD))により、最高の“情報を含む”属性を検出
• 相関ルールの強化
– ARルールに関連付けられた値の計算を追加(バスケット内の共起品目の値を示す売上高など)
– マーケットバスケット分析の前に入力項目のフィルタリングが可能
• パーティション化モデル
– 何十個~何千個のモデルを構築、名前付け、参照するのではなく、パーティション化モデルが、単一のモデル・エンティティで複数のモデルをパーティションとして整理および表示
パーティション1
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
パーティション2…
パーティション…N
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• 明示的セマンティック分析(ESA)のアルゴリズム
– 意味があり解釈可能な特徴を抽出する、LDAより優れた便利な手法
– 英語版Wikipediaは、人間が識別できる特徴と概念をトークンとして扱うためのテキスト・コーパスのデフォルト
– ESAではテキスト処理、分類、ドキュメントの類似度判定、トピックの識別が改善されている
– 同じトピックを扱っているのではないドキュメントでも比較可能。たとえば、アル・カーイダまたはウサーマ・ビン・ラーディンの場合:
ドキュメント1
– 'Senior members of the Saudi royal family paid at least $560 million to Osama bin Laden terror group and the Taliban for an agreement his forces would not attack targets in Saudi Arabia, according to court documents.The papers, filed in a $US3000 billion ($5500 billion) lawsuit in the US, allege the deal was made after two secret meetings between Saudi royals and leaders of al-Qa ida, including bin Laden.The money enabled al-Qa ida to fund training camps in Afghanistan later attended by the September 11 hijackers.The disclosures will increase tensions between the US and Saudi Arabia.'
ドキュメント2
– 'The Saudi Interior Ministry on Sunday confirmed it is holding a 21-year-old Saudi man the FBI is seeking for alleged links to the Sept. 11 hijackers.Authorities are interrogating Saud Abdulaziz Saud al-Rasheed "and if it is proven that he was connected to terrorism, he will be referred to the sharia (Islamic) court," the official Saudi Press Agency quoted an unidentified ministry official as saying.’
ESA類似度スコア = 0.62
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• 明示的セマンティック分析(ESA)のアルゴリズム
• "The more things change...Yes, I'm inclined to agree, especially with regards to the historical relationship between stock prices and bond yields. The two have generally traded together, rising during periods of economic growth and falling during periods of contraction. Consider the period from 1998 through 2010, during which the U.S. economy experienced two expansions as well as two recessions:Then central banks came to the rescue. Fed Chairman Ben Bernanke led from Washington with the help of the bank's current $3.6T balance sheet. He's accompanied by Mario Draghi at the European Central Bank and an equally forthright Shinzo Abe in Japan. Their coordinated monetary expansion has provided all the sugar needed for an equities moonshot, while they vowed to hold global borrowing costs at record lows”
• モデルのソース・データとしてWikipediaを使用し、ESAによって検出された上位トピック(概念、人々、組織、イベント)
– Recession, Ben Bernanke , Lost Decade Japan, Mario Draghi, Quantitative easing, Long Depression, Great Recession, Federal Open Market Committee, Bank of Canada, Monetary policy, Japanese asset price bubble, Money supply, Great Depression, Central bank, Federal Reserve System
• Wikipedia全体を使用しない場合は、概念のみで構成されたソース・データセットに制限されるため、この結果は次のように変換される:
– Recession, Quantitative easing, Monetary policy, Money supply, Central bank, Federal Reserve System
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• 明示的セマンティック分析(ESA)のアルゴリズム
• "The more things change...Yes, I'm inclined to agree, especially with regards to the historical relationship between stock prices and bond yields. The two have generally traded together, rising during periods of economic growth and falling during periods of contraction. Consider the period from 1998 through 2010, during which the U.S. economy experienced two expansions as well as two recessions:Then central banks came to the rescue. Fed Chairman Ben Bernanke led from Washington with the help of the bank's current $3.6T balance sheet. He's accompanied by Mario Draghi at the European Central Bank and an equally forthright Shinzo Abe in Japan. Their coordinated monetary expansion has provided all the sugar needed for an equities moonshot, while they vowed to hold global borrowing costs at record lows”
• モデルのソース・データとしてWikipediaを使用し、ESAによって検出された上位トピック(概念、人々、組織、イベント)
– Recession, Ben Bernanke , Lost Decade Japan, Mario Draghi, Quantitative easing, Long Depression, Great Recession, Federal Open Market Committee, Bank of Canada, Monetary policy, Japanese asset price bubble, Money supply, Great Depression, Central bank, Federal Reserve System
• Wikipedia全体を使用しない場合は、概念のみで構成されたソース・データセットに制限されるため、この結果は次のように変換される:
– Recession, Quantitative easing, Monetary policy, Money supply, Central bank, Federal Reserve System
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
LDAが検出するトピックは潜在的で、解釈が難しい
• トピックはキーワードによって定義されるため、名前や抽象化された
説明がない
• トピックに意味を持たせるため、LDAによってキーワードを抽出可能
• キーワードのみに基づく定義はあいまいで、
異なるトピックのキーワードは重複することが多い
• 抽出されたキーワードは単に汎用的な単語の場合がある
• 1つのトピックで自動抽出されたキーワードのセットは、
分かりやすい英語のトピック名にマッピングされない
LDAの最大の問題は、トピックのセットが流動的であること
• トレーニング・データが変更されると、トピックのセットも変更される
• トレーニング・データを変更すると、トピックの境界も変更される
• トレーニング・データが静的であることはほぼない
ESAはナレッジ・ベースの指定された
トピック・セットからトピックを検出する
• トピックは人間が定義する→ トピックが十分に理解されている
• 必要に応じて、対象のトピック・セットを選択して補足可能→ トピックの
選択を自在に制御できる
• トピックのセットは特定のタスクを対象とすることができる。たとえば、テロリストの活動との関連が疑われるオンライン・メッセージのトピック・モデリング向けのナレッジ・ベースなど。この場合、学会の技術レポートのトピック・モデリングとは異なる
• 複数のナレッジ・ベースを組み合わせ可能。各ナレッジ・ベースに独自の
トピック・セットがあり、重複している場合もそうでない場合もある
• トピックの重複はESAが関連トピックを検出する機能に影響しない
48
Oracle Advanced Analytics 12.2ESA対LDA(Latent Dirichlet Allocation) - LDAよりも優れたESAの解析
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• 明示的セマンティック分析(ESA)のアルゴリズム
モデルの表示
モデルの適用
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analytics 12.2Oracle Databaseの新機能
• Rモデルの拡張性
– 構築、適用、設定、表示用のインデータベース・モデルとしてRモデルを登録する
– “ネストされた”属性のあるデータをサポートし、オープン・ソースのRパッケージ向けにテキストや集計されたトランザクション・データを処理する
– 高度な分析のデプロイの容易さをRからOracle Databaseへと拡張する
– Rユーザーが新しい分析をロールアウトし、既存のRパッケージをより早く活用できるようにする
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Oracle Data Miner 4.2Oracle Advanced Analyticsの新機能
• Oracle Data Miner UIでの12.2の全機能の追加/公開
4.2の新機能
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Previewing a 4.2 FeatureWorkflow Scheduler
C i ht © 2016 O l d/ it ffili t All i ht d |
4.2の新機能
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. | 53
Oracle R Advanced Analytics for HadoopORAAH 2.7の新機能
• ORAAHのGLMとLMのアルゴリズムが更新され、Spark MLlibの同等のGLMおよびLMメソッドと比べて、大幅にスピードアップし、安定性が向上し、メモリの負荷が減少
• 両方のメソッドに新しいサマリー機能が追加されたことで、オープン・ソースのRのglmとlmのソリューションに匹敵するものとなり、ビッグ・データをエンタープライズ規模で処理できる
• ニューラル・ネットワークのアルゴリズムが改良され、Sparkでの式の完全処理、完全構築、スコアリングに対応
• Spark MLlibでサポートされるアルゴリズムのセットに新しい混合ガウス・モデルを追加
• 完全な式のサポートとサマリーを備えるORAAHのSparkベースのLM - orch.lm2()• 完全な式のサポートとサマリーを備えるORAAHのSparkベースのGLM - orch.glm2()
Copyright © 2017, Oracle and/or its affiliates.All rights reserved. |
Oracle Advanced Analyticsの戦略とロード・マップ
• 1つのサーバー・サイド製品と単一の分析ライブラリで、複数のデータ・プラットフォーム、分析エンジン、UIおよびデプロイメント戦略をサポート
Hadoop リレーショナル
アルゴリズム共通コア、並列処理、分散
SQL RGUIData Miner、RStudio
ノートブック
Cloud
Advanced Analytics
Copyright © 2017, Oracle and/or its affiliates.All rights reserved. | 55
“ノートブック”とは何か
Oracle Machine Learning多言語、複数サーバー・エンジンのクラウド向けのOracle Machine Learning
おもな機能
• データ・サイエンティスト向けの共同作業ML環境– Zeppelinノートブック、テンプレート、パーミッションの共有
• 言語 - SQL MLアルゴリズムAPI(ODM)
• DWCSサーバー - Oracle Database• ML分析ソリューションのデプロイメントをサポート
– ライブラリ、テンプレート、ユースケースの公開が可能
• ロード・マップ• 多言語サポート
– R言語
• マルチサーバー・エンジン
– R、ORE、ORAAH、Spark
Copyright © 2017, Oracle and/or its affiliates.All rights reserved. | 56
Oracle Advanced Analytics予測に役立つアプリケーションとOBIEEの統合
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
“予測ができる”エンタープライズ・アプリケーションの利用Oracle Advanced Analyticsを使用するOracleアプリケーション - リスト(一部)
• Oracle HCM Cloud– 従業員の離職とパフォーマンスの予測、“What if?”分析
• Oracle Sales Cloud– 販売機会、販売すべき商品、量、タイミングなどを予測
• Oracleの業界別データ・モデル– Communications Data Model 顧客離
れの予測、セグメンテーション、プロ
ファイリングなど
– Retail Data Model ロイヤルティおよび
マーケットバスケット分析
– Airline Data Model 頻繁な利用客の分析、ロイヤルティなど
– Utilities Data Model 顧客離れ、クロスセル、ロイヤルティなど
• マーケットバスOracle Retail GBU Cloud Services– ケット分析のインサイト
– 顧客インサイトとクラスタリング
• Oracle Customer Support– Predictive Incident Monitoring(PIM)
• Oracle Spend Classification– 申請された経費のコンプライス違反や異常へのリアルタイムまたは一括でのフラグ付け
• Oracle FinServ Analytic Applications– 顧客インサイト、エンタープライズ・リスク管理、エンタープライズ・パフォーマンス、金融犯罪とコンプライアンス
• Oracle Adaptive Access Manager– リアルタイムのセキュリティと不正の分析
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
OAAを活用したHuman Capital Management
• Oracle Advanced Analyticsに標準でインストールされている予測分析
• 退職が予想される従業員と予測されるパフォーマンス
• 上位の理由、予想される行動
• リアルタイムの"What if?“分析
HCMワークフォース予測予測ができる分析アプリケーション
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
O.comのOracle HCMへのリンクHCMワークフォース予測デモ
パフォーマンスと自己都合退職の予測もう一度、もう少し詳しく見てみると……
• 従業員の自己都合退職の予測
• 各従業員のパフォーマンスの予測
低
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. | 60
従業員のパフォーマンスの予測中 高
各従業員のパフォーマンスの予測
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. | 61
OAAを活用したFusion Human Capital Management
• Oracle Advanced Analyticsに標準でインストールされている予測分析
• 退職が予想される従業員と予測されるパフォーマンス
• 上位の理由、予想される行動
• リアルタイムの"What if?“分析
HCMワークフォース予測予測ができる分析アプリケーション
O.comのOracle HCMへのリンクHCMワークフォース予測デモ
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
OAAを活用したCRM販売予測
• Sales Predictorにより、
販売担当者の切実な疑問に答える:
• 顧客に勧めるべき商品はどれか。
• 商品を購入しているのはどのような顧客か。
• 商品が購入されている理由は何か。
• 成功をもたらす見込みが高い商品を
Sales Predictorが推奨する
Oracle Sales Cloud Sales Predictor予測ができる分析アプリケーション
O.comのOracle CRM SPEへのリンク
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
あらかじめ構築されたマーケットバスケット分析
• 顧客の行動から実用性のある
インサイトを取得
• あらかじめ構築されたマーケットバスケット分析
構築済みのマーケットバスケット分析で商品への興味・関心を特定
Oracle Retail Market Basket Insights Cloud Serviceマーケットバスケット分析
O.comのOracle Retail MBAへのリンク
Copyright © 2016 Oracle and/or its affiliates.All rights reserved.
あらかじめ構築された顧客クラスタリング・モデル
• 顧客行動から実用性のある
インサイトを取得
• 構築済みのクラスタリング・モデルが潜在的な顧客セグメントを特定
Oracle Retail Customer Insights Cloud Service顧客セグメンテーション/クラスタリング分析
O.comのOracle Retail CI Cloudへのリンク
Copyright © 2016 Oracle and/or its affiliates.All rights reserved.
あらかじめ構築された予測ができるモデル
• スケーラブルなエンタープライズ規模の予測分析を最短期間で提供
• インDBで利用できるOBIEE向けのOAAクラスタリングおよび予測
• 自動化された顧客セグメンテーション、顧客離れの予測、センチメント分析
Oracle Communicationsの業界別データ・モデル予測ができる分析アプリケーションの例
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
OTNのOCDMへのリンク
始めるには
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
スタート・ガイド:Oracle Advanced Analytics/Machine Learningに関するリンクとリソースOracle Advanced Analyticsの概要に関する情報
• Oracle's Machine Learning and Advanced Analytics 12.2cおよびOracle Data Miner 4.2 New Featuresプレゼンテーション
• Oracle Advanced Analytics Public Customer References• Oracle Advanced Analyticsによるビッグ・データ分析:ビッグ・データと分析をシンプルに(ホワイト・ペーパー)(OTN)• オラクル社外秘OAA Product Management Wiki and Beehive Workspace
YouTubeに録画されたOracle Advanced Analyticsのプレゼンテーションとデモ、ホワイト・ペーパー
• Oracle's Machine Learning & Advanced Analytics 12.2 & Oracle Data Miner 4.2 New Features YouTubeビデオ
• Oracle Advanced Analytics、Data Mining、Machine Learning(7件以上の“ライブ”デモ(Oracle Data Miner 4.0の新機能、
小売り、詐欺、ロイヤルティ、概要など))についてのYouTube動画のライブラリ• 概要YouTube動画(Oracle Advanced AnalyticsおよびMachine Learning
スタート・ガイド/トレーニング/チュートリアル
• Oracle Advanced Analytics/Oracle Data MinerワークフローGUIオンライン(無償)チュートリアル・シリーズへのリンク(OTN)• Oracle Advanced Analytics/Oracle R Enterprise(無償)チュートリアル・シリーズへのリンク(OTN)• Oracle Cloudを今すぐお試しくださいへのリンク
• スタート・ガイド(Oracle Data Miningのブログ・エントリあり)へのリンク• 新しいOracle Advanced Analytics/Oracle Data Miningの2日間に及ぶインストラクターによるOracle Universityコースへのリンク
• Oracle Data Miningのサンプル・コード例
その他のリソース、ドキュメント、およびOTNディスカッション・フォーラム
• OTNページでのOracle Advanced Analyticsのオプション
• OTNページでのOracle Advanced Analytics/Oracle Data Mining、Oracle Data MiningのドキュメントおよびOracle Data Miningのブログ• OTNページのOracle Advanced Analytics/Oracle R Enterpriseのページ、Oracle R Enterpriseのドキュメントおよびブログ
• Oracle SQLベースの基本統計関数(OTN)• Oracle R Advanced Analytics for Hadoop(ORAAH)(OTN)BIWA SIGユーザー・コミュニティwww.biwasummit.org• ビジネス・インテリジェンス、ウェアハウス&分析 - BIWA SUMMIT 2018 WITH SPATIAL SUMMITビッグ・データ+高度な分析/
機械学習+空間+クラウド+ IoT + “Everything Cool“ユーザー・カンファレンス、2018年1月30日~2月1日、Redwood Shores, CA(過去のプレゼンテーションへのリンクを含む)
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
www.biwasummit.org
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |
Copyright © 2016, Oracle and/or its affiliates.All rights reserved. |