55

[AI01] いまさら聞けない、エンジニアのための機械学習のキホン

Embed Size (px)

Citation preview

#decode17 #AI01

2 + 3 = 5

2 + 3 = 5簡単

大変…

2 + 3 = 5簡単

大変…

それぞれの写真: 猫? Yes/No

Program = Algorithm人が書くタスクの仕様の定義アルゴリズムは固定アルゴリズムは容易に説明できる

ソフトウェアが書く

目的: 汎化アルゴリズムはデータに依存アルゴリズムは時間とともに変わる

データの中のパターンを、コンピューターに

探させる (=学習させる)

天気 気温 風 試合をしたか?晴れ 低い ある Yes晴れ 高い ある No晴れ 高い なし No曇り 低い ある Yes曇り 高い なし Yes曇り 低い なし Yes雨 低い ある No雨 低い なし Yes

晴れ 低い なし ?

天気 気温 風 試合をしたか?晴れ 低い ある Yes晴れ 高い ある No晴れ 高い なし No曇り 低い ある Yes曇り 高い なし Yes曇り 低い なし Yes雨 低い ある No雨 低い なし Yes

晴れ 低い なし ?

Yes

Yes Yes

晴れ 曇り 雨

低い 高い なし ある

Two-Crass Boosted Decision Treeというアルゴリズムを選択した場合…

どの “列” が

何の “値” だったら妥当なのかを選んでくれる!

複数の

“Model” を作ってくれる!

(個数の指定が可能)

データ分割後の、件数

“Model” と比較!

Input data

Data Transformation

Train Model

Algorithm Split Data

Score Model

Evaluate Model

https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning-algorithm-choice

http://aka.ms/MLCheatSheet

「“50K” から上か下か?」つまり…

2つに「分類」するので…

数値予測

回帰分析Regression

・売上予測・需要予測・品質管理

ラベル予測

分類Classification

・不良品分析・故障予測・チャーン分析・販促効果測定・与信分析

データ分類

クラスタリングClustering

・セグメンテーション・顧客グルーピング・メールキャンペーン

Goal: 値を予測する

ゴールの例:何個

• 車の各種情報 価格

Goal: 分類を予測する

ゴールの例:不正か

Class 1 Class 2

2つ以上でも良い

「不良種類(成功含む)」を予測する分析器を作成

Goal: 構造を理解する

ゴールの例:顧客セグメント

Cluster 1

Cluster 2

Cluster 3

教師なし学習

がく片の幅

がく片の長さ

データの類似性から2種類に分類する

セトナ

バージニカがく片の幅

がく片の長さ

天気 気温 風 場所 試合をしたか?

晴れ 25 ある さいたま Yes晴れ 27 ある さいたま Yes晴れ 高い 10 東京 No曇り 5 ある 千葉 No雨 低い なし 神奈川 No

トレーニング用データセット

Features Target Value

データ処理

データ処理のためのモジュール

1) Raw Data ロード

2) トレーニング用の

データ作成

Data 2

Data 1

Data N

. . .

100011010011110111110110

陥りやすい罠

https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning-algorithm-choice

• 訓練用過学習

適合しなさすぎ(Underfitting)

××

× ×

××

×

××

××

××

××

×

×

×

○○

○ ○ ○○○

○○○ ○

××

× ×

××

×

××

××

××

××

×

×

×

○○

○ ○ ○○○

○○○ ○

××

× ×

××

×

××

××

××

××

×

×

×

○○

○ ○ ○○○

○○○ ○

ちょうど良い 適合しすぎ(過学習:Overfitting)

データ量データ項目(特徴)の数

データ項目(特徴)の数

Deep Learning画像解析, 音声認識, 自動生成

機械学習ラベル分類, 数値予測, データ分類

深層強化学習自立学習型ロボット自動運転車

重みづけ更新

重みづけ更新

重みづけ更新

Cat

Dog

• 畳み込み プーリング画像の特徴を自動抽出

畳み込み プーリング 畳み込み プーリング 全結合層 出力入力

犬 (0.01)猫 (0.04)ボート(0.94)鳥 (0.01)

ガウシアンフィルタの様な処理をして特徴を自動抽出する層

統計理論に基づいている

理論に基づいているわけでない 計算量が膨大爆発的に良い分析精度がでる

計算量の大きい深層学習は敷居が非常に高い

• コア数

行列計算 64bitもいらない

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知, 顧客グルーピング

数値予測売上予測, 需要予測, 品質管理

ラベル分類不良品分析, 故障予測, チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析分析のためには、莫大なデータ量、計算量、知識・スキルを要する

統計に基づいた手法での分析そのため、比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と、深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit / GPU Instance (N-Series)

マイクロソフトが提供する技術

機械学習の世界

機械学習を行うのに必要なもの

大量のデータ

データに対する知見

データ分析の

知識・経験

データ分析ツール・基盤

× × ×

分析用の大量のデータを保持できる

分析用データの意味を理解できる

分析内容やデータに適したアルゴリズムを選択できる

大量データを分析できるツールを持ち、使いこなせる

最も重要

https://docs.com/cloudcamp/7472/azure-developer-cloud-camp

セッションアンケートにご協力ください

専用アプリからご回答いただけます。

decode 2017

スケジュールビルダーで受講セッションを登録後、アンケート画面からご回答ください。

アンケートの回答時間はたったの 15 秒です!

Ask the Speaker のご案内本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにてご説明させていただきます。是非、お立ち寄りください。

© 2017 Microsoft Corporation. All rights reserved.

本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。