CG Image Recognition with Deep Learning

プロジェクト3A最終発表14K1020 髙尾航大

プロジェクトテーマ

DeepLearningを用いて

3次元オブジェクトの特徴量を

2次元画像として抽出し、

カテゴリタグ付けを自動的に行う。

プロジェクトテーマ(図解)

なんか長い部分がある

3次元データ

人工知能

特徴量抽出

うさぎ

カテゴリ判定

動物耳長い

inputoutput

(実際はこんなものではない)

NeuralNetworkについて

MNIST手書き文字認識

MNISTと呼ばれる手書き文字のデータセットで学習を進める

28×28ピクセルの画像

MNIST = 学習用画像 : 5万枚 / テスト用画像 : 1万枚

ベクトル化

1つの画像は 28×28 = 784 ピクセルを保有している

これをベクトルに落とし込む

𝑖𝑚𝑎𝑔𝑒𝑖 =

0000⋮.6.81⋮0000

ベクトル化

5万枚の学習用画像は以下のベクトル集合で

表すことができる。

ベクトル化

学習用画像はその画像が何の数字であるかを保持するベクトル

も同添字として紐付けられている。

パーセプトロン

人間の脳細胞をモデル化

ステップ関数であるため微分不可能で機械学習に向かない

シグモイドニューロン

パーセプトロンの改良

連続関数であるため微分可能で機械学習に向く(線形分離可能)

ニューラルネットワーク

シグモイドニューロンを沢山使用して学習を行う

入力に784次元ベクトル(画像の配列)

バイアスと重みをコスト関数に従って更新していくこと

学習

誤差逆伝播法

入力信号と教師データの誤差を小さくするように

勾配降下法

全体の結合重みを調整

E : 一時解と最適解の二乗誤差

ソフトマックス回帰

実際に一時解ベクトル𝑦が出力される際は、ソフトマックス回帰によって正規化される

TensorFlowでのMNISTテスト

精度91％….

TensorFlowでのMNISTテスト

公式ドキュメントでは99.7％以上の精度でなければ良い結果とは言えないと書かれている。

畳み込みディープニューラルネットワーク

Watson API の使用

TensorFlowの画像認識ライブラリ環境設定がうまく行かず使用断念。

Watson Visual Recognition

教師用画像を用意してネットワークを学習させ、カテゴリ分けを行う。

http://visual-recognition-demo.mybluemix.net/

学習

今回は「うさぎ」と「顔」と「その他」を区別することを考える。

教師用画像の用意

100枚

100枚

100枚

カラー画像で学習させた場合(うさぎ)

87％

66％

62％

72％

モノクロ画像で学習させた場合(うさぎ)

87％→ 89％

66％→ 71％

62％→ 63％

72％→ 74％

人間の顔の認識( カラー→モノクロ )

85％→ 85％ 79％→ 75％

その他

認識せず。

結論・今後の課題

WebアプリのUIと保守性を改良することができた。

この知能をWEBアプリ内に組み込む

3カテゴリの学習による分類は70％前後の精度で成功した。

学習カテゴリを増やしても精度が保たれるかの実験を行う

カテゴリ抽出後に連想語を関連付ける

Technology

CG Image Recognition with Deep Learning