33

「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本
Page 2: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

「統計的パターン認識入門」

サンプルページ

この本の定価・判型などは,以下の URL からご覧いただけます.

http://www.morikita.co.jp/books/mid/084811

※このサンプルページの内容は,初版 1 刷発行当時のものです.

Page 3: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

◇本書のサポート情報などをホームページに掲載する場合があります.下記のアドレスにアクセスしご確認ください.

http://www.morikita.co.jp/support

■本書の無断複写は著作権法上での例外を除き禁じられています.複写される場合は,そのつど事前に(社)出版者著作権管理機構(電話 03-3513-6969,FAX 03-3513-6979,e-mail: [email protected])の許諾を得てください.

Page 4: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

i

ま え が きま え が きま え が き

本書は,統計的パターン認識の理論をわかりやすく解説する入門書である.読者には学部高学年の学生や大学院生を想定し,理論の背後にある基本的な考え方をくわしく説明している.パターン認識は,コンピュータの誕生とともに研究が開始され,まだ半世紀しか経っていない.したがって,その学問体系はまだ未整備であり,これまでさまざまなアプローチが提案されている.その中で,本書で説明する統計的パターン認識理論は,今日では標準理論ともいえる地位を得るに至っている.近年のハードウエア,ソフトウエアの急速な発展にともない,パターン認識がかつての理論的興味の対象から実際の課題を解決する理論として,その応用が急速に浸透している.代表的な応用として文字認識などの画像認識や音声認識はよく知られているが,最近ではヒトゲノム解析の癌診断にも応用されている.このような状況を鑑み,統計的パターン認識の全容を体系的にバランスよくまとめた教科書が必要と思い,本書を執筆することにした.本書の特色は,以下のとおりである.

©1 統計的パターン認識の識別系と特徴抽出系をバランスよく解説している.特に特徴抽出系の必要性と特徴選択法には,かなりの紙面をさいてくわしく説明している.©2 実際に役立つという観点から項目を取捨選択し,実用性を意識して説明している.特に small sample size問題と認識対象にかかわる話題には折々に触れている.©3 図や表を多用して,わかりやすいように配慮している.また数式は,その導出や意味についても説明している.©4 パターン認識の実際を体験できるように,計算機演習を用意している.©5 大学院生の便を考え,基本的な論文を文献としてあげている.©6 付録には,初心者のために本書を理解するうえで必要な数学的知識をまとめている.

Page 5: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

ii ま え が き

しかしながら,筆者の力不足に基づく誤り,説明不足,重要な文献の欠落などもあるであろう.読者諸氏のご批判を頂きたい.本書がパターン認識を初めて学ぶ学生への入門書であることはもちろんのこと,パターン認識の実際に携わる研究者,技術者へのよき参考書ともなれば幸いである.最後に,本書を執筆するにあたり,多くの人のお世話になった.山口大学の当研究室で統計的パターン認識の研究に取り組んできた学生の諸氏,特に大学院生の藤田悠介氏,村山卓也氏には読者の立場から貴重なアドバイスを頂き,飯田眞理さんと中山直美さんには原稿の入力・整理を手伝って頂いた.また,森北出版の方々には親切にお世話頂いた.心からお礼申し上げたい.

2009年 1月浜本義彦

Page 6: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

iii

目 次目 次目 次

記号の定義 ..................................................................................... vi

第 1章 統計的パターン認識理論の概要

1.1 はじめに .................................................................................. 1

1.2 統計的パターン認識の考え方 ....................................................... 1

1.3 おわりに .................................................................................. 9

参考文献 ....................................................................................... 11

第 2章 Bayes識別系

2.1 はじめに ................................................................................. 12

2.2 Bayes識別則............................................................................ 12

2.3 パラメトリック Bayes識別器 ...................................................... 16

2.3.1 線形識別器 ........................................................................ 17

2.3.2 Bayes 2次識別器 ................................................................ 25

2.4 パラメトリック Bayes識別器の設計 ............................................. 26

2.4.1 パラメータ推定 .................................................................. 26

2.4.2 訓練サンプル数の問題 ......................................................... 31

2.5 ノンパラメトリック Bayes識別器とその設計 ................................. 36

2.5.1 k最近傍識別器 ................................................................... 36

2.5.2 Parzen識別器 .................................................................... 37

2.6 可視化による識別器の設計 ......................................................... 40

2.7 おわりに ................................................................................. 45

Page 7: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

iv 目 次

問 題 ....................................................................................... 46

計算機演習 .................................................................................... 46

参考文献 ....................................................................................... 47

第 3章 識別系の評価

3.1 はじめに ................................................................................. 49

3.2 エラーカウンティング法 ............................................................ 49

3.3 古典的推定法 ........................................................................... 51

3.4 Bootstrap法............................................................................ 52

3.5 サンプル数の影響 ..................................................................... 56

3.6 ROC曲線................................................................................ 60

3.7 おわりに ................................................................................. 61

計算機演習 .................................................................................... 62

参考文献 ....................................................................................... 63

第 4章 特徴抽出系の設計

4.1 はじめに ................................................................................. 64

4.2 特徴抽出系の必要性とその概要 ................................................... 64

4.3 特徴選択法 .............................................................................. 67

4.3.1 特徴評価関数 ..................................................................... 68

4.3.2 最適化法 ........................................................................... 74

4.4 特徴抽出法 .............................................................................. 80

4.4.1 K-L展開 ........................................................................... 81

4.4.2 判別分析 ........................................................................... 86

4.4.3 正規直交判別ベクトル法 ...................................................... 90

4.4.4 非線形特徴抽出法 ............................................................... 93

4.5 おわりに ................................................................................. 96

Page 8: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

目 次 v

問 題 ....................................................................................... 97

計算機演習 .................................................................................... 97

参考文献 ....................................................................................... 98

付 録

1. 確率と統計 ............................................................................... 101

2. 線形代数 .................................................................................. 102

2.1 線形変換............................................................................. 102

2.2 直交変換............................................................................. 102

2.3 白色化変換.......................................................................... 103

2.4 偏微分................................................................................ 105

2.5 グラム・シュミットの直交化法............................................... 105

2.6 人工サンプルの生成.............................................................. 107

3. クラスタ分析 ............................................................................ 109

3.1 階層的クラスタリング法........................................................ 109

3.2 k-means法 ......................................................................... 111

4. 変数変換 .................................................................................. 111

5. 実データ .................................................................................. 112

5.1 8OXデータ......................................................................... 112

5.2 Irisデータ .......................................................................... 113

参考文献 ...................................................................................... 114

専門用語の説明 ............................................................... 115章末問題に対する略解と解答の指針 .................................... 117索 引 ..................................................................... 121

Page 9: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本
Page 10: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

1

第1章統計的パターン認識理論の概要統計的パターン認識理論の概要統計的パターン認識理論の概要

1.1 はじめに

認識の問題は,古くから哲学や心理学の分野で議論されてきた深遠なテーマであるが,コンピュータの誕生とともに情報科学や,工学の対象としても研究されるようになった.本書は,情報工学系の学生を対象としたコンピュータによるパターン認識の理論を解説した入門書である.これまで,パターン認識についてのさまざまな理論が提案されてきたが,本書で紹介する統計的パターン認識理論は,今日まで着実に発展をしてきた有力な理論の一つである.本章では,統計的パターン認識理論とは何か,その考え方を紹介しながら,順次基本的な専門用語を説明し,最後に本書の構成を述べる.

1.2 統計的パターン認識の考え方

1950年代に,文字を読んだり,人の会話を理解することができるなど,コンピュータに人間と同じような知的な活動をさせようとする,きわめて野心的な試みの一つとして,パターン認識の研究が開始された.今日では,さまざまな分野にパターン認識が応用されている.代表的なパターン認識の応用例を表 1.1

に示す.このパターン認識がいかに行われているかを,人間が文字を読み取る場合を例にして考えてみる.人間は,文字を見ると,目に写った幾何的図形を頭の中のある概念に対応づけ,それが何の文字であるかを瞬時に判断することができる.これを抽象化し,コンピュータ上のパターン認識とは,コンピュータに与えられたパターンを,それが本来属すべき正しいクラスへ対応づける所作と定義する.ではパターンとは,クラスとは何かということになる.まずパターンとは,

©1 認識すべき対象が数値化されたもの

Page 11: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

2 第 1章 統計的パターン認識理論の概要

©2 ある概念に属するか否かを判断できる性質を備えているもの

と定義する.また,クラスとは,パターンの属する概念(記号)であると定義する.このパターン認識をコンピュータ上で実現するモデルとして,図 1.1に示すようなパターン認識系が考えられている.パターン認識系は,観測系,前処理系,特徴抽出系,識別系の四つの処理系から構成される.外界に存在する認識すべき対象(以下,認識対象とよぶ)は,まず観測系に入力され,数値化される.たとえば認識対象が人間であれば,身長,体重,血圧などが測定される.これらの数値データをそれぞれ観測データとよび,認識対象はそれらを成分とする観

表 1.1 パターン認識の応用例

大分類 小分類

画像認識 文字認識文書理解ナンバープレート読み取り顔認識指紋同定シーン理解ロボット視覚自動検査

音声認識 特定話者認識不特定話者認識

医療診断 遺伝子診断時系列データの診断(心電図など)放射線画像診断

経済予測 株価予測

環境監視 化学物質の毒性診断リモートセンシング

図 1.1 パターン認識系のモデル

Page 12: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

1.2 統計的パターン認識の考え方 3

測パターン(ベクトル)としてとらえられる.つまり観測パターンは,観測軸を座標軸とする観測空間の一点として表されることになる.つぎに観測パターンは,前処理系に入力され,観測データに対してノイズ除去,正規化などが施される.前処理の施された観測データを成分とするベクトルは,パターン(ベクトル)とよばれ,認識対象はコンピュータ上でパターンとして表される.一般に観測軸は互いに相関をもつため,パターンが存在するパターン空間は冗長な空間である.つぎの特徴抽出系では,識別に有用な特徴を必要にしてかつ十分なだけパターンから抽出する.この特徴を抽出する座標軸を特徴軸とよび,特徴軸で構成(生成)される空間が特徴空間である.特徴空間では,認識対象は特に特徴パターンとよばれる場合がある.最後の識別系では,特徴空間上でパターンは識別器によりいずれかのクラスに識別される.具体的な例を用いて説明してみよう.まず観測系であるが,認識対象を手書き数字の「2」とする.観測系としてはカメラを考え,このカメラで認識対象を撮影し,画像としてコンピュータに取り込む.つぎにコンピュータ内でのパターン化であるが,一例として図 1.2に示すように,文字を囲む枠から文字「2」までの距離 dを観測データとし,これを 8方向で観測することにより,認識対象「2」を 8次元観測パターンとして記述する.観測データ (d1, . . . , d8)に適当な前処理を施し,これらを成分とするベクトルがパターン xとなる.

図 1.2 認識対象「2」の数値化

別の例として,図 1.3に示すように波形からのパターン化がある.この図では,正常な認識対象から得られる正常波形と,異常となっている認識対象から得られる異常波形の例を示している.この波形に対し,一定の時間間隔で波形の値を n回観測して観測データ x(t1),

x(t2), . . . , x(tn)を得て,それにノイズ除去などの前処理を施せば,波形は n個

Page 13: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

4 第 1章 統計的パターン認識理論の概要

図 1.3 認識対象の数値化,特徴選択の流れ

の観測データを成分とする n次元パターンベクトルとして記述される.つぎに,特徴抽出系ではパターンから正常波形と異常波形とを識別するうえで有用な観測データを特徴として選択する.この例では,正常波形は正規分布のように真ん中付近で最大となり,一方,異常波形は最初と最後のほうでピークとなっている.このことに着目して,異常波形のピークをとらえる二つの観測データと,正常波形の最大値をとらえる観測データを特徴として選択することにより,n次元パターン xが 3次元特徴パターン yとなる.これは,n次元から 3次元への次元圧縮である.このように,特徴抽出系では識別に有用な特徴をパターンから抽出し,パターンの次元圧縮を行っている.最後の識別系では,図 1.4に示すように,正常波形からのパターンと異常波形からのパターンを,それぞれ正常クラスと異常クラスへ対応づける識別器によって認識が行われる.ところで,パターン認識系の中で識別系以外の観測系,前処理系,特徴抽出系は,程度の差はあれ,いずれも認識対象の性質に強く依存している.たとえば文字などを観測するには,観測系はカメラで構成されるし,音声であればマイクロフォンとなる.このように何を認識対象とするかで観測系の構成はまっ

Page 14: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

1.2 統計的パターン認識の考え方 5

図 1.4 識 別

たく異なる.このことは,認識対象に近いほど,その影響をより大きく受けることを意味している.したがって,パターン認識問題は認識対象に関する研究をふまえるため,必然的にパターン認識理論が個別論にならざるを得ないのである.これがパターン認識の実現を困難にしている一因である.この状況を説明する一例をあげてみる [1].いま,認識対象を 2次方程式とし,クラスを実根をもつクラスと虚根をもつクラスとする.このとき,2次方程式から,いかなる観測データを得ればよいであろうか.答は,判別式の値を観測データとすれば,誤りなく認識対象を識別できる.これが可能なのは,認識対象である 2次方程式の性質が解明されているからである.しかし,認識対象の性質が解明されているパターン認識問題はむしろまれで,ほとんどが解明困難となっている.実際,文字認識では,人間がどのように文字を認識しているかは,いまだに解明されていない.では,どのようにすればよいのであろうか.人は,不確定な状況下で何か意思決定を行わなければならない場合,対象からできるだけ多くの情報を収集し,それらを総合的に考えて判断することがある.パターン認識もこの例にもれず,前述の文字認識では,どの観測データも決め手に欠けているものの,人の創意工夫に富んだ観測データを文字から大量に取りだして認識を行っている.しかし,多数の観測データを得るだけでは足りず,パターンを集まりとして総合的に考えるということが重要である.これは,観測データで記述されたパターンを個別に見るのではなく,パターンの集まりをパターンのなす分布(これをパターン分布とよぶ)とみなし,その統計的構造に着目することを意味する.このように,パターン分布の統計的構造に基づいてパターン認識問題を解く理論が,本書で紹介する統計的パターン認識理論である.この理論では,適切な観測データの組で構成された空間上に,同一のクラスに属するパターンが集まれば,それらは一つの分布をなすことを仮定している.この仮定は,外界に存在する認識対象間の類似性が観測空間上での遠近関係と

Page 15: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

6 第 1章 統計的パターン認識理論の概要

して保存される,と言い換えることができる.つまり,文字認識の例でいえば,似ている文字どうしは,観測パターンとしても観測空間上で近接していることを仮定している.この仮定が満たされれば,コンピュータでパターン認識を行うことは可能であり,満たされなければパターン認識を行うことはできない.図 1.5では,認識対象の Aと Bは同一のクラス ω1に属するものであり,認識対象 Cはクラス ω2に属するものであるとする.このとき図(a)の観測データでは上述の仮定が満たされているが,図(b)では満たされていない.つまり同じクラスに属するべきとみなされる認識対象は,それらに対応するパターンが観測空間上で互いに近い位置関係になければならない.このことを,この仮定は要請しているのである.

図 1.5 観測データの取り方

この仮定が成立すること,つまり上記の意味で適切な観測データが得られていることを前提に,統計的パターン認識理論は,多変量解析 [8]を母体としながら独自に進化してきたのである.実際には,観測データが適切に得られ,仮に上述の仮定が満たされているとしても,パターン分布の統計的構造はわかっていない.わからないから,母集団から抽出されたサンプル(事例)を用いてパターン分布に関する知識を獲得しようと試みる.これは,統計の分野では統計的推測とよばれるもので,パターン認識では学習としてとらえられる場合がある.この学習には,抽出されたサンプルに,それが属するクラスのラベル,つまりクラス名が付与されている場合と,そうでない場合がある.前者は教師あり学習,後者は教師なし学習とよばれる.統計の分野では,教師あり学習は外的

Page 16: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

1.2 統計的パターン認識の考え方 7

基準のある場合の推測に,また教師なし学習は外的基準がない場合の推測に相当する.教師あり学習では,サンプルの属すべきクラスのラベルが教師(認識問題の設定者)から与えられ,このラベル付きサンプルを用いてパターン認識問題を解くことになる.狭義のパターン認識とは,教師あり学習のパターン認識のことである.識別,予測,診断の問題を解くには教師あり学習が適している.一方,教師なし学習は属すべきクラスのラベルが付与されず,サンプル間の類似性などの情報を用いて分布の構造を解明するものであり,クラスタ分析がこれに相当する [11].本書は教師あり学習に主眼をおき,付録で教師なし学習としてクラスタ分析を簡単に概説する.教師あり学習では,クラスのラベル付きサンプルを用いて,クラスのパターン分布に関する知識を獲得する.このとき,パターン分布に仮定を設けるパラメトリックな立場と,分布に仮定を設けないノンパラメトリックな立場がある.パラメトリックな立場では,一般にパターン分布を正規分布と仮定し,このとき分布に関する知識は平均ベクトルと共分散行列であり,統計の分野ではこの学習はパラメータ推定とよばれている.図 1.6に統計的パターン認識の枠組みを示す.実際にはパターン分布は未知

図 1.6 統計的パターン認識の枠組み

Page 17: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

8 第 1章 統計的パターン認識理論の概要

であるが,仮に既知であれば,Bayes識別則(2.2 節参照)でパターン認識問題のすべてを解決することができる.この意味で統計的パターン認識の研究は,パターン分布解明の研究とも考えられる.特に,教師あり学習では,サンプルに付与されるクラスラベルの正しさがきわめて重要であることを指摘しておく.このラベル付けが正しくないと,誤った学習がなされる.認識問題の設定者である教師が,何を認識すべきであるかを十分に吟味してからサンプルを選択し,そのラベル付けを行わなければならない.ここに,サンプルの質の問題がある.サンプルの質に関しては,いかなる認識対象をサンプルとするべきか,またその数値化はいかにあるべきかもポイントとなる.この質に関する議論は重要で,一般には数は論理的に扱うことができるが,質は論理的に取り扱うことはできない.それゆえ,サンプルの質は,論理ではなく,認識問題の設定者(教師)が有する当該分野の知識をふまえた主観,つまり設定者の価値観によって決まるといっても過言ではない.このように価値観という非論理の要素をふまえることが,パターン認識には必要であることを渡辺も指摘し [2],[4],このこともパターン認識の実現を困難にしている一因である.最後に,実際に行われるパターン認識系構築の流れについて,図 1.7を用い

図 1.7 パターン認識系構築の流れ

Page 18: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

1.3 お わ り に 9

て説明してみよう.まず,認識対象の集まりからのサンプルの収集がある.前述したように,サンプルには数だけではなく,その質も重要である.それゆえ,事例としてふさわしいサンプルを選ぶ必要がある.たとえば文字認識の例では,ていねいに書かれた文字は,模範となり,事例としてふさわしいものとなる.このような意味において,統計的パターン認識のサンプル抽出は,統計学の無作為抽出とは異なる.つぎに,サンプルとして認められた認識対象に対して適切な観測系により数値化(センシング)が行われ,観測パターンを得る.ここで,あらためて,その認識対象がサンプルとしてふさわしいか,また観測の手段(数値化の仕方)が妥当かを検証する.この検証では,当該分野の先見情報からのチェック,あるいは観測空間から 2次元空間への変換(これを可視化とよぶ)やクラスタリングなどにより,外れ値となるような異常な観測パターンの検出などが行われる.このとき,必要に応じてサンプルの削除や収集を行う.これらのチェックが行われたのちに,特徴抽出系において特徴の選択や抽出が行われる.得られた特徴を用いて識別器を設計し,その識別器を用いて当初予定されていた識別性能に達しているか否かをチェックする.識別性能が達していない場合は,特徴や識別器の取りかえなどを行う.具体的には,特徴選択,特徴抽出や識別の方法を変えたり,あるいは特徴数を増減させたりして,再び識別性能を評価する.これを繰り返し,識別性能の意味で特徴抽出系と識別系の最適化を行う.最後にフィールド評価を行う.ここで予定された性能が出ない場合は,サンプルの吟味や収集,あるいは観測系の変更まで遡ることになる.このように,パターン認識系の構築は,単純なものではなく,試行錯誤により認識対象に関する知識を深めてパターン認識系を改善していくという,探索型データ解析にならって行うのが実際的である,と考える.

1.3 おわりに

本章では,統計的パターン認識の考え方をくわしく述べた.この統計的パターン認識理論は,数値化された認識対象をパターンとして表し,個々のパターンからではなく,それらパターンのなすパターン分布の統計的構造から,パターン認識問題を解こうとする理論である.

Page 19: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

10 第 1章 統計的パターン認識理論の概要

今日まで着実に進歩してきたが,統計的パターン認識理論は,多変量解析を母体とするがゆえに,多変量解析と同様に,認識対象からいかに観測データをとるべきかという数値化問題には立ち入らず,与えられた観測データを基に認識対象をクラスへ対応づけるという問題しか解答を与えていない.この意味で統計的パターン認識理論は問題の後半しか解いていないといえる [9].したがって,認識対象の性質を十分に検討したうえで,サンプルとしての認識対象の選択とその数値化を行わなければならない.認識対象の研究なくしてパターン認識問題を解くことはできないのである.以下,本書の構成を述べる.図 1.8に統計的パターン認識理論の概要と本書との対応を示す.第 2章では識別系としてBayes識別系とその設計法を紹介し,第 3章では識別系の評価法として誤識別率の推定法を説明する.第 4章では特徴抽出系の設計法として特徴選択法と特徴抽出法を説明する.

図 1.8 統計的パターン認識理論の概要と本書の構成

Page 20: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

49

第3章識別系の評価識別系の評価識別系の評価

3.1 はじめに

設計された識別器のもっとも直接的な評価は,その誤識別率を調べることにより行われる.誤識別率は,前章で述べたように,原理的には評価対象の識別器が定める識別面に基づいて,他クラスの領域へ誤って入り込んだパターンの確率を,多重積分を行うことによって求められる.しかし,これは現実には無理である.まず確率密度関数が未知であるし,たとえそれを推定できたとしても,その多重積分は,次元数が大きい場合は実行不可能である.そこで誤識別されたサンプルを数え上げるエラーカウンティング法が考えられている.本章では,このエラーカウンティング法を基にした誤識別率の推定法をいくつか紹介し,サンプル数の影響や ROC解析についても説明する.

3.2 エラーカウンティング法

エラーカウンティング法は,モンテカルロ法の考えに基づくもので,事前知識や複雑な計算を必要としない,すぐれたアプローチである.基本となるモンテカルロ法とは,ランダム性を活用した計算法である.このモンテカルロ法の考え方を説明するために,図 3.1に示すような,1辺 rの正方形内にある複雑な図形の面積 S を求める問題を考えてみよう [15].モンテカルロ法では,この正方形の中にランダムに N 個の点を打ち,図形の中に入る点を数え上げ,それを nとする.このとき図形の面積 S は

r2 : S = N : n

と関係づけられるため

S =n

Nr2 (3.1)

により,S の値を近似的に求めることができる.

Page 21: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

50 第 3章 識別系の評価

図 3.1 モンテカルロ法の考え方

図 3.2 誤識別率の推定

この考えを基に誤識別率を推定する方法を考えてみよう.図 3.2に示すように,評価対象の識別器により識別面が設定されているとする.図中には,母集団からランダムに抽出されたサンプルがクラス ω1については○で,クラス ω2

については×でプロットされている.エラーカウンティング法では全サンプルのうちで,他クラスに識別される領域へ入り込んだサンプルを数え上げ,全サンプルに対するその割合を誤識別率とする.図 3.2の例では,R1 に入り込んだクラス ω2 のサンプルが二つ,R2 に入り込んだクラス ω1のサンプルが一つである.全サンプル数を N とすると,誤識別率は 3/N となる.別の表現をすれば,この推定法では,まずサンプルを用いて識別器を設計(識別面を設定)し,つぎにその識別器で誤識別されたサンプルを数え上げ,全サンプルに対するその割合を求めることになる.なお,誤識

Page 22: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

3.3 古典的推定法 51

別率の推定量は,サンプルの関数であるから確率変数であり,推定値はサンプル,サンプル数,次元数,識別器によって異なるものであることを指摘しておく.前章で述べたように,識別器を設計(学習)するために用いられるサンプルを訓練サンプルとよび,識別器の誤識別率を求めるために用いられるサンプルをテストサンプルとよぶ.問題は,母集団から抽出されたサンプルを,訓練サンプルとして,またテストサンプルとしていかに使い分けるか,である.

3.3 古典的推定法

いま,利用できるN 個のサンプルからなるサンプル集合 XN が与えられているとする.もっとも簡単な誤識別率の推定法は,再代入法(Resubstitution法)である.再代入法ではサンプル集合XN を,訓練サンプル集合として用いたのちに,再びテストサンプル集合としても用いる.再び用いるということから,再代入法という名がついている.この手法の長所はその簡単さにあるが,一般に真の誤識別率よりも低いほうへ偏った誤識別率が得られるという短所がある.ここで,真の誤識別率とは,無限個のサンプルを用いて得られる誤識別率を意味する.つまり,無限個のサンプルを用いて識別器を設計し,その識別器を無限個のサンプルで評価したときの誤識別率が真の誤識別率である.直感的には,低いほうへ誤識別率が偏るのは,一度学習したサンプルをテストに用いるために,本来の実力以上のよい性能となっているからと解釈できる.これは特定のサンプル集合に合わせすぎるという over fittingの問題に関連する [9].なお再代入法による誤識別率を apparent error rateとよぶことがある.再代入法の短所は,訓練サンプルとテストサンプルの独立性がないことに起因する.この独立性を保つ一手法として分割法(Holdout法)が考えられている.分割法では,サンプル集合XN を,ランダムに訓練サンプル集合とテストサンプル集合に分割する.しかし,実際のパターン認識問題では利用できるサンプル数は少ない.分割法では,それを分割するために訓練サンプル数はより少なくなり,結果的に真の誤識別率よりも大きいほうへ偏った誤識別率が得られることになる.この偏りを低減させるためには,サンプル数を増加させなければならない.しかしサンプル数を増加させることは一般に困難であるため,サンプルの利用効率を高める leave-one-out法が Lachenbruchによって提案されている [1],[2].この leave-one-out法は,Cross-Validation法(交差確認法)の

Page 23: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

52 第 3章 識別系の評価

特別な場合として分類される.leave-one-out法では,サンプル集合XN の中からサンプルを一つ抜き取り,それをテストサンプルとする.残りの N − 1個のサンプルからなるサンプル集合XN−1を,訓練サンプル集合として識別器を設計する.この識別器で抜き取っておいたテストサンプルを識別する.以上の処理を,すべてのサンプルがただ一度限りテストサンプルとして用いられるまで繰り返す.つまり,処理をN 回繰り返すことになる.leave-one-out法では,すべてのサンプルが,各処理において訓練サンプルとテストサンプルの独立性が保たれ,全体としては訓練サンプルとして,またテストサンプルとしても用いられるため,サンプルの利用効率が高められている.これによって leave-one-out法は,分割法に比べて真の誤識別率からの偏りが小さい誤識別率が推定される,という長所をもっている.しかし,©1 識別器をN 回設計しなければならない,©2 推定値の分散が大きい,という短所がある.©1 の計算コストの問題に対しては,Fukunagaが 2次識別器に対して再代入法に要する計算量で再代入法と leave-one-out法の両方を実行できるアルゴリズムを提案している [3],[14].また Fukunagaは,誤識別率の推定値の偏りは訓練サンプル数に,その分散はテストサンプル数に依存することを指摘している [3].これから,leave-one-out法ではテストサンプルが各処理において一つであるため,必然的に分散は大きくなることが理解できる.

3.4 Bootstrap法

Bootstrap法は,Efronによって提案された誤識別率の推定法である [4].その考えは,今日ではさまざまな分野に適用され,多くの成果を得ている [5].前述したように,再代入法による誤識別率は真の誤識別率よりも低いほうへ偏っている.Efronはこの偏りの補正項を計算するために Bootstrap法を考えた.まず,サンプル集合XN から復元抽出でN 回サンプルを抽出する.ここで復元抽出とは,サンプルを一つランダムに抽出するたびに,抽出されたサンプルを元にもどす抽出法である.したがって復元抽出では,同じサンプルを 1 回以上抽出することを許している.抽出されたサンプルは Bootstrapサンプルとよばれる.いま i回目の試行において,Bootstrapサンプルからなる集合を Bootstrap

Page 24: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

3.4 Bootstrap法 53

サンプル集合 XiB(N) と表す.この集合 Xi

B(N) を用いて再代入法により誤識別率を求め,それをEi

R(B)と表す.つぎに集合XiB(N)を用いて設計された識

別器で集合XN のサンプルを識別し,得られた誤識別率を Ei(B)と表す.この

Ei(B) を仮に真の誤識別率と見立てている.なお,集合 Xi

B(N) と集合 XN は一般に異なり,それらを用いた誤識別率には

EiR(B) ≤ Ei

(B)

という関係がある.これらの誤識別率の差に注目し,以上の試行を独立に r回繰り返して

b =1r

r∑i=1

(Ei

(B) −EiR(B)

)(3.2)

を求める.この bが補正項となる.したがって,集合XN を用いて再代入法により求めた誤識別率ERに補正項 bを加えて,Bootstrap法の誤識別率EB は

EB = ER + b (3.3)

で与えられる.Efronは,シミュレーション実験を行い,r = 200とすることを推奨している.図 3.3に Bootstrap法の概要を示す.

Bootstrap法の本質は,与えられた一組みのサンプル集合しか利用できず,追加のサンプルが利用できない状況下においても,サンプルのなす分布を再標本化することにより,人工的に生成した Bootstrapサンプルを用いることで,分

図 3.3 Bootstrap法による誤識別率の推定

Page 25: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

54 第 3章 識別系の評価

布に関する知識を積極的に獲得することにある.また,その魅力は,従来解析的に解けない問題も,コンピュータの活用による数値的解法で解けるところにある.

Bootstrap法の評価は,多くの研究者によってなされ,以下に代表的なものを紹介する.まず,Jainらはサンプル数が少ない状況下で Bootstrap法と leave-one-out

法を比べ,Bootstrap法による誤識別率の分散のほうが小さい,という実験結果を示している [6].また Fukunaga も利用できるサンプル数が少ないとき,Bootstrap法の分散のほうが小さいことを実験的に示している [3].Bootstrap

法には e0 Bootstrap 法,0.632 Bootstrap 法,MC-Bootstrap 法,Convex-

Bootstrap法などの変形が提案されている [7].これらの比較検討については,Chernickらの研究がある [8].このように,Bootstrap法は利用できるサンプル数が少ないとき,特に有効であることが示されている.しかし,パターン分布や用いる識別器によっては,Bootstrap法の変形の間で優劣が生じ,どの変形を選ぶかは実験的に調べるしかない.また膨大な量の数値計算も課題となっている.以上の再代入法,分割法,leave-one-out法および Bootstrap法を,表 3.1に要約する.つぎに数値例として,8OXデータ(付録 5.1)と Irisデータ(付録 5.2)を用いて誤識別率の推定を行い,その結果をそれぞれ表 3.2,表 3.3に示す.なお,最近傍識別器に対しては再代入法の誤識別率はつねにゼロとなり,誤識別率の推定は意味がない.くわしく説明すると,通常の最近傍識別器では訓練サンプルをプロトタイプとするため,訓練サンプルとテストサンプルが同じである再代入法の場合,誤識別率はつねにゼロとなる.再代入法の誤識別率を用いる Bootstrap

法も同様で,最近傍識別器には適用できない.分割法については,8OXデータに対して共分散行列の正規性を保つために,各クラス最初の 10個のサンプルを訓練サンプルとし,残り 5個のサンプルをテストサンプルとした.このように分割したのは,8次元の 8OXデータに対して,共分散行列の正則性を保つには,次元数以上の訓練サンプルが各クラスで必要であるという理由があるからである.この正則性の理由から,8OXデータに対して Bootstrap法により標本 Bayes 2次識別器の誤識別率を推定することができなかった.

Page 26: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本
Page 27: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

64

第4章特徴抽出系の設計特徴抽出系の設計特徴抽出系の設計

4.1 はじめに

第 1章で述べたように,認識対象から観測データをいかにとるべきかについては,一般論は存在せず,認識対象の研究をふまえて個別に対応しなければならない.実際の観測データには不完全な情報しかないため,認識対象から数多くの観測データがとられることになる.しかし,あまりにも多くの観測データを用いることは,識別系を設計するうえで重大な問題となる.この問題を 50年も前に指摘したのは Raoであった [1].本章では,まず,この問題を解決する特徴抽出系の必要性を指摘し,続いてその設計法である特徴選択法(4.3 節参照)と特徴抽出法(4.4 節参照)をそれぞれ,くわしく紹介する.

4.2 特徴抽出系の必要性とその概要

まず,いくつかの専門用語を定義する.認識対象から観測データを抽出する座標軸を観測軸とよび,観測データとは,その座標軸上の座標値を指す.暗黙のこととして,通常,観測軸はユークリッドの標準基底が採用され,観測空間はユークリッド空間として表される.観測軸の数が,観測空間の次元数であり,パターン空間の次元数でもある.前述したように,Raoはあまりにも多くの観測軸を用いることの問題を最初に指摘したが,この問題を端的に示しているのがピーキング現象である [2],[3].ピーキング現象とは,訓練サンプル数一定のもとで次元数を増加させていくと,最初は識別率は上昇していくが,ある次元数(未知)を越えると識別率が減少していく現象である.訓練サンプル数が限られているときに,観測軸の数(次元数)をむやみに増加させても識別性能は改善されず,増加させすぎると逆に劣化してしまうことになる.この現象は,直感的にはつぎのように説明される.観測軸を追加することは

Page 28: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

4.2 特徴抽出系の必要性とその概要 65

新しい識別情報が加わることであり,識別性能にとってはポジティブな効果がある.しかし観測軸の追加にはネガティブな効果もある.次元数を増加させると識別器の学習すべきパラメータ数が増加し,訓練サンプル数を一定としてこれらを学習すればパラメータの推定誤差も増加する.結果的に信頼性の低いパラメータ値を組み込む識別器の性能は劣化してしまう.次元数が増加する最初はポジティブな効果が支配的で,ある次元数を越えるとネガティブな効果が支配的となる.これによりピーキング現象が生じていると理解される [2].問題は,ある次元数とは何であるかである.これは未知であり,この最適な次元数は識別器,訓練サンプル数,データによって異なるため,これを求めることはきわめてむずかしい.ただ一般的にいえることは,観測軸数はこの最適次元数よりもかなり大である.したがって,適当な次元圧縮を行うことで識別性能を高めることが期待できる.つまり,観測軸の中で識別に有用な情報を提供する観測軸のみを選択して用いるような取捨選択の機能が,パターン認識系には必要なのである(図 4.1参照).これを役割とするのが特徴抽出系である.これとは別の観点から,Watanabeは,みにくいアヒルの子定理を導き,次元圧縮の必要性を説明している [4].みにくいアヒルの子定理は,意味のない観測軸を用いると,二つのクラスの識別が困難となるため,少数の識別情報に富んだ特徴軸を得ることが重要であると主張している.さらに渡辺 [5],[28]は,観測軸の重要性がパターン認識問題の設定者の価値観によって決まるものであ

図 4.1 ピーキング現象と特徴抽出系の役割

Page 29: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

66 第 4章 特徴抽出系の設計

り,パターン認識は,非論理的要素である価値を導入しなければ成り立たないと指摘している [5],[28].前述したように,このこともパターン認識の実現を困難にしている一因である.識別において意味のある観測軸の設定問題,すなわち認識対象の数値化問題は第 1章でも言及しているが,それだけ認識対象にかかわる問題はパターン認識にとって本質的なのである.第 1章でも述べたように,認識対象に近いほど,パターン認識系の各処理はその影響を受ける.そのため,特徴抽出系は識別系よりも一般論を展開することが困難である.しかし,与えられた観測軸を基にそれらのよさを評価したり,それらを用いて新たな特徴軸を生成する理論を展開することは,ある程度可能である.さて,特徴抽出系の設計法は,特徴選択法と特徴抽出法に大別される.特徴選択法では,与えられた観測軸の中で識別に有用な情報を提供するものを特徴軸として選択する.一方,特徴抽出法では,与えられた観測軸を合成して識別情報に富む新しい特徴軸を生成する.合成の仕方には線形と非線形があり,それぞれ線形特徴抽出法,非線形特徴抽出法とよばれている.図 4.2(a)は,特徴選択法の例であり,図(b)は,特徴抽出法の例である.いずれも 5次元空間から 2次元空間への次元圧縮を行っている.図 4.3は,2次元から 1次元への次元圧縮で,特徴選択法と特徴抽出法の違いを端的に表現している.図 4.3(a)では,観測軸 e1と e2を比較した場合,e1では二つのクラスがよく分離しているので,e1を特徴軸として選択している.図 4.3(b)では,

図 4.2 特徴抽出系における次元圧縮

Page 30: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

4.3 特徴選択法 67

図 4.3 特徴抽出系の例

観測軸 e1,e2いずれもあまり有効ではないため,それらを合成(線形結合)して新しい観測軸 f1を生成し,これを特徴軸として採用している.この f1上では二つのクラスがよく分離しているため,f1は明らかに e1,e2を上回る識別情報を提供するすぐれた特徴軸である.このように,特徴選択法と特徴抽出法は,まったく異なるものであり,問題に応じていずれを用いるべきかを判断することになる.ただ特徴抽出法には注意すべきことがある.特徴選択法は,有用な情報を提供する観測軸を特徴軸とするため,特徴選択の特徴軸には観測に関して実世界との接点がある.たとえば,体温とか身長とか,特徴軸の実体がわかるのである.一方,特徴抽出法では特徴軸は新しく合成される架空の座標軸で,その物理的意味は不明である.しかも識別情報の多寡に関係なく,すべての観測軸を合成している.みにくいアヒルの子定理が指摘しているように,識別情報に乏しい観測軸を組み込むことは注意しなければならない.以上は,まず特徴選択により,有望な候補観測軸を絞り込んでから特徴抽出を行うことが有効であることを示唆している.特にパターン空間の次元数 nの値が大きい場合は一考に値する.

4.3 特徴選択法

特徴選択法を確立するためには,特徴評価関数とその最適化法を定めなければならない.このことは,特徴評価関数と最適化法の組み合わせの数だけ,特徴選択法が考えられることを意味し,特徴選択法では何を特徴評価関数として用いるか,またそれをどのように最適化しているのかに着目すべきである.こ

Page 31: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

121

索 引索 引索 引

英字Bayes 2次識別器 25

Bayes誤識別率 14

Bayes識別器 16, 36

Bayes識別系 12

Bayes識別則 12

Bootstrap法 52, 55

Cross-Validation法 51

Fisher 線形識別器 18

Fisher 比 73, 75

Holdout法 51

Irisデータ 113

Karhunen-Loeve 展開80

k-means法 111

leave-one-out法 51, 55

mクラス問題 25

over fitting問題 51

Parzen 識別器 37

RDA法 33

Resubstitution法 51

ROC曲線 60

Sammon法 94

SBS法 76, 79

SFFS 法 77, 79

SFS法 76, 79

small sample size 問題45, 90

あ行エラーカウンティング法

49

重みベクトル 18

か行階層的クラスタリング法

109

学習可能性 60

可視化 40

価値観 8, 65

観測空間 3, 115

観測軸 3, 115

観測データの取り方 6

観測パターン 2

感 度 61

教 師 7, 115

教師あり学習 7, 115

教師なし学習 7, 115

共分散行列 101

共分散行列の平均化 30

クラス 2, 115

クラスタ分析 109

グラム・シュミットの直交化法 105

訓練サンプル 26, 116

決定境界 115

交差確認法 51

誤識別率 13, 116

固有値 102

固有ベクトル 102

さ行最急降下法 95

最近傍識別器 36, 116

再代入法 51, 55

最短距離識別器 20

最適化法 74

サンプルの質 8

サンプルの収集 9

識別器 3, 115

次元圧縮 4, 65, 116

事後確率 12

事前確率 13

斜交系 89

人工サンプル 37, 45, 107

推定値 27

推定量 27

数値化 2, 10

正規化 3

正規直交判別ベクトル法90

正規分布の確率密度関数16

線形識別器 18, 116

線形特徴抽出法 66, 116

た行多変量解析 6, 10, 96

逐次型後向き最適化法76

逐次型前向き最適化法75

直交系 89

直交変換 102

テストサンプル 26, 116

テプリッツ近似 31

統計的距離 69, 70

統計的パターン認識 5

統計的パターン認識の枠組み7

特異度 61

特徴空間 3, 115

特徴軸 115

特徴選択 116

特徴選択法 66

特徴抽出 116

特徴抽出系 2, 66

特徴抽出法 66

特徴評価関数 68

な行2次識別器 17, 116

認識対象 2

ノンパラメトリック Bayes

Page 32: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

122 索 引

識別器 36

ノンパラメトリック学習7, 115

は行白色化変換 103

パターン 1, 115

パターン空間 3, 115

パターン認識系 2

パターン認識系構築の流れ8

パターン認識の定義 1

パラメータ推定 26, 115

パラメトリック Bayes識別器 16

パラメトリック学習 7,

115

判別分析 86

ピーキング現象 65

非線形特徴抽出法 66, 93

標本共分散行列 28

標本平均ベクトル 28

部分空間法 85

不偏推定 27

プロトタイプ 36

分割法 51, 55

ま行前処理 3

マハラノビス距離 24, 69,

70

みにくいアヒルの子定理65

モンテカルロ法 49

ら行ラグランジェの未定乗数

88, 105

ラベル付きサンプル 7

ランダムベクトル 101

Page 33: 「統計的パターン認識入門」 サンプルページ · よるパターン認識の理論を解説した入門書である. これまで,パターン認識についてのさまざまな理論が提案されてきたが,本

著 者 略 歴浜本 義彦(はまもと・よしひこ)

1981 年 山口大学工学部電子工学科卒業1983 年 山口大学大学院工学研究科電子工学専攻修了1983 年 日本電気入社1986 年 同上 退社1987 年 山口大学工学部電子工学科助手1992 年 博士(工学)東京工業大学1998 年 山口大学工学部知能情報システム工学科教授2006 年 山口大学大学院医学系研究科兼

山口大学工学部知能情報工学科教授現在に至る

統計的パターン認識入門 c© 浜本義彦 2009

2009 年 7月 27 日 第 1 版第 1 刷発行 【本書の無断転載を禁ず】

著 者 浜本義彦発 行 者 森北博巳発 行 所 森北出版株式会社

東京都千代田区富士見 1-4-11(〒102-0071)電話 03-3265-8341 / FAX 03-3264-8709http://www.morikita.co.jp/日本書籍出版協会・自然科学書協会・工学書協会 会員

<(社)出版者著作権管理機構 委託出版物>

落丁・乱丁本はお取り替えいたします

印刷/ワコープラネット・製本/ブックアートTEX 組版処理/(株)プレイン http://www.plain.jp/

Printed in Japan/ ISBN978-4-627-84811-5