Semi-Supervised SVM

サポートベクトルマシン第 12 章　弱ラベル学習のためのサポートベクトルマシン瀬戸山　幸大郎

12.1 弱ラベルデータとは→ 出力ラベルが部分的で不十分な場合のデータ※ 出力ラベルは専門家が人手で与える場合もあり，コストがかかる・半教師あり学習一部のデータにのみ入力特徴 x と出力ラベル y が与えられ，残りの大部分は入力特徴 x のみが与えられる学習・マルチインスタンス学習個々の事例でなく，事例の集合にラベル情報が与えられる学習

12.2 半教師あり学習のためのSVMラベルあり事例

ラベルなし事例 L: ラベルあり事例の添字の集合U: ラベルなし事例の添字の集合

線形 2 クラス分類を例として考える．入力出力決定関数

・決定関数 f に加えてラベルなし事例のラベルも推定する

・クラスバランスの制約を導入する

・クラスバランスの制約ラベルなし事例のクラス比はラベルあり事例のクラス比と等しくなければならない．ラベルあり事例の正クラスの割合

緩和して（ 12.2）

のとき，

問題設定1. 未知データの分類を目的とした決定関数 fの推定2. ラベルなし事例のラベル推定が目的で汎化性能は気にしない（トランスダクティブ学習）

と固定する．

参考 1 http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1829-04.pdf>参考 2 http://www.gatsby.ucl.ac.uk/aistats/fullpapers/198.pdf

http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1829-04.pdf

http://www.gatsby.ucl.ac.uk/aistats/fullpapers/198.pdf

・半教師あり SVM

ラベルあり事例に対する正則化パラメータラベルなし事例に対する正則化パラメータ

C が大きい　 = 　ハードマージンに近づくy の値が既に判明しているデータを重視して決定境界を引く

ただし， (12.4)は　　　　　に関して離散最適化問題となっているので，小規模のデータでない限り，最適解を得るのは困難．

仮に決定関数 f が決まっていた場合…

離散最適化問題ではなくなったが，これは非凸最適化問題である．→ 大域的最適解を得るのは困難なため，局所最適解を CCCP法を用いて求める．

参考 http://ibisforest.org/index.php?CCCP

http://ibisforest.org/index.php?CCCP

目的関数を凸関数と凹関数に分解する．凸： convex凹： concave

凸関数と線形関数の和は凸関数であるので，各ステップの式 (12.7) は凸最適化問題となる．凸関数に凹関数の線形近似を加えたものを最小化する

・なぜ式 (12.7)の最適化が式 (12.6)の最適化になるのか？(12.7) より，

凸関数凹関数

(12.9) ， (12.10)より

(12.8) を代入して，

となり，確かに式 (12.7) で求まる最適解は式 (12.6) の最適解になっている．

12.3 マルチインスタンス学習のためのSVMマルチインスタンス学習とは…

個々の訓練集合にラベルが与えられるのでなく，バッグ（ bag）と呼ばれる訓練事例の集合に対してラベルが与えられる．・各バッグは複数の事例から構成される．・各事例は正事例か負事例に属している．・バッグが正事例を一つでも含んでいれば正バッグと呼ぶ．・バッグが負事例のみを含んでいれば負バッグと呼ぶ．ラベルが与えられたとき，負バッグの場合は，含まれる事例がすべて負事例だとわかる．正バッグの場合は，正事例と負事例の判断ができない．

→ 正バッグに含まれる事例のラベルを推定しつつ，分類境界を求める

エイが写っていないエイが写っている

バッグ：写真事例：写真に写っている生物ラベル：エイが写っているかどうか

エイが写っていないエイが写っている

エイではないどれがエイだろうか？

どの生き物がエイなのかの判断も含めて学習する．

・マルチインスタンス SVMバッグの数：事例の総数：入力ベクトル：

( )

個々のバッグの訓練データ：番目のバッグに含まれる事例の添字の集合

はバッグのラベル正バッグの集合：負バッグの集合：正バッグの事例の集合：負バッグの事例の集合：

マルチインスタンス SVMのアプローチ1.mi-SVM ：すべての事例のラベルを推定し，各事例のラベルに基づいて学習を行う．2.MI-SVM ：各バッグの代表事例を決め，代表事例とバッグのラベルを用いて学習を行う．

(1) mi-SVM

(12.12a) は決定関数 f と正バッグ事例について最適化している．(12.12b) は正バッグに含まれる事例の少なくとも一つは正事例であるという条件半教師あり SVMと同じで，離散最適化問題であり，正バッグの事例のラベルと決定関数が鶏卵の関係正事例のラベルに関する制約条件があるため，ラベルは以下のように場合分けして推定する．

参考 https://www.robots.ox.ac.uk/~vgg/rg/papers/andrews_etal_NIPS02.pdf

https://www.robots.ox.ac.uk/~vgg/rg/papers/andrews_etal_NIPS02.pdf

各事例のラベルはバッグのラベルで初期化することが推奨されている

正バッグ事例を固定して決定関数 fを得るある正バッグか，すべて正バッグに含まれるすべての事例のラベルが不変だった場合に停止では？

(2) MI-SVMマルチインスタンス学習では，決定関数 f が与えられたとき，ラベルは

と与えられる．マルチインスタンス学習をバッグのラベル推定問題とみなすと，各バッグにおいてが最大となる事例を代表事例とみなして、

式 (12.15b) で各バッグにおいて　　が最大となる i を推定し　に代入．式 (12.15a) で代表事例についてのみ最適化を行う．負バッグの事例のラベルはすべて負になるので，正バッグのみに制約条件を課した次のような定式化がより有効．

に，とを代入して，

あるバッグに関して，　（代表値）が不変だった場合に終了する

各事例のラベルをバッグのラベルで初期化して決定関数を得て，　（代表値）の初期値を決定する

目的関数の代表値を固定すれば，fに関する最適化問題となる

参考文献[1] 竹内一郎，小川晃平，杉山将．機械学習における非凸最適化問題に対するパラメトリック計画法を用いたアプローチ， 2013 <http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1829-04.pdf>

[2] O. Chapelle and A. Zien. Semi-supervised classification by low density separation.Tenth International Workshop on Artificial Intelligence and Statzstics, 2005. < http://www.gatsby.ucl.ac.uk/aistats/fullpapers/198.pdf >

[3] S. Andrews, I. Tsochantaridis, T. Hofmann. Support Vector Machines for Multiple-Instance Learning. NIPS 2002 < https://www.robots.ox.ac.uk/~vgg/rg/papers/andrews_etal_NIPS02.pdf >

[4] 朱鷺の社 Wiki ． CCCP < http://ibisforest.org/index.php?CCCP >

http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1829-04.pdf

http://ibisforest.org/index.php?CCCP

Science

Semi-Supervised SVM