normalized online learning

Normalized online learningNormalized online learningNormalized online learningNormalized online learning

Stephane Ross, Carnegie Mellon UniversityPaul Mineiro, Microsoft

John Langford, Microsoft Research(arXiv:1305.6646v1 [cs.LG] 28 May 2013)

@shima_x

概要　－ featurefeaturefeaturefeature毎に独立に正規化するアルゴリズム　－ハイパーパラメタの自動調整も行う　－これらに対する理論的な背景を与える

貢献　－敵対的なリグレットバウンド付き　－事前に正規化したデータセットでの学習とも遜色ない結果

擬似コード1

擬似コード2

実際はこちらを使用本稿ではこれをsNAGsNAGsNAGsNAGと

称する

Adversary Setting

－恣意的な単位による特徴量の作成はモデルに対する影響力が大きい－通常のリグレットよりも強力な設定

Adversary Setting

－先ほどの考えを更に一般化し、p-normp-normp-normp-normでの場合に落としこむ－入力値の分散（2222次モーメント）は正定値行列SSSSの下で1111となるようにする　　（p=2p=2p=2p=2のノルムが1111以下）－これがsNAGsNAGsNAGsNAGと呼んでいるアルゴリズム－これについて次スライド以降に記載

Competing against a Bounded Output Predictor

◆ 本稿のアルゴリズムのゴール　－敵対的に設定された定数CCCCによってバウンドされた重みベクトルを求めること　－これを数学的に表現すると

◆ 各タイムステップにおけるリグレット

Competing against a Bounded Output Predictor

◆ 自明な事項

◆ 下のqqqqとppppの関係、上の等式を満たすようにqqqqを決める

◆ norm qnorm qnorm qnorm qとppppの制約条件

◆ 真のSSSSとなる場合の条件

Analysis

◆ update ruleupdate ruleupdate ruleupdate rule　－本稿の手法は特徴量の正規化について統計学的な不偏性を保証する　－式で表すと以下になる

time ttime ttime ttime tの時のロスの勾配time ttime ttime ttime tの時の半正定値行列

weightweightweightweight

Analysis

◆ 補題1111　－ロス関数は凸と仮定

証明は論文中のAppendixAppendixAppendixAppendix参照

Analysis- Best Choice of Conditioner in Hindsight -

◆ AAAAを時間的に不偏な対角行列、wwww1111=0=0=0=0として補題1111の式を変形

◆ 行列AAAAの各対角成分で偏微分し極値の計算を行う

==== ０


◆ 上で計算された行列AAAAの下でのリグレットバウンド　－ wwwwiiii*

*** を1/s1/s1/s1/siiii倍し、ggggtitititiをssssiiii倍することでキャンセルされるため　　　入力が正規化されていたとしてもこのリグレットバウンドは成り立つ

上記のリグレットはwwwwiiii****の値に依存する。

この依存を断ち切るために最悪の場合のwwwwiiii****により評価

を行う


◆ 補題2222　－最悪の場合を想定したリグレットバウンド　－ SSSSに以下の制約を付ける　　・対角行列　　・行列式が最小となる行列

これについて解くと

を出発点として変形（詳細は論文中のAppendixAppendixAppendixAppendix参照）


　－前のスライドの条件の下でのリグレットは以下になる


◆ 例としてp=p=p=p=∞の場合のリグレットを記載　－ p=p=p=p=∞での補正係数行列SSSSの各要素

◆ 行列AAAAの各要素の計算

◆ リグレットの計算


◆ 例としてp=p=p=p=∞の場合のリグレットを記載　－リグレットのオーダー


◆ 例としてp=2p=2p=2p=2の場合のリグレットを記載　－リグレットのオータ゛ー

　－勾配に関して以下を置く


◆ 例としてp=2p=2p=2p=2の場合のリグレットを記載　－リグレットの計算

しかし、ここまでで記載してきた手法では時刻 t t t t（∈TTTT）の全てがわからないと解くことが出来ない

Adversary settingAdversary settingAdversary settingAdversary settingより1111以下となる

Analysis- Transductive Case -

◆ 現実のケースでのリグレットを記載　－正規化係数行列SSSSと勾配を同時に計算することは困難　－そこで、計算を2222段階に分ける　－ 1111段階目として、対角行列SSSSを計算　－ 2222段階目として、勾配の計算を行う


◆ 時刻ttttにおける調整行列の各要素の計算

◆ 更に、以下の写像条件を与える事により補題1111によってバウンドすることができる


◆ lemma1, lemma3lemma1, lemma3lemma1, lemma3lemma1, lemma3（AppendixAppendixAppendixAppendix参照）と上のAAAAよりリグレットをバウンド出来る

真の結果を知っている場合と比較して、2222****(2)^0.5(2)^0.5(2)^0.5(2)^0.5しか悪くない

－条件

Analysis- Streaming Case -

◆ ストリーム処理を行う場合　－ p=p=p=p=∞について考える　－調整行列AAAAはSSSSを使用せずにinput datainput datainput datainput dataのみを使用して以下のように書ける


◆ ストリーム処理を行う場合　－定理2222　－リグレットは以下のようになる

　－条件


◆ ストリーム処理を行う場合　－定理2からの推論（詳細はAppendix参照）

　－条件

Hige, log lossHige, log lossHige, log lossHige, log lossの場合

squared losssquared losssquared losssquared lossの場合

※RmaxRmaxRmaxRmaxはサンプル数が1111つの場合のリグレット


◆ ストリーム処理を行う場合　－ Δiiiiは以下のようにバウンドされる

νが大きいほど悪いリグレットとなるように恣意的に決定（ttttが小さい時にリグレットが悪くなるように設定）

Experiments◆ 実験に使用したデータセット

最小値最大値

CTCTCTCTとMSDMSDMSDMSDでは回帰を行い、その他のデータセットでは分類を行った

Experiments◆ NAGNAGNAGNAGとAGAGAGAGの比較

正規化していないデータセットを使用

最大値で除した正規済のデータセットを使用

予測精度が最もよくなるように経験的に決めた学習係数

Experiments◆ sNAGsNAGsNAGsNAGとAGAGAGAGの比較　－ NAGNAGNAGNAGと比較して、sNAGsNAGsNAGsNAGではいくつかのデータセットで良い結果が見られた　－ sNAGsNAGsNAGsNAGの方がロバストであると判断

※表の見方は前のスライドと同じ

Experiments◆ sNAGsNAGsNAGsNAGとAGAGAGAGのパフォーマンス比較

NAGNAGNAGNAGは事前に正規化されたデータを使用したAGAGAGAGよりも精度が高かった

Experiments◆ 各アルゴリズムと学習係数の領域の比較　－各色のバンドは最適な学習係数のレンジを示している。　－ NAGNAGNAGNAGはバンド幅が小さく、学習係数の設定が比較的容易であることがわかる

Technology

normalized online learning