Random Forestを用いた能動学習による有効なサンプル選択

Random Forest を用いた能動学習における有効なサンプル選択村田隆英，三品陽平，山内悠嗣，山下隆義，藤吉弘亘 (中部大学)

スパイラルデータによる評価実験ラベル無しサンプルに最も距離が近いラベル付きサンプルのラベルを伝播

ランダム性により各木の推定した密度分布にばらつきが発生

Step2:ラベル伝播

測地線距離の算出

局所距離(マハラノビス距離)の算出

伝播するラベル測地線距離ラベル無しサンプル集合

局所距離真のラベル付きサンプルまでの距離

ラベル無しサンプルが到達した末端ノードのマハラノビス距離

ラベル付きサンプルが到達した末端ノードのマハラノビス距離

密度分布の類似度の算出Step3:曖昧さと密度分布の類似度によるサンプル選択

各木の推定した密度分布を基にラベル伝播

サンプルが到達した各木の末端ノードの密度分布シャノンの情報量

密度分布の類似度を考慮したサンプル選択

Step4: ラベルの再伝播によるクラス分布の更新

各木の末端ノードにクラス分布を作成

選択されたサンプルにラベルを付与ラベルを付与したサンプルを含めてラベルの再伝播，クラス分布の更新

密度木の再構築は行わず，Step2，3を繰り返す

考察

類似したサンプルの選択を抑制することでラベル伝播精度が向上し，結果として識別精度も向上

識別結果従来法にLeast confident, Margin Sampling, Entropy,Vote Entropyを用いた場合

提案手法では識別境界が効率よく変化2回目のラベル追加で識別精度99.0%

Vote Entropyと提案手法の選択されたサンプルと識別境界の比較

本研究の目的

類似したサンプルを選択してしまう

問題点曖昧さの高い順にサンプルを選択

Uncertainty Sampling[Lewis and Gale, 1994]能動学習における従来のサンプル選択法

-Least confident, Margin Sampling, EntropyQuery-By-Committee[H. Seung, M.Opper, 1992]

サンプルの曖昧さが高いサンプルを選択-Vote Entropy

サンプルの分布を考慮していない

能動学習識別境界の決定に有効であろうサンプルの選択

ラベル付けに対する人的コストの削減

識別率

ラベルの追加回数

Vote Entropy（1個追加） Vote Entropy（2個追加）提案手法+Vote Entropy

識別率

Entropy（1個追加） Entropy（2個追加）提案手法+Entropy

識別率

Margin Sampling(1個追加) Margin Sampling(2個追加) 提案手法+Margin Sampling

識別率

Least Confident(1個追加) Least Confident(2個追加) 提案手法+Least Confident

密度分布の類似度各木の密度分布のばらつき入力サンプル

Tree1 Tree2 TreeTx1

類似度

Step1:Density Forest による密度推定

-ランダム性の導入による高速な学習-複数の木の平均による非線形表現

提案手法:密度分布の類似度を考慮したサンプル選択密度分布の類似度を用いて類似したサンプル選択の抑制

親ノードの正規分布のエントロピー子ノードの正規分布のエントロピー

木の本数サンプルが到達した末端ノードの密度分布

-木構造による領域分割

Density Forest-Random Forestを密度推定に利用

-局所距離の組み合わせで表現

Density Forest による密度推定

分岐ノード末端ノード

最大で2回のラベル追加回数を削減

入力データ識別境界(44.4%) 識別境界(66.2%)入力データ(追加後)Vote Entropy

従来の能動学習におけるサンプル選択法の問題点

類似度

曖昧さ

類似度がしきい値以上

類似度がしきい値以下

それぞれから曖昧さの高いサンプルを選択

提案手法でのサンプル選択方法

Vote Entropy

密度分布の類似度

選択されるサンプルによるラベル伝播の変化

能動学習の効率が低下

今後の予定大規模，高次元のデータセットに提案手法を適用

Random Forestを用いた能動学習による有効なサンプル選択

Technology

IBM Cognos Analytics oW 110nTvEKCh...第 2 章基本サンプルの使用IBM Cognos Analytics サーバーの簡易インストールを実行するか、またはカスタム・インストールでサンプルのチェック・ボックスを選択すると、デフォルトで基

携帯電話のキャリア選択における広告の効果分析と …...携帯電話のキャリア選択における広告の効果分析と広告出稿戦の提案形学学部

American English American 無料サンプル配信中効果的なプレゼ …jbf.cc/image/book_img/RIC/RIC_ELT catalog 2014.pdf · Newsademic is a fortnightly international newspaper

セクション 3. データメモリww1.microchip.com/downloads/jp/DeviceDoc/70202C_JP.pdf-X AGU およびY AGU 向けモジュロアドレッシングの有効化/ 無効化 - ビット反転アドレッシング用レジスタの選択

【サンプル】ブツドリソーシャルサービス資料

takemura M 090913 haifu - Chiba University · ・Fill in blank入力はそれほど効率がよい訳ではない・選択肢を選択できるということは、全ての選択肢

Yv monthlyサンプル

iLogicサンプル説明資料 - Autodesk...iLogic サンプル説明資料 2 iLogicサンプル説明資料 iLogic を使ったサンプルの説明資料です。サンプルを流用することで、皆さん自身の設計ルールを素早く構

バイオ医薬品および生体分子の分析のためのリファレンス ...バイオ HPLC カラム 1 バイオカラム選択ガイドラインサンプルの精製

品質マニュアル（サンプル）医療機器品質管理システム文書番号タイトルバージョン発効日 Page MD-QMS-M1 品質マニュアル（サンプル）

Smart artサンプルv2

SAMPLE - JIL...選択肢選択肢選択肢選択肢選択肢選択肢選択肢選択肢選択肢選択肢選択肢 1 新人なのに入社早々から大遅刻。上司ににらまれる。2

認知症の人を介護する家族等に対する効果的な支援のあり方 …...サンプル数と回収率：配布サンプル数 5,748件、有効回答数2,643件（46.0％）

Yv monthly reportサンプル

マルチモードマイクロプレートリーダー - Thermo Fisher …...4 サンプルごとの感度調整が一切不要な自動ダイナミックレンジ選択機能サンプルの濃度に合わせて機器の調整は必要ありま

ユーザビリティエンジニアリング規程（サンプル）...医療機器品質管理システム文書番号タイトルバージョン発効日 Page MD-QMS-K4U ユーザビリティエンジニアリング

【サンプル】MONIPLA SNSプロモーションソリューション

青年期における未来展望と進路選択に対する自己効 …青年期における未来展望と進路選択に対する自己効力感および一般性自己効力感との関連

製品番号 unparalleled performance · 2020. 8. 19. · 製品名サンプル製品番号 96 サンプル 384 サンプル KingFisher Pure DNA Blood Kit 血液DNA 98010196 98010496

Design 1 – Title Slide1. TopHat をラン 2. TopHat のQCを実施 – 必要に応じてサンプルを排除 3. Cufflinks をラン – コントロールグループの選択