画像中の目立つ場所を推定する技術深層学習を用いた顕著性 ......ニーズに合わせた応用の提案を期待したい。データベース構築 Ĺ 深層学習を実際のアプリケーションに応用する場合は，学習を

画像中の目立つ場所を推定する技術: 深層学習を用いた顕著性マップ推定

上智大学理工学部情報理工学科准教授山中高夫https://scrapbox.io/islab-sophia/index

2020/9/15JST 新技術説明会

https://scrapbox.io/islab-sophia/index

顕著性マップ推定

顕著性マップ

Ĺ 人間の視線が集まる場所の分布を予測したマップ

2

顕著性マップの応用例

Ĺ 画像中の注目領域に着目した物体認識や物体検出Ĺ 画像や動画の圧縮Ĺ 視線を考慮したヒューマン-マシンインターフェースの構築Ĺ 車の自動運転や運転支援Ĺ 仮想現実感における注目領域の注釈提示や視線誘導

3

顕著性マップ推定の従来手法

MIT Saliency Benchmark[4]

Ĺ 深層学習を使用した様々な手法が提案されている

MIT Salinecy Benchmark は現在 MIT/Tuebingen Saliency Benchmark に移行しています

4

http://saliency.mit.edu/

https://saliency.tuebingen.ai/

従来の顕著性マップ推定手法の例

DenseSal, DPNSal モデル [1]

Ĺ MainNet として深層ニューラルネットワークの一種であるDenseNet[5] や Dual Path Network(DPN)[6] を利用したモデルを使って高精度な顕著性マップ推定を実現している。

Ĺ しかし，人が画像を見たときに視線が画像中央に集中しやすいというセンターバイアスの特性はモデルに含まれていない。

5

顕著性マップのセンターバイアス

センターバイアスの特性Ĺ 全画像の顕著性マップの平均値を計算すると，中央に集中した分布になる [2;7]。

Ĺ データセット (SALICON/OSIE など) によりセンターバイアスの特性は異なる（計測環境や画像の特徴が異なるため）。

6

センターバイアスを明示的にモデル化したネットワーク

Ĺ データセットごとに異なるセンターバイアスを乗算する層を追加し，センターバイアスを明示的にモデル化した。

7

センターバイアスをモデル化した効果

結果

Ĺ 以下の条件で学習し精度を比較 (太字が高い精度の結果)。(a) 単独のデータセットで学習，(b) 4 データセットを同じセンターバイアスで学習，(c) 4 データセットでセ

ンターバイアスを切り替えて学習

Ĺ センターバイアスを切り替えて学習することで精度が向上

8

センターバイアスをモデル化した効果

推定された顕著性マップの例

9

全天球画像に対する顕著性マップ推定

センターバイアスを加えたモデルの応用

Ĺ 全天球画像 [8]：全方位（球面の方向）を同時に撮影して得られる画像であり，正距円筒図法で表示されることが多い。

Ĺ 全天球画像に対する顕著性マップ推定にバイアス層を加えたモデルを応用する。

10

全天球画像に対する顕著性マップ推定

センターバイアスを加えたモデルの応用

Ĺ 全天球画像は，Head Mounted Display (HMD) で提示したり，マウスでカメラ方向を操作しながら画像を提示したりする。

Ĺ 平面画像のセンターバイアスとは異なり，全天球画像では水平線方向に視線が集中する傾向がある（水平線バイアス）。

Ĺ センターバイアスと同じように，水平線バイアスをバイアス層で表現する。

11

全天球画像に対する顕著性マップ推定手法

提案手法 [3]

Ĺ 全天球画像から様々なカメラ方向の平面画像を抽出し，平面画像用の顕著性マップ推定モデルで顕著性マップを推定する。

Ĺ 全天球画像では，センターバイアスではなく水平線バイアスを表現するために，バイアス層をカメラ方向の迎角 ffic ごとに用意し，水平線バイアスを学習する。

12


平面画像の抽出Ĺ カメラ方向を一定間隔ごとに変化させて，平面画像を抽出する。

Ĺ それぞれの抽出画像に対して，2 次元顕著性マップ推定モデルを使って顕著性を推定する。

13


結果Ĺ バイアス層により顕著性マップ推定精度が向上した。

FT: 全天球画像でファインチューニング，Bias: バイアス層, Learned(multi): 迎角ごとのバイアス

Ĺ JSD は低いほど精度が高く，迎角ごとのバイアスを導入することで精度が向上した。

14


推定された顕著性マップの例

15

実用化に向けた課題

CNN の位置不変性の向上Ĺ 顕著性マップ推定モデルに利用している ConvolutionalNeural Networks (CNN) は畳み込みフィルタを利用しているので，位置不変性 (Translation Invariance) が成り立つと考えられているが，実際には畳み込み層におけるPadding の影響で同じ物体でも画像中央と画像端で出力が異なる [9]。全天球画像では色々なカメラ方向で平面画像を抽出するので，CNN の位置不変性を向上する工夫が必要である。

応用範囲の拡大Ĺ 顕著性マップ推定におけるバイアスの特性は，対象によって大きく異なる。例えば，文書やウェブページなどは左上を中心としたバイアスが考えられ，動画では物体の動きに合わせたバイアスが考えられる。今後，様々な対象にあわせたバイアスのモデル化が望まれる。 16

企業への期待

応用分野開拓

Ĺ 顕著性マップの活用範囲を広げるために，様々な応用分野を開拓したい。ニーズに合わせた応用の提案を期待したい。

データベース構築

Ĺ 深層学習を実際のアプリケーションに応用する場合は，学習を行うためにデータベースが必要となる。大学ではリソースが限られているので，応用分野にあわせたデータベースの構築を期待したい。

17

まとめ

Ĺ 視線が画像の中心に集まりやすいというセンターバイアスの特性を明示的にモデル化し，深層学習を利用した高精度な顕著性マップ推定モデルを実現した。

Ĺ バイアスを複数用意することにより，条件によってバイアスを切り替えながら顕著性マップを推定できるモデルを提案した。例えば，全天球画像の場合，カメラの迎角方向に依存したバイアス層を実現し，顕著性マップ推定精度を向上した。

Ĺ 今後，様々な対象に合わせたバイアス層を設計することで提案手法の応用分野を拡大したい。

18

参考文献

19

お問い合わせ先

上智大学学術情報局研究推進センターTEL: 03-3238-3173

FAX: 03-3238-4116

email: [email protected]

20

Documents

画像中の目立つ場所を推定する技術 深層学習を用 いた顕著性 ......ニーズに合わせた応用の提案を期待したい。データベース構築 Ĺ 深層学習を実際のアプリケーションに応用する場合は，学習を

画像中の目立つ場所を推定する技術深層学習を用いた顕著性 ......ニーズに合わせた応用の提案を期待したい。データベース構築 Ĺ 深層学習を実際のアプリケーションに応用する場合は，学習を