Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
「俯瞰カメラと人物視点カメラの連携によるシーンの四次元構造化」
成果報告
大阪大学産業科学研究所
満上育久
1
背景
• 「今や世界は多種多様なカメラで溢れている!」
• 膨大な数の固定カメラ– 防犯・犯罪捜査での有効性の認知
– デジタルサイネージ等,マーケティング解析への利用可能性
• ウェアラブルカメラの出現・普及– 新たな映像コンテンツ(GoPro, SONYアクションカム等)
– 日常生活をサポートする新たな情報デバイス(Google Glass)
Google Glass GoPro SONYアクションカム
2
俯瞰・人間視点映像の処理
• 俯瞰(客観視点)映像
• 人物視点(主観視点)映像
人物検出・追跡 ジェスチャー認識 人間関係の推定
周囲の三次元形状復元 手元物体認識 行動認識 注意対象の推定
映像の特性が大きく異なるため,これら映像処理は別々の研究として実施されている
3
目的
• 研究目的:俯瞰映像(Global)と人物視点映像(Local)を密に連携させたシーン理解
• 共同研究者:– 西野恒 (ドレクセル大学教授)
• 大阪大学国際共同研究促進プログラム (2015-2017)
– 八木康史(大阪大学理事・副学長)• JST-CREST (2010-2016)
4
研究項目
1. 複数台のKinectを用いたシーンの四次元構造復元
2. 俯瞰映像と人物視点映像を用いたシーンの三次元復元精度の向上
3. 俯瞰映像に対する人物位置アノテーションツールの開発
4. 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析
5. 人物視点映像によるアイトラッカーレス注視推定
5
複数台のKinectを用いたシーンの四次元構造復元
6
俯瞰センサ群によるシーンの四次元構造化
複数のセンシングデータ
3D形状+
時間変化
© Microsofthttp://www.xbox.com/en-US/Xbox360/
• カラー画像+奥行き画像• 手頃な価格
Color image
Depth map
Integrated image
Microsoft Kinect
7
Kinect
12670
7200
複数台Kinectによるシーンの四次元構造化
8
Kinect AKinect B
Kinectの非同期撮影によって動的シーンで形状にずれが発生
複数台Kinectデータを統合する際の難しさ
9
Kinect1
Time
Kinect2
非同期Kinect群の擬似同期
10
i-th
fram
ei+
1-th
fram
e
Point cloud Clustering
Earth mover’sdistance flow Interpolated
Point cloud
Poin
t Clo
ud T
rans
port
Kinect1
Time
Kinect2
非同期Kinect群の擬似同期
11
動的シーンの復元結果(足踏み)
カラー画像 従来手法 提案手法
実験結果
12
実環境に設置した俯瞰カメラ・人物視点カメラ群による人物行動解析
注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析
人物視点映像によるアイトラッカーレス注視推定
13
購買客
万引き犯
「目は口ほどにものを言う」
注視行動は人の意図の表出である 14
データ収集実験の実施– 場所:
• 大阪大学吹田キャンパス工学部生協ショップ内
– 日時:
• 平成26年9月20日(土)9:30~16:30(撮影)
– 実施内容:
• 被撮影者は八木研メンバーおよびアルバイト(計140人)
• すべての被撮影者からデータ公開に関する同意書を収集
• 各被撮影者には通常の購買行動 or 万引きの指示を与える
• 各シーンでは,購買客役と万引き犯役(合計4~5名)が同時に行動
実環境での映像データ収集
15
出入口(使用しない)
レジ
レジ
出入口(使用しない) 出入口
(屋根付き通路)
環境側のカメラ
実環境での映像データ収集
16
頭部カメラ(GoPro)
眼球計測装置(EMR-9)
胸部カメラ(GoPro)
実環境での映像データ収集
被験者側のカメラ
17
注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析
18
注視ヒートマップ
1. 三次元環境モデルの構築
2. 環境モデル表面への注視の投票
19
三次元環境モデルの構築
• Manhattan-World仮説– 1st axis: normal vector of a plane which fits to chest camera’s
trajectory – 2nd axis: manually selected– 3rd axis: 1st × 2nd
• 局所平面仮説– Make inlier histogram along each axis
• 1 peak => 1 plane– Add some hypotheses manually
• Floor, ceiling, texture-less surface …
2nd
3rd
2nd
3rd
20
• Extract Piecewise-Planar Model [Chauve+, CVPR2010]– Input: bounding box, plane hypotheses, visibility rays
21
三次元環境モデルの構築
• 復元された環境モデル
22
三次元環境モデルの構築
23
• Gaze model– Gaussian centered at point of gaze
• σ = 20 pixel
環境モデル表面への注視の投票
注視ヒートマップの可視化と万引き犯検出の可能性
棚の裏側(ボールペン棚)
「阪大グッズ」
防犯ミラー
購買客への指示:「阪大グッズを買ってきてください」
万引き犯への指示:「ボールペンを万引きしてきてください」
指定された商品のみ注視指定された商品に加えてミラーや防犯カメラを注視
注視の可視化による行動認識への展開
「ボールペン」
防犯ミラー
遠くの壁
24
人物視点映像によるアイトラッカーレス注視推定
25
アイトラッカーを使わない注視情報獲得
視線方向 = 頭部方向
[Kojima et al. 2015]
0度 90度45度
3方向のみの推定
[Nakazawa et al. 2014]
視線
頭部
?
26
頭部の見えによる注視方向推定 歩容を用いた注視方向推定
頭部運動と眼球運動
注視点の遷移時
歩行時
非歩行時
頭部方向 [度]
視線
方向
[度]
注視点の固定時
D
垂直方向U
L
R 水平方向
• [Yu Fang et al. 2015]
• [Okada et al. 2013]• [前迫 et al.
1993]
眼球
視線頭部
27
推定手法
• 胸部、頭部、視線方向の取得• 頭部方向と視線方向の関係のモデル化
視線推定モデル
既知
視線方向
推定視線方向既知 未知
頭部方向
胸部方向
既知
28
Structure from Motion (SfM)による方向情報の算出
http://www.cs.cornell.edu/~snavely/bundler/
胸部方向頭部方向視線方向
29
視線推定モデル
𝐹𝐹 = 𝑚𝑚𝑚′′ 𝑡𝑡 = 𝑘𝑘{𝑔𝑔 𝑡𝑡 − 𝑚 𝑡𝑡 − 𝑙𝑙} − λ𝑚′(𝑡𝑡)
𝑔𝑔 𝑡𝑡 = 𝑎𝑎𝑚 𝑡𝑡 + 𝑏𝑏𝑚′ 𝑡𝑡 + 𝑐𝑐𝑚′′ 𝑡𝑡 + 𝑑𝑑
𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺
𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑
𝑙𝑙 + Δx𝑙𝑙
粘性抵抗: λ𝑋𝑋′(𝑡𝑡)
𝐹𝐹
𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺
𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑:頭部角度
𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺:視線角度
𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑
30眼球
視線
頭部
30
推定結果
水平方向
実測値 推定視線方向 頭部方向
31
モデルの妥当性評価
0
100
200
300
400
500
600
-40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40
頭部方向との差
0
100
200
300
400
500
600
-40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40
推定視線方向との差頻度
[度] [度]
頻度
実際の視線方向との誤差ヒストグラム(4シーン)
頭部方向 推定視線方向
誤差平均 [度] 11.6 7.9
32
注視推定性能評価
被験者 学習 テスト 頭部方向との差 推定視線方向との差
A シーン1 シーン2 9.2 7.7シーン2 シーン1 9.7 8.2
B シーン3 シーン4 22.2 16.8シーン4 シーン3 14.9 9.9
C シーン5 シーン6 15.6 10.9シーン6 シーン5 12.9 9.5
すべての被験者において、推定精度が向上
33
まとめ
34
• まとめ1. 複数台のKinectを用いたシーンの
四次元構造復元
2. 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析
3. 人物視点映像によるアイトラッカーレス注視推定
• 今後の展開– 俯瞰カメラ映像からの注視・興味の推定
– 注視活動を中心とした人物行動解析
満上 mitsugami