27
OS5-O2 TRECVID Semantic Indexing TaskMultimedia Event Detection Taskへの 取り組み 樋爪 和也,柳井 啓司(電気通信大学)

OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

OS5-O2

TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

樋爪 和也,柳井 啓司(電気通信大学)

Page 2: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

背景

コンテンツベースの映像検索手法が盛んに

◦ TRECVID:国際的な評価ワークショップ

膨大なデータ処理の必要性

◦ 4000時間の大規模データ

Page 3: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

本発表について

TRECVIDの概要

◦ SINタスク

◦ MEDタスク

参加タスクに対する実行手法

Page 4: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

TRECVIDとは

映像検索技術に関連する競争型ワークショップ

TRECVID2012の6つのタスク Semantic indexing (SIN)

Known-item search (KIS)

Interactive surveillance event detection (SED)

Instance search (INS)

Multimedia event detection (MED)

Multimedia event recounting (MER)

NISTとDTOが主催

東工大、NTT、IBM、コロンビア大、アムステルダム大など各国の研究チームが参加

本研究はSINタスク、MEDタスクに関連

Page 5: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

Semantic INdexing task

ショット (=シーンごとの短い動画)の認識

主に対象となるのは

物体、人 :Chair、George_Bush、Skier...

動作 :Singing、Sitting_down、Walking_Running...

風景 :Hill、Kitchen、Forest...

Airplane Bus Hand

1ショットあたり、最長で3.5分

Page 6: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

Semantic INdexing task

カテゴリ数:346

20(2008, 09)、130(2010)と増加

カテゴリ数を減らしたlight、組み合わせたpairも

• 最終結果を提出できないチームも多い

学習データ :403,800ショット(600時間)

テストデータ:145,634ショット(200時間)

データ

テストデータは翌年の学習データに

ランキング付けした上位結果からサンプリングして計算

カテゴリごとに上位2000ショットが対象

評価形式:平均適合率

2011、2012は東工大チームがTOP

Page 7: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

Multimedia Event Detection task

複雑なイベントの判定

SINタスクよりも複合的な高次概念を検出

動作:Reparing an appliance、Rock climbing…

状態:Birthday party、Winning a race without a vehicle…

Working on a

sewing project

Parade Birthday party

Page 8: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

Multimedia Event Detection task

イベント数:20+5

事前に告知されるイベント20、追加のAdHocイベント5

Ad Hocイベント

データ SINデータと異なり、ショット分割が行われていないビデオクリップが対象

SIN MED

ビデオ

ショット 学習データ :47430クリップ(1474時間)

テストデータ:98117クリップ(3722時間)

• 締め切りまでの期間が短く

• メタデータも十分でない状態

Page 9: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

Multimedia Event Detection task

評価形式

各チームが独自にThresholdと、スコアを決定

正解、非正解データのエラー率が対象

Normalized Detection Cost(NDC) • MEDでのシステム全体の評価指針

NDC = FN ∗ 0.08 + FP ∗ 0.999

0.08

NDCが低い=FN、FPが低いほど高性能

FN= 誤分類した正解データ数

全正解データ数 FP=

誤分類した非正解データ数

全非正解データ数

未検出率 誤検出率

Page 10: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

認識手法:SINタスク

特徴抽出 データ

特徴抽出

BoFベクトル変換

SVM学習、分類

画像特徴:全フレームから

SURF

RGB色特徴

時空間特徴

[Noguchi et al. 2010]

Page 11: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

認識手法:SINタスク

Bag-of-Features表現に変換 データ

特徴抽出

BoFベクトル変換

SVM学習、分類

soft assignment

複数のコードワードへの割り当て

空間ピラミッド表現

(1+2×2)

画像特徴はコードワード1000

時空間特徴はコードワード

5000

Page 12: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

認識手法:SINタスク

Multiple Kernel Learning-SVM データ

特徴抽出

BoFベクトル変換

SVM学習、分類

複数の特徴を統合

出力値をソートしてランキング付け

𝐾 𝑥, 𝑥′ = 𝛽𝑗𝑘𝑗 𝑥, 𝑥′ 𝛽𝑗≥ 0, 𝛽𝑗 = 1

𝐾

𝑗=1

𝐾

𝑗=1

0% 20% 40% 60% 80% 100%

Airplane

Airplane_Flying

Basketball

Boat_Ship

SURF 色 時空間

Page 13: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

SINタスクの手法をMEDに適用

認識手法:MEDタスク

上位500ショットをそのカテゴリのポジティブショットとして使用

学習・分類

MEDデータはショット分割がされていない

ビデオ ショット分割

ビデオスコア ショットスコア

学習データにイベントを

含まないショットが存在する

Page 14: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

認識手法:MEDタスク

学習データの中からショットを選択

VisualRank:教師なしショットランキング

ランキング上位のショットを学習に使用

上位500ショットをそのカテゴリのポジティブショットとして使用

Birthday party

Page 15: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

元のビデオクリップのスコア決定

認識手法:MEDタスク

上位500ショットをそのカテゴリのポジティブショットとして使用

学習・分類

ビデオ ショット分割

ビデオスコア ショットスコア

元の動画のスコア =𝑆1 + 𝑆2 + 𝑆33

𝑆𝑖:上位𝑖番目のショットスコア

Page 16: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

認識手法:MEDタスク

ショット分割結果

最大3000フレーム(100秒分)

ランキング上位500ショットをポジティブに

学習データ数

(25クラス) テストデータ

元動画 4225 98118

分割後ショット数 48792 733764

使用した

ポジティブデータ 12500 ー

Page 17: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

実験環境

80台のクラスタマシン

4コアCPU、8GBメモリ AMD:Phenom II X4 (3.00GHz)

Intel :Xeon X3230 (2.66GHz)、Xeon X3363 (2.83GHz)、

Core2 Quad Q9650(3.00GHz)、Core i7 870 (2.93GHz)、

Core i7-2600 (3.40GHz)

計320コア、計算に使用したのは平均3コア/マシン

全行程の計算時間

SINタスク : 約4日

MEDタスク: 約6日

ただし、実時間は表記以上

マシンの不具合、エラーファイルチェック、etc…

特徴抽出の時間は約80%

Page 18: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

0

0.2

0.4

0.6

0.8

1

1.2

max

median

ours

SINタスク認識結果

346カテゴリ中46カテゴリが評価対象

全チームの最大値、中央値と比較 Average

max :0.321

median:0.187

ours :0.115

Page 19: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

0

0.2

0.4

0.6

0.8

1

1.2

max

median

ours

SINタスク認識結果

346カテゴリ中46カテゴリが評価対象

全チームの最大値、中央値と比較 Average

max :0.321

median:0.187

ours :0.115

1.0

Page 20: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

0

0.2

0.4

0.6

0.8

1

1.2

max

median

ours

SINタスク認識結果

346カテゴリ中46カテゴリが評価対象

全チームの最大値、中央値と比較 Average

max :0.321

median:0.187

ours :0.115

Page 21: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

SINタスク全チーム結果

.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

F_A

_T

okyo

Tech

Can

on2_brn

_2

F_A

_T

okyo

Tech

Can

on1_brn

_1

F_A

_T

okyo

Tech

Can

on3_brn

_3

F_A

_T

okyo

Tech

Can

on4_4

F_A

_U

vA.S

held

on_1

F_A

_U

vA.R

aj_2

F_A

_U

vA.L

eonar

d_4

F_A

_-Q

uae

ro1_1

F_A

_-Q

uae

ro3_3

F_A

_-Q

uae

ro4_4

F_A

_-Q

uae

ro2_2

F_A

_IR

IM1_1

F_A

_IR

IM3_3

F_A

_Pic

SOM

_1_1

F_A

_Pic

SOM

_2_2

F_A

_IR

IM2_2

F_A

_Pic

SOM

_3_3

F_A

_IR

IM4_4

F_A

_nii.

Kitty

-AF1_1

F_A

_FT

RD

BJ-

SIN

-1_1

F_A

_C

MU

4_4

F_A

_C

MU

3_1

F_A

_C

MU

1_3

F_A

_C

MU

2_2

F_A

_Pic

SOM

_4_4

F_A

_FT

RD

BJ-

SIN

-2_2

F_A

_nii.

Kitty

-AF2_2

F_A

_V

IREO

.Bas

elin

e_2

F_A

_IB

M_2

F_A

_IB

M_3

F_A

_IT

I_C

ER

TH

_4

F_A

_IT

I_C

ER

TH

_1

F_A

_IT

I_C

ER

TH

_2

F_A

_U

EC

1_1

F_A

_IT

I_C

ER

TH

_3

F_A

_C

EA

LIS

T_1

F_A

_N

HK

STR

L1_1

F_A

_C

EA

LIS

T_2

F_A

_N

HK

STR

L3_3

F_A

_N

HK

STR

L2_2

F_A

_N

HK

STR

L4_4

F_A

_FIU

-UM

-1-b

rn_1

F_A

_C

EA

LIS

T_3

F_A

_FIU

-UM

-2_2

F_A

_FIU

-UM

-4_4

F_A

_FIU

-UM

-3-b

rn_3

F_A

_C

EA

LIS

T_4

34/47

Page 22: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

SINタスク上位手法:東工大

特徴量(画像特徴5+音響特徴1)

SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense,

LBP-Dense, MFCC

木構造GMMを用いたFast MAP Adaptationにより高速化

http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.tokyotechcanon.sin.slides.pdfより

GMM Supervector SVM

Page 23: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

0

0.5

1

1.5

2

2.5

3

NDC

FN

FP

MEDタスク全チーム結果

FN:0.6429

FP :0.1559

コストが高い

=NDCに大きく影響

Page 24: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

MEDタスク上位手法:CMU

• SIFT, C-SIFT, Transformed Color

Histogram

• Semantic Indexing Concept,

Object Bank

• Optical Character Recognition

画像特徴

• Motion SIFT, STIP, Dense Trajectory

• MFCC, AUDs

• Acoustic Scene Analysis

• Automatic Speech Recognition

動画像特徴

BoF GMM Tiling

SVM (early, late) fusion KR (early, late) fusion

score

Page 25: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

まとめ

映像検索のワークショップ

TRECVIDの概要

実行手法の紹介

TRECVID全チームの手法は公開済み

http://trecvid.nist.gov/

Semantic Indexingタスク

Multimedia Event Detectionタスク

Page 26: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

ご清聴ありがとうございました

Page 27: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,

MEDタスク全チーム結果

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

random

VisualRank top500

VisualRank top100

• random:全ショットからランダムに100ショット

• top500:VisualRank上位500からランダムに100ショット(今回の手法)

• top100:VisualRank上位100