52
ECCV 2016読読読 Leveraging Visual Question Answering for Image-Caption Ranking 牛牛 牛牛 losnuevet oros

Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

  • Upload
    -

  • View
    329

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

ECCV 2016読み会 Leveraging Visual Question Answering

for Image-Caption Ranking

牛久 祥孝losnuevetoros

Page 2: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

お前は誰だ?~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ~ 2016.3NTT コミュニケーション科学基礎研究所

2016.4 ~ 東京大学 大学院情報理工学系研究科知能機械情報学専攻 講師 ( 原田・牛久研究室 )

Page 3: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

転職して 9 か月教員であることにも慣れました

牛久学生B

学生A

学生に慕われる教員の図

Page 4: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

転職して 9 か月教員であることにも慣れました

牛久学生B

学生A

学生に慕われる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)

Page 5: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

学生B

転職して 9 か月教員であることにも慣れました

牛久学生A

学生に弄ばれる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)

なんか今日は先生の服、メンナクっぽさがないですね。(※身に覚えがない)

Page 6: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会• 2016 年 2 月 ICCV 読み会

• 2016 年 7 月 CVPR 読み会• 2016 年 12 月 ECCV 読み会 ←いまここ

Page 7: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会 弱教師あり物体検出の研究• 2016 年 2 月 ICCV 読み会 カフェラテいれる際に、スチームミルクを 作り忘れていたらアラートだす研究• 2016 年 7 月 CVPR 読み会 飲んだくれの画像を生成する研究• 2016 年 12 月 ECCV 読み会 ←いまここ

Page 8: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

危惧される批判:あいつ変な論文しか読めないんじゃね?• 論文に数式出てこないし• 専門分野もってなさそうだし• 服装チャラいらしいし

Page 9: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を

Page 10: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を

Visual Question Answering をImage-Caption Ranking に活用する…?

Page 11: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Page 12: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Page 13: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

Every Picture Tells a Story [Farhadi+, ECCV 2010]

世界初の画像入力→キャプション出力論文1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して、まるごと再利用

<Horse, Ride, Field>

Page 14: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

Every Picture Tells a Story [Farhadi+, ECCV 2010]

Page 15: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

再利用?新規生成?

• 再利用• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 16: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 17: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成– テンプレート

dog + stand A dog stands.⇒– 非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 18: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成– テンプレート

dog + stand A dog stands.⇒– 非テンプレート

A small white dog standing on a leash.

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 19: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

cf. 非テンプレート型新規キャプション生成画像の内容を表す少数の単語列(フレーズ)の推定+単語列を文法モデルによって連結→キャプション

[Ushiku+, ACM MM 2012]

最近の Neural Image Captioning との比較[Wu+, CVPR 2016][You+, CVPR 2016]

1. 単語 / 単語列を推定する部分  FV+SVM か CNN かの違い2. 文法モデルを含めて連結する部分 対数線形モデルか RNN かの違い

Page 20: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

Image-Caption Ranking

画像キャプション再利用アプローチの別名全部での画像 or キャプションが存在するとする

• 画像クエリによるキャプション検索– 画像にキャプションが再利用される確率を定義

• 逆:キャプションによる画像検索

ある画像とキャプションの関連の強さ

Page 21: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

今日紹介する論文では…Multimodal Neural Language Models [Kiros+, TACL 2015] を採用

: 画像特徴量19 層 VGGNet の出力 4096 次元

: キャプション特徴量隠れ層 1024 次元の GRU による RNN の出力 1024 次元: 学習する線形変換画像特徴からキャプション特徴への変換に相当

Page 22: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Page 23: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

Visual Question Answering (VQA)画像に関する質問に答える QA システム• Visual Turing Challenge [MalinowskiL+Fritz, 2014]

• VQA ChallengeCVPR 2016 併設のコンペティション(弊研究室: Abstract Image 部門で世界 1 位)

[Malinowski+, ICCV 2015]

Page 24: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

よくある手口: VQA= 多クラス分類問題

質問文What objects arefound on the bed?

応答bed sheets, pillow

画像 画像特徴量

質問特徴量

統合された表現ベクトル

表現ベクトル通常のクラス識別

Page 25: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA モデル

(は要素積)

:19 層 VGGNet の出力 4096 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス

Page 26: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

キャプション + 質問に答える VQA-Caption

言語データのみ用いる質問応答 (QA) システム

質問文What kind of foodIs in the picture?

応答pizza

キャプションA couple of pieces ofpizza with vegetableslices on them.

キャプション特徴量

質問特徴量

統合された表現ベクトル

Page 27: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA-Caption モデル

(は要素積)

: 最頻 1000 単語による bag-of-words モデル 1000 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス

Page 28: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Page 29: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

着眼

多くの VQA 事例を学習したシステム→画像キャプション生成も得意なのでは?

What is the colourof the comforter? blue, white

What is on therefrigerator? magnet, paper

What objectsare found onthe bed?

bed sheets, pillow

Page 30: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を

Visual Question Answering をImage-Caption Ranking に活用する…?

Page 31: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の論文の概要• VQA を中間表現(後述)に用いることを提案– VQA モデル→画像の中間表現– VQA-Caption モデル→キャプションの中間表現

• Image-Caption Ranking で用いる特徴量に追加→検索精度が向上した– 入力画像に対するキャプション検索– 入力キャプションに対する画像検索

Page 32: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

関連研究:中間表現• Semantic Mid-Level Visual Representations

Attributes, Parts, Poselets, Objects, Actions, Contextual information

• 中間表現を用いるメリット–既存タスクの高精度化– Zero-shot learning (↓ は [Elhoseiny+, ICCV 2013])

Page 33: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼

が ならの値は 0 に近い

が ならの値は負の値

𝑢𝐼(3)=log 𝑃 𝐼(Yes∨Is   it   clean ? , 𝐼)

Page 34: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼

が ならの値は…?

が ならの値は負の値

𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What   are   the  men  wearing  on   their   heads? , 𝐼 )

Page 35: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼

が なら値は 0 に近い(シーンとして、もし men がいたら どうなるかということで決まる)

が ならの値は負の値

𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What   are   the  men  wearing  on   their   heads? , 𝐼 )

Page 36: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本論文が提案する中間表現キャプション側の VQA-Caption アクティべーション番目の成分𝑢𝐶

が なら値は 0 に近い

が ならの値は負の値

𝑢𝐶(5)=log 𝑃𝐶 (Pizza∨What  kind   of   food   is   in   the  picture ? ,𝐶)

A couple of pieces of pizza with vegetable slices on them.

Two boats on shore near an ocean.

Page 37: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

中間表現を元の特徴と統合したい• (再掲)

Page 38: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

最後に統合: Score-level fusion

• (再掲)

Page 39: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

少し先に統合: Representation-level fusion

Page 40: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Page 41: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

実験設定• MS COCO データセット– 8万強のキャプション付き画像で学習– 5000枚のテストデータ

• VQA データセット–実は MS COCO の画像を利用したデータセット– VQA中間表現: 1000枚の訓練用画像から 3つずつ QA例をサンプリング→ 3000 次元の表現ベクトル

• 評価方法– Image-Caption Ranking としての評価– Recall@(1,5,10)

Page 42: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

State-of-the-art の成績一覧

本論文が Baseline として採用しているMultimodal Neural Language Models [Kiros+, TACL 2015]

Page 43: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

State-of-the-art との比較 Score-level fusion 2 パターン• VQA-grounded only: 中間表現のみ利用• VQA-aware: Score-level fusion そのもの

Page 44: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

State-of-the-art との比較 Representation-level fusion 2 パターン• VQA-agnostic: もとの特徴量のみ利用• VQA-aware: Representation-level fusion そのもの

Page 45: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

… あれ?

2 つの手法の差は何?• どっちも「もとの特徴量のみ使用」のはず• でも下の方が精度が高い

Page 46: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

2つの VQA-agnostic• Multimodal Neural Language Models [Kiros+, TACL 2015]

• Representation-level fusion VQA-agnosticさらに 1回の線形変換と活性化関数を経ている→より deep になり、精度が向上している

Page 47: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

定性的な比較(画像検索)提案手法がうまくいった例

提案手法で失敗するようになった例

Page 48: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

定性的な比較(画像検索)提案手法がうまくいった例

提案手法で失敗するようになった例

論文による考察「提案手法の VQA中間表現によって、 bat と言われると helmet も写った画像を探すようになった。」

Page 49: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

どちらの中間表現も寄与しているの?• Deeper VQA-agnostic

• xxx-only representation-level fusion– どちらかの中間表現のみを用いた場合

• Full representation-level fusion

Page 50: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

VQA で学習したなら Caption の学習は不要?• 画像当たりのキャプションの数と精度

• キャプションが多いほうが精度が高い– VQA で学習しても多くのキャプションが必要– VQA とキャプションで持つ情報が異なる

Page 51: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

中間表現はどれくらいの次元にすればいい?

Page 52: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

まとめと所感• VQA を中間表現(後述)に用いることを提案• Image-Caption Ranking で用いる特徴量に追加– 検索精度が向上した–ほかのタスクにも有用である可能性はある

• 「我々の知る限り最高精度」 by 著者– 画像検索は [Wang+, CVPR 2016] のほうが上

• 危惧は解消できたか– 専門分野もってなさそうだし– 論文に数式出てこないし