7
DEIM2020 D6-2 質問のパターンに着目した医療分野における Visual QA の検討 馬田 英雄 青野 雅樹 †† 豊橋技術科学大学 博士前期課程情報・知能工学専攻 441–8580 愛知県豊橋市天伯町字雲雀ヶ丘 1-1 †† 豊橋技術科学大学 情報・知能工学系 441–8580 愛知県豊橋市天伯町字雲雀ヶ丘 1-1 E-mail: [email protected], ††[email protected] あらまし 近年,人工知能の研究が発展しており,特にコンピュータビジョン,自然言語処理,および知識表現&推 論を組み合わせた画像およびビデオキャプションの研究がここ数年の間で劇的に増加している.そのなかでも Visual QA (Visual Question Answering: VQA) は研究が非常に盛んな分野であり,コンピュータビジョンと自然言語の関連 性を学習する必要がある.本研究では ImageCLEF VQA-Med タスクである医療画像に基づく質問応答システムにつ いて実験を行った結果の分析を述べる.VQA-Med タスクでは,アノテーションとして 4 カテゴリに分類しているが, 本研究では質問のパターンに着目したより詳細なカテゴリ分類,強力な分類器の問題を複数の弱い分類器の問題とし て解く手法と,分類器のアーキテクチャに関する検討を述べる. キーワード Visual QA, 深層学習, 質問応答, CLEF, VQA-Med 1 はじめに Visual QA とは,図 1 のようなある画像とその画像に関する 質問を提示されたときに正しい答えを導き出すタスクである. VQA ではコンピュータビジョンと自然言語処理の両方の問題 に焦点を当てる必要があるが,ディープニューラルネットワー (Deep Neural Networks: DNN) の研究の進歩により,マル チモーダルなデータに由来する困難な問題をある程度解決が可 能になってきている.また医療分野における AI の活用として, 自動化された医療画像解釈のアルゴリズムを生成および活用す る機会が現在検討されている.医療画像に基づく VQA システ ムは臨床士の判断の確信度を高めるセカンドオピニオンとして の役割が期待されている.さらに患者自身が自分の疾患状況に 関心があるが,多額のコストをかけずに病院に訪問する意思が ない場合,多くはインターネットの検索エンジンを頼ると考え られる.しかし,検索エンジンからの結果は膨大かつ,誤解を 招きやすい,あるいは誤ったものが多く,このシステムに代わ るものとして VQA システムが期待される.しかし,医療分野 において専門性の高い画像や用語に対するデータセットや学習 済みモデルは比較的小規模,非汎用なものが多く,医療分野を 正しく解釈できるモデルに対しては研究があまり進んでいない のが現状である. 本研究は ImageCLEF VQA-Med タスク [5] である医療画 像に基づく質問を解答するシステムについての検討を述べる. VQA-Med タスクでは, ModalityPlaneOrganAbnormal- ity 4 つのカテゴリを定義しているが,本研究ではカテゴリ の細分化を行いより詳細なカテゴリ分けを行い,強力な分類器 の問題を複数の弱い分類器の問題として解く手を検討する.ま た,学習済みの DNN から得られた特徴量を効果的に解釈を行 う弱い分類器のアーキテクチャに関する検討を示す. 1: VQA の例( [4] より引用) 2 関連研究 VQA に関する研究は VQAv2.0 [9] を用いた VQA Challenge を通して盛んに行われている. QA で提案される DNN の多くは, 質問文特徴量と画像特徴量をどのように合成するかという点に 焦点が当てられており,特に近年は Attention を基にした DNN が多く提案されている.例えば P.Anderson et al. [3] による物 体検出に用いられる畳み込みニューラルネット (Convolutional Neural Networks: CNN) である Faster R-CNN [8] を用いて得 られる Bottom-up Attention を使用した DNN Zhou Yu et al. [15] による2入力の特徴量の DNN に落とし込み合成を行う DNN である MFB などが提案されている.また,VQA-Med タスクとして ImageCLEF20182019 でコンペティションが行 われており,VQA-Med2019 で提案された X.Yan et al. [13] 学習モデルや Y.Zhou et al. [14] の学習モデルなどで問題をカ テゴリに分類したのち,それぞれを学習器で解く手法が提案さ れている.また,VQA-Med タスクは ImageCLEF2020 も開催 されることが告知されており,さらなる画期的な手法が期待さ れている.

質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

DEIM2020 D6-2

質問のパターンに着目した医療分野におけるVisual QAの検討

馬田 英雄† 青野 雅樹††

† 豊橋技術科学大学 博士前期課程情報・知能工学専攻 〒 441–8580 愛知県豊橋市天伯町字雲雀ヶ丘 1-1

†† 豊橋技術科学大学 情報・知能工学系 〒 441–8580 愛知県豊橋市天伯町字雲雀ヶ丘 1-1

E-mail: †[email protected], ††[email protected]

あらまし 近年,人工知能の研究が発展しており,特にコンピュータビジョン,自然言語処理,および知識表現&推

論を組み合わせた画像およびビデオキャプションの研究がここ数年の間で劇的に増加している.そのなかでも Visual

QA (Visual Question Answering: VQA) は研究が非常に盛んな分野であり,コンピュータビジョンと自然言語の関連

性を学習する必要がある.本研究では ImageCLEF VQA-Medタスクである医療画像に基づく質問応答システムにつ

いて実験を行った結果の分析を述べる.VQA-Medタスクでは,アノテーションとして 4カテゴリに分類しているが,

本研究では質問のパターンに着目したより詳細なカテゴリ分類,強力な分類器の問題を複数の弱い分類器の問題とし

て解く手法と,分類器のアーキテクチャに関する検討を述べる.

キーワード Visual QA, 深層学習, 質問応答, CLEF, VQA-Med

1 は じ め に

Visual QAとは,図 1のようなある画像とその画像に関する

質問を提示されたときに正しい答えを導き出すタスクである.

VQAではコンピュータビジョンと自然言語処理の両方の問題

に焦点を当てる必要があるが,ディープニューラルネットワー

ク (Deep Neural Networks: DNN) の研究の進歩により,マル

チモーダルなデータに由来する困難な問題をある程度解決が可

能になってきている.また医療分野における AIの活用として,

自動化された医療画像解釈のアルゴリズムを生成および活用す

る機会が現在検討されている.医療画像に基づく VQAシステ

ムは臨床士の判断の確信度を高めるセカンドオピニオンとして

の役割が期待されている.さらに患者自身が自分の疾患状況に

関心があるが,多額のコストをかけずに病院に訪問する意思が

ない場合,多くはインターネットの検索エンジンを頼ると考え

られる.しかし,検索エンジンからの結果は膨大かつ,誤解を

招きやすい,あるいは誤ったものが多く,このシステムに代わ

るものとして VQAシステムが期待される.しかし,医療分野

において専門性の高い画像や用語に対するデータセットや学習

済みモデルは比較的小規模,非汎用なものが多く,医療分野を

正しく解釈できるモデルに対しては研究があまり進んでいない

のが現状である.

本研究は ImageCLEF VQA-Med タスク [5] である医療画

像に基づく質問を解答するシステムについての検討を述べる.

VQA-Medタスクでは,Modality,Plane,Organ,Abnormal-

ityの 4つのカテゴリを定義しているが,本研究ではカテゴリ

の細分化を行いより詳細なカテゴリ分けを行い,強力な分類器

の問題を複数の弱い分類器の問題として解く手を検討する.ま

た,学習済みの DNNから得られた特徴量を効果的に解釈を行

う弱い分類器のアーキテクチャに関する検討を示す.

図 1: VQA の例( [4] より引用)

2 関 連 研 究

VQAに関する研究はVQAv2.0 [9]を用いたVQA Challenge

を通して盛んに行われている.QAで提案されるDNNの多くは,

質問文特徴量と画像特徴量をどのように合成するかという点に

焦点が当てられており,特に近年はAttentionを基にしたDNN

が多く提案されている.例えば P.Anderson et al. [3]による物

体検出に用いられる畳み込みニューラルネット (Convolutional

Neural Networks: CNN) である Faster R-CNN [8]を用いて得

られる Bottom-up Attentionを使用した DNNや Zhou Yu et

al. [15]による2入力の特徴量の DNNに落とし込み合成を行う

DNN である MFB などが提案されている.また,VQA-Med

タスクとして ImageCLEF2018,2019でコンペティションが行

われており,VQA-Med2019で提案された X.Yan et al. [13]の

学習モデルや Y.Zhou et al. [14]の学習モデルなどで問題をカ

テゴリに分類したのち,それぞれを学習器で解く手法が提案さ

れている.また,VQA-Medタスクは ImageCLEF2020も開催

されることが告知されており,さらなる画期的な手法が期待さ

れている.

Page 2: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

(a) Q: what is the modality?

A: be - barium enema

(b) Q: what imaging modality is

used to acquire this picture?

A: xr - plain film

(c) Q: what organ system is pri-

marily present in this image?

A: skull and contents

(d) Q: which organ is captured by

this mri?

A: face, sinuses, and neck

図 2: (a), (b) Modality の例  (c), (d) Organ の例

(a) Q: what plane is demon-

strated?

A: axial

(b) Q: what plane is the image ac-

quired in?

A: sagittal

(c) Q: what abnormality is seen in

the image?

A: juvenile dermatomyositis

(d) Q: what abnormality is seen in

the image?

A: takayasu arteritis

図 3: (a), (b) Plane の例  (c), (d) Abnormality の例

3 VQA-Medデータセット

データセットとして,ImageCLEF の VQA-Med-2019

Dataset [5]を用いる.本データセットは,Train,Validation,

Test から成る.各データは医療画像と質問文,カテゴリ,解

答の4つで構成される.カテゴリはModality,Organ Systen,

Plane,Abnormalityの4つからなり,各カテゴリの詳細は表 1

に示す.各カテゴリでのデータについて具体的なデータとして

それぞれ2組ずつ図 2~ 3に示す.各カテゴリでの典型的な質

問,解答の例として,各カテゴリでよく出現する質問,解答の

上位 10件をそれぞれ図 4, 5に示す.ただし,パターン数が

10件に満たない場合はすべてのパターンを表示している.また

本論文は検討段階であるため Testデータに関しては実験・分

析は行わない.

表 1: カテゴリ及びパターン数

Modality Organ Plane Abnormality All

Training 3,200 3,200 3,200 3,192 12,792

Validation 500 500 500 500 2,000

Testing 500

質問パターン 44 78 84 45 251

解答パターン 45 10 16 1,632 1,701

4 VQA-Medにおける詳細カテゴリ

本研究では予めデータについているカテゴリとは異なり,質

問と解答に着目した7つの詳細カテゴリを提案する.詳細カテ

ゴリはmodality,contrast,weighting,yesno,organ,plane,

abnormalityの7つで構成される.各カテゴリの詳細を表 2に

示す.質問カテゴリと詳細カテゴリの関係を図 8 に示す.こ

の図は各カテゴリとその抱合関係を示している.上部にある

カテゴリは下部にあるカテゴリを抱合している.ただし7カ

テゴリ中の yesno カテゴリは4カテゴリ中の Abnormality 及

びModality双方に含まれる.カテゴリの下の数字は Training,

Validationでのデータセットの数を表している.各カテゴリに

ついてはルールベースで識別しており,表 3に示す正規表現で分

類を行う.yesnoカテゴリはその他となっているが,Training,

Valdationの範囲では分類漏れがないことを確認している.ま

た詳細カテゴリの各カテゴリでよく出現する質問,解答の上位

10件をそれぞれ図 6, 7に示す.ただし,Plane,Organカテ

ゴリに関しては図 4, 5と同様であるため省略する.

この詳細カテゴリを導入することによって,膨大な解答パター

ンを持つ Abnormality の一部を低次元な分類問題に落とし込

むことができること,及び比較的解答パターンが多いModality

カテゴリにおいて問題の整理ができることが期待できる.

Page 3: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

0 100 200 300is this a contrast or nonc

is this a noncontrast ct?what is the mr weighting i

was the ct scan taken withis this a t2 weighted imagis this a t1 weighted imag

is this a t1 weighted, t2 is this an mri image?

is this a ct scan?what imaging modality was

Modality

0 100 200what is the plane of the i

what is the plane?what plane is this?

what plane is seen?which plane is the image twhich plane is the image swhat plane is demonstrated?which plane is this image

in what plane was this imain what plane is this imag

Plane

0 100 200 300what organ system is evaluwhat organ system is visua

what organ system is imagewhich organ system is imagwhat organ system is being

what part of the body is *1what organ system is pictu

what organ system is primawhat part of the body is b

what organ system is shownOrgan

0 250 500 750what is abnormal in the ul

what is most alarming ab *3what is abnormal in the x-

what is most alarming ab *2what is most alarming ab *1

what is abnormal in the ctwhat is most alarming abouwhat is abnormal in the mr

what is the primary abnormwhat abnormality is seen i

Abnormality

図 4: 各カテゴリにおける質問文の上位 10 件

0 200 400 600mr - flair

an - angiogramcontrast

noncontrastt1

us - ultrasoundt2

xr - plain filmyesno

Modality

0 500 1000 1500longitudinal

obliquetransverse

pafrontallateral

apcoronalsagittal

axialPlane

0 500 1000breast

heart and great vevascular and lymph

face, sinuses, andgenitourinary

spine and contentslung, mediastinum,

gastrointestinalmusculoskeletal

skull and contentsOrgan

0 20 40 60brain, cerebral ab

schwannomaarteriovenous malf

arachnoid cystacute appendicitis

pulmonary embolismglioblastoma multi

meningiomano

yesAbnormality

図 5: 各カテゴリにおける解答の上位 10 件

表 2: カテゴリ及びパターン数

moda. yesno weig. cont. organ plane abno.

Training 1,435 1,294 394 187 3,200 3,200 3,082

Validation 235 202 54 32 500 500 477

質問パターン 29 35 3 2 78 84 20

解答パターン 38 2 3 2 10 16 1,630

0 200what type of ima *1what type of imagewhat modality was how is the image twhat type of contr

how was the image what kind of image

which image modaliwhat type of imagi

what imaging modalmodality

0 100 200was iv contrast giwas gi contrast gi

was the mri taken is this a noncon *1is this a noncontr

was the ct scan tais this a t2 weighis this a t1 weighis this an mri ima

is this a ct scan?yesno

0 50 100

is this a contra *1

is this a contrast

contrast

0 100

is this image moda

what is the mr wei

is this a t1 weigh

weighting

0 500what is abnormal *3what is most ala *3

what is abnormal *2what is most ala *2what is most ala *1

what is abnormal *1what is most alarmwhat is abnormal iwhat is the primarwhat abnormality i

abnormality

図 6: 各詳細カテゴリにおける質問文の上位 10 件

0 200 400ct w/contrast (iv)

ivcta - ct angiograp

ct with iv contrastmr - t2 weighted

ct noncontrastmr - flair

an - angiogramus - ultrasound

xr - plain filmmodality

0 500

yes

no

yesno

0 50 100

contrast

noncontrast

contrast

0 100 200

flair

t1

t2

weighting

0 20 40fibrous dysplasiamultiple sclerosis

brain, cerebral abschwannoma

arteriovenous malfarachnoid cyst

acute appendicitispulmonary embolismglioblastoma multi

meningiomaabnormality

図 7: 各詳細カテゴリにおける解答の上位 10 件

All questions (12792,2000)

Abnormality (3200,500)

Modality (3200,500)

Organ (3200,500)

Plane (3200,500)

abnormality (3082,477)

yesno (1294,202)

modality (1435,235)

weighting (394,54)

contrast (187,32)

organ (3200,500)

plane (3200,500)

図 8: カテゴリと詳細カテゴリの関係

Page 4: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

表 3: カテゴリ分類ルール

modality what (type|kind) of

(what|which) .*(modality|method)

(what|how) (was|is) (this|the) image taken

organ (what|which) .*organ

what part of the body

plane (what|which) .*plane

abnormality what .*(abnormal|most alarming)

contrast a contrast or noncontrast

weighting t1.* t2.* flair

what is the mr weighting

yesno –others–

5 ベースラインモデル

ベースライン手法のシステム概要図を図 9に示す.ここでは

特徴量抽出とカテゴリ分類を行う.質問文の特徴量抽出器として

Wikipediaと BookCorpusで事前訓練された BERT-Large [7]

の最後から 2 番目のレイヤーを用いる.また画像特徴量抽出

器としては Imagenet [6]で学習済みの VGGモデル [10]を用い

る.特徴量抽出前の前処理は [1]に準ずる.その後,各分類器

に特徴量を入力する.ベースラインでは単純な多層パーセプト

ロンを用いて,質問応答を分類問題として解く.今回の分類器

では最終出力層を除いて同じ構造となっている.ここで FC層

の活性化関数は ReLU [2]を,正則化として dropout [11]を用

いる.ただし最終 FC層では活性化関数として Softmaxを使用

する.

6 検討モデル

6. 1 検討1:FC共有化モデル

このモデルはベースライン手法に対して過学習を抑える目

的で,モデルの制約を強める構造を実験する.今回のベースラ

インモデルと比較して,画像特徴量に対する FC層を全体で共

有化するモデルを検討する.この FC共有化モデルの概要図を

図 10に示す.基本的な流れ及び活性化関数などの条件はベー

スラインモデルに従う.

6. 2 検討2:VGG GAP特徴量抽出

このモデルは [13]に影響を受け,画像特徴量抽出としてVGG

に対してGlobal Average Pooling (GAP) で得られる特徴を使

用するモデルである.本モデルでは [13]と同様の方法 (図 11)

で特徴量抽出を行う.その後,図 12のように分類を行う.こ

こでMFB [15]の Sum Poolingのカーネル幅は 5とする.

6. 3 検討3:VGG GAP特徴量抽出+Channel Attention

このモデルは VGGに GAPを加えたモデルは意味情報が大

きく欠損していると仮説を立て,画像特徴量抽出にチャネル情

報を Attentionとしてモデルである.Attentionには Channel

Attention Module (CAM) と呼んでいるアーキテクチャを使

用した.このアーキテクチャは [12]の CAMにインスパイアを

受けたものであるが一部構造を変更した.この CAMは VGG

の CNN最終層及びMax Pooling最終層に適用する.また,各

分類器の構造は検討2の分類器に準ずる.

7 実験・結果

ベースラインモデル及び FC 共有化モデルでは [1] の

VGG11 bn モデルを使用した.また VGG GAP 特徴量抽出

モデルでは [13] に則り,VGG16 を使用した.評価手法には

Accuracy を用いる.各検討モデルでの実験条件は表 4に実験

結果は図 5に示す.総合的にみると検討2が良い結果であるが

部分的に他検討及びベースラインが勝る部分があるといった結

果となった.さらにあらゆるカテゴリで検討モデルがベースライ

ンに対して精度が勝っているということがわかる.また,図 14

に示す学習曲線をみると検討1モデルは Accuracy = 0.45で極

端な過学習傾向に陥るのに対し検討2,3モデルでは 200epoch

学習時でも過学習に陥らないということがわかる.

表 4: 実験条件

Optimizer Adam lr = 1e− 3

Epoch 200

Batchsize 64

Dropout 0.5

8 お わ り に

本研究では ImageCLEF VQA-Med タスクである医療画像

に基づく質問応答システムについて,より詳細なカテゴリ分類

によるアプローチの検討を行った.また,各カテゴリについて

適切な特徴量が異なる可能性を示した.また,VGG GAPを用

いた学習モデルは VQA-Medのタスクにおいて過学習傾向を抑

えられる可能性が高いことを示した.各カテゴリの差異に着目

して,有効な画像特徴量を抽出するといった改良が期待される.

謝 辞

本研究の一部は,科研費基盤(B)(課題番号 17H01746)の

支援を受けて遂行した.

Page 5: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

(a) システム概要図 (b) ベースライン 分類器モデル

CategoryVocab

V_featQ_feat

EachClassifier

FC

FC

Concat

FC

FC

768

4096

1000

768

1536

1000

nb_vocab

modalityClassifier

organClassifier

Preprocess

Rule Selector

Bert-Large(freeze)

VGG11(freeze)

4096768

abnormalityClassifier

ImageQuestion

Features

modalityVocab

organVocab

abnormalityVocab

図 9: ベースラインモデル概要

modalityClassifier

organClassifier

Preprocess

Rule Selector

Bert-Large(freeze)

VGG11(freeze)

FC(shared)

FC(shared)1000

4096

768

768

abnormalityClassifier

ImageQuestion

Features

modalityVocab

organVocab

abnormalityVocab

Concat

FC

FC

768 768

1536

1000

nb_vocab

Q_feat V_feat

CategoryVocab

EachClassifier

(a) システム概要図 (b) 検討1 分類器モデル

図 10: 検討1モデル概要

図 11: VGG の GAP を用いた特徴量抽出の概要 ( [13] より引用)

Page 6: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

Q_featureElementwise product

FC FC

Dropout

Sum poolingPower Normalization

L2 Normalization

MFB

MFB

Softmax

768 1984

nb_vocab

nb_vocab

modalityClassifier

organClassifier

Preprocess

Rule Selector

Bert-Large(freeze)

VGG16 withGAP (freeze)

1984768

abnormalityClassifier

ImageQuestion

Features

modalityVocab

organVocab

abnormalityVocab

(a) システム概要図 (b) 検討2 分類器モデル

CategoryVocab

EachClassifier

z

x y

(c) MFB概要

V_feature

図 12: 検討2モデル概要

modalityClassifier

organClassifier

Preprocess

Rule Selector

Bert-Large(freeze)

VGG16 withGAP (freeze)

768768

abnormalityClassifier

ImageQuestion

Features

modalityVocab

organVocab

abnormalityVocab

(a) システム概要図 (b)  Channel Attention Module概要

CAM

concat3008

2240In_feature

Max pooling

MLP

Out_feature

Ave pooling

MLP

+

Weight shared

CAM

図 13: 検討3モデル概要

表 5: 実験結果

moda. yesno weig. cont. organ plane abno. all

ベース 0.587 0.728 0.741 0.656 0.538 0.620 0.023 0.468

検討1 0.579 0.767 0.796 0.688 0.528 0.624 0.015 0.470

検討2 0.642 0.827 0.833 0.594 0.582 0.596 0.023 0.491

検討3 0.634 0.807 0.833 0.563 0.560 0.594 0.025 0.482

(a) 検討モデル 1 (b) 検討モデル 2 (c) 検討モデル 3

図 14: 各モデルの学習曲線

Page 7: 質問のパターンに着目した医療分野における Visual QA の検討...DEIM2020 D6-2 質問のパターンに着目した医療分野におけるVisual QAの検討 馬田

文 献[1] Torchvision.models, https://pytorch.org/docs/master/torchvision/

models.html.

[2] Abien Fred Agarap, Deep learning using rectified linear

units (relu), 2018, cite arxiv:1803.08375Comment: 7 pages,

11 figures, 9 tables.

[3] Peter Anderson, Xiaodong He, Chris Buehler, Damien

Teney, Mark Johnson, Stephen Gould, and Lei Zhang,

Bottom-up and top-down attention for image captioning

and visual question answering, CVPR, 2018.

[4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret

Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi

Parikh, Vqa: Visual question answering, International Con-

ference on Computer Vision (ICCV), 2015.

[5] Asma Ben Abacha, Sadid A. Hasan, Vivek V. Datla,

Joey Liu, Dina Demner-Fushman, and Henning Muller,

VQA-Med: Overview of the medical visual question

answering task at imageclef 2019, CLEF2019 Working

Notes (Lugano, Switzerland), CEUR Workshop Proceed-

ings, CEUR-WS.org <http://ceur-ws.org>, September 09-

12 2019.

[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-

Fei, ImageNet: A Large-Scale Hierarchical Image Database,

CVPR09, 2009.

[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and

Kristina Toutanova, Bert: Pre-training of deep bidirec-

tional transformers for language understanding, 2018, cite

arxiv:1810.04805Comment: 13 pages.

[8] Ross Girshick, Fast r-cnn, Proceedings of the 2015 IEEE In-

ternational Conference on Computer Vision (ICCV) (Wash-

ington, DC, USA), ICCV ’15, IEEE Computer Society,

2015, pp. 1440–1448.

[9] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Ba-

tra, and Devi Parikh, Making the V in VQA matter: Ele-

vating the role of image understanding in Visual Question

Answering, Conference on Computer Vision and Pattern

Recognition (CVPR), 2017.

[10] Karen Simonyan and Andrew Zisserman, Very deep convo-

lutional networks for large-scale image recognition, CoRR

abs/1409.1556 (2014).

[11] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya

Sutskever, and Ruslan Salakhutdinov, Dropout: A simple

way to prevent neural networks from overfitting, J. Mach.

Learn. Res. 15 (2014), no. 1, 1929–1958.

[12] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and

In So Kweon, Cbam: Convolutional block attention module,

The European Conference on Computer Vision (ECCV),

September 2018.

[13] Xin Yan, Lin Li, Chulin Xie, Jun Xiao, and Lin Gu, Zhe-

jiang university at imageclef 2019 visual question answering

in the medical domain, CLEF, 2019.

[14] Xin Kang Yangyang Zhou and Fuji Ren, Tua1 at imageclef

2019 vqa-med: A classification and generation model based

on transfer learning, CLEF, 2019.

[15] Zhou Yu, Jun Yu, Jianping Fan, and Dacheng Tao, Multi-

modal factorized bilinear pooling with co-attention learning

for visual question answering, (2017).