34
修士論文 対象材料を含まないレシピを用いたラベルの 信頼度計算による画像からの材料推定 大学大学院 30 2 5

対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

修士論文

対象材料を含まないレシピを用いたラベルの信頼度計算による画像からの材料推定

指導教員 美濃 導彦 教授

京都大学大学院情報学研究科修士課程知能情報学専攻

伊奈 拓郎

平成 30年 2月 5日

Page 2: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

i

対象材料を含まないレシピを用いたラベルの信頼度計算による画像からの材料推定

伊奈 拓郎

内容梗概

調理途中の食材を観測した画像から,それを構成する材料を推定することが

できれば,調理の進行状況を把握する上で重要な情報となる.本研究では,機

械学習技術によって調理途中の食材の画像からその材料を推定することを目的

とする.学習のためには食材の画像だけでなく,その材料がラベルとして付与

された訓練データが必要となるが,調理途中の食材は多様な外見をとり得るた

め,十分な量の訓練データを確保することが難しい.このため,弱教師付き学

習の考えに基づき,Web上の大量のレシピを利用することを考える.

レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

程を写した手順画像の組で表現されているものがある.手順教示文には調理で

使用された材料名が現れる.従って,手順教示文中の材料名が手順画像中のど

の食材領域に対応するかを推定しながら,学習を行う.対応関係の誤りには,食

材領域に写る材料が含まれないラベル不足や,食材領域に写らない材料が含ま

れないラベル余りの二つがある.このうち,ラベル不足は,過去の調理工程の

手順文章に現れる材料名を全て食材領域の材料候補と見なすことで抑制できる.

一方で,ラベル余りについては,一つのレシピ内の情報から,これを抑制す

ることは難しい.そこで,本研究では,多数のレシピのうち,材料毎にその材

料が写らない,いわば負の参照データと呼べる画像を収集し,それらと候補画

像との類似度に基づいて信頼度を計算する.ラベル余りは,常に同じレシピで

使われる別の材料ラベルが誤って付与されることによって生じる.従って,負

の参照データは同じレシピの別の材料を含むものが望ましく,提案手法では材

料表の類似性に基づいたレシピの選択を行う.

実験では,比較的調理中の外見が変化しないニンジンと加工方法によって多

様な外見をとり得るジャガイモの 2種類に対して評価を行った.事前に食材ご

とのパラメータの調整が必要な従来手法と比較を行い,同程度の性能を達成し

た.また,調理後半の,画像と材料ラベルの対応関係がより曖昧な場合におい

て,ラベル余りを含んだまま学習を行ったベースラインのモデルに対して識別

精度が大きく向上することを確認した.

Page 3: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

ii

Ingredient Estimation based on Label Confidence

Calculated with Recipes that Contains No Ingredients of

Interest

Takuro Ina

Abstract

To understand the progress of food preparation from a video observation,

it is a crucial evidence at each frame to know the ingredients that comprises a

food-in-process. This paper aims to estimate the ingredients based on machine

learning techniques. To train an ingredient estimator, there must be a number

of food images with its ingredient labels: however, it is difficult to prepare

a sufficient number of labelled images manually. Instead, we attempt to use

recipes on the Web, based on the idea of weakly-supervised learning.

A type of recipes has an image for each instruction. Since ingredient names

will appear in the text of instruction, our proposed method trains the ingredient

estimator while making correspondence between foods in each image and ingre-

dient names in the text. The miss-correspondence appears as either a missing

label or a fake label. We can avoid the missing labels by counting all ingredient

names appearing in the past instructions as the label candidates.

On the other hand, it is difficult to avoid fake labels only from information

obtained from a single recipe. The proposed method focuses on an individ-

ual ingredient, and collect a set of recipes that do not contain the ingredient.

Images obtained from such recipes can be used as negative references for the

ingredient. We calculate confidence of label candidates based on the similarity

to the negative references. Since fake labels would be other ingredients appear-

ing in the same recipe, negative references should be images corresponding to

such ingredients. The proposed method achieves this by selecting recipes based

on the similarity of ingredient list.

In the experiment, we tested the method with ingredient label “carrot” and

“potato”, which has limited appearance variation and rich appearance variation

respectively. The method achieved a comparative performance to a previous

method that require a careful parameter tuning for each ingredient. In addition,

Page 4: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

iii

we confirmed that the method outperformed a base-line method in a test with

foods appearing in the latter stage of food preparation, with which food-label

correspondence is vaguer than that in the former stage.

Page 5: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

対象材料を含まないレシピを用いたラベルの信頼度計算による画像からの材料推定

目次

第 1章 序論 1

第 2章 関連研究 5

第 3章 レシピを用いた材料推定のための弱教師付き学習 7

3.1 負の参照領域を利用した信頼度計算 . . . . . . . . . . . . . . . . . . . . 8

3.1.1 材料の類似性に基づいたレシピの分割 . . . . . . . . . . . . 10

3.1.2 画像特徴の類似性に基づいた食材領域の分割 . . . . . . . . 10

第 4章 実験 13

4.1 ラベルの信頼度の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.1.1 評価方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.1.2 結果 ·考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.2 材料推定の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2.1 評価方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2.2 結果 ·考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

第 5章 結論 26

参考文献 28

Page 6: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

第1章 序論

食事は,人間が生きるために不可欠な行動である.人間は同じレパートリの

料理を食べ続けると,その味に飽きてしまい,新しいレパートリの料理を求め

る.新しいレパートリの料理を作る場合,一般的にはレシピが参照される.レ

シピにはその料理を完成するための情報が記載されており,調理の手助けとな

る.レシピに従って調理をするときに,もしそのレシピを一度に覚えきれなけ

れば,調理の途中で何度もレシピを参照するために手を止めることになる.手

を止めていても,加熱などにより自動的に調理が進行してしまう状況が生じる.

また,調理の途中には手が汚れていて,レシピ本や端末の操作が煩わしい場合

が多い.このため,調理の途中で手を止めてレシピを参照する事は手間となる.

これに対して,調理者の工程に応じて適切なレシピの情報を提示する調理支

援システムが研究されている [1].このシステムでは調理者による食材の把持な

どの情報を手がかりとして調理の進行状況に応じた情報を提示する.調理の進行

状況は木やDirected Acyclic Graph(DAG)で表現できる事が知られている [2,3].

調理中に観測された食材に対して,その材料の組み合わせを推定できれば,そ

れはそのままDAGの中のノードに対応づける事ができる (図 1).そこで本研究

は,調理途中の食材からその材料を推定する事を目的とする.

図 1: 調理の進行状況をDAGで表現した例

1

Page 7: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

画像から食材が写る領域の候補は,従来の物体検出器を用いて抽出すること

が出来る [4].また,各食材領域の候補から,その食材の材料を推定する問題は

Convolutional Nerural Network(CNN)などの機械学習によって取り扱う事が出

来る.機械学習を利用する場合,入力は食材領域の候補,出力は各材料が写っ

ているかどうかを表す多次元二値ラベルとなる.このような学習を行うために

は,食材領域の候補と材料を示す多次元二値ラベルの組み合わせを大量に取得

する必要がある.しかし,材料に関する正解は現在のところ存在せず,大量の

食材画像に対して人がタグ付けする事も非常にコストがかかる.そこで,本研

究では潜在的にこの教師信号を含んでいると考えられるWeb上にある大量のレ

シピを利用することを考える.

レシピには,調理の工程毎に調理方法を言葉で説明した手順教示文とその工

程を写した手順画像の組で表現されているものがある (図 2) [5].手順教示文に

は多数の材料名が現れ,これはフローグラフコーパス [3]などを利用した自然

言語処理によって文中から抽出することができる.また,手順画像には調理中

の食材が写っており,YOLOv2 [4]などの物体検出器を用いて食材領域の候補を

抽出することができる.しかし,手順教示文中の材料名が手順画像中のどの食

材領域と対応するかがわからず,そのままでは学習できない.ある食材領域に

材料ラベルを割り振る場合,誤りのパターンは下記の 2種類に分けられる.

ラベル余り 食材領域に写らないがラベルとして付与されている材料が存在

ラベル不足 食材領域に写るがラベルとして付与されていない材料が存在

典型的なラベル余りとしては,領域推定誤りのため,食材領域に実際には材

料が写らない場合が挙げられる.また,ラベル不足は,ある調理工程の手順教

示文と手順画像の対を考え,その手順教示文に含まれる材料のみをラベルとし

て割り振る場合に生じる.これは手順の説明において,過去の調理工程で言及

された材料名が後の調理工程では言及されないことに起因する.

ラベル不足の問題は,手順が進む毎に顕著になる.手順が進むと食材の外見

も変わるため,ラベル不足があると作業後半の食材から材料を推定することが

難しくなってしまう.そこで,本研究では [5]と同様に過去の調理工程の手順

教示文の材料ラベルも食材領域の材料である可能性を考慮する.言い換えれば,

過去の調理工程の手順教示文まで遡ることで,調理後半の食材を学習する際の

ラベル不足を抑制し,問題をラベル余りのみに限定する.

ラベル余りが生じる状況では,材料ラベルが実際に食材領域に対応づくかど

2

Page 8: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 2: 調理の工程毎に手順教示文と手順画像が組で表現されたレシピの例 (出典

元: https://cookpad.com/recipe/2649971)

3

Page 9: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

うかを判定する必要がある.それを判定する尺度を信頼度と呼ぶ.本研究では,

この信頼度を計算するために,レシピに付随する材料表が持つ情報に着目する.

ある材料ラベルに着目した時,その材料を材料表に含まない任意のレシピから

得られる食材領域は,その材料を含まないと断定できる.このように,その材

料を含まないと断定できる食材領域を,その材料に対する負の参照領域と呼ぶ.

材料ラベル毎に,その材料を含まないレシピから負の参照領域を収集し,そ

れらとの類似性を元にその食材領域の信頼度を推定し,材料推定のための深層

モデルの学習を行う.

4

Page 10: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

第2章 関連研究

今回で扱う問題のように,ラベルと画像は存在するがラベルと画像中の物体と

の対応関係が明確ではないデータからの学習は弱教師付き学習と呼ばれる [5–7].

対応関係の誤りとして,画像中の物体に余分なラベルがついてしまうラベル余

りと,必要なラベルが付与されないラベル不足の 2種類が存在する.

従来手法のうち,[6] [7]はラベル不足に対処する手法である.これらの研究は

Flickrなどのユーザ投稿型コンテンツから得られる画像とその画像に付けられ

たタグを用いている.そのタグはユーザにとって印象に残るかどうかによって

付けられるため,ラベル不足が生じる.ラベル不足に対し,Fromeらの研究で

はタグとは別に画像に付いた文章を用いることで,タグに付与されていないラ

ベルも推定する手法を提案している [6].また,Zhangらの研究ではラベル間の

共起確率を用いることで,ラベル不足を補う手法を提案している [7].しかし,

本研究でラベル不足が生じる状況は従来手法とは根本的に異なる.本研究で扱

うレシピでは,調理前半で扱われた材料についての記載が調理後半では省略さ

れる.もし同じ手順番号の手順教示文に含まれる材料名のみをラベルとして手

順画像中の食材領域に与えると,調理後半に対する正しい材料ラベルがついた

データを得ることが著しく困難になる.それに対し,本研究では同じくレシピ

に基づく材料推定を行った [5]の研究に習い,過去の手順の教示文に遡って材料

名を抽出し,ラベルとして用いることで調理後半に対するラベル不足を抑制し

た.この処理によってラベル余りが多数発生する.

ラベル余りに対処した従来手法 [8] [9]は,検索エンジンから得られる画像を

利用している.検索エンジンから得られる画像には検索クエリ以外の画像が含

まれるのは避けられない.そのため,ラベル余りが想定されている.ラベル余

りに対して,Yanらの研究ではラベルの正誤によってオートエンコーダの復元

誤差に差が生じることを利用している [8].また,Chenらの研究では,検索結

果トップの画像は白背景でかつ,検索クエリの物体が単体で写る画像である可

能性が高いことを利用している [9].しかし,本研究で扱うような調理途中の食

材からその材料を推定する問題の場合,そもそも調理途中の食材には名前がな

く検索することが難しい.仮に材料名で検索したとしても,未加工の状態のも

のが見つかるのみで,このような手法を適用することが難しい.

最後に,本研究の先行研究としてレシピから得られる情報を用いて材料推定

5

Page 11: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

を行う手法 [5]が提案されている.この手法では,正しくラベルと対応した領域

はそれ以外の領域よりも先に学習されるという予想を立てた.この予想をもと

に,数回の事前学習に基づいてラベルの正誤判定を行い,ラベル余りに対処し

た.しかし,材料毎に学習速度が違うため,事前学習の学習量を材料毎に設定

しなければならない.また,この研究で述べた予想に理論的裏付けが存在しな

いため,適切な学習量を自動的に決めることが出来ない.これに対して,本研

究では学習量に依らない手法を提案する.

6

Page 12: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

第3章 レシピを用いた材料推定のための弱教師付き学習

識別率の高い学習モデルを作成するには,画像 xiと物体のラベル yiが組と

なったデータ di = (xi,yi)が必要である.本研究では,xiは食材領域で,yiはxi

に写っている材料を示す多次元二値ベクトルとする.以下,食材領域 xiに写っ

ている材料を示す多次元二値ベクトル yi ∈ [0, 1]Nd を材料ラベルベクトルと呼

ぶ.ここでのNdは調理に使用される材料の総数である.yiの j次元目の値 yji

が 1ならば,j次元目に対応する材料が食材領域xiに写っていることを示す.食

材領域 xiと材料ラベルベクトル yiの組を取得するためにレシピを利用する.

食材領域 xiはレシピの手順画像から,材料ラベルはレシピの手順教示文から

取得できるが,食材領域xiと材料ラベルの対応関係が明確ではない (図 3).従来

図 3: 手順教示文から得られる材料ラベルと手順画像から得られる食材領域,お

よび不明となる対応関係

手法 [5]では,対応関係が明確ではない問題をラベル余りの問題に帰着した.そ

のラベル余りの問題に対して,ラベルの正誤を決定論的に与える手法を提案し

たが,材料に応じてパラメタ設定を行う必要があるため,実用上問題があった.

これに対し,本研究ではラベルの正誤を信頼度によって非決定的に表現する.

以降,食材領域 xiの集合をXとする.また簡単のため,手順教示文の多数

の材料のうち,ある特定の材料 jのみに着目する.その材料を対象材料と呼ぶ.

7

Page 13: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

yji = 1の条件を満たす食材領域を対象材料に対する候補領域 x∗i と呼び,候補領

域の集合をX∗ = {x∗i |0 < i ≤ N∗}とする.候補領域 x∗

i に対し,信頼度Cj(x∗i )

を付与する.

信頼度Cj(x∗i )を求めるために,レシピに付随している材料表が持つ情報に着

目した.レシピの材料表は,そのレシピで使用される材料の一覧が記されてい

る.材料表を参照することで,対象材料が含まれていないレシピ群を得ること

ができる.そのレシピ群から得られる食材領域には,対象材料が含まないこと

が保証されている (図 4).この食材領域を対象材料に対する負の参照領域とし,

図 4: 材料表に対象材料を含まないレシピから得た食材領域

その集合を X = {xi|0 < i ≤ N}とする.負の参照領域 xiは yji = 0が保証され

ているため,信頼度Cj(xi)は 1とする.

本研究では,Xの要素と類似したx∗i は対象材料と対応付いていない可能性が

高いと考えた.その考えを元に,xiは yji = 0,Cj(xi) = 1の訓練データとして

用いるだけでなく,x∗i ∈ X∗の信頼度Cj(x∗

i )の計算にも利用する.

3.1 負の参照領域を利用した信頼度計算x∗i が対象材料と対応付いていない場合,基本的に別の材料と対応しているこ

とが考えられる.よって,Xにそのような材料が多く含まれていれば,Xの要

素と x∗i との画像特徴の類似性に基づいて,x∗

i が対象材料と対応付くか否か推

8

Page 14: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

定が可能であると考えた (図 5).

図 5: 対象材料以外の材料を含む負の参照領域の利用による,対象材料と対応付

いていない候補領域 x∗i の推定

実際には,x∗i は様々なレシピから得ているため,X∗は多様な材料が含まれ

てしまっている.xiも同様に様々なレシピから得ているため,Xも多様な材料

が含まれてしまっている.X∗と Xに含まれている材料は取得元のレシピに付

随している材料表に記されている何れかの材料に対応する.材料表が互いに類

似しているレシピ群から得られるX∗と Xには,一様な材料が含まれる.そこ

で,X∗と Xを,その取得元のレシピにおける材料表の類似性に基づいてK個

に分割する.分割して得られた候補領域の集合をX∗k,負の参照領域の集合を

Xk(0 < k ≤ K)と記述する.X∗k ∪ Xkは一様な材料からなる食材領域の集合と

なる.

Xkの要素と画像特徴が類似した x∗i k ∈ X∗

kを推定するために,画像特徴の

類似性に基づいて,X∗k ∪ XkをM 個に分割する.X∗

k,Xkを画像特徴の類似

性に基づいて分割して得られた候補領域の集合を X∗mk ,負の参照領域の集合

を Xmk (0 < m ≤ M)と記述する.X∗m

k ∪ Xmk に含まれる負の参照領域の割合

(|X∗m

k ∩Xmk |

|X∗mk ∪Xm

k|)が大きいほど,x∗

imk ∈ X∗m

k は対象材料と対応付かない可能性が高

いと期待できる.この性質を利用し,画像特徴の類似性に基づいて分割された

集合毎に,x∗imk ∈ X∗m

k の信頼度を Jaccard係数に基づいて,以下のように算出

9

Page 15: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

する.

Cj(x∗imk ) = Cj(X∗m

k ) (1)

Cj(X∗mk ) =

c(X∗mk )−minn c(X

∗mn )

maxn c(X∗mn )−minn c(X∗m

n )(2)

c(X∗mk ) = 1− |X∗m

k ∩ Xmk |

|X∗mk ∪ Xm

k |(3)

X∗mk に属する候補領域全てに同じ信頼度Cj(X∗m

k )を持つ.式 (2)は式 (3)で得

られる c(X∗mk )を正規化している.

3.1.1 材料の類似性に基づいたレシピの分割

X∗および Xを取得元のレシピにおける材料表の類似性に基づいてK個の分

割を行う.レシピを表す特徴量として,材料表に含む材料の有無を示す多次元

二値ベクトル f ∈ {0, 1}F を用いた.ここでの,F はX∗ ∪ Xに現れる全ての材

料の数と等しい.f は基本的に疎な特徴となるため,2レシピ間の類似度には,

材料表ベクトル fiと fjのコサイン類似度を用いる.材料表ベクトル fiと fjのコ

サイン類似度は

cos(fi, fj) =fi · fj

||fi||||fj||(4)

で表せる.

材料表が類似しないレシピが同じクラスタに属さないようにするため,最長

距離法を用いた階層的クラスタリングを用いる.最長距離法とは,クラスタ間

の類似度として異なる二つのクラスタに属するサンプル間の類似度の中で最小

値を採用したものである.階層的クラスタリングは,以下の処理でクラスタリ

ングを行う方法である.

1. サンプル全てを別々のクラスタと見なす.

2. 最もクラスタ間の類似度が大きい二つのクラスタを併合する.

3. 2の処理を存在するクラスタ数がKになるまで繰り返す.

階層的クラスタリングを用いて,レシピ群をK個に分割する.上記の処理で

分割した k番目のレシピ群から得られる候補領域の集合をX∗k,負の参照領域の

集合を Xkとする.

3.1.2 画像特徴の類似性に基づいた食材領域の分割

3.1.1節で得られた候補領域の集合X∗k,負の参照領域の集合 Xkをさらに画像

特徴の類似性に基づいてM 個に分割する.従来手法 [5]のように特定のエポッ

10

Page 16: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

クで得られる特徴のみを用いることは止め,各エポックで逐次的に特徴抽出を

行い,分割と信頼度計算の再計算を行う (図 6).また,学習を重ねると同じ材

料が写っている食材領域は互いに似た特徴が得られると予測できる.そのため,

エポック毎に信頼度を計算し直すことで信頼度の精度の向上が期待できる.

図 6: エポック毎のラベルの信頼度の更新

具体的な処理として,材料推定を行う学習モデルには VGG16 [10]を利用す

る.VGG16は畳み込み層が 13層,全結合層が 2層,出力層が 1層の合計 16層

のネットワークであり,その性能と汎用性の高さから様々な研究で利用されて

いる.食材領域の画像特徴として,VGG16の最終層から一つ手前の 4,096次元

の出力を利用する.特徴量が高次元であるため,M 個に分割する手法として高

次元特徴でも働く Isolated Dence Clustering(IDC) [11]を用いる.ただし,1エ

ポック目の学習で用いるラベルの信頼度は ImageNet [12]で事前学習済のモデ

ルから得られる特徴量で計算したものを用いる.

なお,ラベルの信頼度Cj(xi)を学習の重みとして利用するため,材料推定を

11

Page 17: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

行う学習モデルの損失関数を次式のように定義した.

Lj(yji , yji ) = − 1

N

N∑i=1

Cj(xi)Ljbi(y

ji , y

ji ), (5)

Ljbi(y

ji , y

ji ) = −yji log(y

ji )− (1− yji )log(y

ji ) (6)

ここでの Ljbiは材料 jに対する二値クロスエントロピー誤差であり,yji は学習

モデルが食材領域 x∗i に材料 jが写っているかを推定した値である.

12

Page 18: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

第4章 実験

提案手法により算出された信頼度の性能の評価,および,その信頼度を用い

て学習した材料推定器の精度評価を行う.対象材料として,比較的調理中の外

見が変化せず,推定が容易である予測される「ニンジン」と加工方法によって

多様な外見を取るため推定が難しいと予測される「ジャガイモ」の二つを用い

る.本実験で用いるデータセットとして,クックパッド株式会社から提供を受

けた実際のユーザにより投稿されたレシピを用いた [13].これらのレシピの中

から,ニンジン,ジャガイモを材料に含むレシピを選び,人手のアノテーショ

ンによる正解付きデータセットA(表 1)と,材料毎にデータセットAに含まれ

ないものからランダムに選んだ 1,000件のレシピからなる正解なしのデータセッ

トBを作成した.

表 1: データセットAにおける人手のアノテーション結果の内訳

対象材料 ニンジン ジャガイモ

食材領域中の材料の有無 有 無 有 無

手順番号 [1-2] 472 471 448 259

手順番号 [3-4] 290 399 333 287

手順番号 [5-6] 177 273 206 234

手順番号 [7-] 164 396 196 294

手順番号 [all] 1103 1539 1183 1074

手順教示文中に現れる材料はそのレシピを投稿したユーザによって,同じ材

料でも漢字 ·カタカナ ·平仮名の組み合わせで表記ゆれが生じる.表記ゆれを対処するために,土居ら [14]によって構築された料理オントロジーを用いた.料

理オントロジーには,同義語辞書が含まれており,これによって材料の表記ゆ

れを吸収した.

13

Page 19: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

4.1 ラベルの信頼度の評価4.1.1 評価方法

ラベルの信頼度には正解がないため,正解との比較による評価を行う事がで

きない.そのため,この信頼度に対するしきい値処理によりラベルの正誤判定

を行い,その精度の有効性を評価した.信頼度の計算における候補領域の集合

X∗として,正解付きのデータセットA(表 1)を用いた.また,負の参照領域の

集合 Xとして,対象材料を含まない 1,000件のレシピからランダムに選択し,

それらのレシピから対象材料毎に負の参照領域を得た.3.1.1節での分割で得ら

れた食材領域の集合全てに候補領域または負の参照領域を含むようにするため

に分割数Kを 5とする.

比較手法には,ラベル正誤による学習速度の違いを用いてラベルの正誤判定

を行った既存手法 [5]を用いた.この既存手法は,学習速度が材料によって変化

するため,ラベルの正誤判定に必要な事前学習のエポック数を慎重に設定しな

ければならないという問題がある.エポック数の違いによる変化を調べるため

に,既存手法,提案手法ともにエポック数が 1,5,10,25,40の場合について,正誤

判定の精度を評価した.

ラベルの正誤判定の評価指標として,縦軸に真陽性率,横軸に偽陽性率とし

たROC曲線を用いた.真陽性率とは,実際に対象材料が写っている食材領域の

うち正しく対象材料が写ると推定した食材領域の割合である.また偽陽性率と

は,実際に対象材料が写っていない食材領域のうち誤って対象材料が写ると推

定した食材領域の割合である.既存手法では正誤判定がしきい値に依らないた

め,点で表示する.一方,提案手法はしきい値に応じて座標が動くため,曲線

で表示する.

4.1.2 結果 ·考察ニンジンに対するラベルの正誤判定の結果を図 7で,ジャガイモの場合は図

8で示す.図の左上に行くほど,偽陽性率を低く保ちながら,真陽性を高く保つ

ことができる.つまり,ラベルの正誤判定の精度が高い状況を示す.また,図の

右上に行くほど,全てのラベルを正しいと判定してしまう状況に対応する.こ

れは,全ての候補領域には対象材料が写るとみなしていることに等しい.

既存手法はエポック数 10,25のとき,それぞれ提案手法より高い精度を実現

している.一方で,エポック数 40のとき,ほとんど全てのラベルを正しいと判

14

Page 20: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 7: ニンジンに対するラベル正誤判定結果

図 8: ジャガイモに対するラベル正誤判定結果

15

Page 21: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

定してしまっている.より詳しく既存手法のエポック数の違いによる精度の変

化をみるために,エポック数を横軸にとった真陽性率と 1-偽陽性率の値をニン

ジンの場合は図 9に,ジャガイモの場合は図 10に示す.図 9,10からもエポッ

ク数が大きくなると全てのラベルを正しいと判定してしまっていることが確認

できる.これはエポック数が大きくなるにつれて,既存手法は誤ったラベルが

付いた食材領域が学習モデルに適応しまったためである.また,材料によって

真陽性率と偽陽性率の変化が変わり,材料毎にパラメタ設定をしなければなら

ないことも確認できる.これに対して,図 7, 8を見ると,提案手法は学習を進

めるほど左上の領域に近づいており,既存手法のように慎重なエポック数の調

整が不要であることが確認できる.

図 9: ニンジンに対する既存手法によるラベル正誤判定の真陽性率 ·偽陽性率の結果

16

Page 22: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 10: ジャガイモに対する既存手法によるラベル正誤判定の真陽性率 ·偽陽性率の結果

4.2 材料推定の評価4.2.1 評価方法

次に信頼度を重みとして用いた学習を行った CNNによる対象材料の推定精

度の評価を行う.訓練データとして利用する候補領域の集合X∗として,データ

セット Bから得られたニンジンに対する候補領域 4,820枚とジャガイモに対す

る候補領域 6,510枚を用いた.また,負の参照領域の集合 Xとして,対象材料

を含まない 1,000件のレシピをランダムに選択し,それらのレシピから対象材

料毎にX∗と同数の負の参照領域を用いた.評価データとして正解付きのデー

タセットAを用いた.3.1.1節での分割で得られた食材領域の集合全てに候補領

域または負の参照領域を含むようにするために分割数Kを 20とする.

比較手法には,訓練データで信頼度を付与することで学習の有効性を確認す

るために,信頼度を付与せず候補領域の集合X∗全て正しいラベルが付与された

ものとして学習を行ったベースライン手法を用意した.この手法は,ラベルの

正誤判定の実験での既存手法でエポック数 40の時とほぼ同様であると考えられ

る,また,ラベルの正誤判定精度が高かった既存手法 (epoch=10,25)を用意し,

17

Page 23: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

提案手法との推定精度の差を確認する.学習は全て材料毎に独立に行い,ベー

スライン手法と既存手法,提案手法で全てエポック数を 50とした.

材料推定の評価を行うため,評価尺度として平均適合率 (AP)を用いた.

AP =A

N(7)

ここでのN は評価用データに含まれるサンプル数であり,Aは評価用データの

うち正しく推定できたサンプル数である.

4.2.2 結果 ·考察ニンジンに対する材料推定結果を表 2,ジャガイモに対する材料推定結果を

表 3で示す.

表 2: ニンジンの材料推定問題に対する平均適合率

評価データの手順番号 [1-2] [3-4] [5-6] [7-] [all]

ベースライン手法 0.6850 0.6661 0.6377 0.6839 0.6718

既存手法 (epoch=10) 0.7391 0.7227 0.7288 0.7553 0.7365

既存手法 (epoch=25) 0.7242 0.7198 0.7422 0.7267 0.7267

提案手法 0.7391 0.7097 0.7311 0.7089 0.7236

表 3: ジャガイモの材料推定問題に対する平均適合率

評価データの手順番号 [1-2] [3-4] [5-6] [7-] [all]

ベースライン手法 0.6520 0.6338 0.5704 0.5020 0.5985

既存手法 (epoch=10) 0.5558 0.6161 0.5909 0.6428 0.5981

既存手法 (epoch=25) 0.5219 0.5580 0.5863 0.6591 0.5742

提案手法 0.5247 0.5661 0.5704 0.6081 0.5631

適切なエポック数が設定されている既存手法が多くの場合に最高精度を達成

した.しかし,ジャガイモについて,特に加工が進んでいない手順番号 [1-2]お

よび [3-4]の場合はベースライン手法が最高精度が上回り,平均精度でもベース

ライン手法は既存手法および提案手法を上回った.

次に,提案手法で正しく材料推定できたが,既存手法 (epoch=10)でできな

18

Page 24: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

かった例と逆に既存手法 (epoch=10)では正しく材料推定できたが提案手法で

はできなかった例をニンジン,ジャガイモについて図 11,図 12にそれぞれ示

す.ユーザ投稿型レシピから得られる画像であるため,撮影に用いられたカメ

ラや光源環境などの多様性がある難しい認識対象であることが確認できる.ま

た,調理が進むにつれ,材料の形状に一貫性が失われていく様子も確認できる.

ただし,ニンジンについて手順番号が大きいものであっても比較的に色が保た

れている.なお,既存手法 (epoch=10),提案手法いずれの場合も推定が成功す

る場合,失敗する場合に明確な傾向の違いが見受けられなかった.

最後に,材料推定の実験において,提案手法が想定通りに動いているかどう

かについて検証する.3.1.2節での画像特徴の類似性に基づく食材領域の分割は

似た材料で一つのクラスタを形成されると考えている.学習が進んでいないエ

ポック数 1と学習が進んだエポック数 50の場合で,どのようなクラスタを形成

するかを確認した.式 (2)の信頼度が高いクラスタと低いクラスタを例に挙げ,

それぞれのクラスタに含まれる対象材料に対する候補領域,負の参照領域とも

にランダムに 9枚表示した.対象材料がニンジンの場合を図 13,14で,ジャガ

イモの場合を図 15,16にそれぞれ示す.

学習が進んでいないエポック数 1の場合,ニンジンとジャガイモの場合とも

に似た色で一つのクラスタが形成されていることが確認できる.ニンジンのよ

うに他の材料にあまり現れない色を持つ場合,ニンジン以外が写る候補領域に

対し,低い信頼度を付与することができる.ジャガイモのように他の材料にも

多く現れる色を持つ場合,図 15の下段のようにジャガイモと似た色を持つ負の

参照領域が含まれてしまう.そのため,実際にジャガイモが写っている候補領

域に対し,低い信頼度が付与される結果となる.

また,学習が進んだエポック数 50の場合,色または形状などに対し一貫性が

ないクラスタが形成されていることが確認できる.ニンジンのように学習の初

期段階で比較的正しい信頼度を付与した場合,学習が進んだ場合に対しても比

較的正しい信頼度が付与できていることが確認できる.ジャガイモのように比

較的誤った信頼度を付与した場合,学習が進んでも正しい信頼度が付与できて

いないことが確認できる.そのため,ジャガイモに対する提案手法の平均精度

がベースライン手法および既存手法よりも下回ったと考えられる.根本の原因

として,材料毎にクラスタを形成できなかったことが挙げられる.それに対し,

材料毎にクラスタを形成するのに,悪影響を及ぼした対象材料と似た色を持つ

19

Page 25: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 11: ニンジンに対する提案手法で正しく推定でき,既存手法 (epoch=10)で

できなかった例 (左図),および既存手法 (epoch=10)で正しく推定でき,提案手

法でできなかった例 (右図)

20

Page 26: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 12: ジャガイモに対する提案手法で正しく推定でき,既存手法 (epoch=10)で

できなかった例 (左図),および既存手法 (epoch=10)で正しく推定でき,提案手

法でできなかった例 (右図)

21

Page 27: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

材料を前処理で取り除くことが挙げられる.

図 13: ニンジンに対するエポック数 1の画像特徴の類似性に基づく食材領域の

分割結果

22

Page 28: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 14: ニンジンに対するエポック数 50の画像特徴の類似性に基づく食材領域の

分割結果

23

Page 29: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 15: ジャガイモに対するエポック数 1の画像特徴の類似性に基づく食材領域

の分割結果

24

Page 30: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

図 16: ジャガイモに対するエポック数 50の画像特徴の類似性に基づく食材領域

の分割結果

25

Page 31: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

第5章 結論

本研究では,調理途中の食材から,それを構成する材料を推定することを目

的とした.このような材料推定は,機械学習によって取り扱う事が出来る.学

習のためには,調理途中の食材領域だけでなく,その材料がラベルとして付与

された訓練データが必要となる.その訓練データを確保するために,Web上の

大量のレシピを利用した.レシピから得られる食材領域と材料ラベルの対応関

係が未知である問題が生じた.対応関係の誤りとして,食材領域に写る材料が

含まれないラベル不足や食材領域に写っていない材料が含まれるラベル余りの

二つがある.このうち,ラベル不足は従来 [5]の研究に習い,過去の調理工程の

手順文章に現れる材料名を全て材料候補と見なすことで抑制した.

ラベル余りが生じる状況下では,本研究は材料ラベルが実際に食材領域に対

応づくかどうかを判定する信頼度の計算を行った.信頼度計算する際,レシピ

に付随する材料表を利用した.ある材料ラベルに着目した時,その材料を材料

表に含まないレシピが得られる.そのレシピから得られる食材領域には,その

材料が含まないことが保証され,それらとの類似性を元に信頼度計算を行った.

こうして,計算された信頼度に基づいて深層モデルの学習を行い,材料推定を

行う識別器を得た.材料推定の実験では,提案手法は従来のようなパラメタ設

定することなく,従来手法と同程度の性能を達成することを確認した.

今後の課題として,今回は材料ごとに独立して学習を行ったが,これを複数

の材料をまとめて行うことが挙げられる.本研究の手法の過程で得られるクラ

スタX∗kは対象材料以外の材料の学習にもそのまま利用できる.つまりX∗m

k に

対して,X∗kに含まれる全ての対象材料のラベルの信頼度を計算できる.このよ

うな拡張を行うことで同時に複数の材料を学習した場合には,学習を進めるに

従って,材料ごとにより互いに類似した特徴が得られることが期待できる.

26

Page 32: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

謝辞

本研究を進めるにあたり、多くのご教示を賜りました美濃導彦教授,飯山将

晃准教授に深く感謝いたします.また日頃より多くの助言を頂きました橋本敦

史助教に厚く御礼申し上げます.またグループミーティングで多くの助言を頂

きましたActivity Analysisグループの皆様、ならびに美濃研究室の皆様に深く

感謝いたします.

27

Page 33: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

参考文献

[1] Atsushi Hashimoto, Jin Inoue, Takuya Funatomi, and Michihiko Minoh.

Intention-sensing recipe guidance via user accessing objects. International

Journal of Human-Computer Interaction, 2016.

[2] 浜田玲子, 井手一郎, 坂井修一, 田中英彦. 料理テキスト教材における調理

手順の構造化. 電子情報通信学会論文誌D, pp. 79–89, 2002.

[3] Mori Shinsuke, Hirokuni Maeta, Yoko Yamakata, and Tetsuro Sasada.

Flow graph corpus from recipe texts. Language Resources and Evalua-

tion Conference, pp. 2370–2377, 2014.

[4] Joseph Redmon and Ali Farhadi. Yolo9000:better, faster, stronger. In the

IEEE Conference on Computer Vision and Pattern Recognition, 2017.

[5] Hashimoto Atsushi, Fujino Takumi, Harashima Jun, Iiyama Masaaki, and

Minoh Michihiko. Learning food appearance by a supervision with recipe

text. In Proceedings of the 9th Workshop on Multimedia for Cooking and

Eating Activities in Conjunction with The 2017 International Joint Con-

ference on Artificial Intelligence, CEA2017, pp. 39–44, New York, NY,

USA, 2017. ACM.

[6] Andrea Frome, Greg S Corrado, Jon Shlens, Samy Bengio, Jeff Dean, and

Tomas Mikolov. A deep visual-semantic embedding model. In Advance in

neural information processing systems, pp. 2121–2129, 2013.

[7] Wei Zhang, Sheng Zeng, Dequan Wang, and Xiangyang Xue. In CVPR,

pp. 2718–2726. IEEE Computer Society.

[8] Yan Xia, Xudong Cao, Fang Wen, Gang Hua, and Jian Sun. Learning

discriminative reconstrucutions for unsupervised outlier removal. Interna-

tional Conference on Conmputer Vision, 2015.

[9] Xinlei Chen and Abhinav Gupta. Webly supervised learning of convo-

lutional networks. In The IEEE International Conference on Computer

Vision, December 2015.

[10] Karen Simonyan and Andrew Zisserman. Very deep convolutional

networks for large-scale image recognition. 2014. arXiv preprint

arXiv:1409.1556.

28

Page 34: 対象材料を含まないレシピを用いたラベルの 信頼度計算による画 … · レシピには,調理工程ごとに調理方法を言葉で説明した手順教示文とその工

[11] Takuro Ina, Atsushi Hashimoto, Masaaki Iiyama, Hidekazu Kasahara,

Mikihiko Mori, and Michihiko Minoh. Outlier cluster formation in spectral

clustering. 2017. arXiv preprint arXiv:1703.01028.

[12] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet:

A Large-Scale Hierarchical Image Database. In CVPR, 2009.

[13] 国立情報学研究所.クックパッドデータセット. http://www.nii.ac.jp/dsc/idr

/cookpad/cookpad.html, 2017.

[14] 土居洋子, 辻田美穂, 難波英嗣, 竹澤寿幸, 角谷和俊. 料理レシピと特許デー

タベースからの料理オントロジーの構築. 電子情報通信学会マルチメディ

ア・仮想環境基礎 (MVE) 研究会, Vol. 113, pp. 37–42, 2014.

[15] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A

unified embedding for face recognition and clustering. In CVPR, pp. 815–

823. IEEE Computer Society, 2015.

29