クックパッド特売情報 における自然言語処理...

Preview:

Citation preview

クックパッド特売情報 における自然言語処理

~固有表現抽出を利用した検索システム~YANS 第 10 回シンポジウム (2015/09/05 )

クックパッド株式会社 買物情報事業部

Takeshi Arabiki (@a_bicky)

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

クックパッド特売情報

•いわゆるチラシサービスの一種 •店舗さんが商品情報を投稿

クックパッド特売情報

商品検索の使いどころ

商品検索の使いどころ

•各ユーザに限定すると商品数が少ない ‣ e.g. 登録している店舗の商品

‣ 1件しかヒットしないことがよくある

•ユーザが意図的に検索するわけではない ‣ より適合率(精度)が求められる

特殊な検索事情

商品検索の 初期の課題

投稿された商品名 キーワードたまねぎドレッシング

フルーツゼリー みかん

たまねぎ ドレッシング

フルーツ ゼリー みかん

形態素単位のインデキシング

投稿された商品名 キーワードたまねぎドレッシング

フルーツゼリー みかん

たまねぎ ドレッシング

フルーツ ゼリー みかん

形態素単位のインデキシング形態素単位のインデキシング

「たまねぎ」を使ったレシピに掲出

「みかん」を使ったレシピに掲出

固有表現抽出を利用した検索システム

投稿された商品名 キーワード

固有表現単位のインデキシング

たまねぎドレッシング商品名

フルーツゼリー みかん味商品名

たまねぎドレッシング

フルーツゼリー みかん:TASTE

固有表現抽出を使うメリット•適合率が上がる •正規表現と違って文字列全体を考慮できる •似たパターンの未知データにも対応可能

固有表現抽出の方法•MeCab+IPAdic による形態素解析と正規化 ‣ コストを商品名に最適化

‣ 辞書に代表表記の情報も登録

•CRFsuite による固有表現抽出 ‣ 形態素解析した結果を素性に利用

‣ タグとして商品名、味、産地 etc.

% mecab -d dic薄切り薄切り 名詞,サ変接続,*,*,*,*,薄切り,ウスギリ,ウスギリEOS薄切薄切 名詞,サ変接続,*,*,*,*,薄切,ウスギリ,ウスギリ,薄切り,薄切り,ウスギリEOS

形態素解析結果と代表表記

学習データの作成

商品検索の 現在の課題

商品名の形態素解析の難しさ•かつおたたき •ロース肉薄切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」

商品名の形態素解析の難しさ•かつおたたき  → かつ/お/たたき •ロース肉薄切り → ロース/肉薄/切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」

知識ベースの構築•同義語 ‣ 「パクチー」と「コリアンダー」

•一般名と品種・商品名 ‣ 「じゃがいも」と「メークイン」

•原料 ‣ 「卵黄」と「卵」

商品検索クエリの最適化•材料は「豚肉」だけど「豚肉薄切り」かも ‣ 「豚肉ブロック」は掲出させたくない

•材料名のクレンジング ‣ 材料名の括弧の中身は必要かどうか

‣ e.g.(薄切り)、(あれば)

課題は たくさん

最も深刻 な問題

人手不足

ブレークスルー

http://www.nii.ac.jp/dsc/idr/cookpad/cookpad.html

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

自然言語処理で 世界中の食卓に 笑顔を!

Recommended