15
語構成情報と言い換えパターンを用いた 二字漢字の句への言い換え 首都大学東京 関沢祐樹 , 梶原智之, 小町守 2016/03/09 1

Nlp2016 sekizawa

Embed Size (px)

Citation preview

Page 1: Nlp2016 sekizawa

語構成情報と言い換えパターンを用いた二字漢字の句への言い換え

首都大学東京関沢祐樹,梶原智之,小町守

2016/03/09 1

Page 2: Nlp2016 sekizawa

語構成情報と言い換えパターンを用いた二字漢字の句への言い換え

2016/03/09 2

言い換え 機械翻訳 情報検索 自動要約

単語 à単語 の言い換えの研究 :多単語à句 の言い換えに取り組む

漢字1字1つの意味を表す

単語:句や文を構成する基本単位

JUMAN辞書の単語à半数は二字漢字

Page 3: Nlp2016 sekizawa

語構成情報と言い換えパターンを用いた二字漢字の句への言い換え

2016/03/09 3

言い換え 機械翻訳 情報検索 自動要約

単語 à単語 の言い換えの研究 :多単語à句 の言い換えに取り組む

漢字1字1つの意味を表す

単語:句や文を構成する基本単位

漢字の意味を考慮して二字漢字を句へと言い換える

JUMAN辞書の単語à半数は二字漢字

Page 4: Nlp2016 sekizawa

関連研究

•  萩行ら[1]は定義文の二字漢字の対応部 à言い換え•  定義文に対応部分無しà言い換え

•  竹内[2]はサ変名詞をガ格、ヲ格、 ニ格、カラ格をもつ動詞句へと言い換え •  言い換えたのはサ変名詞のみ

2016/03/09 4

[1]萩行正嗣,黒橋禎夫,辞書定義文を用いた二字漢語の言い換え表現の生成,言語処理学会第 15回年次大会発表論文集,pp.256-259,2009.[2]竹内孔一,語彙概念構造による動詞辞書の作成,言語処理学会 第 10回年次大会発表論文集,pp,576-579,2004.

網羅的な言い換えを目指す提案手法

Page 5: Nlp2016 sekizawa

提案手法

2016/03/09 5

言い換えパターンを作成

言い換え候補を生成

二字漢字の単語ベクトルと言い換え候補の句ベクトルを学習

適切な言い換えを選択

Page 6: Nlp2016 sekizawa

①言い換えパターンを作成

2016/03/09 6

各語構成漢字がとりうる品詞

各語構成漢字の係り受け関係

名1の名2    名1と名2      形名1と形名2

動1名2     名1からの名2     形1名2

名2を動1    名1に動2          副1動2

Page 7: Nlp2016 sekizawa

②言い換え候補の生成

•  明らかに意味の通らないものàWeb日本語Nグラム第1版にない句を除外

2016/03/09 7

形1名2悪い意味邪悪な意思悪名高い要注意…

悪意

名1と名2憎悪と殺意嫌悪と敵意悪党と好意…

悪意

Page 8: Nlp2016 sekizawa

言い換え候補の生成例単語 パターン 言い換え候補例

家宝 名1の名2 家の宝

縦横 名1と名2 縦と横

大小 形名1と形名2 大きさと小ささ

信者 動1名2 信じる者

脇目 名1からの名2 脇からの目

悪評 形1名2 悪い評判

譲位 名2を動1 位を譲る

表出 名1に動2 表に出す

再会 副1動2 再び会う

一行 数1の名2 一つの行2016/03/09 8

Page 9: Nlp2016 sekizawa

③二字漢字の単語ベクトルと言い換え候補の句ベクトルを学習

2016/03/09 9

VWikipedia word2vec

言い換え

候補(句)

MeCab

好きな食べ物 /は/チョコレート/ケーキ火災を防ぐ /方法/について/の/教育

Page 10: Nlp2016 sekizawa

④適切な言い換えを選択

•  コサイン類似度

•  悪意 à悪い意味2016/03/09 10

Page 11: Nlp2016 sekizawa

実験設定

•  言い換えの対象•  二字漢字13,213語•  (JUMAN7.01、岩波国語辞典第五版両方に含まれる)•  提案手法はベースラインが言い換え生成しなかった

二字漢字に対して言い換えパターンを適用

•  評価指標•  適合率、再現率、F値•  第一著者一人が意味を保持しているかどうかで判定

•  Word2vec•  学習コーパス:日本語Wikipedia約9,000万文•  50次元、文脈窓 2、CBOW、mincount=5

2016/03/09 11

Page 12: Nlp2016 sekizawa

ベースライン

•  辞書定義文を用いた二字漢語の言い換え

2016/03/09 12萩行正嗣,黒橋禎夫.辞書定義文を用いた二字漢語の言い換え表現の生成.言語処理学会第15回年次大会発表論文集,pp.256-259,2009.

二字漢字:水鳥

辞書定義文:川や湖の水辺にすむ鳥

定義文解析:川や湖の   水辺に  すむ  鳥

対応部探索:川や湖の   水辺に  すむ  鳥

対応部分無しà言い換え生成不可

Page 13: Nlp2016 sekizawa

実験結果

2016/03/09 13

ベースライン 提案手法

言い換えた二字漢字数

5,430(41.1%)

9,155(69.3%)

正しい言い換え数(再現率)

156(31.2%)

216(43.2%)

適合率 75.9% 62.3%

F値 0.442 0.510

v 訂正:提案手法の言い換え生成割合56.0%à69.3%    提案手法の適合率77.1%à62.3%    提案手法のF値0.553à0.510

Page 14: Nlp2016 sekizawa

エラー分析

•  言い換えが見つからないもの•  当て字など           27個

•  例:海豚

•  言い換えパターンでは正しい言い換え不可•  漢字をそのまま適用できない   63個

•  例:昇段、善処

•  word2vecの類似度で選択されない•  二字漢字との類似度が最大にならない  49個

2016/03/09 14

Page 15: Nlp2016 sekizawa

語構成情報と言い換えパターンを用いた二字漢字の句への言い換え

•  語構成漢字の品詞と係り受けを使用する言い換えパターンを用いて言い換えを行って•  先行研究よりも再現率が12.0%向上•  先行研究よりもF値が0.068向上

•  今後の課題•  句から句へ言い換えることへの拡張

2016/03/09 15