Upload
sekizawayuuki
View
104
Download
0
Embed Size (px)
Citation preview
語構成情報と言い換えパターンを用いた二字漢字の句への言い換え
首都大学東京関沢祐樹,梶原智之,小町守
2016/03/09 1
語構成情報と言い換えパターンを用いた二字漢字の句への言い換え
2016/03/09 2
言い換え 機械翻訳 情報検索 自動要約
単語 à単語 の言い換えの研究 :多単語à句 の言い換えに取り組む
漢字1字1つの意味を表す
単語:句や文を構成する基本単位
JUMAN辞書の単語à半数は二字漢字
語構成情報と言い換えパターンを用いた二字漢字の句への言い換え
2016/03/09 3
言い換え 機械翻訳 情報検索 自動要約
単語 à単語 の言い換えの研究 :多単語à句 の言い換えに取り組む
漢字1字1つの意味を表す
単語:句や文を構成する基本単位
漢字の意味を考慮して二字漢字を句へと言い換える
JUMAN辞書の単語à半数は二字漢字
関連研究
• 萩行ら[1]は定義文の二字漢字の対応部 à言い換え• 定義文に対応部分無しà言い換え
• 竹内[2]はサ変名詞をガ格、ヲ格、 ニ格、カラ格をもつ動詞句へと言い換え • 言い換えたのはサ変名詞のみ
2016/03/09 4
[1]萩行正嗣,黒橋禎夫,辞書定義文を用いた二字漢語の言い換え表現の生成,言語処理学会第 15回年次大会発表論文集,pp.256-259,2009.[2]竹内孔一,語彙概念構造による動詞辞書の作成,言語処理学会 第 10回年次大会発表論文集,pp,576-579,2004.
網羅的な言い換えを目指す提案手法
提案手法
2016/03/09 5
言い換えパターンを作成
言い換え候補を生成
二字漢字の単語ベクトルと言い換え候補の句ベクトルを学習
適切な言い換えを選択
①
②
③
④
①言い換えパターンを作成
2016/03/09 6
各語構成漢字がとりうる品詞
各語構成漢字の係り受け関係
名1の名2 名1と名2 形名1と形名2
動1名2 名1からの名2 形1名2
名2を動1 名1に動2 副1動2
②言い換え候補の生成
• 明らかに意味の通らないものàWeb日本語Nグラム第1版にない句を除外
2016/03/09 7
形1名2悪い意味邪悪な意思悪名高い要注意…
悪意
名1と名2憎悪と殺意嫌悪と敵意悪党と好意…
悪意
言い換え候補の生成例単語 パターン 言い換え候補例
家宝 名1の名2 家の宝
縦横 名1と名2 縦と横
大小 形名1と形名2 大きさと小ささ
信者 動1名2 信じる者
脇目 名1からの名2 脇からの目
悪評 形1名2 悪い評判
譲位 名2を動1 位を譲る
表出 名1に動2 表に出す
再会 副1動2 再び会う
一行 数1の名2 一つの行2016/03/09 8
③二字漢字の単語ベクトルと言い換え候補の句ベクトルを学習
2016/03/09 9
VWikipedia word2vec
言い換え
候補(句)
MeCab
好きな食べ物 /は/チョコレート/ケーキ火災を防ぐ /方法/について/の/教育
④適切な言い換えを選択
• コサイン類似度
• 悪意 à悪い意味2016/03/09 10
実験設定
• 言い換えの対象• 二字漢字13,213語• (JUMAN7.01、岩波国語辞典第五版両方に含まれる)• 提案手法はベースラインが言い換え生成しなかった
二字漢字に対して言い換えパターンを適用
• 評価指標• 適合率、再現率、F値• 第一著者一人が意味を保持しているかどうかで判定
• Word2vec• 学習コーパス:日本語Wikipedia約9,000万文• 50次元、文脈窓 2、CBOW、mincount=5
2016/03/09 11
ベースライン
• 辞書定義文を用いた二字漢語の言い換え
2016/03/09 12萩行正嗣,黒橋禎夫.辞書定義文を用いた二字漢語の言い換え表現の生成.言語処理学会第15回年次大会発表論文集,pp.256-259,2009.
二字漢字:水鳥
辞書定義文:川や湖の水辺にすむ鳥
定義文解析:川や湖の 水辺に すむ 鳥
対応部探索:川や湖の 水辺に すむ 鳥
対応部分無しà言い換え生成不可
実験結果
2016/03/09 13
ベースライン 提案手法
言い換えた二字漢字数
5,430(41.1%)
9,155(69.3%)
正しい言い換え数(再現率)
156(31.2%)
216(43.2%)
適合率 75.9% 62.3%
F値 0.442 0.510
v 訂正:提案手法の言い換え生成割合56.0%à69.3% 提案手法の適合率77.1%à62.3% 提案手法のF値0.553à0.510
エラー分析
• 言い換えが見つからないもの• 当て字など 27個
• 例:海豚
• 言い換えパターンでは正しい言い換え不可• 漢字をそのまま適用できない 63個
• 例:昇段、善処
• word2vecの類似度で選択されない• 二字漢字との類似度が最大にならない 49個
2016/03/09 14
語構成情報と言い換えパターンを用いた二字漢字の句への言い換え
• 語構成漢字の品詞と係り受けを使用する言い換えパターンを用いて言い換えを行って• 先行研究よりも再現率が12.0%向上• 先行研究よりもF値が0.068向上
• 今後の課題• 句から句へ言い換えることへの拡張
2016/03/09 15