14
Simplifying Lexical Simplification: Do We Need Simplified Corpora? 長岡技術科学大学 自然言語処理研究室 高橋寛治 Goran Glavas, Sanja Stajner Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pages 63–68, Beijing, China, July 26-31, 2015. 文献紹介 2016年3月3日

文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

Embed Size (px)

Citation preview

Page 1: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

Simplifying Lexical Simplification:Do We Need Simplified Corpora?

長岡技術科学大学 自然言語処理研究室高橋寛治

Goran Glavas, Sanja StajnerProceedings of the 53rd Annual Meeting of the Association forComputational Linguisticsand the 7th International Joint Conferenceon Natural Language Processing (Short Papers), pages 63–68, Beijing,China, July 26-31, 2015.

文献紹介 2016年3月3日

Page 2: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

概要•語彙平易化とは複雑な単語を簡単な同義語に置換すること•近年の研究はコーパスベース•コーパスを利用せずに単語ベクトル表現を用いて平易化を試みる

Domain-SpecificParaphraseExtraction 2

Page 3: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

はじめに•語彙平易化は読解を支援

Ø子供、学習者、失語症など(Petersenら2007)•辞書や平易化コーパスを利用した研究が盛ん

Ø(Davlinら1998, De Belderら2010)Ø資源がない言語では近年の手法を適用できない

•モチベーションとして単言語の普通のコーパスでの平易化

Domain-SpecificParaphraseExtraction 3

Page 4: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

関連研究•ルールベース(より平易な同義語への置換)

Ø同義語(WordNetなど)の選び方が研究•コーパスベース(Simple Wikipedia)

Øアライメントをとり言い換えØ編集履歴などを利用(Yatskarら2010)

•従来研究は辞書と平易化コーパスに頼る

Domain-SpecificParaphraseExtraction 4

Page 5: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

提案手法:軽量リソースでの語彙平易化

•LIGHT-LS•複雑な単語の平易な同義語を探す

Ø単語の複雑さØ単語の意味的な類似度

•換言対象は1単語に絞る

Domain-SpecificParaphraseExtraction 5

Page 6: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

平易な語の候補を選択•分散表現の獲得にGloVeを利用•意味的類似度はベクトル空間のコサイン類似度

•内容語(名詞、動詞、形容詞、副詞)から候補Øある単語wに対して、類似している順に単語n語を候補として取得

Domain-SpecificParaphraseExtraction 6

Page 7: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

平易化に使う素性•順位付けに用いる

Ø意味的類似度uGloVeの単語間のコサイン角度を用いる

Ø文脈類似度u元の単語の文脈の内容語とのコサイン類似度を比較する

Ø単語が有益かØ言語モデル

uN-gramで妥当性を判断Domain-SpecificParaphraseExtraction 7

Page 8: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

平易化アルゴリズム

Domain-SpecificParaphraseExtraction 8

Page 9: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

評価•自動評価および人手評価を行う•既存手法と比較

ØHornら:教師あり(平易化コーパス利用)ØBiranら:教師無し(平易化コーパス利用)

Domain-SpecificParaphraseExtraction 9

Page 10: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

評価1•置き換えタスクによる自動評価•50人がつくった平易化文と比較

Domain-SpecificParaphraseExtraction 10

Page 11: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

評価2•人手評価、80文

Ø文法、平易化、意味の保持Ø5段階評価

u5が良い

Domain-SpecificParaphraseExtraction 11

Page 12: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

平易化例

Domain-SpecificParaphraseExtraction 12

Page 13: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

とはいえ問題はある•分布類似度が故

Ø「cool」の平易化候補が「warm」

•Water temperatures remained warm enough for development.

Domain-SpecificParaphraseExtraction 13

Page 14: 文献紹介:Simplifying Lexical Simplification: Do We Need Simplified Corpora?

まとめ•LIGHT-LSという教師無しの語彙平易化手法を提案•平易化コーパスは不要で、大きなコーパスのみ必用•現在の平易化対象は単語のみだが、これから複単語表現に取り組む

Domain-SpecificParaphraseExtraction 14