Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics

Detecting Learner Errors in the Choice of Content Words

Using Compositional Distributional Semantics

Ekaterina Kochmar and Ted Briscoe, ACL 2014

※スライド中の図表は全て論文から引用されたもの

小町守

<[email protected]>

COLING 2014 読み会@首都大学東京

2014/11/06

Detecting Learner Errors in the Choice of Adjective-Noun Combinations Using Compositional Distributional Semantics

Ekaterina Kochmar and Ted Briscoe, ACL 2014

※スライド中の図表は全て論文から引用されたもの

小町守

<[email protected]>

COLING 2014 読み会@首都大学東京

2014/11/06

英語学習者は形容詞-名詞の組み合わせをよく間違える

意味が似ているので間違えて使ってしまう

*big/large quantity

*big/great importance

よくある形容詞を間違えて使ってしまう

*big/long history

*greatest/highest revenue

*bigger/wider variety

*large/broad knowledge

一般的でない形容詞を使ってしまう

*classic/classical dance

*economical/economic crisis3

内容語の誤り検出は機能語と比べてチャレンジングなタスク

機能語（前置詞・冠詞）は closed set なので、confusion set と誤り分布は学習者テキストから学習可能 (Rozovskaya and Roth, ACL 2011)

内容語は open set なので confusion set を作るのが難しい（ため多クラス分類タスクに落とせない）

→言語学習者の文章には（文法・意味的には正しくても）低頻度語が含まれるので、共起のみに基づく手法はうまく行かない。cf. appropriate concern vs proper concern

4

本論文の主要な貢献

学習者コーパスから抽出した形容詞-名詞の誤りアノテーションつきデータを作成する

構成的分布意味モデル（compositional

distributional semantic models）が意味の誤りの検出にどのように適用できるのかを示す

形容詞-名詞の組み合わせの誤り検出の素性としてこれらの意味モデルの出力がどのように使えるかを示す

5

内容語の誤りは3番目に多いが、難しく取り組まれてこなかった

内容語は open set なので confusion set を作るのが難しい

1. 誤り箇所は同定済みで、候補選択するタスク同義語・同音語・母語に関する言い換えから候補選択 (Dahlmeier and Ng, EMNLP 2011)

2. 誤り箇所も分からないタスク言語学習者の文章には（文法・意味的には正しくても）低頻度語が含まれるので、共起のみに基づく手法はうまく行かない。cf. appropriate concern vs proper concern

→後者のタスクでは、データスパースネスを解消する必要がある

6

スパースネスのため、分布仮説から構成的分布意味モデルへ

単純な分布仮説に基づく手法

共起する文脈からなる高次元ベクトル→スパースなので内容語誤り検出には向かない

構成的分布意味モデルに基づく手法

構成される単語の分布ベクトルをなんらかの関数によって合成してベクトルを作る

形容詞-名詞の意味モデルに利用 (Vecchi et al., DISCO 2011; Kochmar and Briscoe, RANLP

2013)

統語的曖昧性の解消に利用 (Lazaridou et al., EMNLP 2013)

7

英語学習者の形容詞-名詞誤りのアノテーション

文脈非依存（OOC: out-of-context）と文脈依存（IC: in-context）のアノテーションを区別。classic dance は文脈によっては OKだが、ほとんどの場合誤りとみなしてもよい。

They performed a classic Ceilidh dance.

I have tried a rock’n’roll dance and a

*classic/classical dance already.

文脈を無視するかどうかはシステムやアプリケーションで決めればよいので、文脈情報は有用。

8

CLC-FCE データセットに対するアノテーション 61種類の間違えやすい形容詞を抽出

798種類の形容詞-名詞誤りがタグ付け（専門家）

correct/incorrect

どこが間違っているか（形容詞・名詞・両方）

誤りの種類（同義語・形の類似・それ以外）

正例（訂正するとした場合の結果）

9

※LB = lower bound; UB = upper bound

一致率κ = 0.65 (OOC)

かなりいけてるκ = 0.49 (IC)

まぁまぁいけてる

誤り検出のための意味モデル

意味モデル (Mitchell and Lapata, ACL 2008; Baroni and Zamparelli, EMNLP 2010)

Mitchell and Lapata (2008) のモデルは対称なので、形容詞-名詞のような方向性がある意味関係のモデルには不適→Baroni and Zamperelli (2010) の形容詞特化線形マップ

加法的 (add: additive) モデル pi = ui + vi

乗法的 (mult: multiplicative) モデル pi = ui * vi

形容詞特化線形マップ (alm: adjective-specific linear maps) p = Bv

10

形容詞特化線形マップp = Bvの共起行列構築

名詞は分布仮説に基づくベクトル、形容詞は名詞のベクトルを変化させる重み行列で、形容詞-

名詞の意味合成は行列・ベクトルの乗算で定義

11

1万文脈要素＝コーパス中の最頻出名詞・形容詞・動詞（コーパスはBNCでRASPによって解析して用いた）

8,000

名詞

4,000

形容詞

64,000

形容詞名詞ペア

N

A

AN

行列の要素はlocal mutual informaiton N

A

A

N

SVDで次元圧縮して300次元に

行列の重みは形容詞ごとに多変量PLS回帰で学習

意味に基づく素性（1）先行研究の再実装

1. ベクトル長

2. 入力名詞に対する cos類似度

3. 入力形容詞に対する cos類似度

4. 出力に対する10近傍における近傍の密度

5. 入力に対する10近傍における近傍の密度

6. 近傍のランクつき密度

7. 近傍の数

8. 入力に対する10近傍のオーバーラップ12

意味に基づく素性（2）本研究の追加素性

9. 入力名詞に対する10近傍のオーバーラップ

10.入力形容詞に対する10近傍のオーバーラップ

11.出力に対する10近傍のオーバーラップ

12.出力に対する入力名詞の10近傍のオーバーラップ

13.出力に対する入力形容詞の10近傍のオーバーラップ

13

意味誤り検出には cos類似度と単語オーバーラップが有効

14

先行研究

提案素性

共起手法は低頻度語に弱いが、意味モデル＋機械学習は頑健

ベースライン

ターゲットの単語に対するWordNet の同義語と上位語からなる confusion set の中で、元の単語と比べて BNC における共起頻度（normalized

pmi）が高い単語があれば誤りだと検出する。

提案手法

NLTK の決定木。素性は前掲の意味素性＋単語。

15

まとめ:形容詞-名詞の英語誤り検出には、教師あり学習が有効

形容詞-名詞の英語学習者の誤りタグつきデータをリリースした。

構成意味論に由来する素性を組み込んだ2値分類器を用い、形容詞-名詞の誤り検出タスクに取り組んだ。ベースラインとして、共起頻度に基づく手法を実装して比較した。

決定木を用いた教師あり分類器がもっともよい結果であった。

16

参考文献（意味モデル）

Mitchell and Lapata. Vector-based models in semantic composition. ACL 2008.

Baroni and Zamparelli. Nouns are vectors, adjectives are matrices: Representing adjective-noun construction in semantic space. EMNLP 2010.

Lazaridou et al. Fish transporters and miracle homes: How compositional distributional semantics can help NP parsing. EMNLP 2013.

Kochmar and Briscoe Capturing Anomalies in the Choice of Content Words in Compositional Distributional Semantic Space. RANLP 2013.

17

参考文献（ESL 誤り訂正）

Rozovskaya and Roth. Algorithm Selection

and Model Adaptation for ESL Correction

Tasks. ACL 2011.

Yannakoudakis et al. A New Dataset and

Method for Automatically Grading ESOL

Texts. ACL 2011.

Dahlmeier and Ng. Correcting Semantic

Collocation Errors with L1-induced

Paraphrases. EMNLP 2011.

18

Engineering

Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics