20170203The Effects of Data Size and Frequency Range on Distributional Semantic Models

Preview:

Citation preview

The Effects of Data Size and Frequency Range on Distributional Semantic ModelsMagnus Sahlgren and Alessandro Lenci, Proceedings of the 2016 Conference on EMNLP, pp.975-980, 2016図や表は論⽂より引⽤

⽂献紹介

2017.02.03⾃然⾔語処理研究室 修⼠2年 髙橋寛治

概要Distributional Semantic Models(DSMs)の調査データサイズの異なるコーパス処理対象の語の頻度

分かったことニューラルネットワークはデータ量が⼩さいと弱いデータ量が⼩さい時は、特異値分解(SVD)

今後の課題として、モデルの組み合わせなどを考慮The Effects of Data Size and Frequency Range on Distributional Semantic Models

はじめにDSMsは⾔語処理でよく使う⼿法• 次元削減• 類似度計算

モデルの選択は、あまり重要視されない本稿で下記を調べるデータ量に対する性能低頻度語に対する性能

The Effects of Data Size and Frequency Range on Distributional Semantic Models

Distributional Semantic Models(DSM)

実験で⽤いるモデル• 単純な共起モデル(PMI)• ⾏列モデル(SVD)• ランダムインデクシング• ニューラルネットワークモデル(word2vec)

The Effects of Data Size and Frequency Range on Distributional Semantic Models

実験ukWaCコーパス:16億語共起:パラメータは揃える(±2単語)ukWaCの共起は400万×400万、まず5万次元に削減TSVD:200次元,ISVD:2800次元(200-3000)RI:2000次元、CBOW,SGNS:200次元

ベンチマーク同義語選択問題2種類(精度で評価)類似度・関連度タスク3種類(スピアマンの順位相関係数)

The Effects of Data Size and Frequency Range on Distributional Semantic Models

The Effects of Data Size and Frequency Range on Distributional Semantic Models

データサイズによる⽐較

⼩さいコーパスニューラルネットが弱い特異値分解が強い

※⼩さいコーパスは⽐較が難しいかもしれない4択だとランダムでも25%

ISVDが全体的に良い単純な共起以外では、劇的な差があるわけではない

ニューラルネットデータサイズが⼤きくなればなるほど性能が良くなる

The Effects of Data Size and Frequency Range on Distributional Semantic Models

データサイズによる⽐較

スコアの平均

頻度による⽐較頻度別で⽐較⾼頻度(1,387)、 中頻度(656) 、低頻度(350) 、混ぜたもの(3458)

The Effects of Data Size and Frequency Range on Distributional Semantic Models

スコアの平均。10億語ですべて学習

頻度による⽐較ISVDMEDIUM, MIXEDで良い

The Effects of Data Size and Frequency Range on Distributional Semantic Models

スコアの平均。10億語ですべて学習

頻度による⽐較ニューラルネットベースのモデル頻度が⾼ければ⾼いほど良い

The Effects of Data Size and Frequency Range on Distributional Semantic Models

スコアの平均。10億語ですべて学習

頻度による⽐較中頻度に強いCO, PPMI, TSVD, ISVD

The Effects of Data Size and Frequency Range on Distributional Semantic Models

スコアの平均。10億語ですべて学習

頻度による⽐較ニューラルネットだが、低頻度に強い場合もCBOWが低頻度で最も強い

The Effects of Data Size and Frequency Range on Distributional Semantic Models

スコアの平均。10億語ですべて学習

まとめDSMへのデータサイズおよび頻度の影響調査ニューラルネットは⼩さいデータに弱いそれ以外のDSMは⼩さいデータ向きISVDが頑健であった

モデルの使い⽅としての今後の課題頻度ごとに別のモデルを⽤いる頻度およびデータ量に合わせて、パラメータ調整

The Effects of Data Size and Frequency Range on Distributional Semantic Models

Recommended