Upload
yuki-tomo
View
169
Download
2
Embed Size (px)
Citation preview
COLING読み会2014@小町研
“Morphological Analysis for Japanese Noisy Text Based on Character-level and
Word-level Normalization”文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト
に対する形態素解析※スライド中の図表は全て論文から引用されたもの
NTT Media Intelligence Laboratoriessaito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro
首都大学東京 情報通信システム学域
小町研究室M1 塘優旗
2014/11/61
Non-standard token (非標準形)
• “パンケーキぉいしーぃ”
Standard form(標準形)
• “パンケーキおいしい”
MeCabによる形態素解析の例
• パンケーキ(noun)/ぉいし(unk)/ー(unk)/ぃ(unk)
→OOV (out-of-Vocabulary ) 辞書に存在しない
単語の区切りが明確でない
2014/11/62
SNSテキストはとってもノイジー
日本語には単語間のスペースがない二つの非標準形(non-standard token)への派生が存在
• Character-level“おいしい” → “おいしいいいい”、“おいしぃ”、“おいしー”
文脈情報によって、標準形を計算するために、正規化、単語分割、POSタギングは同時に解析しなければならない。
• Word-level”教科書” → ”きょうかしょ”各単語は正式な文字の書式(ひらがな、漢字、カタカナ)を持っているが、ノイジーなテキストでは多くの単語が故意的に異なる文字の書式で書かれることが多い。
2014/11/63
日本語のSNSテキストの問題点
Sasano et al. (2013)ら• 人手で単語の派生ルールを生成し適用
SNSにおける派生ルールは膨大で人手では、とてもコストがかかる
候補数が増えた際にre-rankingのためのパスのコスト設定が問題となる
Sasaki et al. (2013)ら• 文字レベルの系列ラベリング手法をを適用
one-to-one な文字の変形のみを扱い、単語レベルの文脈は考慮しない
2014/11/64
日本語の単語正規化における関連研究
(1) ~ (4):英語のパターンと類似• character-level で発生するため、character-levelのアライメントから学習可能
(5), (6):日本語特有のパターン• word-level で発生するため、character-levelを元にして学習は効果的でない
2014/11/65
今回対象とする単語派生のパターンタイプ例
55.0%
4.5%
20.1%
2.7%
※残りの17.7 % はなまりや固有の表現、誤植などその他の要因であり、提案手法では簡単に解決できないため、今回の研究では対象としていない。
2014/11/66
提案システムの構成
モデル学習
デコーダー
2014/11/67
正規化候補生成、文字アライメントの例
the joint multigram model (Sittichai et al. (2007) )
EMアルゴリズムを利用してn-bestのパスを生成
d : non-standard token と standard form のペア
q : ペアd における部分文字のアライメント
q : ペアd におけるアライメントqのセット
Kd : d から生成される可能性のある文アライメントのシーケンス
D : d のペアの個数
Q : q のセット
n_q(q) : q 中に出現するq の出現する回数
2014/11/68
Character-levelのTransformation Tableの作成
入力がTransformation table(Tt)のキーにマッチした場合、character-level の正規化候補を追加
例:
Tt : (q, log p(q)) = (“ょぉ, よう” , -8.39) , (“ぉ, お” , -7.56)
“ちょぉ” → “ちょう”、“ちょお”を追加
2014/11/69
character-levelのラティス生成
以下を元にword-levelのラティスを生成
• 生成されたcharacter-levelのラティス
• 辞書の参照(音声的情報を用いてひらがな、カタカナの置換に対しての正規化候補を追加)
例:
2014/11/610
Word-level のラティス生成
デコーダーは最適な系列 y^ を L(s)から選択する。
2014/11/611
デコーダー
s : 文 (センテンス)L(s) : 候補セット (センテンスs に対して生成されたラティス)y^ : 最適な系列、(最適なパス)w :重みベクトルf : 素性ベクトル
デコーダーの重みの学習• the minimum error rate training (MERT) Machery et al. (2008).
2014/11/612
素性
Twitter、Blog からNon-standard token を抽出し、
辞書中のStandard form のアノテーションを人手で行う
実験に用いたデータ• Twitter
• Training : 4208 tweets
• Development : 500 sentences
• Test : 300 tweets , 4635 words
• Blog• Trainigのみ : 8023 sentences
• IPA dictionary• 単語レベルのラティス生成、辞書ベースの素性の抽出に利用
2014/11/613
実験データ
5228個の変形パターンを取得• うち3268個が事前定義をした状態に一致
取得したパターンは事前提案したルールのほとんどをカバーし、手で作成するには難しい様々なパターンを自動で獲得できる
2014/11/614
学習結果
2014/11/615
ベースラインと評価尺度
method 正規化候補の生成 素性
Traditional × 単語コスト、隣接POSタグのペアのコストのみ
BL1 [Sasano et al. (2013)]
典型的なrule-based手法[長音シンボル、小文字]の[挿入、置換]を考慮
Proposed character, word –level 両方の正規化候補を生成 全ての素性を利用
BL2 character-level のみの正規化候補を生成(ひらがな、カタカナの正規化はなし)
全ての素性を利用
BL3 character, word –level 両方の正規化候補を生成 全ての文字正規化によって生成される正規化候補の文字変形コストが同じ
評価尺度
• 正規化された単語のみを考慮してrecall を評価
• テストデータ中に出現した絵文字を辞書に登録した、そのためそれらはシステムのパフォーマンスには悪い作用をしていない
2014/11/616
実験結果
日本語形態素解析に対して、テキスト正規化のアプローチを導入
2ステップのラティス生成アルゴリズムと離散的な定式化手法が既存の手法を上回ることを示した。
フューチャーワーク• 文字アライメントの学習に対して、教師なしもしくは半教師ありパラレルコーパス抽出を導入することでこのアプローチを発展させる
• モデルの構成と素性を改良し、サーチエラーの数を減少させるためのデコード手法の実装
• 全てのパフォーマンスの向上のために、そのほかのタイプの未知語(例えば固有名詞などような)を形態素解析システムに付加することも考慮
2014/11/617
まとめ