15
文献紹介 ( H26/7/1 ) Improving SMT quality with morpho - syntactic analysis 長岡技術科学大学 高橋寛治

20150701 Improving SMT quality with morpho-syntactic analysis

Embed Size (px)

Citation preview

Page 1: 20150701 Improving SMT quality with morpho-syntactic analysis

文献紹介(H26/7/1)

Improving SMT qualitywith morpho-syntactic analysis

長岡技術科学大学 高橋寛治

Page 2: 20150701 Improving SMT quality with morpho-syntactic analysis

概要

• 言語情報を与えると統計的機械翻訳の性能が向上すると期待

• 40%の単語はコーパス中で1回しか現れない

• 独英統計的機械翻訳において、形態的統語的情報を利用することにより性能が向上

• Sonja Nieflen, Hermann Ney, COLING, 2000, Vol.2

Page 3: 20150701 Improving SMT quality with morpho-syntactic analysis

コーパスの統計一度しか現れない

Page 4: 20150701 Improving SMT quality with morpho-syntactic analysis

全体図

Page 5: 20150701 Improving SMT quality with morpho-syntactic analysis

分離動詞

• 英語 Go out:外出する

• ドイツ語 Out go -> Outgo

• ausgehen 外出する, aus|gehen• 【分離前つづり+基礎動詞部分】

• フランクは 今晩 ペトラと 外出する。• Frank heute Abend mit Petra ausgehen.

• Frank geht heute Abend mit Petra aus.

Page 6: 20150701 Improving SMT quality with morpho-syntactic analysis

分離動詞の書き換え(verb prefixes)• フランクは 今晩 ペトラと 外出する。

• Frank geht heute Abend mit Petra aus.

• Frank heute Abend mit Petra ausgehen.

Page 7: 20150701 Improving SMT quality with morpho-syntactic analysis

複合語(split compounds)

• 複合語「Ftuchtetee」は翻訳できない

• それぞれの要素「Ftuchte」,「 Tee」はコーパス中に存在→翻訳可能

• トレーニングに存在しない複合語は分割

Page 8: 20150701 Improving SMT quality with morpho-syntactic analysis

品詞付与(pos)

• 語義曖昧性解消の手掛かりに品詞を利用

• Aber• 副詞, 接続詞

• Zu• 副詞, 前置詞, 分離した動詞の接頭辞, 不定詞の指標

• Der, die, das• 定冠詞, 代名詞

Page 9: 20150701 Improving SMT quality with morpho-syntactic analysis

間違って翻訳されやすい

• “Das wurde mir sehr gut passen.”• 正:“That would suit me very well.”

• 誤:“The would suit me very well.”

• “Das war zu schnell”• 正:“That was to fast.”

• 誤:“That was too fast.”

Page 10: 20150701 Improving SMT quality with morpho-syntactic analysis

熟語の結合(merge)

• 2語以上からなる熟語は文中での振る舞いが全く異なる• “irgend etwas” (“anything”)

• 熟語21語を一語としてエントリー• “irgend-etwas”

Page 11: 20150701 Improving SMT quality with morpho-syntactic analysis

未収録語

• トレーニング中に存在しない固有名詞は、そのまま出力• 固有名詞の出力文中での位置は大抵正解

• 重複するが、複合語の分割はドイツ語の未収録語を減らす

• 未収録語を一般形に変換することで、ある時は意図された意味を翻訳できる• “kaltes”->”kalt” (cold), “Jahre”->”Jahr” (years)

Page 12: 20150701 Improving SMT quality with morpho-syntactic analysis

翻訳

• コーパス• VERBMOIL

• 日程決めの会話のコーパス

• 入力• テキスト、音声認識(認識精度69%)の二つ

• トレーニングセット• 45680組の文

• テストセット• 未収録語を含まない147文

• 評価にSSER(著者ら2000)を利用• 人手で評価• 0.0:意味も構文も正しい• 1.0:完全に間違い

Page 13: 20150701 Improving SMT quality with morpho-syntactic analysis

結果

• 複合語の分割により、語の種類数が減る。

• 1度しか現れない語は2.8%減少。

Page 14: 20150701 Improving SMT quality with morpho-syntactic analysis

結果

• テキストを翻訳 • 音声認識を翻訳

品詞付与、熟語の結合、動詞の一般化が翻訳性能に寄与

Page 15: 20150701 Improving SMT quality with morpho-syntactic analysis

まとめ

• 形態的統語的情報を利用して統計的機械翻訳を精度向上• 複合語

• 分離動詞

• 品詞付与

• 熟語

• 未収録語

• 自然な対話で有効性を確認