EMNLP2014 Combining Visual and Textual
Features for Information Extraction from Online Flyers
!
tokyo metropolitan university M2
Ryuichi Tachibana
アブストラクト• オンライン広告のテキストとテキストの視覚的な情報の素性を組み合わせる
• 伝統的なテキストのみの情報抽出、固有表現認識は視覚的な情報を組み合わせたものより情報を抽出できない
• オンラインの商業用不動産広告を用いて教師あり学習を行う
• テキストの視覚的な情報とテキストの素性の組み合わせを用いて12種類の固有表現を認識するタスクにおいてSVM分類器の性能を評価した
• 色、サイズ、位置のような情報の追加は分類器の性能を向上させた
2
イントロダクション• 情報抽出と固有表現認識は各種のドメインに適用され、評価されたが、それは主に新聞記事や、科学雑誌、インフォーマルなジャンルにおいてであった(Nadeau and Sekine, 2007)
• 一方テキスト情報は視覚的に豊かなフォーマット、例えばHTMLとPDFによって示される
• 本論文では教師あり学習のアプローチを提案し、テキストの視覚的な情報とテキストの素性の組み合わせを用いて、固有表現を認識するタスクを行った
3
モチベーション• 多くの仲介業者を介した産業(商業用不動産、重工業)は統合的な検索用データベースがないので、仲介業者は古い情報を提供するデータベースを使って時間を無駄にしている
• 商業用不動産仲介者はデータベースを更新しようとはしないが、全ての関連したリスト化された情報を含む広告を作る
• 私たちの目的はその広告を利用して体系立ったリスト情報を抽出する
4
関連研究
• 以前の研究ではHTMLスタイルに基づいた視覚的な素性を使っていたが(Burget 2007)、この論文ではHTMLDOM木に依存するような計算手法を妨げる視覚的にリッチなデータセットにチャレンジする
• 素性として色を使って、それを人間がおおよそ知覚できるように正規化する
7
データセット• 800のランダムに選ばれた広告(315の場所、75の会社、730の仲介者に及ぶ)
• フォーマットとレイアウト、商業用の不動産物件タイプ(オフィス、土地など)、取引を示す(投資、リース)
• 広告はHTMLに変換される
• そのHTMLを二人でアノテーションする
• 二人のアノテーション一致率は91%だった
• 一番一致率が低かったのはSpace SizeとSpace Typeだった
8
手法
• 広告はHTMLパーザーを用いてテキストに変換される
• The text was tokenized and the task was then modeled as a BIO classification task, classifiers identify the Beginning, the Inside, and Outside of the text segments.
10
実験• LibSVMライブラリでSVMで分類した
• 文書の80%は教師データ、20%はテストデータにした
• デフォルトパラメータとして線形カーネルモデルを使用した
• マルチクラス問題はone-vs-othersを用いて二値分類問題に変換した
13