emnlp2014:combining visual and textual features for information extraction from online flyers

17
EMNLP2014 Combining Visual and Textual Features for Information Extraction from Online Flyers tokyo metropolitan university M2 Ryuichi Tachibana

Upload: ryuchi-tachibana

Post on 14-Jul-2015

105 views

Category:

Engineering


0 download

TRANSCRIPT

EMNLP2014 Combining Visual and Textual

Features for Information Extraction from Online Flyers

!

tokyo metropolitan university M2

Ryuichi Tachibana

アブストラクト• オンライン広告のテキストとテキストの視覚的な情報の素性を組み合わせる

• 伝統的なテキストのみの情報抽出、固有表現認識は視覚的な情報を組み合わせたものより情報を抽出できない

• オンラインの商業用不動産広告を用いて教師あり学習を行う

• テキストの視覚的な情報とテキストの素性の組み合わせを用いて12種類の固有表現を認識するタスクにおいてSVM分類器の性能を評価した

• 色、サイズ、位置のような情報の追加は分類器の性能を向上させた

2

イントロダクション• 情報抽出と固有表現認識は各種のドメインに適用され、評価されたが、それは主に新聞記事や、科学雑誌、インフォーマルなジャンルにおいてであった(Nadeau and Sekine, 2007)

• 一方テキスト情報は視覚的に豊かなフォーマット、例えばHTMLとPDFによって示される

• 本論文では教師あり学習のアプローチを提案し、テキストの視覚的な情報とテキストの素性の組み合わせを用いて、固有表現を認識するタスクを行った

3

モチベーション• 多くの仲介業者を介した産業(商業用不動産、重工業)は統合的な検索用データベースがないので、仲介業者は古い情報を提供するデータベースを使って時間を無駄にしている

• 商業用不動産仲介者はデータベースを更新しようとはしないが、全ての関連したリスト化された情報を含む広告を作る

• 私たちの目的はその広告を利用して体系立ったリスト情報を抽出する

4

商業用不動産広告の例

5

問題設定:12種類の固有表現の認識タスク

6

関連研究

• 以前の研究ではHTMLスタイルに基づいた視覚的な素性を使っていたが(Burget 2007)、この論文ではHTMLDOM木に依存するような計算手法を妨げる視覚的にリッチなデータセットにチャレンジする

• 素性として色を使って、それを人間がおおよそ知覚できるように正規化する

7

データセット• 800のランダムに選ばれた広告(315の場所、75の会社、730の仲介者に及ぶ)

• フォーマットとレイアウト、商業用の不動産物件タイプ(オフィス、土地など)、取引を示す(投資、リース)

• 広告はHTMLに変換される

• そのHTMLを二人でアノテーションする

• 二人のアノテーション一致率は91%だった

• 一番一致率が低かったのはSpace SizeとSpace Typeだった

8

アノテーション例

9

手法

• 広告はHTMLパーザーを用いてテキストに変換される

• The text was tokenized and the task was then modeled as a BIO classification task, classifiers identify the Beginning, the Inside, and Outside of the text segments.

10

テキストベースの素性

11

視覚的な情報に関する素性

• フォントサイズ:7種類に正規化

• 色:100の基本的な色に正規化

• Y座標:150ピクセル毎に正規化

12

実験• LibSVMライブラリでSVMで分類した

• 文書の80%は教師データ、20%はテストデータにした

• デフォルトパラメータとして線形カーネルモデルを使用した

• マルチクラス問題はone-vs-othersを用いて二値分類問題に変換した

13

結果

14

結果

15

結果

16

結果

• mentions used to describe confidential information rarely occurred in the dataset.

17