2012 09-06-poster

16
『現代日本語書き言葉均衡コーパス』に対する 時間情報アノテーション 小西 光・浅原 正幸・前川 喜久雄 国立国語研究所 コーパス開発センター 2012/9/6 2回コーパス日本語学WS 1 概要: コーパス中の時間表現の正規化 今月初め から町内全戸を対象に希望調査を行っており、五月中旬 から回収を始 める[出典: PN2e_00001] 2002411日付北海道新聞朝刊 TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与 (白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中 type=“DATE” value=“2002-04” mod=“start” type=“DATE” value=“2002-05-2J”

Upload: asahara-masayuki

Post on 12-Jul-2015

322 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: 2012 09-06-poster

『現代日本語書き言葉均衡コーパス』に対する時間情報アノテーション

小西光・浅原正幸・前川喜久雄

国立国語研究所コーパス開発センター

2012/9/6 第2回コーパス日本語学WS 1

概要:コーパス中の時間表現の正規化

今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始める。

[出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊

TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部に付与

(白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2)

アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中

type=“DATE”value=“2002-04”

mod=“start”

type=“DATE”value=“2002-05-2J”

Page 2: 2012 09-06-poster

背景―目的文書中の時間情報解析・時間順序関係推定

テキストからの時系列の情報抽出• 時系列に配信される文書からの事象構造解析

いつ、事象Aが起きたか?

文書作成日時と事象Aの時間的順序関係は?

事象A と事象Bはどういう時間的順序で発生したか?

• テキストで言及されている時間表現は表層だけでは時間軸上の1点を指すことができないものが多い“5月” - 何年かはわからないが、ある年の5月

“来年” - 何年かはわからないが、文書作成日時の翌年

“2時間半後” ― ある事象とある事象の間の時間

“中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現

2012/9/6 第2回コーパス日本語学WS 2

時間情報を正規化したアノテーションが求められる

Page 3: 2012 09-06-poster

背景―先行研究英語の研究動向

2012/9/6 第2回コーパス日本語学WS 3

英語に関する研究動向

MUC-6 [Grishman+ 1996] 評価型会議 時間情報表現の切り出し

[Setzer 2001] タグ付け基準 時間情報表現の切り出しと正規化

TERN [DARPA TIDES 2004] 評価型会議 時間情報表現の切り出しと正規化

TimeML [Pustejovsky+ 2003b] タグ付け基準 事象間の時間的順序関係

TimeBank [Pustejovsky+ 2003a] コーパス TimeML基準のタグ付きコーパス

Aquaint TimeML Corpus コーパス TimeML基準のタグ付きコーパス

[Boguraev+ 2005] 解析手法 時間情報表現-事象表現間の時間的順序関係解析

[Mani 2006] 解析手法 二事象表現間の時間的順序関係解析

TempEval [Verhagen+ 2007] 評価型会議 時間情報表現-事象表現間、二事象表現間の時間的順序関係解析

ISO-TimeML [ISO-24617-1] 標準化 タグ付け基準の国際標準化

TempEval-2 [Verhagen+ 2010] 評価型会議 時間情報の正規化、時間情報表現-事象表現間、二事象表現間の時間的順序関係解析

TempEval, TempEval-2 などの評価型会議で多数の解析手法が提案されている

英語だけでなく、フランス語、スペイン語、ドイツ語、中国語、

韓国語のデータも提供された

Page 4: 2012 09-06-poster

背景―先行研究日本語の研究動向

2012/9/6 第2回コーパス日本語学WS 4

日本語に関する研究動向

IREX [IREX実行委員会 1999] 評価型会議 時間情報表現の切り出し

拡張固有表現体系 [Sekine+ 2002] タグ付け基準 時間情報表現の切り出し

拡張固有表現体系コーパス[橋本+ 2009]

コーパス 時間情報表現の切り出し

時間情報表現の切り出しにとどまっており、

時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおらず、

他の言語と比べて後れを取っている

Page 5: 2012 09-06-poster

アノテーション基準―概要TimeML 互換のアノテーション基準

XMLベースのタグ付け基準<TIMEX3>タグにさまざまな属性を付与する

@tid, @type, @value, @valueFromSurface, @temporalFunction,

@freq, @quant, @mod

2012/9/6 第2回コーパス日本語学WS 5

⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20" VALUEFROMSURFACE="2003-10-20"⟩二〇〇三年十月二十日⟨/TIMEX3⟩ ⟨TIMEX3 TID="T2" TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"⟩月 曜 日⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC_ORIGINAL" /⟩ ⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX-XXT17:30:XX"⟩ 午後五時三十分⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC ORIGINAL" /⟩ ⟨BLOCKEND/⟩ ⟨PARAGRAPH⟩ ⟨SENTENCE⟩ ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像に見入っていた。⟨/SENTENCE⟩ ⟨SENTENCE⟩ 彼女は伸びをし、腕時計に目をやった。⟨/SENTENCE⟩⟨SENTENCE⟩⟨TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"⟩二時間半⟨/TIMEX3⟩ で収穫ゼロ。⟨/SENTENCE⟩

タグ付け例 (PB59_00001)

Page 6: 2012 09-06-poster

アノテーション基準@tid, @type

@tid: TIMEX3 の identifier文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別するための ID を機械的に付与する

(例)“t1”, “t2”, …

@type: 時間表現のタイプ (4種類)

2012/9/6 第2回コーパス日本語学WS 6

@type=“DATE” 日付表現 「一九二九年二月」「前日」

@type=“TIME” 時刻表現 「午前十時ごろ」「昼」「九日昼」

@type=“DURATION”

時間表現 「二時間半」

@type=“SET” 頻度集合表現 「毎日」

Page 7: 2012 09-06-poster

アノテーション基準@value, @valueFromSurface, (@temporalFunction)

@value: 正規化された時間情報文脈情報を用いて、わかる限りの情報を復元して付与する

@valueFromSurface: 表層形からわかる時間情報文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する

@temporalFunction:

true: @valueFromSurface では特定の時区間を指定できない場合(underspecified)

false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified)

注) @temporalFunctionがtrueでも、文脈が足りないために

@value が特定の時区間を指定できない場合もある

2012/9/6 第2回コーパス日本語学WS 7

Page 8: 2012 09-06-poster

2012/9/6 第2回コーパス日本語学WS 8

単位 記号 時刻表現例 @value

時刻 XXXX-XX-XXTXX:XX:XX2006年8月8日午前8時45分

30秒2006-08-08T08:45:30

時刻 (略記) TXX:XX:XX 午前8時45分30秒 T08:45:30

その他 XXXX-XX-XXTXX 未明 * XXXX-XX-XXTDN

朝 XXXX-XX-XXTMO

昼 XXXX-XX-XXTMI

日中 XXXX-XX-XXTDT

午後 XXXX-XX-XXTAF

夕方 XXXX-XX-XXTEV

夜 XXXX-XX-XXTNI

深夜 * XXXX-XX-XXTMN

単位 記号 時間表現例 @value

年 PnY 3年間 P3Y

月 PnM 2ヶ月 P2M

日 PnD 5日 P1D

時間 PTnH 3時間 PT3H

分 PTnM 30分 PT30M

秒 PTnS 9秒80 PT9.80S

週 PnW 1週間 P1W

時間表現例 @value

「今」「現

在」PRESENT_REF

「近年」「以

前」PAST_REF

「今後」「将

来」FUTURE_REF

単位 記号 日付表現例 @value

年月日 XXXX-XX-XX 1980年7月7日 1980-07-07

曜日 XXXX-WXX-X 水曜日 XXXX-WXX-3

季節 XXXX-{SP,SU,FA,WI} 冬 XXXX-WI

四半期 XXXX-QX 第一四半期 XXXX-Q1

年度 FYXXXX 1998年度 FY1998

世紀 XXXX 11世紀 10XX

紀元前 BCXXXX紀元前202

年BC0202

4000年前 KA4

2億年前 MA200

曜日表現例 @value

月曜日 XXXX-WXX-1

火曜日 XXXX-WXX-2

水曜日 XXXX-WXX-3

木曜日 XXXX-WXX-4

金曜日 XXXX-WXX-5

土曜日 XXXX-WXX-6

日曜日 XXXX-WXX-7

週末 XXXX-WXX-WE

日付表現の例 時間表現の例

時刻表現の例 曜日表現の例

不定な時間表現の例* は、日本語向けに独自に設定したも

Page 9: 2012 09-06-poster

アノテーション基準@freq, @quant ー頻度集合表現

頻度集合表現(@type=“SET”) は @value, @freq, @quant

の組み合わせにより正規化する

@freq: 頻度情報の提示⟨TIMEX3 type="SET" value="P1W" freq="2X"⟩週に2回⟨/TIMEX3⟩

@quant: 集合情報の提示⟨TIMEX3 type="SET" value="P1D" quant="EACH"⟩ 毎日⟨/TIMEX3⟩

⟨TIMEX3 type="SET" value="XXXX-10" quant="EACH"⟩ 毎10月⟨/TIMEX3⟩

⟨TIMEX3 type="SET" value="P10D" quant="EVERY"⟩ 10日おき⟨/TIMEX3⟩

2012/9/6 第2回コーパス日本語学WS 9

Page 10: 2012 09-06-poster

アノテーション基準@mod

時間情報表現を修飾するさまざまなモダリティ表現を扱う

2012/9/6 第2回コーパス日本語学WS 10

値 定義 例

@mod=START 日付時刻表現の初期 「初め」「初頭」

@mod=MID 日付時刻表現の中期 「半ば」「中ごろ」

@mod=END 日付時刻表現の後期 「末」「暮れ」

@mod=APPROX 近似表現 「ごろ」

@mod=BEFORE 日付時刻表現より前 「前」

@mod=AFTER 日付時刻表現より後 「過ぎ」

@mod=ON_OR_BEFORE 日付時刻表現以前 「以前」

@mod=ON_OR_AFTER 日付時刻表現以後 「以降」「以来」@mod=EQUAL_OR_LESS 時間表現の範囲以下 「以内」

@mod=EQUAL_OR_MORE 時間表現の範囲以上 「以上」

@mod=LESS_THAN 時間表現の範囲未満 「未満」「近く」

@mod=MORE_THAN 時間表現の範囲超過 「余り」「過ぎ」

Page 11: 2012 09-06-poster

タグの分析@type毎の統計

2012/9/6 第2回コーパス日本語学WS 11

BCCWJの一部に対するアノテーション白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A)

→ http://goo.gl/rLukS にアノテーション優先順位あり

ジャンル ファイル数 DATE TIME DURATION SET 合計

OW(白書)

17[16]

596(414)

0(0)

191(0)

6(0) 703

PB(書籍)

25[25]

209(51)

28(12)

105(0)

14(0) 356

PN(新聞)

110[110]

1323(999)

193(162)

553(0)

41(0) 2110

OC(知恵袋)

518[250]

341(95)

70(19)

184(0)

37(0) 632

PM(雑誌)

23[23]

333(108)

37(2)

131(0)

28(1) 529

OY(ブログ)

257[198]

632(215)

161(58)

117(1)

22(0) 932

[]内時間情報表現を含むファイルの数()内文脈により曖昧性解消可能な表現数

Page 12: 2012 09-06-poster

タグの分析頻度集合表現の統計

2012/9/6 第2回コーパス日本語学WS 12

@freq=nil @freq= n X otherwise

@quant=nil 3 43 2

@quant=EACH 75 2 5

@quant=EVERY 18 0 0

@freq, @quant の2軸での集計

出現回数の多い表現「毎日」 @quant=“EACH”, @freq=nil 75件

「1日3回」「週2度」 @quant=nil, @freq=“nX” 43件

複雑な表現「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M”

@freq に時間が入る

Page 13: 2012 09-06-poster

タグの分析@mod の統計

2012/9/6 第2回コーパス日本語学WS 13

@type DATE TIME DURATION SET

@mod=START 27 11 1 0

@mod=MID 5 0 2 0

@mod=END 72 0 5 1

@mod=APPROX 19 35 95 2

@mod=BEFORE 0 5 - 0

@mod=AFTER 0 6 - 0

@mod=ON OR BEFORE 7 0 - 0

@mod=ON OR AFTER 36 21 - 0

@mod=EQUAL OR LESS - - 16 0

@mod=EQUAL OR MORE - - 29 0

@mod=LESS THAN - - 13 0

@mod=MORE THAN - - 5 0

Page 14: 2012 09-06-poster

まとめBCCWJに対する時間情報アノテーション

2012/9/6 第2回コーパス日本語学WS 14

ジャンル横断的な日本語時間情報アノテーション– ジャンルにより時間情報表現の分布が異なる

– 多くの時間情報表現が表層情報のみからは正規化できない

– 頻度集合表現の正規化手法

– 多様なモダリティ表現

スタンドオフ形式で配布中https://github.com/masayu-a/BCCWJ-Timebank

Page 15: 2012 09-06-poster

今後の予定時間的順序関係のアノテーション

2012/9/6 第2回コーパス日本語学WS 15

eventID/timeID

AFTER

IAFTER

ENDS

DURING/IS_INCLUDED

BEGUN_BY

SIMULTANEOUS/IDENTITY

BEGINS

INCLUDES/DURING_INV

ENDED_BY

IBEFORE

BEFORE

is_included

identity

includes

after

met-by

overlapped-by

finishes

during

started-by

equal

starts

contains

finished-by

overlaps

meets

before

TimeML Allen

relatedToTimeorrelatedToEvent

注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する”

Page 16: 2012 09-06-poster

今後の予定テンス・アスペクト情報のアノテーション

2012/9/6 第2回コーパス日本語学WS 16

• 形態論的な情報– 「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ

ンでは時間の正規化に寄与しない

– 準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」「シテシマウ」

• 構文的な情報– 組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ

ロダ」「シタコトガアル」– 格(参加者の性格)

• 語彙的な情報– 動詞

• 派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」• 派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」• 範疇性 動作動詞-変化動詞・非限界動詞-限界動詞

– 副詞• 質的「マダ」「モウ」「スデニ」

• 量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」「ナンドモ」「タマニ」「トキドキ」