2013 03-13 depparse

29
BCCWJ DepParse Asahara and Matsumoto はじめに 工程表 基準の差異 京大コーパスとの差異 BCCWJ- DepPara BCCWJ- DepPara2 作業環境 作業者の訓練 解析器 おわりに 謝辞 参考文献 “I believe that banking institutions are more dangerous to our liberties than standing armies” 『私は中央銀行制度が我々の自由にとって常備軍よりも危険なものであると心の底から信じている』 – Thomas Jefferson, (1743 – 1826) “I believe that TREE-banking institutions are more dangerous to MY liberties than standing armies” 『僕は「係り受けアノテーション」が僕の自由にとって常備軍よりも危険なものであると心の底から信じている』 – Masayuki Asahara, (1975 – ) 『現代日本語書き言葉均衡コーパス』に対する 係り受け・並列構造アノテーション 浅原 正幸 松本 裕治 国立国語研究所 奈良先端科学技術大学院大学 March 13th 2013 March 13th 2013 1/29

Upload: asahara-masayuki

Post on 01-Jul-2015

453 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

“I believe that banking institutions are more dangerous to our liberties than standing armies”『私は中央銀行制度が我々の自由にとって常備軍よりも危険なものであると心の底から信じている』

– Thomas Jefferson, (1743 – 1826)“I believe that TREE-banking institutions are more dangerous to MY liberties than standing armies”『僕は「係り受けアノテーション」が僕の自由にとって常備軍よりも危険なものであると心の底から信じている』

– Masayuki Asahara, (1975 – )

『現代日本語書き言葉均衡コーパス』に対する係り受け・並列構造アノテーション

浅原 正幸 松本 裕治

国立国語研究所 奈良先端科学技術大学院大学

March 13th 2013

March 13th 2013 1/29

Page 2: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

“I believe that banking institutions are more dangerous to our liberties than standing armies”『私は中央銀行制度が我々の自由にとって常備軍よりも危険なものであると心の底から信じている』

– Thomas Jefferson, (1743 – 1826)“I believe that TREE-banking institutions are more dangerous to MY liberties than standing armies”『僕は「係り受けアノテーション」が僕の自由にとって常備軍よりも危険なものであると心の底から信じている』

– Masayuki Asahara, (1975 – )

『現代日本語書き言葉均衡コーパス』に対する係り受け・並列構造アノテーション

浅原 正幸 松本 裕治

国立国語研究所 奈良先端科学技術大学院大学

March 13th 2013

March 13th 2013 2/29

Page 3: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

はじめに“BCCWJ is messy because the language is messy”

– Unknown

BCCWJ に対する係り受け・並列構造アノテーションの進捗報告 

工程表~上流工程との関係先行作業が終わらないと作業がはじまらない基準の差異係り受けアノテーション基準は未成熟アノテーション環境作業に必要なツールの整備作業者の訓練Amazon Mechanical Turk に投げられるアノテーションはアノテーションじゃない⇒ ただの被験者実験だ解析器アノテーションと解析器

March 13th 2013 3/29

Page 4: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

上流工程と係り受け・並列構造アノテーション“Shoveling Linguistics Snow”

– Unknown

上流工程上流工程 A サンプリング上流工程 B 文字起こし・文分割上流工程 C 短単位形態論情報付与・(文字修正・文境界修正)上流工程 D 長単位形態論情報付与・(文字修正・文境界修正・短単位修正)上流工程 E リリース (2011年 12月)

(文字修正・文境界修正・短単位修正・長単位修正・伏字処理)ジャンル毎に二月雪式に上流工程のデータがくる係り受けアノテーション・並列構造アノテーション工程

工程 1 並列構造・同格構造範囲認定 (2008-2010年 at 奈良先端大)上流工程 C からの作業

工程 2 工程 1 と上流工程 D と重ね合わせ (2009-2011年 at 奈良先端大)工程 3 第一次係り受けアノテーション (2009年-2011年 at 奈良先端大)工程 4 工程 3 と上流工程 E と重ね合わせ (2011-2012年 at 奈良先端大)工程 5 第二次係り受けアノテーション (2013年- at 国語研)

上流工程と版が分岐したらその都度重ね合わせるdiff/patch and 人手

March 13th 2013 4/29

Page 5: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

上流工程と係り受け・並列構造アノテーション“Shoveling Linguistics Snow”

– Unknown

上流工程上流工程 A サンプリング上流工程 B 文字起こし・文分割上流工程 C 短単位形態論情報付与・(文字修正・文境界修正)上流工程 D 長単位形態論情報付与・(文字修正・文境界修正・短単位修正)上流工程 E リリース (2011年 12月)

(文字修正・文境界修正・短単位修正・長単位修正・伏字処理)ジャンル毎に二月雪式に上流工程のデータがくる係り受けアノテーション・並列構造アノテーション工程

工程 1 並列構造・同格構造範囲認定 (2008-2010年 at 奈良先端大)上流工程 C からの作業

工程 2 工程 1 と上流工程 D と重ね合わせ (2009-2011年 at 奈良先端大)工程 3 第一次係り受けアノテーション (2009年-2011年 at 奈良先端大)工程 4 工程 3 と上流工程 E と重ね合わせ (2011-2012年 at 奈良先端大)工程 5 第二次係り受けアノテーション (2013年- at 国語研)

上流工程と版が分岐したらその都度重ね合わせるdiff/patch and 人手

March 13th 2013 5/29

Page 6: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

上流工程と係り受け・並列構造アノテーション“Shoveling Linguistics Snow”

– Unknown

上流工程上流工程 A サンプリング上流工程 B 文字起こし・文分割上流工程 C 短単位形態論情報付与・(文字修正・文境界修正)上流工程 D 長単位形態論情報付与・(文字修正・文境界修正・短単位修正)上流工程 E リリース (2011年 12月)

(文字修正・文境界修正・短単位修正・長単位修正・伏字処理)ジャンル毎に二月雪式に上流工程のデータがくる係り受けアノテーション・並列構造アノテーション工程

工程 1 並列構造・同格構造範囲認定 (2008-2010年 at 奈良先端大)上流工程 C からの作業

工程 2 工程 1 と上流工程 D と重ね合わせ (2009-2011年 at 奈良先端大)工程 3 第一次係り受けアノテーション (2009年-2011年 at 奈良先端大)工程 4 工程 3 と上流工程 E と重ね合わせ (2011-2012年 at 奈良先端大)工程 5 第二次係り受けアノテーション (2013年- at 国語研)

上流工程と版が分岐したらその都度重ね合わせるdiff/patch and 人手

March 13th 2013 6/29

Page 7: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

京大コーパスとの差異 並列構造

Parallel Conjuncts on Dependency Tree

� �BCCWJ� �基準 00079 D PB46 00066� �

|| 売れる || 商品 | 構成 | と || 存在 | 感 | を || 持つ ||

D D D

Parallel� �入れ子 (Nest)を認定Syntactic Category が一致していなくても認定Non-constituent Conjunctsいわゆる部分並列問題Forward Sharing左から複数の並列構造要素に同時に係るものの扱い

March 13th 2013 7/29

Page 8: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

京大コーパスとの差異 並列構造表現における部分並列問題

How to Express Parallel Non-constituent Conjuncts on Dependency Tree?

� �BCCWJ� �基準 作例� �

本を 兄の 太郎に ノートを 弟の 三郎に かしている

D

D

D

D

D D

Parallel� �� �KC� �,� �

CSJ� �基準 作例� �本を 兄の 太郎に ノートを 弟の 三郎に かしている

I

P

I

� �March 13th 2013 8/29

Page 9: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

京大コーパスとの差異 同格構造

Apposition: George, Kitty’s Father, is working at a trading companyDislocation: George is working at a trading, Kitty’s Father

� �BCCWJ� �基準 作例� �

父 ジョージ は 商社マンだ

D

D

Apposition� �� �KC� �は同格の認定が広い(ゆるい)� �CSJ� �, � �

BCCWJ� �は対象が一致する場合のみに限定Apposition だけでなく Dislocation 相当も含む

March 13th 2013 9/29

Page 10: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

京大コーパスとの差異 広義の同格構造“equal-to” – equivalence relation

“is-a”, “part-of” – partial ordering relations⟨ entity, attirbute, value⟩: “attribute-of”, “value-of”, “property-of” – ???� �

BCCWJ� �基準 作例� �指輪など 、 多数の 高級品 を 盗んだ

D

DD

Generic� �� �KC� �は同格の認定が広い(ゆるい)� �CSJ� �, � �

BCCWJ� �は対象が上位下位関係や部分全体関係にあるときに別のラベルを認定対象-属性関係、属性-属性値関係、対象-属性値関係相当は同格として認めないApposition だけでなく Dislocation 相当も含む

March 13th 2013 10/29

Page 11: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara NAIST 作業データのリリースconst cast<adverb*>

reinterpret cast<adnominal*>

reinterpret cast<interjection*>

reinterpret cast<(· Д ·) エ…*>

奈良先端大作業データの公開公開 DVD に合わせたものhttps://github.com/masayu-a/BCCWJ-DepPara

問題点:上流工程の問題 (文境界)BCCWJの文境界は C-XML, M-XML のファイル形式で別のものBCCWJの文境界は人手で分割されていない上流工程の問題 (文節境界)音韻・形態論ベースで認定された文節が係り受けを表現するには不適切係り先が定まらない関係「副詞」→「名詞-副詞可能」「連体詞」→??、「感動詞」→??、「顔文字」→???係り受け基準が不自然主題と主語のアタッチメント

March 13th 2013 11/29

Page 12: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (1/4)“Syntax Sugar” for “Dependency Annotation”

気に入らない上流工程アノテーションは直す。しかし、尊重する。文境界齟齬係り受けに適しない文境界は連結する方向に直す。

詳しくは以下の論文を参照してください� �小西光, 小山田由紀, 浅原正幸, 柏野和佳子, 前川喜久雄. 『現代日本語書き言葉コーパス』の係り受け関係アノテーションのための文境界の再認定. 第3回コーパス日本語学ワークショップ, 2013.� �

文境界の齟齬を係り受けで記述。

太郎は 「少し 疲れた。 明日 また 来る」と 言って 帰った。 DUMMY

D

D

Z

DD D D

Z

Shift-Reduce (句構造木なら left-corner 系) であれば右側開放文字列でも解析可

March 13th 2013 12/29

Page 13: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (2/4)“... and that morphology of the morphology, by the morphology, for the morphology”

– Unknown

気に入らない上流工程アノテーションは直す。しかし、尊重する。文節境界齟齬

国語研長単位は形態論ベースの形態論情報語彙的な複合動詞は連結するなど気に入らない上流工程は直す。文節境界の齟齬を係り受けで記述。

見物人が 集まって くる

D

B

統語論に基づいて形態論を説明する研究があるのでいつか見直す形態論情報に手を入れるそのためには係り受けでは情報が足りない句構造木を書く必要がある移動をどう扱う?

March 13th 2013 13/29

Page 14: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (3/4)“Man’s role is uncertain, undefined, and perhaps unnecessary”

– Margaret Mead, (1901 – 1978)

係り先が不定の要素の認定

係り受け関係のラベル� �BCCWJ� � (グループ | セグメント)

� �CSJ� � � �

KC� �通常の係り受け D - ラベルなし D並列   D (Parallel) P P部分並列   D (Parallel) I I同格  D (Apposition) A A同格(総称、数詞) D (Generic) A2 A言いよどみ D (Disfluency) D 未定義倒置 D - R 未定義

文節境界に関するラベル� �BCCWJ� � -

� �CSJ� � � �

KC� �後続文節と接続 B - B+ 未定義

その他� �BCCWJ� � (セグメント)

� �CSJ� � � �

KC� �フィラー F - F 未定義顔文字 F - 未定義 未定義接続詞 F or D C D感動詞 F or D - E D呼びかけ Z - Y 未定義非言語音 F - ラベルなし 未定義係り先のない文節 F - N 未定義記号・補助記号 F - 未定義 未定義URL・空白 F - 未定義 未定義係り受け関係の交差 D - X 未定義 (A のみ)英単語・ローマ字文・漢文 D (Foreign) 未定義 未定義古文 D (Foreign) K(|S1|E1) 未定義文境界相当 Z - 未定義 未定義

コメント� �BCCWJ� � (セグメント)

� �CSJ� � � �

KC� �未定義 - S:格表示誤り (「が | を | に」) 未定義

F (Disfluency) S:複数文節の言い直し (|S1|E1) 未定義

March 13th 2013 14/29

Page 15: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (3/4)“Man’s role is uncertain, undefined, and perhaps unnecessary”

– Margaret Mead, (1901 – 1978)

係り先が不定の要素の認定 文外の要素に係ける

係り受け関係のラベル� �BCCWJ� � (グループ | セグメント)

� �CSJ� � � �

KC� �通常の係り受け D - ラベルなし D並列   D (Parallel) P P部分並列   D (Parallel) I I同格  D (Apposition) A A同格(総称、数詞) D (Generic) A2 A言いよどみ D (Disfluency) D 未定義倒置 D - R 未定義

文節境界に関するラベル� �BCCWJ� � -

� �CSJ� � � �

KC� �後続文節と接続 B - B+ 未定義

その他� �BCCWJ� � (セグメント)

� �CSJ� � � �

KC� �フィラー F - F 未定義顔文字 F - 未定義 未定義接続詞 F or D C D感動詞 F or D - E D呼びかけ Z - Y 未定義非言語音 F - ラベルなし 未定義係り先のない文節 F - N 未定義記号・補助記号 F - 未定義 未定義URL・空白 F - 未定義 未定義係り受け関係の交差 D - X 未定義 (A のみ)英単語・ローマ字文・漢文 D (Foreign) 未定義 未定義古文 D (Foreign) K(|S1|E1) 未定義文境界相当 Z - 未定義 未定義

コメント� �BCCWJ� � (セグメント)

� �CSJ� � � �

KC� �未定義 - S:格表示誤り (「が | を | に」) 未定義

F (Disfluency) S:複数文節の言い直し (|S1|E1) 未定義

� �BCCWJ� �/� �

CSJ� �CSJ マニュアルより� �

中学校を 山が 好きな 友達が いたんですね DUMMY

� �BCCWJ� �F/� �

CSJ� �ND D D

� �BCCWJ� �Z/� �

CSJ� �undef� �

March 13th 2013 15/29

Page 16: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (4/4)“The average politician goes through a sentence like a man

exploring a disused mine shaft-blind, groping, timorous and in imminent danger of cracking his shinson a subordinate clause or a nasty bit of subjunctive”

– Robertson Davies, (1913 – 1995)「は」と「が」(主題と主語のアタッチメント) 従属節の種類→ A類 B類 C類

南 (1974)(p128-129)従属節分類と内部に現れる要素構成要素 ↓

~ナガラ

~ツツ

†~テ

‡連用形反復

‡~連用形

†~テ

~ト

~ナガラ

~ノデ

~ノニ

~バ

~タラ

~ナラ

~テモ

)

†~テ

)

‡~連用形

~ズ(ズニ)

~ナイデ

~ガ

~カラ

(理由)

~ケレド

(並列)

~シ

(並列)

†~テ

(引用)

‡~連用形

(並列)

述語的部分以外の節内要素

名詞 + 格助詞(ガ以外) + + + + + + + + + + + + + + + + + + + + + + + +状態副詞 + + + + (+) + + + + + + + + + + + + + + + + + + +程度副詞 + + + + + + + + + + + + + + + + + + + + + + + +A類従属節 + + + + + + + + + + + + + + + + + + + + + + + +主語(~ガ) - - - - (+) + + + + + + + + + + + + + + + + + + +時の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +場所の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +ジツニの類 - - - - - + + + + + + + + + + + + + + + + + + +評価的意味の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +B類従属節 - - - - - + + + + + + + + + + + + + + + + + + +提示のことば(~ハ) - - - - - - - - - - - - - - - - - - + + + + + +オソラクの類 - - - - - - - - - - - - - - - - - - + + + + + +C類従属節 - - - - - - - - - - - - - - - - - - + + + + + +

述語的部分の要素

用言 + + + + + + + + + + + + + + + + + + + + + + + +使役形 + + + + - + + + + + + + + + + + + + + + + + + +受身形 + + + + - + + + + + + + + + + + + + + + + + + +受給の形 + + + - - + + + + + + + + + + + + + + + + + + +尊敬の形 + + + - - + + + + + + + + + + + + + + + + + + +丁寧の形 - - - - - + + + + + + + + + + + + + + + + + + +打消の形 - - - - - + + + + + + + + + + - (+) (+) + + + + + -過去形 - - - - - (-) - - + + - - + - (-) - - - + + + + (-) -用言+形式名詞 - - - - - - - + + + - - + - - - - - + + + + - -意志形 - - - - - - - - - - - - - - - - - - + + + + - -推量形 - - - - - - - - - - - - - - - - - - + + + + - -

+はある要素がその節の中に存在可能であることを示す/-はある要素がその節の中に存在不可能であることを示す() 内のものは、そう認めることに問題があるものを示す/† テ形は述語的部分の要素に対して言語テストを行い 4 つに分類すること‡ 連用形は述語的部分の要素に対して言語テストを行い 4 つに分類すること

March 13th 2013 16/29

Page 17: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (4/4)“The average politician goes through a sentence like a man

exploring a disused mine shaft-blind, groping, timorous and in imminent danger of cracking his shinson a subordinate clause or a nasty bit of subjunctive”

– Robertson Davies, (1913 – 1995)「は」と「が」(主題と主語のアタッチメント)従属節の種類→ A類 B類 C類

南 (1974)(p128-129)従属節分類と内部に現れる要素構成要素 ↓

~ナガラ

~ツツ

†~テ

‡連用形反復

‡~連用形

†~テ

~ト

~ナガラ

~ノデ

~ノニ

~バ

~タラ

~ナラ

~テモ

)

†~テ

)

‡~連用形

~ズ(ズニ)

~ナイデ

~ガ

~カラ

(理由)

~ケレド

(並列)

~シ

(並列)

†~テ

(引用)

‡~連用形

(並列)

述語的部分以外の節内要素

名詞 + 格助詞(ガ以外) + + + + + + + + + + + + + + + + + + + + + + + +状態副詞 + + + + (+) + + + + + + + + + + + + + + + + + + +程度副詞 + + + + + + + + + + + + + + + + + + + + + + + +A類従属節 + + + + + + + + + + + + + + + + + + + + + + + +主語(~ガ) - - - - (+) + + + + + + + + + + + + + + + + + + +時の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +場所の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +ジツニの類 - - - - - + + + + + + + + + + + + + + + + + + +評価的意味の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +B類従属節 - - - - - + + + + + + + + + + + + + + + + + + +提示のことば(~ハ) - - - - - - - - - - - - - - - - - - + + + + + +オソラクの類 - - - - - - - - - - - - - - - - - - + + + + + +C類従属節 - - - - - - - - - - - - - - - - - - + + + + + +

述語的部分の要素

用言 + + + + + + + + + + + + + + + + + + + + + + + +使役形 + + + + - + + + + + + + + + + + + + + + + + + +受身形 + + + + - + + + + + + + + + + + + + + + + + + +受給の形 + + + - - + + + + + + + + + + + + + + + + + + +尊敬の形 + + + - - + + + + + + + + + + + + + + + + + + +丁寧の形 - - - - - + + + + + + + + + + + + + + + + + + +打消の形 - - - - - + + + + + + + + + + - (+) (+) + + + + + -過去形 - - - - - (-) - - + + - - + - (-) - - - + + + + (-) -用言+形式名詞 - - - - - - - + + + - - + - - - - - + + + + - -意志形 - - - - - - - - - - - - - - - - - - + + + + - -推量形 - - - - - - - - - - - - - - - - - - + + + + - -

+はある要素がその節の中に存在可能であることを示す/-はある要素がその節の中に存在不可能であることを示す() 内のものは、そう認めることに問題があるものを示す/† テ形は述語的部分の要素に対して言語テストを行い 4 つに分類すること‡ 連用形は述語的部分の要素に対して言語テストを行い 4 つに分類すること

本質的には節のスコープを規定する必要がある。まずは南の節分類で対処する。

March 13th 2013 17/29

Page 18: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

BCCWJ-DepPara2 に向けて (4/4)“The average politician goes through a sentence like a man

exploring a disused mine shaft-blind, groping, timorous and in imminent danger of cracking his shinson a subordinate clause or a nasty bit of subjunctive”

– Robertson Davies, (1913 – 1995)「は」と「が」(主題と主語のアタッチメント)従属節の種類→ A類 B類 C類

南 (1974)(p128-129)従属節分類と内部に現れる要素構成要素 ↓

~ナガラ

~ツツ

†~テ

‡連用形反復

‡~連用形

†~テ

~ト

~ナガラ

~ノデ

~ノニ

~バ

~タラ

~ナラ

~テモ

)

†~テ

)

‡~連用形

~ズ(ズニ)

~ナイデ

~ガ

~カラ

(理由)

~ケレド

(並列)

~シ

(並列)

†~テ

(引用)

‡~連用形

(並列)

述語的部分以外の節内要素

名詞 + 格助詞(ガ以外) + + + + + + + + + + + + + + + + + + + + + + + +状態副詞 + + + + (+) + + + + + + + + + + + + + + + + + + +程度副詞 + + + + + + + + + + + + + + + + + + + + + + + +A類従属節 + + + + + + + + + + + + + + + + + + + + + + + +主語(~ガ) - - - - (+) + + + + + + + + + + + + + + + + + + +時の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +場所の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +ジツニの類 - - - - - + + + + + + + + + + + + + + + + + + +評価的意味の修飾語 - - - - - + + + + + + + + + + + + + + + + + + +B類従属節 - - - - - + + + + + + + + + + + + + + + + + + +提示のことば(~ハ) - - - - - - - - - - - - - - - - - - + + + + + +オソラクの類 - - - - - - - - - - - - - - - - - - + + + + + +C類従属節 - - - - - - - - - - - - - - - - - - + + + + + +

述語的部分の要素

用言 + + + + + + + + + + + + + + + + + + + + + + + +使役形 + + + + - + + + + + + + + + + + + + + + + + + +受身形 + + + + - + + + + + + + + + + + + + + + + + + +受給の形 + + + - - + + + + + + + + + + + + + + + + + + +尊敬の形 + + + - - + + + + + + + + + + + + + + + + + + +丁寧の形 - - - - - + + + + + + + + + + + + + + + + + + +打消の形 - - - - - + + + + + + + + + + - (+) (+) + + + + + -過去形 - - - - - (-) - - + + - - + - (-) - - - + + + + (-) -用言+形式名詞 - - - - - - - + + + - - + - - - - - + + + + - -意志形 - - - - - - - - - - - - - - - - - - + + + + - -推量形 - - - - - - - - - - - - - - - - - - + + + + - -

+はある要素がその節の中に存在可能であることを示す/-はある要素がその節の中に存在不可能であることを示す() 内のものは、そう認めることに問題があるものを示す/† テ形は述語的部分の要素に対して言語テストを行い 4 つに分類すること‡ 連用形は述語的部分の要素に対して言語テストを行い 4 つに分類すること

本質的には節のスコープを規定する必要がある。まずは南の節分類で対処する。さらに 野田 (1985) の従属節分類 (p.171)

種類 代表例    「が」 「は」従属句 付帯状況句「~ながら」「~まま」「~て」 × ×

継起句「~て、~(連用形)」           強い従属節 継起節「~と、~たら、~て、~(連用形)」  ○ ×

仮定節「~たら、~(れ)ば、~と、~ては、~ても」様態節「~ように、~ほど」時間節「~とき、~まえに、~あとで、~まで」連体修飾節「~[名詞節]」名詞節「~こと、~の、~か」理由節 (1)「~ため、~て、~から(焦点)、~ので(焦点)、~のに(焦点)」

弱い従属節 理由節 (2)「~から、~ので、~のに」 ○ ○並列節「~て、~(連用形)、~し、~けれど、~が」 

引用節 引用節「~と、~って」 ○ ○

March 13th 2013 18/29

Page 19: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

アノテーション支援環境 ChaKiHow To Use A Victorinox

March 13th 2013 19/29

Page 20: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

アノテーション支援環境 ChaKiHow To Use A Victorinox

ファイルの選択(フォルダも可) ファイルごとの統計量 係り受けアノテーション

並列構造アノテーション文節区切りも変更可能

文境界の変更も可能

ふつうのコンコーダンサ(一般人はここしか使わない)

March 13th 2013 20/29

Page 21: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

アノテーション支援環境 ChaKiHow To Use A Victorinox

ファイルの選択(フォルダも可)

ヒストリ機能( 外部ファイルに保存可能)ファイルごとの統計量 係り受けアノテーション

並列構造アノテーション文節区切りも変更可能

文境界の変更も可能IronPython でファイル操作IronRuby でファイル操作

ふつうのコンコーダンサ(一般人はここしか使わない)

属性情報の確認コメントも書ける

形態論情報の修正単語の内部構造も修正できるようになるらしい

最近、単語に連続量を付与できるようになりました!

dot 形式でエクスポート

実はキーボードショートカットもある

うらで PrefixSpan が動く

Excel, CaboCha 形式でエクスポート

フォントも自由に変えられる!

書誌情報で絞込検索

March 13th 2013 21/29

Page 22: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

アノテーション支援環境 ChaKiHow To Use A Victorinox

ファイルの選択(フォルダも可)

ヒストリ機能( 外部ファイルに保存可能)ファイルごとの統計量 係り受けアノテーション

並列構造アノテーション文節区切りも変更可能

文境界の変更も可能IronPython でファイル操作IronRuby でファイル操作

ふつうのコンコーダンサ(一般人はここしか使わない)

属性情報の確認コメントも書ける

形態論情報の修正単語の内部構造も修正できるようになるらしい

最近、単語に連続量を付与できるようになりました!

dot 形式でエクスポート

実はキーボードショートカットもある

うらで PrefixSpan が動く

Excel, CaboCha 形式でエクスポート

フォントも自由に変えられる!

書誌情報で絞込検索

係り受けの表示方法は 2パターン

文脈情報の量は自由に変えられる

自動的に文字コード変換して形態素解析器係り受け解析器を呼び出すラッパープログラムつき

KWIC のソートは Left, Center, Right どこでもできる

コントロールキーを押さなくても複数事例選択可能

将来的には ChaKi 自体がサーバ機能をもつようになる

単語の色は自由に変えられる

今どのくらいメモリつかっているのかがわかるゲージつき

March 13th 2013 22/29

Page 23: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

作業者の訓練HARTMAN: “Because I am hard, you will not like me. But the more you hate me, the more you will learn.”

– from ’Full Metal Jacket’ (1987)

奈良先端大における訓練マニュアルによる教示・ペアプログラミング・個別アノテーションの一致度 . . .

言語アノテーション経験者の訓練既に行ってきたアノテーション経験にひっぱられる...形態論による判断か?意味論による判断か?...格要素は見えるが、それ以外の連用修飾は見えない?...言語テストは現場では採用されない統制を重視するか、揺れを重視するか一意の正解を作成するのではなくある程度揺れを許容する...真に曖昧性のある構造に対する被験者実験だと思えば許せる

March 13th 2013 23/29

Page 24: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

作業者の訓練HARTMAN: “Because I am hard, you will not like me. But the more you hate me, the more you will learn.”

– from ’Full Metal Jacket’ (1987)

奈良先端大における訓練マニュアルによる教示・ペアプログラミング・個別アノテーションの一致度 . . .

言語アノテーション経験者の訓練既に行ってきたアノテーション経験にひっぱられる...形態論による判断か?意味論による判断か?...格要素は見えるが、それ以外の連用修飾は見えない?...言語テストは現場では採用されない統制を重視するか、揺れを重視するか一意の正解を作成するのではなくある程度揺れを許容する...真に曖昧性のある構造に対する被験者実験だと思えば許せる

March 13th 2013 24/29

Page 25: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

作業者の訓練HARTMAN: “Because I am hard, you will not like me. But the more you hate me, the more you will learn.”

– from ’Full Metal Jacket’ (1987)

奈良先端大における訓練マニュアルによる教示・ペアプログラミング・個別アノテーションの一致度 . . .

言語アノテーション経験者の訓練既に行ってきたアノテーション経験にひっぱられる...形態論による判断か?意味論による判断か?...格要素は見えるが、それ以外の連用修飾は見えない?...言語テストは現場では採用されない統制を重視するか、揺れを重視するか一意の正解を作成するのではなくある程度揺れを許容する...真に曖昧性のある構造に対する被験者実験だと思えば許せる

March 13th 2013 25/29

Page 26: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

解析器A co-runner in the dark

以下の博士論文を必ず読んでください� �Masakazu IWATATE (2012)“Development of Pairwise Comparison-based Japanese Dependency Parsers and Application to Corpus Annotation”Doctoral Disseartation, Nara Institute of Science and Technology, Japan.� �トーナメントモデル (アルゴリズム)

能動学習/誤り検出パーザスタッキング並列構造と係り受け構造の結合学習 (Dual Decomposition)

並列構造による係り受けアノテーション精緻化

March 13th 2013 26/29

Page 27: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

おわりに But Neverending

BCCWJ に対する係り受け・並列構造アノテーションの進捗報告 

工程表~上流工程との関係基準の差異アノテーション環境作業者の訓練解析器

コメントは masayu-a /at/ ninjal.ac.jp まで。

March 13th 2013 27/29

Page 28: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

謝辞

本研究は科研費特定領域研究「日本語コーパス」ツール班「コーパスアノテーションのためのツールと支援環境」、国立国語研究所共同研究プロジェクト「コーパスアノテーションの基礎研究」および国立国語研究所コーパス開発センター「超大規模コーパス構築プロジェクト」によるものです。本研究にあたっては岩立将和氏にツールの開発など様々な形でご協力いただきました。また奈良先端科学技術大学院大学自然言語処理学研究室および国立国語研究所コーパス開発センターの諸氏から有益なコメントをいただきました。

March 13th 2013 28/29

Page 29: 2013 03-13 DepParse

BCCWJDepParse

Asahara andMatsumoto

はじめに

工程表

基準の差異京大コーパスとの差異BCCWJ-DepPara

BCCWJ-DepPara2

作業環境

作業者の訓練

解析器

おわりに

謝辞

参考文献

参考文献

浅原-2010 浅原正幸, 岩立将和, 松本裕治. BCCWJ コアデータへの係り受け・並列構造アノテーション ―進捗と課題―. 特定領域『日本語コーパス』平成 21 年度公開ワークショップ, 2010.

浅原-2011 浅原正幸, 岩立将和, 松本裕治. BCCWJ コアデータへの係り受け・並列構造アノテーション. 『現代日本語書き言葉コーパス』完成記念講演会予稿集, pp. 71–76, 2011.

浅原-2013 浅原正幸. 係り受けアノテーション基準の比較. 第3回コーパス日本語学ワークショップ, 2013.

岩立-2012 岩立将和, 浅原正幸, 松本裕治. 並列構造アノテーションの制約を利用した係り受けアノテーション支援. 情報処理学会研究報告 2012-NL-205, pp. 1–7, 2012.

Iwatate-2012 Masakazu IWATATE, “Development of Pairwise Comparison-based Japanese Dependency Parsers andApplication to Corpus Annotation” Doctoral Disseartation, Nara Institute of Science and Technology, Japan. 2012

小椋-2011 小椋秀樹, 小磯花絵, 冨士池優美, 宮内佐夜香, 原裕. 『現代日本語書き言葉均衡コーパス』形態論情報規程集第4版(上下巻), 2011.

小西-2013 小西光, 小山田由紀, 浅原正幸, 柏野和佳子, 前川喜久雄. 『現代日本語書き言葉コーパス』の係り受け関係アノテーションのための文境界の再認定. 第3回コーパス日本語学ワークショップ, 2013.

野田-1985 野田 尚史, 「はとが」くろしお出版, 1985.

南-1974 南 不二男, 「現代日本語の構造」 大修館書店, 1974.

山本-2009 山本悠二, 増山繁. 日本語係り受け解析における誤りの類型化と文構造の曖昧性について. 言語処理学会第 15 回年次大会発表論文集, pp. 789–792, 2009.

March 13th 2013 29/29