歌ことば「橘」「梅」「桜」における関連対の抽出yamagen/hodoscek...2017/12/10...

1
じんもんこん2017@大阪市立大学,2017年12月9~10日 過去のものとなってしまった古代語の意味記述 歌ことば「橘」「梅」「桜」における関連対の抽出 ホドシチェク ボル 大阪大 [email protected] 山元 啓史 東京工業大学 [email protected] 従来の見出し語とその解説に加え... 共出現パターンを算出 方法 結果 考察 (igraph形式) ・新編国歌大観CD-ROM版の二十一代集に相当するデータ 材料 ・国文学研究資料館編集二十一代集データベース ・新日本古典文学大系本二十一代集に相当する書籍 ・新潮日本古典集成の新古今集 ・ヴァージニア大学日本語テキストイニシアティブ監修 (新編国歌大観編集委員会 1996) (中村他 1999) (小島・新井 1989, 片桐 1990, 小町谷 1990, 久保田・平田 1994, 川村他1989, 片野・松野 1993) (久保田 1979) http://etext.lib.virginia.edu/japanese/ 山元(2007)で下記資料を収集 シソーラスに異なる表記を登録、正規化した 八代集 データベース 八代集 データベース 見出し語 関連語 意味・用法を記述する 語と語の関係概念 語の使われ方や意味・文脈 が推測しやすい + 関連語・関連対の抽出 関連対の追加 (和歌毎に出現した任意2 語の組み合わせパターン) (無向)エッジの重み “主役語” 単語単位:同じ文に使われた ≠ 連語が成立していた 重複したエッジ:同一語形のため多義語が一義的に扱われてしまう ・連想しやすい関連対よりも間接的な 関連対が存在する 34 いさ さよふ 匂ふ 追風 村雨 浮雲 著し 宿る 枯る 何故 忍草 零る 軒端 香る 其れ 古里 尋ぬ 何れ 名残 兼ぬ 曳く 五月 月雨 澄む 今年 初む 如何 何で 有処 伝つ 待つ 借る 未だ 今朝 手枕 染む 変ふ 馴ら らす 千代 聞ゆ 掘る 近し 植う 夕風 忍ぶ 置く 宿 小島 山吹 咲く 吹く 思ひ ひ寝 有り 恋し 止む 嗅ぐ 五月 掛く うた たた寝 短か かし 涼し 夜半 郭公 鳴く 一木 懐か かし 覚ゆ 山郭 郭公 噪く 過ぐ 出づ 139 33 ノード ネットワークコミュニティ検出 橘のネットワーク ・Rでlinkcommを使用 ・脇役級の語(脇役語)の抽出 ・ノードが2つ以上のコミュニ ティに所属できる ・コミュニティ〜クラスター 問題 Fruchterman-Reingoldレイアウト 垣根 真屋 山里 一人 遠方 交ふ 求む 倭文 憧る 避く 急ぐ 東路 移り り香 綴る 衣手 心地 近し 打ち ち付けなり 寝屋 朝な な朝な 誤つ 味気 気無し 怪し 若木 植う 咲く 抉ず 匂ふ 去ぬ 限る 文無 無し 宿 初花 立ち ち枝 盛り りなり 情け け無し 止む 居り 持つ 疾し 遅し 遂に 初む 慣ら らふ 東風 遣す 主顔 積む 二度 文目 一年 未だ 羽根 淡雪 羽風 縫ふ 鳴く 末枝 花笠 片糸 一枝 移ろ ろふ 折る 挿頭 頭す 白髪 百敷 且つ 貫く 咎む 吹く 染む 残す 我妹 妹子 春風 濃し 雪も もよに 憧ら らす 懐か かしむ 問ふ 舞ふ 失す 板戸 溜む 余所 月夜 散る 待つ 過ぐ 分く 触る 果つ 異異 移す 降る 隠す 尽す 飽く 色香 春辺 今朝 忘る 家苞 其れ 散ら らす 背子 霧る 並べ べて 久方 見ゆ 香る 争ふ 垂る 零る 留む いさ 軒端 長閑 閑けし 絶え えす 漏る 乱る 白妙 人間 離る 明く 何時 夜半 紛ふ 似る 薄し 変ふ 比ふ 常な なり 形見 同じ 入る 哀れ 神垣 老木 蓑虫 着る 野山 雑ず 春雨 撚る 青柳 老ゆ 隠る 鞍部 驚く 著し 越ゆ 尋む 疎し 桃園 梅津 狩衣 宿す 一夜 後ろ ろめたし 起く 映る 答ふ 散り り散りなり 悲し 36 34 46 43 33 18 3 40 41 19 51 65 4 9 11 55 48 39 58 38 26 17 60 47 53 64 62 56 27 44 49 57 37 32 59 22 63 30 31 12 61 24 52 54 28 23 25 14 50 7 13 2 1 8 6 10 桜のネットワーク Fruchterman-Reingoldレイアウト 梅のネットワーク Spencer circleレイアウト 可視化からみた問題点 直接的↔間接的 関連対 昔の人を思わせる香り 無くなった人を思い 「橘」のリンク コミュニティ デンドログラム(群平均法) 0 0.215 0.43 Partition Density 0 0.2 0.4 0.6 0.8 1 Height 最大クラスター=15ノード,267エッジ,112ノード,44クラスター いさ さよふ 匂ふ 追風 村雨 浮雲 著し 宿る 枯る 何故 忍草 零る 軒端 香る 其れ 古里 尋ぬ 何れ 名残 兼ぬ 曳く 五月 月雨 澄む 今年 初む 如何 何で 有処 伝つ 待つ 借る 未だ 今朝 手枕 染む 変ふ 馴ら らす 千代 聞ゆ 掘る 近し 植う 夕風 忍ぶ 置く 宿 小島 山吹 咲く 吹く 思ひ ひ寝 有り 恋し 止む 嗅ぐ 五月 掛く うた たた寝 短か かし 涼し 夜半 郭公 鳴く 一木 懐か かし 覚ゆ 山郭 郭公 噪く 過ぐ 出づ ・和歌の短い文脈において主役語が同時に 現れない ・関連対と類似対 歌ことば辞典の開発にあたり、従来の「見出し語とその解説」 による記述に加え、「見出し語―関連語」の形式による記述を提案し、 「橘」「梅」「桜」のコミュニティ分析によって、関連対の抽出を⾏い、 それらは実際の和歌において関連した語であることが確認できた。 結論 体系的な違いが ないためaverage (群平均法)をすべて の図で使用

Upload: others

Post on 05-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

じんもんこん2017@大阪市立大学,2017年12月9~10日

過去のものとなってしまった古代語の意味記述

歌ことば「橘」「梅」「桜」における関連対の抽出ホドシチェク ボル大阪大学[email protected]

山元 啓史東京工業大学[email protected]

従来の見出し語とその解説に加え...

橘梅桜

共出現パターンを算出

方法

結果

考察

(igraph形式)

・新編国歌大観CD-ROM版の二十一代集に相当するデータ

材料

・国文学研究資料館編集二十一代集データベース・新日本古典文学大系本二十一代集に相当する書籍・新潮日本古典集成の新古今集・ヴァージニア大学日本語テキストイニシアティブ監修

(新編国歌大観編集委員会 1996)

(中村他 1999)

(小島・新井 1989, 片桐 1990, 小町谷 1990, 久保田・平田 1994, 川村他1989, 片野・松野 1993)

(久保田 1979)

http://etext.lib.virginia.edu/japanese/

山元(2007)で下記資料を収集 シソーラスに異なる表記を登録、正規化した

八代集データベース

八代集データベース

見出し語 関連語意味・用法を記述する

語と語の関係概念語の使われ方や意味・文脈

が推測しやすい

+関連語・関連対の抽出

関連対の追加

(和歌毎に出現した任意2  語の組み合わせパターン)

(無向)エッジの重み

“主役語”

単語単位:同じ文に使われた ≠ 連語が成立していた重複したエッジ:同一語形のため多義語が一義的に扱われてしまう

・連想しやすい関連対よりも間接的な 関連対が存在する

待�人�香

古今34

いささよふ

匂ふ

追風

村雨浮雲

著し

宿る

枯る何故

忍草軒 零る

軒端

香る

其れ庭

古里

尋ぬ

何れ

名残夕

兼ぬ曳く 足

五月月雨

然澄む

今年

初む

如何何で

有処伝つ

辺待つ

借る未だ

旅今朝

手枕染む

変ふ

馴ららす

千代聞ゆ

闇風

掘る

近し

植う

夕風忍ぶ

置く

宿

小島

崎 彼

山吹咲く

吹く

思ひひ寝

有り

恋し 止む標

汝里

嗅ぐ五月

掛く露

うたたた寝

短かかし 涼し

夜半

郭公鳴く

一木

懐かかし

覚ゆ

山郭郭公

噪く

雨過ぐ

雲末

す人

出づ

五月待�

花��花�

香����

昔�人�

袖�香���

古今139

色���

�������

�����

��袖���

���梅��

古今33

ノード

ネットワークコミュニティ検出 橘のネットワーク・Rでlinkcommを使用・脇役級の語(脇役語)の抽出・ノードが2つ以上のコミュニ ティに所属できる・コミュニティ〜クラスター

問題

Fruchterman-Reingoldレイアウト

垣根

真屋

山里

一人

遠方

交ふ

隙求む

倭文

憧る

己辺避く

急ぐ

東路

移りり香

綴る

衣手

心地

近し

打ちち付けなり

寝屋

朝なな朝な

誤つ味気気無し

怪し若木植う

咲く

抉ず

匂ふ

去ぬ

限る

文無無し

主宿

初花

立ちち枝

盛りりなり

来 情けけ無し

止む 居り持つ

疾し

遅し

種遂に

初む

外慣ららふ

東風

遣す

標主顔

積む二度

文目

一年

未だ

羽根

淡雪

羽風

園縫ふ

鳴く

末枝

花笠

片糸

一枝

移ろろふ

折る

挿頭頭す

白髪

百敷

且つ

貫く

咎む

吹く

染む

残す

我妹妹子

春風風

濃し

雪ももよに

憧ららす

懐かかしむ

問ふ

舞ふ

失す

板戸溜む

余所

月夜

散る

待つ

過ぐ

分く

触る

果つ

異異

移す

降る

隠す

尽す 霞

飽く

色香

春辺

今朝忘る

家苞花

其れ

散ららす

背子

霧る

並べべて

久方天見ゆ

香る

争ふ

軒垂る

零る

留むいさ

軒端 長閑閑けし

絶ええす漏る

乱る光

白妙人間

離る

明く何時

夜半

紛ふ

昼似る 薄し 変ふ 比ふ常ななり

形見

同じ入る

哀れ

昔 神垣

老木

蓑虫

着る

雨 野山

雑ず

春雨 撚る

青柳老ゆ

隠る

鞍部驚く

著し越ゆ

尋む 疎し折

桃園梅津

狩衣

宿す一夜 後ろ

ろめたし

起く

映る

答ふ

散りり散りなり

又此

悲し

36

34

46

43

33

18

3

40

41

1951

654

91155483958

3826

17

60

47

53

64

62

56

27

44

49

57

37

32

59

22

63

30

3112

6124 52

5428

23

25

14

50

7

13

2

1

8

6

10

桜のネットワークFruchterman-Reingoldレイアウト

梅のネットワークSpencer circleレイアウト

可視化からみた問題点

直接的↔間接的

関連対

昔の人を思わせる香り無くなった人を思い

「橘」のリンク コミュニティ デンドログラム(群平均法)

0 0.215 0.43

Partition Density

0

0.2

0.4

0.6

0.8

1

Hei

ght

最大クラスター=15ノード,267エッジ,112ノード,44クラスター昔

いささよふ

匂ふ

追風村雨

浮雲

著し宵

宿る

枯る何故

昔忍草

軒 零る

軒端

香る

其れ

庭古里

尋ぬ

何れ

名残

兼ぬ

曳く

五月月雨

然澄む

今年

初む如何何で

有処伝つ

待つ 夜

借る

未だ旅

今朝

手枕

染む

変ふ

馴ららす

千代

聞ゆ

掘る近し

植う

夕風

忍ぶ

置く宿

小島崎彼山吹

咲く今

吹く

思ひひ寝

有り

恋し 止む

夏後

嗅ぐ五月

掛く露 香

うたたた寝

短かかし

涼し

夜半

郭公

鳴く声

一木

懐かかし

覚ゆ

山郭郭公

噪く

過ぐ雲

出づ

・和歌の短い文脈において主役語が同時に 現れない・関連対と類似対

歌ことば辞典の開発にあたり、従来の「見出し語とその解説」による記述に加え、「見出し語―関連語」の形式による記述を提案し、「橘」「梅」「桜」のコミュニティ分析によって、関連対の抽出を⾏い、それらは実際の和歌において関連した語であることが確認できた。

結論

   体系的な違いが  ないためaverage(群平均法)をすべての図で使用