研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ ·...

43
閲覧期間と話題構造に基づく Twitter 上の見落とし情報の抽出 ◎大原 啓詳(甲南大学) 鈴木 優 (奈良先端科学技術大学院大学) 灘本 明代(甲南大学)

Upload: others

Post on 16-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

閲覧期間と話題構造に基づくTwitter 上の見落とし情報の抽出

◎大原 啓詳(甲南大学)

鈴木 優 (奈良先端科学技術大学院大学)

灘本 明代(甲南大学)

Page 2: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

背景

興味のある事柄について詳しいユーザ

Follow

共通の趣味Tweet

Twitterにおけるユーザ同士の繋がり

多くのユーザをフォローする

詳細な情報・多様な情報を取得できる

Page 3: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

背景

有益な情報の見落としが発生

一方で…

加速したタイムラインを常時確認することは困難

莫大な量の多様な情報がタイムライン上に混在

多くのユーザをフォロー

タイムライン上には大量のツイートが流れる

話題AのTweet

話題BのTweet

話題AのTweet

話題CのTweet

話題EのTweet

話題BのTweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Page 4: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

見落とした期間のタイムライン

背景

閲覧していない期間の情報を全て確認

フォロー数の多い閲覧者には負担が大きい

閲覧していない期間に投稿された情報について閲覧者が容易に取得できる仕組みが必要

見落とした期間のタイムライン

閲覧者が既に知っている情報

閲覧者が知らない新情報

知っている情報

知らない情報

知っている情報

知っている情報

知らない情報

閲覧者にとって必要な情報と不必要な情報が混在

Page 5: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

目的

閲覧者が閲覧していない期間にフォローしているユーザから

発信された情報

見落とし情報

見落とし情報を閲覧者が分かりやすい形で提示

Page 6: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

見落とし情報の要素

見落とし期間の時間情報

話題の粒度

見落とし情報

未知の話題

既知の話題

Page 7: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

見落とし期間の時間情報

Follow

Timeline 見落とした期間

TLを確認する時間が取れなくなる

Tweet

閲覧者 情報発信者

野球

サッカー

t

研究

見落とした期間特有の話題

Page 8: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

見落とし情報の要素

見落とし期間の時間情報

話題の粒度

見落とし情報

未知の話題

既知の話題

Page 9: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

野球

プロ野球チーム

野球選手

イチロー野球場

高校野球 田中将大

阿部慎之助

黒田博樹

日本人メジャーリーガー

ツイートの話題構造

話題には様々な粒度が存在する

Page 10: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

ツイートの話題構造

TLを確認する時間が取れなくなる

Follow

Tweet

閲覧者 情報発信者

Timeline 見落とした期間

野球野球(日本のプロ野球選手)

野球(MLBの日本人選手)

t

見落とし情報が粒度により異なる

MLBの日本人選手(田中将大)

MLBの日本人選手(イチロー)

Page 11: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

閲覧期間にも出現していたが閲覧者が見落とした部分を含む話題

見落とし期間にのみ出現する閲覧者にとって全く目新しい話題

見落とし情報の分類

未知の話題

既知の話題

見落とした期間

MLBの日本人選手

田中将大イチロー

見落とした期間

MLBの日本人選手

田中将大イチロー

Page 12: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

手法の全体図

話題の粒度

見落とし期間の時間情報

Page 13: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

手法の全体図

サッカー選手

非閲覧期間中にツイートを投稿したユーザのタイムライン

(2)ツイートを特徴語によりクラスタリング

イチロー 田中将大 本田圭佑

野球選手

(1)見落とし期間とその前後のツイートの取得

イチロー

田中将大

(3)各話題に話題構造を付与

香川真司

本田圭佑

ジャイアンツ

野球

ジャイアンツ

野球球団

香川真司

Page 14: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

ツイート中の特徴語

ツイートの話題ごとのクラスタリング

各ツイートの特徴語候補を抽出

固有名詞 一般名詞 未知語

Wikipediaの記事を検索し、ヒットした記事数1記事以上100記事未満の語を特徴語として利用

ストップワードや一般的過ぎる名詞も例:ボスケテ試合・予定

一般的ではなく意味のある名詞・未知語

固有名詞

Page 15: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

ツイートの話題ごとのクラスタリング

各ツイートの特徴語について1ツイートを1ドキュメントとした際の

idf値で重みづけ

クラスタリングRepeated bisection法

各クラスタ中のツイート特徴ベクトルとクラスタの中心ベクトルとのコサイン類似度からいずれのクラスタにも所属度の低いツイートを削除

クラスタリング結果を「話題クラスタ」と定義

Page 16: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

手法の全体図

サッカー選手

非閲覧期間中にツイートを投稿したユーザのタイムライン

(2)ツイートを特徴語によりクラスタリング

イチロー 田中将大 本田圭佑

野球選手

(1)見落とし期間とその前後のツイートの取得

イチロー

田中将大

(3)各話題に話題構造を付与

香川真司

本田圭佑

ジャイアンツ

野球

ジャイアンツ

野球球団

香川真司

Page 17: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題クラスタへの話題構造の付与

未知の話題と既知の話題の分類には話題の粒度を把握する必要がある

提案するクラスタリング手法は特徴語に基づいただけのものであるため各話題クラスタ間の関係は考慮していない

しかし…

Wikipediaのカテゴリ構造をもとに上位下位概念構造を話題クラスタに付与

Page 18: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題クラスタへの話題構造の付与

各クラスタ𝑪𝒊の特徴語をタイトルとするWikipediaの記事を検索

共通する上位概念(Wikipediaのカテゴリ)をもとに話題クラスタを結び付ける

クラスタ𝐶1 クラスタ𝐶2

上位概念𝐶12

クラスタ𝐶3

上位概念𝐶23

Page 19: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題クラスタへの話題構造の付与

イチロー 田中将大 本田圭佑ジャイアンツ

クラスタリング結果

ワールド・ベースボール・クラシック日本代表選手

MLBの日本人選手盗塁王(MLB)

沢村栄治賞

イチロー 田中将大

共通の上位概念を持つ話題クラスタをルートノードとする部分グラフを生成

Page 20: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

手法の全体図

見落とし期間の時間情報

Page 21: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

閲覧期間にも出現していたが閲覧者が見落とした部分を含む話題

見落とし期間にのみ出現する閲覧者にとって全く目新しい話題

見落とし情報の分類

未知の話題

既知の話題

見落とした期間

MLBの日本人選手

田中将大イチロー

見落とした期間

MLBの日本人選手

田中将大イチロー

Page 22: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

閲覧期間に基づく話題の分類

見落とした期間

見落とし期間に存在するツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

MLBの日本人選手イチロー

閲覧したツイート

閲覧したツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

見落としたツイート

閲覧したツイート

田中将大

既知の話題

既知の話題

未知の話題

t

Page 23: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

情報の提示方法

未知の話題

既知の話題

閲覧者が見落とした部分の情報を閲覧済みの情報と関連付けて提示

閲覧者が全く知らない話題であるため全体に関しての概要を提示

見落とした期間

MLBの日本人選手

田中将大イチロー

見落とした期間

MLBの日本人選手

田中将大イチロー

Page 24: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

実験

・クラスタリング部分

・話題構造の付与

Page 25: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

実験目的

提案する特徴語とクラスタリング手法により話題クラスタへのツイートの分類を正確に行えるかの確認

クラスタリング結果の各話題クラスタについてツイートが適切に分類されているかを人手で判断

Page 26: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

・データセット日常的にツイートを行っている5アカウントについて各アカウント1000ツイートを取得

A:「ゲーム」について短文ツイートが多いB:「アニメ」「アイドル」のツイートが多い

特に特定の作品やグループに話題が偏っているC:「サッカー」についての長文ツイートが多いD:「ゲーム」「野球」「サッカー」のツイートが

比較的多い。雑多なツイートを投稿E:「音楽」「ラジオ」のツイートが多い

地名や施設名がツイート中にしばしば含まれる

Page 27: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

実験に用いたツール

・形態素解析器:MeCab

・辞書データMeCab-ipa辞書+Wikipediaの記事タイトル+はてなキーワード

・クラスタリングツール:bayon

Page 28: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験実験条件

・クラスタ数:bayonのパラメータである分割ポイントの閾値を設定し自動でクラスタ数を決定

・分割ポイントの閾値:1.0

・中心ベクトルとツイートの特徴ベクトルのコサイン類似度が0.5以下のものは削除

・クラスタ中のツイート数が1件のみのものは削除

Page 29: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験実験結果

アカウント ツイート数 クラスタ数最大クラスタ中のツイート数

適合率

A 325 97 14 0.708

B 252 47 23 0.912

C 583 171 7 0.762

D 487 124 14 0.891

E 469 121 12 0.938

平均 443.4 112 14 0.842

・いずれのユーザについても比較的高い適合率が得られた

・クラスタの大きさはいずれのユーザについても比較的小さい

Page 30: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

・ツイートの最小単位の話題への分類は提案した特徴語を用いたクラスタリングによりある程度実現できる

考察

ユーザE:「音楽」「地名・施設名」

ユーザD:「野球」「ゲーム」「サッカー」

Page 31: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

・一部特徴語として不適切な語が存在例:「きれいな空」「??」「おはよう」

「(・∀・)」⇒辞書拡張時に

Wikipedia、はてなキーワードの単語を固有名詞として登録していたことに起因

考察

Page 32: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

クラスタリング部分に関する実験

・類似したクラスタが複数存在もともとのツイートの話題数が少ないのに無理矢理分類された?⇒パラメータの調整が必要

考察

ユーザB:「アニメ」「アイドル」

Page 33: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

実験

・クラスタリング部分

・話題構造の付与

Page 34: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

実験目的

話題クラスタの上位概念の付与についてWikipediaのカテゴリを上位概念として用いた手法が適切であるかを判断するため

話題構造の付与に関する実験

Page 35: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題構造の付与に関する実験

実験条件・データセット:クラスタリング部分の実験結果から得られた話題クラスタ集合を利用

・被験者:日常的にTwitterを利用する20代男性3名

Page 36: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題構造の付与に関する実験

実験条件各話題クラスタに対してWikipedia上のカテゴリ情報を用い上位概念語を付与

共通する上位概念語を持つ話題クラスタを1つの話題クラスタの組とする

正解データ各話題クラスタの組が実際に適切に結びつけられているかを人手で判断し2名以上が適切と判断したものを正解とする

Page 37: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題構造の付与に関する実験

アカウント クラスタ数生成された

クラスタの組数適合率

A 97 8 0.25

B 47 7 1

C 171 92 0.533

D 124 31 0.258

E 121 37 0.594

平均 112 14 0.527

・ユーザB,C,Dについては0.5以上の適合率

・一方でユーザA,Dについては0.25程度の適合率しか得られなかった

実験結果

Page 38: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

適切と分類されたものについては比較的適切な上位概念語が付与されている

・一方で「曜日」のような特徴的ではない上位概念や、同一の特徴語により結びついただけのものも

・ユーザEについて詳細な結果と考察

話題構造の付与に関する実験

Page 39: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

ユーザBについては、クラスタリングの時点で同一の特徴語を持つ類似したクラスタが多数存在

同じような内容のツイートを一つのクラスタにまとめ切れていないことが原因

考察

話題構造の付与に関する実験

・ユーザBの結果

Page 40: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

特徴語抽出が難しいユーザについては適切な上位概念の付与が困難⇒特徴語決定段階での改良が必要?

考察

話題構造の付与に関する実験

ユーザAの各話題クラスタの特徴語

Page 41: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

上位概念についても特徴的であるかどうかの判定が必要

もう少し大規模な実験が必要

考察

話題構造の付与に関する実験

ユーザDの各話題クラスタの特徴語

Page 42: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

話題構造の付与に関する実験

アカウント クラスタ数クラスタリングの

適合率話題構造付与の

適合率

A 97 0.708 0.25

B 47 0.912 1

C 171 0.762 0.533

D 124 0.891 0.258

E 121 0.938 0.594

平均 112 0.842 0.527

・クラスタリング時に0.9と非常に高い適合率が得られたB,Eについては話題構造付与も比較的高い適合率が得られた

結果と考察

Page 43: 研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基 …€¦ · クラスタリング部分に関する実験 実験条件 ・クラスタ数:bayonのパラメータである

まとめと今後の課題

まとめ・閲覧期間と話題の構造に基づく見落とし情報の抽出手法について提案

具体的には…

・ツイートの話題ごとの分類手法の提案・各話題への階層構造の付与手法の提案・閲覧期間による話題の分類・話題の粒度について、クラスタリングと概念構造付与の実験

今後の課題・より詳細な話題構造付与・閲覧期間を意識した提示情報の最適化