analysis of the inter-related keywords and tags among new york times news articles

75
新聞記事数及び登録キーワード数の変遷と経済/社会情勢の関性 1. 序論 ドットコムバブルに盛り上がった 2001 年以降、日本のインターネット普及率は大幅に 進み、2011 年現在 77.2%と高い数値を示している。 Fig. 1 インターネット普及率(Google「インターネット利用者数の対人口比」) 国民の余暇の過ごし方をみても、インターネットに費やす時間は年々増加傾向にあり、 とくに若年層でその数字は高くなっている。 Fig. 2 インターネットの行為者率と時間量 (NHK 放送局生活時間調査からみたメディア利用の現状と変化~2010 年国民生活時間調査より~) また、インターネットの普及率、インフラ整備が進むとともに、メディアの情報発信方 法も多様化してきた。新聞、ラジオ、テレビに次ぐ第4のメディアとして位置づける人も 多く、インターネットを介した情報提供も大きく伸びてきており、2011 年現在、多くの企 業が情報をインターネット上で無料提供している。(全ての企業が無料でジョ湯法を提供し ているわけではなく、日経新聞や Finacial Times, New York TImes のように、有料の購読を

Upload: tomohiro-ebisu

Post on 25-May-2015

413 views

Category:

Documents


1 download

DESCRIPTION

Just for Killing time. I love Data Analysis ...

TRANSCRIPT

Page 1: Analysis of the inter-related keywords and tags among New York Times news articles

新聞記事数及び登録キーワード数の変遷と経済/社会情勢の関性

1. 序論

 ドットコムバブルに盛り上がった 2001 年以降、日本のインターネット普及率は大幅に進み、2011 年現在 77.2%と高い数値を示している。

Fig. 1 インターネット普及率(Google「インターネット利用者数の対人口比」)

 国民の余暇の過ごし方をみても、インターネットに費やす時間は年々増加傾向にあり、とくに若年層でその数字は高くなっている。

Fig. 2 インターネットの行為者率と時間量(NHK 放送局生活時間調査からみたメディア利用の現状と変化~2010 年国民生活時間調査より~)

 また、インターネットの普及率、インフラ整備が進むとともに、メディアの情報発信方法も多様化してきた。新聞、ラジオ、テレビに次ぐ第4のメディアとして位置づける人も多く、インターネットを介した情報提供も大きく伸びてきており、2011 年現在、多くの企業が情報をインターネット上で無料提供している。(全ての企業が無料でジョ湯法を提供しているわけではなく、日経新聞や Finacial Times, New York TImes のように、有料の購読を

Page 2: Analysis of the inter-related keywords and tags among New York Times news articles

用意している企業もある)。

 なかには、New York Times のように独自 API(Application Programming interface)を作成し、ユーザーフレンドリーな情報提供を可能にしている企業もある。API は、記事タイトルから、著者、登録キーワード、イメージまで、ユーザーが大量の情報を即座に取得することだけでなく、大量のデータ分析を行うことも可能にし、巨大なデータを基にした分析・解析は、偏差の少ない統計情報の取得および信頼性・確証性の高いデータ解析結果を取得することにつながる。

 本研究では、New York Times の API を利用し、5 万強の記事と 20 万強のキーワードの関係性を調査するとともに、当該キーワードと各国情勢( 政治情勢、経済情勢 etc.)の関係性を明らかにする。特に、先進国と新興国を比較することで、各々の記事数の伸び率および、登録キーワード数の変遷を辿ることに注目していく。

2. 実験方法

 Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事の数をカテゴリー別に取得し、各々の記事に登録されたキーワードも合わせて取得する。 それぞれの取得キーワードの種類は country:4カ国 category:6とし、検索 query

は”country category ”(例:”japan art”)にて実行する。

Table 1 調査対象 Country と Category

3. 実験結果と考察

 3.1 先進国 / 新興国の記事数およびカテゴリー別キーワード登録数の推移 (Fig. 3 ~ 6)

 3.1.1 先進国の記事数 / カテゴリーの推移

 日本、フランスの 2010 年の記事数は 2005 年比でそれぞれ 1.04, 1.24 とそれほど大きな変化はない。 カテゴリー別に見ると、先進国では economy に関してのみ大きな進展が見られる。これは 2008 年度の経済危機によるところが大きく、2008 年以降 economy の記事数は増加傾向

country categoryjapan artchina businessfrance economyindia science

technologypolitics

Page 3: Analysis of the inter-related keywords and tags among New York Times news articles

にある。一方、technology に関し、記事数は減少傾向にあるのがわかる。また、business

に関し、日本は 2005 年比で大幅に減少しているが、2006 年以降それほど大きな差は見受けられない。2005 年の記事数が大幅に増えている背景として、愛知万博における business

面への期待/効果が考えられよう。

 3.1.2 新興国の記事数 / カテゴリーの推移

 中国、インドの 2010 年の記事数は 2005 年比でそれぞれ 1.38, 1.50 と大きく飛躍している。 新興国の記事数の躍進は economy のカテゴリーによるところが大きく、2010 年の記事数を 2005 年比で算出すると、中国で 1.93, インドで 1.92 と高い値をしめしている(なお、先進国 France も 2.30 と高い数値を示している点は留意されたい)。 また、先進国と比較し、politics の記事数も増加傾向にあるのがわかる。technology の記事数も先進国が減少傾向にあるのに対し新興国は増加傾向にある。一方、science に関する記事は、先進国の伸び率を上回りはするものの大きな進展は見受けられない。

 3.1.3 記事数の傾向について

 2005-2008 年の間、先進諸国の全記事数に大きな変化はみられない。一方、新興国の全記事数は増加傾向にある。また経済危機を迎えた 2009 年以降は、先進諸国で economy に関する記事数が大幅に増加している。これより、記事数は経済成長率が高いほど多くなり(新興国の高い経済成長率)、また、世界レベルの極端な経済情勢の変化(リーマンショック問題等)に応じて変化するものと考えられる。

 3.2 各カテゴリーの記事数及びキーワード登録数の推移について (Fig. 3 ~ 9)

 3.2.1 Art について

 先進国では記事数の増加はみられない一方、新興国の記事数は増加の傾向にあり、経済やビジネスだけでなく、芸術面でも新興国への興味は拡大しているものと考えられる。しかし、先進国に比べ新興国の Art の記事数の割合は business, economy に対して小さい。裏を返すと、先進国は Art に関して興味深いコンテンツを多数保持・提供しているとも考えることが出来る。

 3.2.2 Business について

 リーマンショックが実体経済に巨額の損失を及ぼしたのは、図に示すように(米国yahoo および、日本 yahoo から引用)2008 年度 9月以降である。2009 年度前半にかけて株価は低迷を極めており、それに伴い、NYT が取り上げる記事の多くが、経済問題と関連づけられて報道されるに至ったと考えられる。

 3.2.3 Economy について

 新興国は一貫して増加の傾向を示しているのは、高い経済成長率に裏付けられると考え

Page 4: Analysis of the inter-related keywords and tags among New York Times news articles

られる。一方、先進国では 2008,2009 年を境に記事数に大きな進展が見られる。これは 2009 年度に、リーマンショック問題に起因する経済問題の記事数が増えたことによるものであろう。また、business の記事数に大きな増加は見られないことは、ビジネスの記事の多くがリーマンショックの記事に由来するものにとってかわったためと考えられる。

 3.2.4 Science について

 各国とも他のカテゴリーと比較して science の記事割合は小さい。これは、NYT の読者の多くがビジネスの世界で活躍する人達であり、science で取り上げられる記事の多くは、実態経済と直接結びつく内容のものが少なく、NYT としても取り上げにくい(購読者を鑑みて)ためと考えられる。

 3.2.5 Technology について

 各国とも science のカテゴリーより technology のカテゴリ−のほうが、記事数が多い。とりわけ、新興国の technology の記事数の全カテゴリーに対する割合は高く、新しい技術を「応用できる」「展開できる」場およびその技術の導入による経済面へのインパクトの大きさに、大きな期待をよせているものと考えられる。

 3.2.6 Politics について

 すべての国において、politics が全カテゴリーに占める記事数の割合は小さい。記事数単体でみると、中国の記事数が圧倒的に多い。中国経済は中国政府と密接な関係を持つ傾向にあり、政府の動向が実経済・ビジネスに大きく影響するため、NYT の読者の関心も高いことが推察される。

 3.3 New York Times の記者のキーワード登録に関して

 一つの記事に登録されるキーワードは、多くても 3 キーワード程度である。この数字は、ソーシャルサービスと比較すると、かなり少ない値であることが伺えよう。日本を代表する動画サービス「ニコニコ動画」のタグ数(キーワード数)と比較しても、非常に少ないことがわかる。

これは、New York Times の記者が多数のキーワードを登録することによる情報密度の希薄化を意図的に避けているかはわからない(もしくは、より正確に情報の内容を伝えようと意識しているのかもしれない)。

※補足  情報密度の算出方法※キーワードの数が増えるに伴い、当該情報の単位情報密度(ID)は希薄する。ID は以下の数式により導出することとする。

ID = CD / N ・・・(1)

Page 5: Analysis of the inter-related keywords and tags among New York Times news articles

ここで、CD : コンテンツがもつ情報密度、N : キーワードの数とする。なお、一つ一つのタグに重みはないものとする。

 また、各々のサービスが目指すところに大きな違いがある点、知っておくべきであろう。New York Times が顧客とするのは比較的収入の多いビジネスマンであり、ニコニコ動画が顧客とするのは、広く一般ユーザー全般である。これを踏まえると、NYT は、ビジネスに活かしやすい=情報密度の濃い情報を提供することで、他の情報機関に対し競争優位のポジションを獲得することができると考えられる。一方、ニコニコ動画はより多くの視聴者数を獲得することを目的としていると考えられ、登録されるキーワードの数に比例し、ユーザーの検索に引っかかる確率が高くなることからキーワードを多数登録することは理にかなう(ちなみに、ニコニコ動画はキーワード設定数を 10個までと制限している点、また静止画配信ではなく動画配信が主である点付記しておく)。

◇◇◇◇◇ 総 括 ◇◇◇◇◇

 従来のような紙面媒体には不向きであった「一つの記事に複数個のキーワードを付けること」は、ニュース記事に限らず、様々な分野で活躍の場を広げている。You tube の動画や Amazon の商品などに、複数のキーワード付けがされているのはよく知られたことだ。

 一つの記事、商品に対して、多数のキーワードを設定することは、より包括的なユーザー獲得に繋がるのはまちがいないだが、その一方で、情報の肥大化/タグの乱用により、不適切なタグ付けによりユーザーを混乱させてしまうとも考えられる。これに関する対処方法として、グーグルの検索機能は、複数個のタグが段階的に入力されるに合わせて、ユーザーが取得する情報の密度を変えることに成功している。

Page 6: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 3 Article number and Registered-keywords number in Japan

art business economy science technology politics0

200

400

600

800

1000

1200

1400

japan article numbernu

mbe

r

art business economy science technology politics0

400

800

1200

1600

2000

2400

2800

japan category number

num

ber

201020092008200720062005

201020092008200720062005

Page 7: Analysis of the inter-related keywords and tags among New York Times news articles

Fig .4 Article number and Registered-keywords number in China

art business economy science technology politics0

200

400

600

800

1000

1200

1400

china article numbernu

mbe

r

art business economy science technology politics0

400

800

1200

1600

2000

2400

2800

china registered-keywords number

num

ber

201020092008200720062005

201020092008200720062005

Page 8: Analysis of the inter-related keywords and tags among New York Times news articles

Fig.5 Article number and Registered-keywords number in France

art business economy science technology politics0

200

400

600

800

1000

1200

1400

france article numbernu

mbe

r

art business economy science technology politics0

400

800

1200

1600

2000

2400

2800

france registered-keywords number

num

ber

201020092008200720062005

201020092008200720062005

Page 9: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 6 Article number and Registered-keywords number in India

art business economy science technology politics0

400

800

1200

1600

2000

2400

2800

india registered-keywords number

num

ber

art business economy science technology politics0

200

400

600

800

1000

1200

1400

india article numbernu

mbe

r

201020092008200720062005

201020092008200720062005

Page 10: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 7 Registered-keywords/Article in Japan and China

2004 2005 2006 2007 2008 2009 2010 20110.5

1

1.5

2

2.5

3

japan registered-keywords(N) / article(N)

artbusinesseconomysciencetechnologypolitics

2004 2005 2006 2007 2008 2009 2010 20110.5

1

1.5

2

2.5

3

china registered-keywords(N) / article(N)

artbusinesseconomysciencetechnologypolitics

Page 11: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 8 Registered-keywords/Article in France and India

2004 2005 2006 2007 2008 2009 2010 20110.5

1

1.5

2

2.5

3

france registered-keywords(N) / article(N)

artbusinesseconomysciencetechnologypolitics

2004 2005 2006 2007 2008 2009 2010 20110.5

1

1.5

2

2.5

3

india registered-keywords(N) / article(N)

artbusinesseconomysciencetechnologypolitics

Page 12: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 9 Registered-keywords/Article in All-country

2004 2005 2006 2007 2008 2009 2010 20110.5

1

1.5

2

2.5

3

All-Country registered-keywords(N) / article(N)

artbusinesseconomysciencetechnologypolitics

Page 13: Analysis of the inter-related keywords and tags among New York Times news articles

記事にみるカテゴリーとキーワードの関係性

1. 序論

 情報通信インフラが整備され(1990 年代後半)、パーソナルコンピューターを購入することが出来るほどの価格になる(2000 年代前半)とともに、インターネットの世界は、技術面・普及面で大きな進歩を達成することになった。

 情報収集のスタイルも大きく変遷した。インターネットが普及する以前は、情報収集の多くは新聞や雑誌といった「紙面」に頼ることが多く(紙面以外では、ラジオやテレビ等があげられる)、情報の多くは「一般大衆向け」にカスタマイズされた情報がほとんどを占めていた。

 これら新聞や雑誌、テレビといったメディアが提供する情報に対して、読者・視聴者(ユーザー)は「独自のカテゴリー」をつけることは難しく、新聞・雑誌の切り抜き・編集や、ビデオ分類などを通じてしか独自のカテゴリーをつくることはできなかった。

 しかし、パーソナルコンピューター(以下 PC)およびインターネット(以下ネット)環境が急速に整備/普及されるに伴い、ネット上で情報を発信するメディアが多数現れてきた。合わせて、ユーザーは Internet Explorer や Fire Fox といったブラウザを通じ、お好みのサイトや記事の「Book mark」をつくることが可能になった。また、ユーザーは、メディア側が提供する「カテゴリー(およびキーワード、タグ)」を辿ることで、容易に他の情報源にアクセスすることが出来るようになった。加えて、Amazon.com などコマースサイトでは、商品登録が単一カテゴリーではなく複数カテゴリーにまたがって登録できるインフラが整備された。

 PC、ネット環境の普及が進むにつれ、ネット世界の技術も大きく進展し、個々人が情報を提供し、個人の間でそれを共有することが可能となるサービスが表れはじめた(代表的なサービスとしてブログがあげられる)。写真共有サイトの Flickir では、投稿する写真に対し、ユーザーは複数個の「キーワードおよびタグ(以下総称としてキーワードとする)」を自由につけることができる。具体的には、パリで撮ったエフェル等の写真に、”パリ”、”エッフェル塔”、”展望台”、”綺麗な景色”、”家族記念”といったキーワードを設定することができる。

 キーワード付けの功の面としては、乱雑に溢れる情報を集約させることで、ユーザーに効率的な情報収集を可能にする面があげられる。記事に付けられたキーワードと同じキーワードを持つ情報を容易に取得できることは、ユーザーが関心のある情報を効率的に収集できるという点で、非常に魅力的だ。

Page 14: Analysis of the inter-related keywords and tags among New York Times news articles

 一方で、キーワードをつけることによる罪の面も忘れてはいけない。キーワードを限定することで、当該情報を取得するユーザーに対し、一面的な見方を押し付けてしまう可能性は拭えない。とりわけ、ユーザーに対し、大きな影響力を与えうる新聞や雑誌といったメディアが発する情報のキーワード付けには、注目すべきであろう。

 また、適切なキーワード付けはユーザーエクスペーリエンスの向上に大きく寄与するのは間違いなく、適切なキーワードをつける習慣を身につけることは、キーワードをつけるユーザーはもちろんのこと、その情報に触れるユーザーの文意理解向上にも繋がる。加えて、普段は興味を示さないようなカテゴリーと結びつけられたキーワードを辿る(カテゴリーを橋渡しするキーワード)ことで、新しい興味や発想が生まれる可能性もある(Fig.

0)。

Fig. 0 CategoryA と Category B をつなぐ keyword (タグ) の概念図

 そこで、本研究では 2005 年から直近の 2010 年までの New York Times の記事に焦点を当て、一流の記者によるタグ登録の傾向を、国別・カテゴリー別に明らかにするとともに、カテゴリーを隔てて共通するキーワードの存在を明らかにしていく。

2 実験方法

 2.1 データ取得方法

 Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事をカテゴリー別に取得し、各々の記事に登録されたキーワードを計上していく。

 2.2 カテゴリー相関度の分析 / 解析

各々のカテゴリー同士の上位キーワードを比較することで、相関の程度を算出する。相関の程度は以下の Step により判断する。

Category A(ex. Politics)

Category B(ex. Economy)

keyword(ex. Currency)

Page 15: Analysis of the inter-related keywords and tags among New York Times news articles

  Step 1: カテゴリー1のキーワード順位を x軸に、カテゴリー 2 のキーワード順位     を y軸に設定。  Step2:カテゴリー1とカテゴリー2のキーワード順位プロットの近似直線     (線形近似:y=ax + b)および、相関係数を算出。近似直線と相関係数および     各々のカテゴリーにおけるキーワード順位 100 位以内のカウント数より、     カテゴリー間の関連度を以下の条件に従い算出する。

  近似直線:y=ax+b の係数 a,b 関し、   条件1 a>0.3,

   条件2 b<25

   条件3 R2>0.2

   条件4 キーワードカウント数(Number)>50

  の4条件を満たす組み合わせを「相関あり」とみなし、   条件3は満たさないが、   条件3' R2>0.12

  を満たす組み合わせを「弱相関あり」とみなす。

 2.3 登録キーワードの詳細とベキ乗則

 全カテゴリーにおける登録キーワード数およびその順位について、ベキ乗則の関係性の有無を log(登録キーワード数) = log (登録キーワード順位)によって分析する。

3 実験結果および考察

 3.1 各国の登録上位キーワードと国ごとの特徴 / 傾向

 3.1.1 全体の特徴 / 傾向について (Table 1, 2)

Art に関しては上位 4 キーワードに国別の変化は無く、キーワード設定に際し、ある程度決まったキーワードが普遍的に使用されているものと考えられる。 business,economy に関しても上位 3 キーワードに大きな変化は無く、経済情勢および国際関係に関係するキーワードが多い。また、20 位以内のキーワードをみると各国の産業形態と関係性の高いキーワードが現れている(後段参照)。 Technology,Science に関して、新興国では Global warming が上位に位置している(両カテゴリーにて 10 位以内)一方、先進国ではそれほど上位に位置していない(フランスに至っては両カテゴリーで 10 位以下となっている)。 また、technology に関しては、Computer and Internet のキーワードが全ての国で 2 位以内となっており、各国ともこの分野へ高い関心をもっていると考えられる。

 3.1.2 国別の特徴 / 傾向について (Table 1, 2)

 日本特有のキーワードとして、Automobile があげられる。Business, economy, technology

の分野で上位に位置しているのがわかる。また、他国と比べ、business,economy のカテゴ

Page 16: Analysis of the inter-related keywords and tags among New York Times news articles

リーで Politics and Government のキーワード順位が低く、経済・ビジネスについて政府との関係性が希薄であると考えられる(裏を返せば政府に頼らず、経済・ビジネスが成り立っていると捉えることもできる)。

 フランス特有のキーワードとして、旅行関係のキーワード(Travel および Airplane)、文化・芸術関係のキーワード(Books and Literature および Art)が上位に登録されており、国の産業としても、これらは重要なポジションを占めていると考えられる。加えて、science 分野においても文化・芸術関係のキーワードは上位に位置しており、芸術科学の分野の発展に力を注いでいるものと考えることができる。また、technology のカテゴリーでAtomic Energy がキーワード上位に位置しているのは、原発大国を象徴しているとも捉えられよう。

 中国、インドに特徴的なキーワードとして、business,economy カテゴリーでの Oil and

Gasoline があげられる。両国とも産油国であり、原油は国の経済・ビジネスを支える重要な資源であると同時に、諸外国も両国の産油産業およびその動向に対し、高い関心を示しているものと考えることができる。また、経済成長に伴う温室効果ガスの放出量の増加に対する懸念からか、science のカテゴリーで Global Warming が上位に位置している。

Page 17: Analysis of the inter-related keywords and tags among New York Times news articles

Table 1 Top 20 registered-keywords in each categories for Japan and China

JapanNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

art Art Museums Music Sculpture Dancing Photography Architecture Movies Design Theater Culture Restaurants Automobiles

business Automobiles Art

economy Automobiles Interest Rates Currency Labor Credit Environment

science Environment Art Automobiles Space Museums

technology Automobiles Environment Art

politics Art Elections Sculpture Museums Photography Soccer

Travel and Vacations

Books and Literature

Deaths (Obituaries)

Motion Pictures

Computers and the Internet

Fashion and Apparel

Buildings (Structures)

Economic Conditions and Trends

International Trade and World Market

United States Economy

Computers and the Internet

Stocks and Bonds

Banks and Banking

Mergers, Acquisitions and Divestitures

Company Reports

Travel and Vacations

Subprime Mortgage Crisis

Books and Literature

Politics and Government

Airlines and Airplanes

Executives and Management

Advertising and Marketing

Oil (Petroleum) and Gasoline

Recession and Depression

International Relations

Economic Conditions and Trends

United States Economy

International Trade and World Market

Stocks and Bonds

Subprime Mortgage Crisis

Politics and Government

Banks and Banking

Recession and Depression

Oil (Petroleum) and Gasoline

United States International Relations

International Relations

Third World and Developing Countries

Prices (Fares, Fees and Rates)

Books and Literature

Science and Technology

Books and Literature

Education and Schools

Medicine and Health

Deaths (Obituaries)

Global Warming

International Trade and World Market

Economic Conditions and Trends

Computers and the Internet

Politics and Government

United States Economy

Colleges and Universities

International Relations

Children and Youth

Motion Pictures

Computers and the Internet

International Trade and World Market

Economic Conditions and Trends

United States Economy

Stocks and Bonds

International Relations

Science and Technology

United States International Relations

Cellular Telephones

Advertising and Marketing

Global Warming

Books and Literature

Computer and Video Games

Atomic Weapons

Hybrid Vehicles

Company Reports

Oil (Petroleum) and Gasoline

Politics and Government

International Trade and World Market

Economic Conditions and Trends

United States International Relations

International Relations

Books and Literature

United States Economy

United States Politics and Government

United States Armament and Defense

Deaths (Obituaries)

Presidential Election of 2008

Motion Pictures

Oil (Petroleum) and Gasoline

Freedom and Human Rights

chinaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

art Art Museums Culture Music Theater Architecture Auctions Sculpture Photography Antiques Movies Restaurants

business Automobiles Art Environment Labor

economy Environment Currency Automobiles Interest Rates

science Environment Art Museums

technology Environment Automobiles Atomic Energy

politics Art Elections Environment

Travel and Vacations

Books and Literature

Motion Pictures

Economic Conditions and Trends

Deaths (Obituaries)

Collectors and Collections

Home Furnishings

Computers and the Internet

International Trade and World Market

Economic Conditions and Trends

United States Economy

Computers and the Internet

Politics and Government

Mergers, Acquisitions and Divestitures

Stocks and Bonds

Oil (Petroleum) and Gasoline

Banks and Banking

Books and Literature

Travel and Vacations

International Relations

Company Reports

United States International Relations

United States Politics and Government

Subprime Mortgage Crisis

Economic Conditions and Trends

International Trade and World Market

United States Economy

Politics and Government

Stocks and Bonds

Oil (Petroleum) and Gasoline

United States International Relations

Subprime Mortgage Crisis

Banks and Banking

International Relations

Prices (Fares, Fees and Rates)

Recession and Depression

United States Politics and Government

Global Warming

Books and Literature

Computers and the Internet

Science and Technology

Books and Literature

Global Warming

Computers and the Internet

Education and Schools

Economic Conditions and Trends

International Trade and World Market

Colleges and Universities

Politics and Government

United States Economy

International Relations

Medicine and Health

United States Politics and Government

United States International Relations

Deaths (Obituaries)

Greenhouse Gas Emissions

Children and Youth

Computers and the Internet

International Trade and World Market

Economic Conditions and Trends

International Relations

United States International Relations

United States Economy

Stocks and Bonds

Global Warming

Oil (Petroleum) and Gasoline

Atomic Weapons

Politics and Government

Science and Technology

Greenhouse Gas Emissions

Mergers, Acquisitions and Divestitures

United States Politics and Government

Company Reports

Energy and Power

Politics and Government

Books and Literature

Economic Conditions and Trends

United States International Relations

International Trade and World Market

International Relations

United States Politics and Government

United States Economy

Oil (Petroleum) and Gasoline

Presidential Election of 2008

Freedom and Human Rights

Computers and the Internet

Global Warming

Olympic Games (2008)

United States Armament and Defense

Motion Pictures

Deaths (Obituaries)

Page 18: Analysis of the inter-related keywords and tags among New York Times news articles

Table 2 Top 20 registered-keywords in each categories for France and India

franceNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

art Art Museums Photography Theater Movies Sculpture Architecture Music Restaurants Dancing Auctions Antiques History

business Art Wines Restaurants

economy Elections Labor Credit Automobiles

science Art Museums History Photography Environment Atomic Energy

technology Atomic Energy Art Automobiles Environment

politics Art Elections History Islam Museums Terrorism Sculpture Movies

Books and Literature

Travel and Vacations

Motion Pictures

Deaths (Obituaries)

Writing and Writers

Cooking and Cookbooks

Classical Music

Economic Conditions and Trends

Travel and Vacations

Airlines and Airplanes

Computers and the Internet

Books and Literature

International Trade and World Market

Politics and Government

Mergers, Acquisitions and Divestitures

Banks and Banking

Deaths (Obituaries)

United States Economy

Advertising and Marketing

International Relations

Executives and Management

Motion Pictures

United States International Relations

Subprime Mortgage Crisis

Economic Conditions and Trends

International Trade and World Market

Politics and Government

United States Economy

Banks and Banking

Subprime Mortgage Crisis

Stocks and Bonds

International Relations

Euro (Currency)

Travel and Vacations

Recession and Depression

Airlines and Airplanes

United States International Relations

Oil (Petroleum) and Gasoline

Books and Literature

Computers and the Internet

Books and Literature

Deaths (Obituaries)

Science and Technology

Medicine and Health

Politics and Government

Education and Schools

Colleges and Universities

Motion Pictures

Writing and Writers

Travel and Vacations

Computers and the Internet

International Relations

Bicycles and Bicycling

United States International Relations

Computers and the Internet

International Relations

Atomic Weapons

United States International Relations

Books and Literature

Economic Conditions and Trends

Airlines and Airplanes

International Trade and World Market

United States Economy

Politics and Government

Stocks and Bonds

Mergers, Acquisitions and Divestitures

Advertising and Marketing

Travel and Vacations

Deaths (Obituaries)

Oil (Petroleum) and Gasoline

Politics and Government

Books and Literature

International Relations

Economic Conditions and Trends

United States International Relations

Deaths (Obituaries)

Motion Pictures

Demonstrations and Riots

United States Politics and Government

Writing and Writers

Presidential Election of 2008

International Trade and World Market

indiaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

art Art Museums Music Sculpture Culture Theater Movies Photography Dancing Restaurants Architecture

business Automobiles Art Labor

economy Automobiles Labor Environment

science Environment Art Theater Music

technology Labor Environment Automobiles Atomic Energy

politics Art Terrorism Islam Elections Movies Museums

Travel and Vacations

Books and Literature

Motion Pictures

Children and Youth

Economic Conditions and Trends

Computers and the Internet

Deaths (Obituaries)

Fashion and Apparel

Writing and Writers

Economic Conditions and Trends

International Trade and World Market

Computers and the Internet

United States Economy

Politics and Government

Travel and Vacations

Mergers, Acquisitions and Divestitures

Books and Literature

Stocks and Bonds

Third World and Developing Countries

Executives and Management

Oil (Petroleum) and Gasoline

Banks and Banking

United States International Relations

Motion Pictures

International Relations

Subprime Mortgage Crisis

Economic Conditions and Trends

International Trade and World Market

United States Economy

Politics and Government

Oil (Petroleum) and Gasoline

Stocks and Bonds

United States International Relations

Prices (Fares, Fees and Rates)

Global Warming

Subprime Mortgage Crisis

United States Politics and Government

International Relations

Third World and Developing Countries

Books and Literature

Recession and Depression

Banks and Banking

Computers and the Internet

Science and Technology

Books and Literature

Global Warming

Education and Schools

Economic Conditions and Trends

Computers and the Internet

Colleges and Universities

Politics and Government

International Trade and World Market

Children and Youth

Medicine and Health

Deaths (Obituaries)

International Relations

United States Economy

United States Politics and Government

Greenhouse Gas Emissions

Computers and the Internet

Economic Conditions and Trends

International Trade and World Market

United States International Relations

International Relations

Global Warming

United States Economy

Politics and Government

Stocks and Bonds

Atomic Weapons

Science and Technology

Third World and Developing Countries

Books and Literature

United States Politics and Government

Greenhouse Gas Emissions

Oil (Petroleum) and Gasoline

Politics and Government

Books and Literature

Economic Conditions and Trends

United States International Relations

International Trade and World Market

United States Politics and Government

International Relations

Motion Pictures

Global Warming

Presidential Election of 2008

United States Economy

Deaths (Obituaries)

Oil (Petroleum) and Gasoline

United States Armament and Defense

Page 19: Analysis of the inter-related keywords and tags among New York Times news articles

 3.2 近似直線分析

 3.2.1 カテゴリーごとの相関関係 国別 (Table 3, 4 , Fig. 1 ~ 32 )

 四カ国に共通する傾向として、Business-economy および Business-technology の二つのカテゴリーは高い相関関係をもつ。一方、新興国(China and India)に特徴的な傾向として、Business-science の関連づけが高い。これは、キーワード「Global warming」「Computer

and Internet」のキーワードが頻度高く登録されていることによるものと考えられる。

 3.2.2 カテゴリーごとの相関関係 全体 (Table 3, 4 , Fig. 33 ~ 40)

 4カ国に共通する傾向として、Business-economy および Business-technology に関しては相関関係をもつ。一方、Economy-science, Economy-technology, Science-politics, Science-

technology の4つに関しては、弱い相関をもつことがわかる。

 Art に関してはすべてのカテゴリーとの相関関係が希薄である。これは、先の論文で、Art に関しては記事あたりのキーワード数が少ないことからも理解できる(Art の記事にはArt 関連のキーワードしか登録しない傾向にあると考えられる)。すなわち、カテゴリーを隔てて、共通するキーワード登録が乏しく、カテゴリーを横断しうる記事=複数のカテゴリーに属する記事が少ないと考えられる。

※Fig. 1 ~ 40 の x軸, y軸はそれぞれのカテゴリーにおける登録キーワードの順位を示す。(ex. Fig. 1 であれば、Art-Science両方で Top100 以内に登録されたキーワードについて、x

軸が Art、y軸が Science の順位である。具体的には「Museum」というキーワードならば、x = 2 (Art のカテゴリーで登録数 2 位), y = 12 (Science のカテゴリーで登録数 12 位)となる。)

Page 20: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 1 Linear proximation plots of Art-Science, Art-Business in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.07x + 36.87R² = 0.01

art-business

Art Rank (N)

Bus

ine

ss R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.43x + 20.89R² = 0.21

art-science

Art Rank (N)

Sci

en

ce R

an

k (N

)

Page 21: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 2 Linear proximation plots of Art-Technology, Art-Economy in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.25x + 50.48R² = 0.06

art-technology

Art Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.04x + 44.05R² = 0

art-economy

Art Rank (N)

Eco

nom

y R

ank

(N)

Page 22: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 3 Linear proximation plots of Art-Politics, Business-Science in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.03x + 37.54R² = 0

art-politics

Art Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.23x + 24.74R² = 0.06

business-science

Business Rank (N)

Sci

en

ce R

an

k (N

)

Page 23: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 4 Linear proximation plots of Business-Politics, Business-Economy in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.15x + 32.71R² = 0.02

business-politics

Business Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.57x + 15.96R² = 0.33

business-economy

Business Rank (N)

Eco

nom

y R

ank

(N)

Page 24: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 5 Linear proximation plots of Business-Technology, Economy-Science in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.66x + 14.91R² = 0.34

business-technology

Business Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.24x + 22.03R² = 0.08

economy-science

Economy Rank (N)

Sci

en

ce R

an

k (N

)

Page 25: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 6 Linear proximation plots of Economy-Technology, Economy-Politics in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.54x + 19.83R² = 0.29

economy-technology

Economy Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.28x + 28.03R² = 0.09

economy-politics

Economy Rank (N)

Pol

itics

Ra

nk

(N)

Page 26: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 7 Linear proximation plots of Science-Technology, Science-Politics in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.31x + 29.74R² = 0.08

science-technology

Sciecne Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.4x + 22.92R² = 0.15

science-politics

Science Rank (N)

Pol

itics

Ra

nk

(N)

Page 27: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 8 Linear proximation plots of Technology-Politics in Japan

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.22x + 30.7R² = 0.05

technology-politics

Technology Rank (N)

Pol

itics

Ra

nk

(N)

Page 28: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 9 Linear proximation plots of Art-Science, Art-Business in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.46x + 18.73R² = 0.23

art-science

Art Rank (N)

Sci

en

ce R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.01x + 40.91R² = 0

art-business

Art Rank (N)

Bus

ine

ss R

an

k (N

)

Page 29: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 10 Linear proximation plots of Art-POlitics, Art-Technology in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.19x + 30.19R² = 0.05

art-politics

Art Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.2x + 54.55R² = 0.03

art-technology

Art Rank (N)

Tech

nolo

gy R

an

k (N

)

Page 30: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 11 Linear proximation plots of Art-Economy, Business-Science in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.05x + 45.79R² = 0

art-economy

Art Rank (N)

Eco

nom

y R

ank

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.43x + 18.48R² = 0.22

business-science

Business Rank (N)

Sci

en

ce R

an

k (N

)

Page 31: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 12 Linear proximation plots of Business-Politics, Business-Economy in China

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.24x + 28.41R² = 0.06

business-politics

Business Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.67x + 13.51R² = 0.46

business-economy

Business Rank (N)

Eco

nom

y R

ank

(N)

Page 32: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 13 Linear proximation plots of Business-Technology, Economy-Science in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.47x + 22.96R² = 0.24

business-technology

Business Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.31x + 26.31R² = 0.1

economy-science

Economy Rank (N)

Sci

en

ce R

an

k (N

)

Page 33: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 14 Linear proximation plots of Economy-Technology, Economy-Politics in China

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.58x + 17.89R² = 0.34

economy-technology

Economy Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.3x + 29.55R² = 0.09

economy-politics

Economy Rank (N)

Pol

itics

Ra

nk

(N)

Page 34: Analysis of the inter-related keywords and tags among New York Times news articles

Fig.15 Linear proximation plots of Science-Technology, Science-Politics in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.39x + 27.24R² = 0.13

science-technology

Science Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.37x + 23.64R² = 0.13

science-politics

Science Rank (N)

Pol

itics

Ra

nk

(N)

Page 35: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 16 Linear proximation plots of Technology-Politics in China

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.23x + 30.7R² = 0.06

technology-politics

Technology Rank (N)

Pol

itics

Ra

nk

(N)

Page 36: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 17 Linear proximation plots of Art-Science, Art-Business in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.33x + 21.67R² = 0.13

art-science

Art Rank (N)

Sci

en

ce R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.32x + 32.39R² = 0.1

art-business

Art Rank (N)

Bus

ine

ss R

an

k (N

)

Page 37: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 18 Linear proximation plots of Art-Politics, Art-Technology in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.36x + 23.78R² = 0.16

art-politics

Art Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.01x + 38.56R² = 0

art-technology

Art Rank (N)

Tech

nolo

gy R

an

k (N

)

Page 38: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 19 Linear proximation plots of Art-Economy, Business-Science in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.07x + 48.65R² = 0

art-economy

Art Rank (N)

Eco

nom

y R

ank

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.25x + 23.12R² = 0.09

business-science

Business Rank (N)

Sci

en

ce R

an

k (N

)

Page 39: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 20 Linear proximation plots of Business-Politics, Business-Economy in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.11x + 33.09R² = 0.02

business-politics

Business Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.48x + 23.26R² = 0.25

business-economy

Business Rank (N)

Eco

nom

y R

ank

(N)

Page 40: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 21 Linear proximation plots of Business-Technology, Economy-Science in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.46x + 22.08R² = 0.24

business-technology

Business Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.21x + 27.3R² = 0.04

economy-science

Economy Rank (N)

Sci

en

ce R

an

k (N

)

Page 41: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 22 Linear proximation plots of Economy-Technology, Economy-Politics in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.47x + 19.41R² = 0.21

economy-technology

Economy Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.17x + 33.72R² = 0.03

economy-politics

Economy Rank (N)

Pol

itics

Ra

nk

(N)

Page 42: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 23 Linear proximation plots of Science-Technology, Science-Politics in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.42x + 22.2R² = 0.15

science-technology

Science Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.46x + 23.83R² = 0.17

science-politics

Science Rank (N)

Pol

itics

Ra

nk

(N)

Page 43: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 24 Linear proximation plots of Technology-Politics in France

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.22x + 27.3R² = 0.05

technology-politics

Technology Rank (N)

Pol

itics

Ra

nk

(N)

Page 44: Analysis of the inter-related keywords and tags among New York Times news articles

Fig.25 Linear proximation plots of Art-Science, Art-Business in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.35x + 22.36R² = 0.17

art-science

Art Rank (N)

Sci

en

ce R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.08x + 38.24R² = 0.01

art-business

Art Rank (N)

Bus

ine

ss R

an

k (N

)

Page 45: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 26 Linear proximation plots of Art-Technology, Art-Economy in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.13x + 48.81R² = 0.02

art-technology

Art Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.03x + 42.13R² = 0

art-economy

Art Rank (N)

Eco

nom

y R

ank

(N)

Page 46: Analysis of the inter-related keywords and tags among New York Times news articles

Fig.27 Linear proximation plots of Art-Politics, Business-Science in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.11x + 36.88R² = 0.01

art-politics

Art Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.42x + 17.7R² = 0.24

business-science

Business Rank (N)

Sci

en

ce R

an

k (N

)

Page 47: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 28 Linear proximation plots of Business-Politics, Business-Economy in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.42x + 24.32R² = 0.17

business-politics

Business Rank (N)

Pol

tics

Ran

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.66x + 14.11R² = 0.41

business-economy

Business Rank (N)

Eco

nom

y R

ank

(N)

Page 48: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 29 Linear proximation plots of Business-Technology, Economy-Science in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.61x + 18.19R² = 0.39

business-technology

Business Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.3x + 21.95R² = 0.13

economy-science

Economy Rank (N)

Sci

en

ce R

an

k (N

)

Page 49: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 30 Linear proximation plots of Economy-Technology, Economy-Politics in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.49x + 22.6R² = 0.25

economy-technology

Economy Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.45x + 22.85R² = 0.21

economy-politics

Economy Rank (N)

Pol

itics

Ra

nk

(N)

Page 50: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 31 Linear proximation plots of Science-Technology, Science-Politics in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.64x + 19.89R² = 0.26

science-technology

Science Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.37x + 25.45R² = 0.11

science-politics

Science Rank (N)

Pol

itics

Ra

nk

(N)

Page 51: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 32 Linear proximation plots of Technology-Politics in India

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.19x + 34.22R² = 0.03

technology-politics

Technology Rank (N)

Pol

itics

Ra

nk

(N)

Page 52: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 33 Linear proximation plots of Art-Science, Art-Business in All-country

0 10 20 30 40 50 60 70 80 90 1000

20

40

60

80

100

120f(x) = 0.48x + 17.89R² = 0.2

Art-Science

Art Rank (N)

Sci

en

ce R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.2x + 33.61R² = 0.04

Art-Business

Art Rank (N)

Bus

ine

ss R

an

k (N

)

Page 53: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 34 Linear proximation plots of Art-Technology, Art-Economy in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = -0.27x + 50.59R² = 0.07

Art-Technology

Art Rank (N)

Tech

nolo

gy R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = -0.18x + 54.81R² = 0.02

Art-Economy

Art Rank (N)

Eco

nom

y R

ank

(N)

Page 54: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 35 Linear proximation plots of Art-POlitics, Business-Science in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.24x + 26.66R² = 0.08

Art-Politics

Art Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.45x + 16.99R² = 0.26

Business-Science

Business Rank (N)

Sci

en

ce R

an

k (N

)

Page 55: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 36 Linear proximation plots of Business-Politics, Business-Economy in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.2x + 31.57R² = 0.04

Business-Politics

Business Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120f(x) = 0.61x + 14.77R² = 0.4

Business-Economy

Business Rank (N)

Eco

nom

y R

ank

(N)

Page 56: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 37 Linear proximation plots of Business-Technology, Economy-Science in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.29x + 25.32R² = 0.11

Economy-Science

Economy Rank (N)

Sci

en

ce R

an

k (N

)

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.48x + 20.16R² = 0.25

Business-Technology

Business Rank (N)

Tech

nolo

gy R

an

k (N

)

Page 57: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 38 Linear proximation plots of Economy-Technology, Economy-Politics in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.2x + 34.6R² = 0.04

Economy-Politics

Economy Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.36x + 24.78R² = 0.15

Economy-Technology

Economy Rank (N)

Tech

nolo

gy R

an

k (N

)

Page 58: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 39 Linear proximation plots of Science-Politics, Science-Technology in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.35x + 24.77R² = 0.13

Science-Politics

Science Rank (N)

Pol

itics

Ra

nk

(N)

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.46x + 23.83R² = 0.17

Science-Technology

Science Rank (N)

Tech

nolo

gy R

an

k (N

)

Page 59: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 40 Linear proximation plots of Technology-Politics in All-country

0 20 40 60 80 100 1200

20

40

60

80

100

120

f(x) = 0.29x + 32.11R² = 0.08

Technology-Politics

Technology Rank (N)

Pol

itics

Ra

nk

(N)

Page 60: Analysis of the inter-related keywords and tags among New York Times news articles

Table 1 Linear-Proximation of Each Category in 4 countries and All-country(Part-1)

Art-Science japan china france india All-countrya 0.428 0.458 0.33 0.351 0.48b 20.89 18.73 21.67 22.36 17.88R2 0.208 0.23 0.128 0.174 0.203count 44 51 47 46 48

Art-Business japan china france india All-countrya 0.073 0.01 0.323 0.081 0.1905b 36.87 40.9 32.39 38.24 33.61R2 0.0057 0.0001 0.102 0.007 0.038count 49 53 50 52 51

Art-Technology japan china france india All-countrya -0.025 -0.04 0.006 -0.124 -0.274b 50.484 45.79 38.56 48.81 50.59R2 0.057 0.002 0.000004 0.016 0.074count 39 41 39 41 36

Art-Economy japan china france india All-countrya 0.04 -0.2 0.071 -0.029 -0.183b 44.05 54.55 48.65 42.13 54.81R2 0.001 0.034 0.0044 0.0008 0.022count 33 39 35 37 34

Art-Politics japan china france india All-countrya 0.028 0.192 0.362 0.107 0.238b 37.54 30.19 23.78 36.88 36.66R2 0.001 0.045 0.164 0.011 0.081count 48 52 50 49 48

Business-Science japan china france india All-countrya 0.234 0.43 0.253 0.422 0.453b 24.74 18.48 23.12 17.7 16.99R2 0.056 0.224 0.093 0.237 0.258count 46 57 56 59 56

Business-Politics japan china france india All-countrya 0.146 0.244 0.112 0.415 0.195b 32.71 28.41 33.09 24.32 31.57R2 0.023 0.059 0.015 0.167 0.044count 57 60 61 65 64

Business-Economy japan china france india All-countrya 0.57 0.067 0.477 0.656 0.61b 15.96 13.51 23.26 14.11 14.77R2 0.333 0.457 0.253 0.41 0.402count 69 72 72 68 72

Page 61: Analysis of the inter-related keywords and tags among New York Times news articles

Table 2 Linear-Proximation of Each Category in 4 countries and All-country(Part-2)

Business-Technology japan china france india All-countrya 0.664 0.474 0.456 0.614 0.482b 14.91 22.96 22.08 18.19 20.16R2 0.341 0.237 0.236 0.395 0.249count 66 75 71 75 67

Economy-Science japan china france india All-countrya 0.244 0.31 0.207 0.3 0.292b 22.03 26.31 27.3 21.95 25.32R2 0.075 0.098 0.045 0.126 0.106count 40 52 46 54 50

Economy-Technology japan china france india All-countrya 0.538 0.576 0.467 0.488 0.361b 19.83 17.89 19.41 22.6 24.78R2 0.293 0.339 0.207 0.25 0.146count 64 68 59 72 65

Economy-Politics japan china france india All-countrya 0.282 0.301 0.169 0.455 0.196b 28.02 29.55 33.72 22.85 34.6R2 0.091 0.087 0.029 0.208 0.037count 50 57 55 59 56

Science-Politics japan china france india All-countrya 0.403 0.393 0.425 0.641 0.353b 22.92 27.24 22.2 19.89 24.78R2 0.148 0.126 0.152 0.262 0.131count 59 60 56 62 65

Science-Technology japan china france india All-countrya 0.307 0.366 0.459 0.34 0.459b 29.74 23.64 23.83 25.45 23.83R2 0.081 0.133 0.166 0.114 0.166count 47 63 57 63 57

Technology-Politics japan china france india All-countrya 0.217 0.229 0.22 0.18 0.289b 30.7 30.7 27.3 34.22 32.11R2 0.05 0.057 0.05 0.033 0.075count 52 58 55 62 58

Page 62: Analysis of the inter-related keywords and tags among New York Times news articles

 3.3 カテゴリーを橋渡しするキーワード

 互いの Category にて上位 20 以内を満たすキーワード(ex. Business で 1 位かつ Economy

で 13 位のキーワード)を Table 3 に示す。なお、ここに記されたキーワードは、二つのCategory を橋渡しするキーワードであると本論文では想定する。  ここで米国に関連するキーワード(United States ではじまるキーワード)およびカテゴリーと直結するキーワード(ex. Politics のカテゴリーなら Politics and Government)を除して、それぞれの Category 間のキーワードを明らかにすると、Table 4 のような結果になる。 ※本論文では、Table 4 に示される各々のキーワードが真にカテゴリーを橋渡しするものであるかについての検証までは行わない。

Page 63: Analysis of the inter-related keywords and tags among New York Times news articles

Table 3 Co-registered keywords within Top 20 between Two categories

Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology

Art Art Books and Literature Art Art

Museums Books and Literature Museums Museums

Books and Literature Travel and Vacations Books and Literature Books and Literature United States Economy

Motion Pictures Travel and Vacations Motion Pictures United States Economy United States Economy

Deaths (Obituaries) Motion Pictures Deaths (Obituaries) Automobiles

Music Books and Literature Books and LiteratureDeaths (Obituaries) Stocks and Bonds Art AutomobilesPhotography Banks and Banking International Relations Books and Literature

Theater Stocks and BondsArchitecture International Relations Art

Design

International Relations

Economic Conditions and Trends

Economic Conditions and Trends

Economic Conditions and Trends

International Trade and World Market

International Trade and World Market

International Trade and World Market

Computers and the Internet

Computers and the Internet

Computers and the Internet

Politics and Government

Politics and Government

Politics and Government

Computers and the Internet

Mergers, Acquisitions and Divestitures

Oil (Petroleum) and Gasoline

United States International Relations

United States International Relations

Oil (Petroleum) and Gasoline

Computers and the Internet

Subprime Mortgage Crisis

United States International Relations

Business-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-Politics

Books and Literature Books and Literature

Global WarmingUnited States Economy United States Economy United States Economy United States Economy Global Warming Art International Relations

Art United States Economy

Books and Literature Stocks and Bonds

Art International Relations Global Warming

International Relations Environment Deaths (Obituaries)

International Relations Books and Literature Automobiles United States Economy

Global Warming International Relations Books and Literature International Relations Books and Literature

Environment Global Warming United States Economy Museums Art

Books and Literature International Relations

Global Warming

Labor Motion PicturesEnvironment

Economic Conditions and Trends

Economic Conditions and Trends

Economic Conditions and Trends

Economic Conditions and Trends

Economic Conditions and Trends

International Trade and World Market

International Trade and World Market

International Trade and World Market

International Trade and World Market

Science and Technology

International Trade and World Market

Politics and Government

Politics and Government

Politics and Government

Politics and Government

Politics and Government

United States International Relations

Oil (Petroleum) and Gasoline

Computers and the Internet

Economic Conditions and Trends

United States International Relations

Oil (Petroleum) and Gasoline

United States International Relations

Politics and Government

International Trade and World Market

Oil (Petroleum) and Gasoline

United States Politics and Government

United States International Relations

Politics and Government

United States Politics and Government

Economic Conditions and Trends

Oil (Petroleum) and Gasoline

United States International Relations

International Trade and World Market

United States Politics and Government

United States Politics and Government

United States Politics and Government

United States Politics and Government

United States International Relations

United States International Relations

Page 64: Analysis of the inter-related keywords and tags among New York Times news articles

Table 4 Co-registered keywords within Top 20 between Two categories (After omitting some keywords which have little impact)

Business-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-Politics

Art Global Warming Stocks and Bonds Global Warming Global Warming Global Warming

Environment Global Warming Deaths (Obituaries)Automobiles Environment MuseumsGlobal Warming Motion PicturesLaborEnvironment

Oil (Petroleum) and Gasoline

Oil (Petroleum) and Gasoline

Oil (Petroleum) and Gasoline

Computers and the Internet

Oil (Petroleum) and Gasoline

Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology

Motion Pictures Travel and Vacations Travel and Vacations Motion Pictures Automobiles

Deaths (Obituaries) Motion Pictures Deaths (Obituaries) Stocks and Bonds Art

Music Banks and Banking Automobiles

Deaths (Obituaries) Stocks and Bonds

Photography Art

TheaterArchitectureDesign

Computers and the Internet

Computers and the Internet

Computers and the Internet

Mergers, Acquisitions and Divestitures

Computers and the Internet

Oil (Petroleum) and GasolineSubprime Mortgage Crisis

Oil (Petroleum) and Gasoline

Computers and the Internet

Page 65: Analysis of the inter-related keywords and tags among New York Times news articles

 3.4 全カテゴリーキーワード分析 (Fig. 41 ~ 48 )

 各々の登録キーワードカウント数(y)は、登録キーワード順位(x)に対してベキ乗則に従うことがわかる(exp(αy) = C・exp(βx))。全体の直線近似の R2 も高い数値(0.9 以上)を示しているが、詳細に観察すると、近似直線は二つの領域:上位 10 位と 10 位以降に分割しているように思われる。そこで、Total keywords count 数の近似直線(Fig. 47)を、上位 10 位と10 位以降に分割したグラフを Fig. 48 に示す。

 Fig. 48 より、上位 10 位の近似直線の傾きは 10 位以降のそれよりも緩やか(順位変動に対して)でああることがわかる。このことから NYT の記事における登録キーワードカウント数に関しては、少なくとも二つの領域があるものと考えられる(なお、登録キーワードの階層設定【例えば「Art」と「Picture」の場合、前者の方がより頻繁に用いるキーワード群に含まれると考えられる】の重みは考慮しない)。本論文では上位 10 位のデータに見られる近似直線を「T – Climb (Top - climb)」、10 位以降のデータにみられる近似直線を「M – Climb (Middle-Climb)」と名付ける。

 両者を比較すると、本論文においては総じて Top – Climb の傾きの絶対値は M-Climb の傾きの絶対値よりも小さい(変数 x の増加に対しアウトプット y の減少量が小さい)。これは、一律で定義するベキ乗則に期待される数値に対し、現実の数値が乖離していることを意味し、各々のデータプロットの結果(Fig. 41 ~ Fig. 46 )にも見受けられる。乖離する理由としては、

1. 解析データ数の母数が小さい(本論文のキーワード母数:20 万件)。2. キーワードの階層に応じ、異なるベキ乗則を適用する必要がある。3. キーワードの登録カウント数にはベキ乗則を適用すべきではない(無理矢理な統計モデルの適用による誤判断)

などが考えられる。

Page 66: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 41 Keyword-counts and regression line of Art-category

Art

Sculpture

Antiques

Classical Music

Politics and Government

Restoration and Rehabilitation

Poetry and Poets

International Relations

World War II (1939-45)

Weddings and Engagements

Interior Design and Furnishings

Spanish Civil War (1936-39)

Academy Awards (Oscars)

0 500 1000 1500 2000

Art

number

rank

0 1 2 3 4 52

3

4

5

6

7

8f(x) = -1.02x + 7.58R² = 0.99

Artt

ln (rank)

ln (

num

ber)

Page 67: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 42 Keyword-counts and regression line of Business-category

0 1 2 3 4 53

4

5

6

7

8f(x) = -0.75x + 7.7R² = 0.98

Business

ln (rank)

ln (

num

ber)

Economic Conditions and Trends

Books and Literature

Company Reports

Recession and Depression

Foreign Investments

Apparel

Energy and Power

News and News Media

Science and Technology

Factories and Manufacturing

Wages and Salaries

United States Armament and Defense

Taxation

0 200 400 600 800 1000 1200 1400

Business

Number

Ran

k

Page 68: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 43 Keyword-counts and regression line of Economy-category

Economic Conditions and TrendsBanks and Banking

United States Politics and GovernmentComputers and the Internet

CreditEnergy and Power

Dow Jones Stock AverageUnemployment

TaxationGross Domestic ProductScience and TechnologyHousing and Real Estate

Olympic Games (2008)Mutual Funds

Entrepreneurship

0 1000 2000 3000

Economy

Number

Ran

k

0 1 2 3 4 53

4

5

6

7

8

9f(x) = -0.92x + 8.02R² = 0.99

Economy

ln (rank)

ln (

num

ber)

Page 69: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 44 Keyword-counts and regression line of Technology-category

Computers and the InternetStocks and Bonds

Oil (Petroleum) and GasolineEnergy and Power

Airlines and AirplanesColleges and Universities

Subprime Mortgage CrisisMotion Pictures

EntrepreneurshipUnited Nations Framework Convention on Climate Change

Presidential Election of 2008Engineering and Engineers

Small BusinessSoftware

Photography

0 100 200 300 400 500 600 700 800

Technology

Number

Ran

k

0 1 2 3 4 53

4

5

6

7

f(x) = -0.75x + 7.14R² = 0.97

Technology

ln (rank)

ln (

num

ber)

Page 70: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 45 Keyword-counts and regression line of Politics-category

Politics and GovernmentUnited States Politics and Government

IslamDemonstrations and Riots

Writing and WritersAtomic Weapons

Energy and PowerAgriculture

Leaders and LeadershipBuddhism

AutomobilesFinances

Carbon DioxideStocks and Bonds

Race

0 100 200 300 400 500 600 700 800

Politics

Number

Ran

k

0 1 2 3 4 52

3

4

5

6

7

f(x) = -0.87x + 6.89R² = 0.99

Politics

ln (rank)

ln (

num

ber)

Page 71: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 46 Keyword-counts and regression line of Science-category

Books and LiteratureEnvironment

International RelationsCulture

Carbon DioxideThird World and Developing Countries

PhysicsFish and Other Marine Life

Vietnam WarImmigration and Refugees

Computer SecurityFood Contamination and Poisoning

Language and LanguagesMathematicsPhilanthropy

0 50 100 150 200 250 300 350

Science

Number

Ran

k

0 1 2 3 4 52

3

4

5

6

f(x) = -0.82x + 6.6R² = 0.95

Science

ln (rank)

ln (

num

ber)

Page 72: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 47 Total-keyword-counts and regression line

Economic Conditions and TrendsOil (Petroleum) and Gasoline

LaborMedicine and Health

SculptureTheater

Carbon DioxideNuclear WeaponsEntrepreneurship

AuctionsBuildings (Structures)

CoalCensorship

Consumer BehaviorOlympic Games

Trade Shows and FairsInventions and Patents

Fish and Other Marine LifeHistoric Buildings and Sites

0 1000 2000 3000 4000 5000 6000 7000

Total

Number

Ran

k

0 1 2 3 4 5 64

5

6

7

8

9

10f(x) = -0.76x + 9.09R² = 0.99

Total

ln (rank)

ln (

num

ber)

Page 73: Analysis of the inter-related keywords and tags among New York Times news articles

Fig. 48 Total-keyword-counts and regression line (a):Top 10 (b):After Top 10

0 1 2 3 4 5 64

5

6

7

8

9

10

f(x) = -0.62x + 8.84R² = 0.98

Total

ln (rank)

ln (

num

ber)

0 1 2 3 4 5 64

5

6

7

8

9

10

f(x) = -0.82x + 9.31R² = 0.99

Total

ln (rank)

ln (

num

ber)

Page 74: Analysis of the inter-related keywords and tags among New York Times news articles

 M - Climbは、しばしば他の文献等で言及される「Long-Tail(=ベキ乗則に従う商品の売り上げを、販売数 (population)を縦軸に、商品 (product) を横軸にして、販売成績の良いものを左側から順に並べると、あまり売れない商品が右側になだらかに長く伸びるグラフが描かれる[wikipedia抜粋])」と似た傾向を持つ。

 また、各カテゴリー別のキーワードカウント数においても、T-Climb, M-Climbの傾向はみられ、他の文献の売上量と売り上げ順位の調査( Takashi Iba, Masaya Mori “Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs”)データにも散見される。詳細な研究については、今後の課題とし、これ以上の分析は行わないこととする。

◇◇◇◇◇ 総 括 ◇◇◇◇◇

 各々のカテゴリーに登録されたキーワードから、カテゴリー同士の相関度を導出した。NYTの記事に関しては、広範囲のカテゴリーと相関関係を持つカテゴリーとして、Businessがあげられる一方、他のカテゴリーと相関関係に乏しいカテゴリーとしてArtがあげられる。背景には、NYTの読者の多くはビジネスマンであると想定され、記事の多くは Businessと関係性の高いものになっているためと考えられる。

 また、キーワードの登録数は大まかにはベキ乗則に従うが、詳細に分析すると T-Climb (登録上位のキーワード)とM-Climb (登録上位以外のキーワード)の二つの傾向があることがわかる。今後の課題として、キーワード登録数に関し、より詳細な傾向把握を達成するためには、1 キーワードそのものがもつ包括性(フレームの広さ:図参照)などを考慮した分析が必要となろう。

◇◇ 参考文献 ◇◇

1. Google 世界銀行, 世界開発指標 (http://www.google.co.jp/publicdata/explore?ds=d5bncppjof8f9_&hl=ja&dl=ja)

2. NHK 放送文化研究所 生活時間調査 (http://www.nhk.or.jp/bunken/yoron/lifetime/index.html)

3. Takashi Iba, Masaya Mori “Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs” (http://www.ifr.ac.uk/netsci08/Download/CT25_Uzzo_visual/CT252_IBA.pdf)

4. wikipedia Long tail (http://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%B3%E3%82%B0%E3%83%86%E3%83%BC%E3%83%AB)

Page 75: Analysis of the inter-related keywords and tags among New York Times news articles

◇◇◇ 論文1、2を踏まえての今後の課題 ◇◇◇

 今回の調査国は時間的な制約から4カ国に留めてしまったため、調査傾向に偏重が現れているとも考えられる。先進国として、ドイツ、イギリスのデータを追加するとともに、新興国としてブラジル、ロシアのデータを追加していく必要性があろう。

 また、T-Climb (Top Climb) の有効性については、他の分野(コマースサイトやソーシャルサービスなど)での登録キーワードおよび商品売り上げ等について、本論文と同様の手法による分析を重ねるとともに、キーワードそのものの包括性を考慮した分析も進める必要があろう。