analysis of the inter-related keywords and tags among new york times news articles
DESCRIPTION
Just for Killing time. I love Data Analysis ...TRANSCRIPT
新聞記事数及び登録キーワード数の変遷と経済/社会情勢の関性
1. 序論
ドットコムバブルに盛り上がった 2001 年以降、日本のインターネット普及率は大幅に進み、2011 年現在 77.2%と高い数値を示している。
Fig. 1 インターネット普及率(Google「インターネット利用者数の対人口比」)
国民の余暇の過ごし方をみても、インターネットに費やす時間は年々増加傾向にあり、とくに若年層でその数字は高くなっている。
Fig. 2 インターネットの行為者率と時間量(NHK 放送局生活時間調査からみたメディア利用の現状と変化~2010 年国民生活時間調査より~)
また、インターネットの普及率、インフラ整備が進むとともに、メディアの情報発信方法も多様化してきた。新聞、ラジオ、テレビに次ぐ第4のメディアとして位置づける人も多く、インターネットを介した情報提供も大きく伸びてきており、2011 年現在、多くの企業が情報をインターネット上で無料提供している。(全ての企業が無料でジョ湯法を提供しているわけではなく、日経新聞や Finacial Times, New York TImes のように、有料の購読を
用意している企業もある)。
なかには、New York Times のように独自 API(Application Programming interface)を作成し、ユーザーフレンドリーな情報提供を可能にしている企業もある。API は、記事タイトルから、著者、登録キーワード、イメージまで、ユーザーが大量の情報を即座に取得することだけでなく、大量のデータ分析を行うことも可能にし、巨大なデータを基にした分析・解析は、偏差の少ない統計情報の取得および信頼性・確証性の高いデータ解析結果を取得することにつながる。
本研究では、New York Times の API を利用し、5 万強の記事と 20 万強のキーワードの関係性を調査するとともに、当該キーワードと各国情勢( 政治情勢、経済情勢 etc.)の関係性を明らかにする。特に、先進国と新興国を比較することで、各々の記事数の伸び率および、登録キーワード数の変遷を辿ることに注目していく。
2. 実験方法
Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事の数をカテゴリー別に取得し、各々の記事に登録されたキーワードも合わせて取得する。 それぞれの取得キーワードの種類は country:4カ国 category:6とし、検索 query
は”country category ”(例:”japan art”)にて実行する。
Table 1 調査対象 Country と Category
3. 実験結果と考察
3.1 先進国 / 新興国の記事数およびカテゴリー別キーワード登録数の推移 (Fig. 3 ~ 6)
3.1.1 先進国の記事数 / カテゴリーの推移
日本、フランスの 2010 年の記事数は 2005 年比でそれぞれ 1.04, 1.24 とそれほど大きな変化はない。 カテゴリー別に見ると、先進国では economy に関してのみ大きな進展が見られる。これは 2008 年度の経済危機によるところが大きく、2008 年以降 economy の記事数は増加傾向
country categoryjapan artchina businessfrance economyindia science
technologypolitics
にある。一方、technology に関し、記事数は減少傾向にあるのがわかる。また、business
に関し、日本は 2005 年比で大幅に減少しているが、2006 年以降それほど大きな差は見受けられない。2005 年の記事数が大幅に増えている背景として、愛知万博における business
面への期待/効果が考えられよう。
3.1.2 新興国の記事数 / カテゴリーの推移
中国、インドの 2010 年の記事数は 2005 年比でそれぞれ 1.38, 1.50 と大きく飛躍している。 新興国の記事数の躍進は economy のカテゴリーによるところが大きく、2010 年の記事数を 2005 年比で算出すると、中国で 1.93, インドで 1.92 と高い値をしめしている(なお、先進国 France も 2.30 と高い数値を示している点は留意されたい)。 また、先進国と比較し、politics の記事数も増加傾向にあるのがわかる。technology の記事数も先進国が減少傾向にあるのに対し新興国は増加傾向にある。一方、science に関する記事は、先進国の伸び率を上回りはするものの大きな進展は見受けられない。
3.1.3 記事数の傾向について
2005-2008 年の間、先進諸国の全記事数に大きな変化はみられない。一方、新興国の全記事数は増加傾向にある。また経済危機を迎えた 2009 年以降は、先進諸国で economy に関する記事数が大幅に増加している。これより、記事数は経済成長率が高いほど多くなり(新興国の高い経済成長率)、また、世界レベルの極端な経済情勢の変化(リーマンショック問題等)に応じて変化するものと考えられる。
3.2 各カテゴリーの記事数及びキーワード登録数の推移について (Fig. 3 ~ 9)
3.2.1 Art について
先進国では記事数の増加はみられない一方、新興国の記事数は増加の傾向にあり、経済やビジネスだけでなく、芸術面でも新興国への興味は拡大しているものと考えられる。しかし、先進国に比べ新興国の Art の記事数の割合は business, economy に対して小さい。裏を返すと、先進国は Art に関して興味深いコンテンツを多数保持・提供しているとも考えることが出来る。
3.2.2 Business について
リーマンショックが実体経済に巨額の損失を及ぼしたのは、図に示すように(米国yahoo および、日本 yahoo から引用)2008 年度 9月以降である。2009 年度前半にかけて株価は低迷を極めており、それに伴い、NYT が取り上げる記事の多くが、経済問題と関連づけられて報道されるに至ったと考えられる。
3.2.3 Economy について
新興国は一貫して増加の傾向を示しているのは、高い経済成長率に裏付けられると考え
られる。一方、先進国では 2008,2009 年を境に記事数に大きな進展が見られる。これは 2009 年度に、リーマンショック問題に起因する経済問題の記事数が増えたことによるものであろう。また、business の記事数に大きな増加は見られないことは、ビジネスの記事の多くがリーマンショックの記事に由来するものにとってかわったためと考えられる。
3.2.4 Science について
各国とも他のカテゴリーと比較して science の記事割合は小さい。これは、NYT の読者の多くがビジネスの世界で活躍する人達であり、science で取り上げられる記事の多くは、実態経済と直接結びつく内容のものが少なく、NYT としても取り上げにくい(購読者を鑑みて)ためと考えられる。
3.2.5 Technology について
各国とも science のカテゴリーより technology のカテゴリ−のほうが、記事数が多い。とりわけ、新興国の technology の記事数の全カテゴリーに対する割合は高く、新しい技術を「応用できる」「展開できる」場およびその技術の導入による経済面へのインパクトの大きさに、大きな期待をよせているものと考えられる。
3.2.6 Politics について
すべての国において、politics が全カテゴリーに占める記事数の割合は小さい。記事数単体でみると、中国の記事数が圧倒的に多い。中国経済は中国政府と密接な関係を持つ傾向にあり、政府の動向が実経済・ビジネスに大きく影響するため、NYT の読者の関心も高いことが推察される。
3.3 New York Times の記者のキーワード登録に関して
一つの記事に登録されるキーワードは、多くても 3 キーワード程度である。この数字は、ソーシャルサービスと比較すると、かなり少ない値であることが伺えよう。日本を代表する動画サービス「ニコニコ動画」のタグ数(キーワード数)と比較しても、非常に少ないことがわかる。
これは、New York Times の記者が多数のキーワードを登録することによる情報密度の希薄化を意図的に避けているかはわからない(もしくは、より正確に情報の内容を伝えようと意識しているのかもしれない)。
※補足 情報密度の算出方法※キーワードの数が増えるに伴い、当該情報の単位情報密度(ID)は希薄する。ID は以下の数式により導出することとする。
ID = CD / N ・・・(1)
ここで、CD : コンテンツがもつ情報密度、N : キーワードの数とする。なお、一つ一つのタグに重みはないものとする。
また、各々のサービスが目指すところに大きな違いがある点、知っておくべきであろう。New York Times が顧客とするのは比較的収入の多いビジネスマンであり、ニコニコ動画が顧客とするのは、広く一般ユーザー全般である。これを踏まえると、NYT は、ビジネスに活かしやすい=情報密度の濃い情報を提供することで、他の情報機関に対し競争優位のポジションを獲得することができると考えられる。一方、ニコニコ動画はより多くの視聴者数を獲得することを目的としていると考えられ、登録されるキーワードの数に比例し、ユーザーの検索に引っかかる確率が高くなることからキーワードを多数登録することは理にかなう(ちなみに、ニコニコ動画はキーワード設定数を 10個までと制限している点、また静止画配信ではなく動画配信が主である点付記しておく)。
◇◇◇◇◇ 総 括 ◇◇◇◇◇
従来のような紙面媒体には不向きであった「一つの記事に複数個のキーワードを付けること」は、ニュース記事に限らず、様々な分野で活躍の場を広げている。You tube の動画や Amazon の商品などに、複数のキーワード付けがされているのはよく知られたことだ。
一つの記事、商品に対して、多数のキーワードを設定することは、より包括的なユーザー獲得に繋がるのはまちがいないだが、その一方で、情報の肥大化/タグの乱用により、不適切なタグ付けによりユーザーを混乱させてしまうとも考えられる。これに関する対処方法として、グーグルの検索機能は、複数個のタグが段階的に入力されるに合わせて、ユーザーが取得する情報の密度を変えることに成功している。
Fig. 3 Article number and Registered-keywords number in Japan
art business economy science technology politics0
200
400
600
800
1000
1200
1400
japan article numbernu
mbe
r
art business economy science technology politics0
400
800
1200
1600
2000
2400
2800
japan category number
num
ber
201020092008200720062005
201020092008200720062005
Fig .4 Article number and Registered-keywords number in China
art business economy science technology politics0
200
400
600
800
1000
1200
1400
china article numbernu
mbe
r
art business economy science technology politics0
400
800
1200
1600
2000
2400
2800
china registered-keywords number
num
ber
201020092008200720062005
201020092008200720062005
Fig.5 Article number and Registered-keywords number in France
art business economy science technology politics0
200
400
600
800
1000
1200
1400
france article numbernu
mbe
r
art business economy science technology politics0
400
800
1200
1600
2000
2400
2800
france registered-keywords number
num
ber
201020092008200720062005
201020092008200720062005
Fig. 6 Article number and Registered-keywords number in India
art business economy science technology politics0
400
800
1200
1600
2000
2400
2800
india registered-keywords number
num
ber
art business economy science technology politics0
200
400
600
800
1000
1200
1400
india article numbernu
mbe
r
201020092008200720062005
201020092008200720062005
Fig. 7 Registered-keywords/Article in Japan and China
2004 2005 2006 2007 2008 2009 2010 20110.5
1
1.5
2
2.5
3
japan registered-keywords(N) / article(N)
artbusinesseconomysciencetechnologypolitics
2004 2005 2006 2007 2008 2009 2010 20110.5
1
1.5
2
2.5
3
china registered-keywords(N) / article(N)
artbusinesseconomysciencetechnologypolitics
Fig. 8 Registered-keywords/Article in France and India
2004 2005 2006 2007 2008 2009 2010 20110.5
1
1.5
2
2.5
3
france registered-keywords(N) / article(N)
artbusinesseconomysciencetechnologypolitics
2004 2005 2006 2007 2008 2009 2010 20110.5
1
1.5
2
2.5
3
india registered-keywords(N) / article(N)
artbusinesseconomysciencetechnologypolitics
Fig. 9 Registered-keywords/Article in All-country
2004 2005 2006 2007 2008 2009 2010 20110.5
1
1.5
2
2.5
3
All-Country registered-keywords(N) / article(N)
artbusinesseconomysciencetechnologypolitics
記事にみるカテゴリーとキーワードの関係性
1. 序論
情報通信インフラが整備され(1990 年代後半)、パーソナルコンピューターを購入することが出来るほどの価格になる(2000 年代前半)とともに、インターネットの世界は、技術面・普及面で大きな進歩を達成することになった。
情報収集のスタイルも大きく変遷した。インターネットが普及する以前は、情報収集の多くは新聞や雑誌といった「紙面」に頼ることが多く(紙面以外では、ラジオやテレビ等があげられる)、情報の多くは「一般大衆向け」にカスタマイズされた情報がほとんどを占めていた。
これら新聞や雑誌、テレビといったメディアが提供する情報に対して、読者・視聴者(ユーザー)は「独自のカテゴリー」をつけることは難しく、新聞・雑誌の切り抜き・編集や、ビデオ分類などを通じてしか独自のカテゴリーをつくることはできなかった。
しかし、パーソナルコンピューター(以下 PC)およびインターネット(以下ネット)環境が急速に整備/普及されるに伴い、ネット上で情報を発信するメディアが多数現れてきた。合わせて、ユーザーは Internet Explorer や Fire Fox といったブラウザを通じ、お好みのサイトや記事の「Book mark」をつくることが可能になった。また、ユーザーは、メディア側が提供する「カテゴリー(およびキーワード、タグ)」を辿ることで、容易に他の情報源にアクセスすることが出来るようになった。加えて、Amazon.com などコマースサイトでは、商品登録が単一カテゴリーではなく複数カテゴリーにまたがって登録できるインフラが整備された。
PC、ネット環境の普及が進むにつれ、ネット世界の技術も大きく進展し、個々人が情報を提供し、個人の間でそれを共有することが可能となるサービスが表れはじめた(代表的なサービスとしてブログがあげられる)。写真共有サイトの Flickir では、投稿する写真に対し、ユーザーは複数個の「キーワードおよびタグ(以下総称としてキーワードとする)」を自由につけることができる。具体的には、パリで撮ったエフェル等の写真に、”パリ”、”エッフェル塔”、”展望台”、”綺麗な景色”、”家族記念”といったキーワードを設定することができる。
キーワード付けの功の面としては、乱雑に溢れる情報を集約させることで、ユーザーに効率的な情報収集を可能にする面があげられる。記事に付けられたキーワードと同じキーワードを持つ情報を容易に取得できることは、ユーザーが関心のある情報を効率的に収集できるという点で、非常に魅力的だ。
一方で、キーワードをつけることによる罪の面も忘れてはいけない。キーワードを限定することで、当該情報を取得するユーザーに対し、一面的な見方を押し付けてしまう可能性は拭えない。とりわけ、ユーザーに対し、大きな影響力を与えうる新聞や雑誌といったメディアが発する情報のキーワード付けには、注目すべきであろう。
また、適切なキーワード付けはユーザーエクスペーリエンスの向上に大きく寄与するのは間違いなく、適切なキーワードをつける習慣を身につけることは、キーワードをつけるユーザーはもちろんのこと、その情報に触れるユーザーの文意理解向上にも繋がる。加えて、普段は興味を示さないようなカテゴリーと結びつけられたキーワードを辿る(カテゴリーを橋渡しするキーワード)ことで、新しい興味や発想が生まれる可能性もある(Fig.
0)。
Fig. 0 CategoryA と Category B をつなぐ keyword (タグ) の概念図
そこで、本研究では 2005 年から直近の 2010 年までの New York Times の記事に焦点を当て、一流の記者によるタグ登録の傾向を、国別・カテゴリー別に明らかにするとともに、カテゴリーを隔てて共通するキーワードの存在を明らかにしていく。
2 実験方法
2.1 データ取得方法
Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事をカテゴリー別に取得し、各々の記事に登録されたキーワードを計上していく。
2.2 カテゴリー相関度の分析 / 解析
各々のカテゴリー同士の上位キーワードを比較することで、相関の程度を算出する。相関の程度は以下の Step により判断する。
Category A(ex. Politics)
Category B(ex. Economy)
keyword(ex. Currency)
Step 1: カテゴリー1のキーワード順位を x軸に、カテゴリー 2 のキーワード順位 を y軸に設定。 Step2:カテゴリー1とカテゴリー2のキーワード順位プロットの近似直線 (線形近似:y=ax + b)および、相関係数を算出。近似直線と相関係数および 各々のカテゴリーにおけるキーワード順位 100 位以内のカウント数より、 カテゴリー間の関連度を以下の条件に従い算出する。
近似直線:y=ax+b の係数 a,b 関し、 条件1 a>0.3,
条件2 b<25
条件3 R2>0.2
条件4 キーワードカウント数(Number)>50
の4条件を満たす組み合わせを「相関あり」とみなし、 条件3は満たさないが、 条件3' R2>0.12
を満たす組み合わせを「弱相関あり」とみなす。
2.3 登録キーワードの詳細とベキ乗則
全カテゴリーにおける登録キーワード数およびその順位について、ベキ乗則の関係性の有無を log(登録キーワード数) = log (登録キーワード順位)によって分析する。
3 実験結果および考察
3.1 各国の登録上位キーワードと国ごとの特徴 / 傾向
3.1.1 全体の特徴 / 傾向について (Table 1, 2)
Art に関しては上位 4 キーワードに国別の変化は無く、キーワード設定に際し、ある程度決まったキーワードが普遍的に使用されているものと考えられる。 business,economy に関しても上位 3 キーワードに大きな変化は無く、経済情勢および国際関係に関係するキーワードが多い。また、20 位以内のキーワードをみると各国の産業形態と関係性の高いキーワードが現れている(後段参照)。 Technology,Science に関して、新興国では Global warming が上位に位置している(両カテゴリーにて 10 位以内)一方、先進国ではそれほど上位に位置していない(フランスに至っては両カテゴリーで 10 位以下となっている)。 また、technology に関しては、Computer and Internet のキーワードが全ての国で 2 位以内となっており、各国ともこの分野へ高い関心をもっていると考えられる。
3.1.2 国別の特徴 / 傾向について (Table 1, 2)
日本特有のキーワードとして、Automobile があげられる。Business, economy, technology
の分野で上位に位置しているのがわかる。また、他国と比べ、business,economy のカテゴ
リーで Politics and Government のキーワード順位が低く、経済・ビジネスについて政府との関係性が希薄であると考えられる(裏を返せば政府に頼らず、経済・ビジネスが成り立っていると捉えることもできる)。
フランス特有のキーワードとして、旅行関係のキーワード(Travel および Airplane)、文化・芸術関係のキーワード(Books and Literature および Art)が上位に登録されており、国の産業としても、これらは重要なポジションを占めていると考えられる。加えて、science 分野においても文化・芸術関係のキーワードは上位に位置しており、芸術科学の分野の発展に力を注いでいるものと考えることができる。また、technology のカテゴリーでAtomic Energy がキーワード上位に位置しているのは、原発大国を象徴しているとも捉えられよう。
中国、インドに特徴的なキーワードとして、business,economy カテゴリーでの Oil and
Gasoline があげられる。両国とも産油国であり、原油は国の経済・ビジネスを支える重要な資源であると同時に、諸外国も両国の産油産業およびその動向に対し、高い関心を示しているものと考えることができる。また、経済成長に伴う温室効果ガスの放出量の増加に対する懸念からか、science のカテゴリーで Global Warming が上位に位置している。
Table 1 Top 20 registered-keywords in each categories for Japan and China
JapanNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
art Art Museums Music Sculpture Dancing Photography Architecture Movies Design Theater Culture Restaurants Automobiles
business Automobiles Art
economy Automobiles Interest Rates Currency Labor Credit Environment
science Environment Art Automobiles Space Museums
technology Automobiles Environment Art
politics Art Elections Sculpture Museums Photography Soccer
Travel and Vacations
Books and Literature
Deaths (Obituaries)
Motion Pictures
Computers and the Internet
Fashion and Apparel
Buildings (Structures)
Economic Conditions and Trends
International Trade and World Market
United States Economy
Computers and the Internet
Stocks and Bonds
Banks and Banking
Mergers, Acquisitions and Divestitures
Company Reports
Travel and Vacations
Subprime Mortgage Crisis
Books and Literature
Politics and Government
Airlines and Airplanes
Executives and Management
Advertising and Marketing
Oil (Petroleum) and Gasoline
Recession and Depression
International Relations
Economic Conditions and Trends
United States Economy
International Trade and World Market
Stocks and Bonds
Subprime Mortgage Crisis
Politics and Government
Banks and Banking
Recession and Depression
Oil (Petroleum) and Gasoline
United States International Relations
International Relations
Third World and Developing Countries
Prices (Fares, Fees and Rates)
Books and Literature
Science and Technology
Books and Literature
Education and Schools
Medicine and Health
Deaths (Obituaries)
Global Warming
International Trade and World Market
Economic Conditions and Trends
Computers and the Internet
Politics and Government
United States Economy
Colleges and Universities
International Relations
Children and Youth
Motion Pictures
Computers and the Internet
International Trade and World Market
Economic Conditions and Trends
United States Economy
Stocks and Bonds
International Relations
Science and Technology
United States International Relations
Cellular Telephones
Advertising and Marketing
Global Warming
Books and Literature
Computer and Video Games
Atomic Weapons
Hybrid Vehicles
Company Reports
Oil (Petroleum) and Gasoline
Politics and Government
International Trade and World Market
Economic Conditions and Trends
United States International Relations
International Relations
Books and Literature
United States Economy
United States Politics and Government
United States Armament and Defense
Deaths (Obituaries)
Presidential Election of 2008
Motion Pictures
Oil (Petroleum) and Gasoline
Freedom and Human Rights
chinaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
art Art Museums Culture Music Theater Architecture Auctions Sculpture Photography Antiques Movies Restaurants
business Automobiles Art Environment Labor
economy Environment Currency Automobiles Interest Rates
science Environment Art Museums
technology Environment Automobiles Atomic Energy
politics Art Elections Environment
Travel and Vacations
Books and Literature
Motion Pictures
Economic Conditions and Trends
Deaths (Obituaries)
Collectors and Collections
Home Furnishings
Computers and the Internet
International Trade and World Market
Economic Conditions and Trends
United States Economy
Computers and the Internet
Politics and Government
Mergers, Acquisitions and Divestitures
Stocks and Bonds
Oil (Petroleum) and Gasoline
Banks and Banking
Books and Literature
Travel and Vacations
International Relations
Company Reports
United States International Relations
United States Politics and Government
Subprime Mortgage Crisis
Economic Conditions and Trends
International Trade and World Market
United States Economy
Politics and Government
Stocks and Bonds
Oil (Petroleum) and Gasoline
United States International Relations
Subprime Mortgage Crisis
Banks and Banking
International Relations
Prices (Fares, Fees and Rates)
Recession and Depression
United States Politics and Government
Global Warming
Books and Literature
Computers and the Internet
Science and Technology
Books and Literature
Global Warming
Computers and the Internet
Education and Schools
Economic Conditions and Trends
International Trade and World Market
Colleges and Universities
Politics and Government
United States Economy
International Relations
Medicine and Health
United States Politics and Government
United States International Relations
Deaths (Obituaries)
Greenhouse Gas Emissions
Children and Youth
Computers and the Internet
International Trade and World Market
Economic Conditions and Trends
International Relations
United States International Relations
United States Economy
Stocks and Bonds
Global Warming
Oil (Petroleum) and Gasoline
Atomic Weapons
Politics and Government
Science and Technology
Greenhouse Gas Emissions
Mergers, Acquisitions and Divestitures
United States Politics and Government
Company Reports
Energy and Power
Politics and Government
Books and Literature
Economic Conditions and Trends
United States International Relations
International Trade and World Market
International Relations
United States Politics and Government
United States Economy
Oil (Petroleum) and Gasoline
Presidential Election of 2008
Freedom and Human Rights
Computers and the Internet
Global Warming
Olympic Games (2008)
United States Armament and Defense
Motion Pictures
Deaths (Obituaries)
Table 2 Top 20 registered-keywords in each categories for France and India
franceNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
art Art Museums Photography Theater Movies Sculpture Architecture Music Restaurants Dancing Auctions Antiques History
business Art Wines Restaurants
economy Elections Labor Credit Automobiles
science Art Museums History Photography Environment Atomic Energy
technology Atomic Energy Art Automobiles Environment
politics Art Elections History Islam Museums Terrorism Sculpture Movies
Books and Literature
Travel and Vacations
Motion Pictures
Deaths (Obituaries)
Writing and Writers
Cooking and Cookbooks
Classical Music
Economic Conditions and Trends
Travel and Vacations
Airlines and Airplanes
Computers and the Internet
Books and Literature
International Trade and World Market
Politics and Government
Mergers, Acquisitions and Divestitures
Banks and Banking
Deaths (Obituaries)
United States Economy
Advertising and Marketing
International Relations
Executives and Management
Motion Pictures
United States International Relations
Subprime Mortgage Crisis
Economic Conditions and Trends
International Trade and World Market
Politics and Government
United States Economy
Banks and Banking
Subprime Mortgage Crisis
Stocks and Bonds
International Relations
Euro (Currency)
Travel and Vacations
Recession and Depression
Airlines and Airplanes
United States International Relations
Oil (Petroleum) and Gasoline
Books and Literature
Computers and the Internet
Books and Literature
Deaths (Obituaries)
Science and Technology
Medicine and Health
Politics and Government
Education and Schools
Colleges and Universities
Motion Pictures
Writing and Writers
Travel and Vacations
Computers and the Internet
International Relations
Bicycles and Bicycling
United States International Relations
Computers and the Internet
International Relations
Atomic Weapons
United States International Relations
Books and Literature
Economic Conditions and Trends
Airlines and Airplanes
International Trade and World Market
United States Economy
Politics and Government
Stocks and Bonds
Mergers, Acquisitions and Divestitures
Advertising and Marketing
Travel and Vacations
Deaths (Obituaries)
Oil (Petroleum) and Gasoline
Politics and Government
Books and Literature
International Relations
Economic Conditions and Trends
United States International Relations
Deaths (Obituaries)
Motion Pictures
Demonstrations and Riots
United States Politics and Government
Writing and Writers
Presidential Election of 2008
International Trade and World Market
indiaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
art Art Museums Music Sculpture Culture Theater Movies Photography Dancing Restaurants Architecture
business Automobiles Art Labor
economy Automobiles Labor Environment
science Environment Art Theater Music
technology Labor Environment Automobiles Atomic Energy
politics Art Terrorism Islam Elections Movies Museums
Travel and Vacations
Books and Literature
Motion Pictures
Children and Youth
Economic Conditions and Trends
Computers and the Internet
Deaths (Obituaries)
Fashion and Apparel
Writing and Writers
Economic Conditions and Trends
International Trade and World Market
Computers and the Internet
United States Economy
Politics and Government
Travel and Vacations
Mergers, Acquisitions and Divestitures
Books and Literature
Stocks and Bonds
Third World and Developing Countries
Executives and Management
Oil (Petroleum) and Gasoline
Banks and Banking
United States International Relations
Motion Pictures
International Relations
Subprime Mortgage Crisis
Economic Conditions and Trends
International Trade and World Market
United States Economy
Politics and Government
Oil (Petroleum) and Gasoline
Stocks and Bonds
United States International Relations
Prices (Fares, Fees and Rates)
Global Warming
Subprime Mortgage Crisis
United States Politics and Government
International Relations
Third World and Developing Countries
Books and Literature
Recession and Depression
Banks and Banking
Computers and the Internet
Science and Technology
Books and Literature
Global Warming
Education and Schools
Economic Conditions and Trends
Computers and the Internet
Colleges and Universities
Politics and Government
International Trade and World Market
Children and Youth
Medicine and Health
Deaths (Obituaries)
International Relations
United States Economy
United States Politics and Government
Greenhouse Gas Emissions
Computers and the Internet
Economic Conditions and Trends
International Trade and World Market
United States International Relations
International Relations
Global Warming
United States Economy
Politics and Government
Stocks and Bonds
Atomic Weapons
Science and Technology
Third World and Developing Countries
Books and Literature
United States Politics and Government
Greenhouse Gas Emissions
Oil (Petroleum) and Gasoline
Politics and Government
Books and Literature
Economic Conditions and Trends
United States International Relations
International Trade and World Market
United States Politics and Government
International Relations
Motion Pictures
Global Warming
Presidential Election of 2008
United States Economy
Deaths (Obituaries)
Oil (Petroleum) and Gasoline
United States Armament and Defense
3.2 近似直線分析
3.2.1 カテゴリーごとの相関関係 国別 (Table 3, 4 , Fig. 1 ~ 32 )
四カ国に共通する傾向として、Business-economy および Business-technology の二つのカテゴリーは高い相関関係をもつ。一方、新興国(China and India)に特徴的な傾向として、Business-science の関連づけが高い。これは、キーワード「Global warming」「Computer
and Internet」のキーワードが頻度高く登録されていることによるものと考えられる。
3.2.2 カテゴリーごとの相関関係 全体 (Table 3, 4 , Fig. 33 ~ 40)
4カ国に共通する傾向として、Business-economy および Business-technology に関しては相関関係をもつ。一方、Economy-science, Economy-technology, Science-politics, Science-
technology の4つに関しては、弱い相関をもつことがわかる。
Art に関してはすべてのカテゴリーとの相関関係が希薄である。これは、先の論文で、Art に関しては記事あたりのキーワード数が少ないことからも理解できる(Art の記事にはArt 関連のキーワードしか登録しない傾向にあると考えられる)。すなわち、カテゴリーを隔てて、共通するキーワード登録が乏しく、カテゴリーを横断しうる記事=複数のカテゴリーに属する記事が少ないと考えられる。
※Fig. 1 ~ 40 の x軸, y軸はそれぞれのカテゴリーにおける登録キーワードの順位を示す。(ex. Fig. 1 であれば、Art-Science両方で Top100 以内に登録されたキーワードについて、x
軸が Art、y軸が Science の順位である。具体的には「Museum」というキーワードならば、x = 2 (Art のカテゴリーで登録数 2 位), y = 12 (Science のカテゴリーで登録数 12 位)となる。)
Fig. 1 Linear proximation plots of Art-Science, Art-Business in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.07x + 36.87R² = 0.01
art-business
Art Rank (N)
Bus
ine
ss R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.43x + 20.89R² = 0.21
art-science
Art Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 2 Linear proximation plots of Art-Technology, Art-Economy in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.25x + 50.48R² = 0.06
art-technology
Art Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.04x + 44.05R² = 0
art-economy
Art Rank (N)
Eco
nom
y R
ank
(N)
Fig. 3 Linear proximation plots of Art-Politics, Business-Science in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.03x + 37.54R² = 0
art-politics
Art Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.23x + 24.74R² = 0.06
business-science
Business Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 4 Linear proximation plots of Business-Politics, Business-Economy in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.15x + 32.71R² = 0.02
business-politics
Business Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.57x + 15.96R² = 0.33
business-economy
Business Rank (N)
Eco
nom
y R
ank
(N)
Fig. 5 Linear proximation plots of Business-Technology, Economy-Science in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.66x + 14.91R² = 0.34
business-technology
Business Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.24x + 22.03R² = 0.08
economy-science
Economy Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 6 Linear proximation plots of Economy-Technology, Economy-Politics in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.54x + 19.83R² = 0.29
economy-technology
Economy Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.28x + 28.03R² = 0.09
economy-politics
Economy Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 7 Linear proximation plots of Science-Technology, Science-Politics in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.31x + 29.74R² = 0.08
science-technology
Sciecne Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.4x + 22.92R² = 0.15
science-politics
Science Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 8 Linear proximation plots of Technology-Politics in Japan
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.22x + 30.7R² = 0.05
technology-politics
Technology Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 9 Linear proximation plots of Art-Science, Art-Business in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.46x + 18.73R² = 0.23
art-science
Art Rank (N)
Sci
en
ce R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.01x + 40.91R² = 0
art-business
Art Rank (N)
Bus
ine
ss R
an
k (N
)
Fig. 10 Linear proximation plots of Art-POlitics, Art-Technology in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.19x + 30.19R² = 0.05
art-politics
Art Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.2x + 54.55R² = 0.03
art-technology
Art Rank (N)
Tech
nolo
gy R
an
k (N
)
Fig. 11 Linear proximation plots of Art-Economy, Business-Science in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.05x + 45.79R² = 0
art-economy
Art Rank (N)
Eco
nom
y R
ank
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.43x + 18.48R² = 0.22
business-science
Business Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 12 Linear proximation plots of Business-Politics, Business-Economy in China
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.24x + 28.41R² = 0.06
business-politics
Business Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.67x + 13.51R² = 0.46
business-economy
Business Rank (N)
Eco
nom
y R
ank
(N)
Fig. 13 Linear proximation plots of Business-Technology, Economy-Science in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.47x + 22.96R² = 0.24
business-technology
Business Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.31x + 26.31R² = 0.1
economy-science
Economy Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 14 Linear proximation plots of Economy-Technology, Economy-Politics in China
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.58x + 17.89R² = 0.34
economy-technology
Economy Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.3x + 29.55R² = 0.09
economy-politics
Economy Rank (N)
Pol
itics
Ra
nk
(N)
Fig.15 Linear proximation plots of Science-Technology, Science-Politics in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.39x + 27.24R² = 0.13
science-technology
Science Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.37x + 23.64R² = 0.13
science-politics
Science Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 16 Linear proximation plots of Technology-Politics in China
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.23x + 30.7R² = 0.06
technology-politics
Technology Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 17 Linear proximation plots of Art-Science, Art-Business in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.33x + 21.67R² = 0.13
art-science
Art Rank (N)
Sci
en
ce R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.32x + 32.39R² = 0.1
art-business
Art Rank (N)
Bus
ine
ss R
an
k (N
)
Fig. 18 Linear proximation plots of Art-Politics, Art-Technology in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.36x + 23.78R² = 0.16
art-politics
Art Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.01x + 38.56R² = 0
art-technology
Art Rank (N)
Tech
nolo
gy R
an
k (N
)
Fig. 19 Linear proximation plots of Art-Economy, Business-Science in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.07x + 48.65R² = 0
art-economy
Art Rank (N)
Eco
nom
y R
ank
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.25x + 23.12R² = 0.09
business-science
Business Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 20 Linear proximation plots of Business-Politics, Business-Economy in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.11x + 33.09R² = 0.02
business-politics
Business Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.48x + 23.26R² = 0.25
business-economy
Business Rank (N)
Eco
nom
y R
ank
(N)
Fig. 21 Linear proximation plots of Business-Technology, Economy-Science in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.46x + 22.08R² = 0.24
business-technology
Business Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.21x + 27.3R² = 0.04
economy-science
Economy Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 22 Linear proximation plots of Economy-Technology, Economy-Politics in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.47x + 19.41R² = 0.21
economy-technology
Economy Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.17x + 33.72R² = 0.03
economy-politics
Economy Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 23 Linear proximation plots of Science-Technology, Science-Politics in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.42x + 22.2R² = 0.15
science-technology
Science Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.46x + 23.83R² = 0.17
science-politics
Science Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 24 Linear proximation plots of Technology-Politics in France
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.22x + 27.3R² = 0.05
technology-politics
Technology Rank (N)
Pol
itics
Ra
nk
(N)
Fig.25 Linear proximation plots of Art-Science, Art-Business in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.35x + 22.36R² = 0.17
art-science
Art Rank (N)
Sci
en
ce R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.08x + 38.24R² = 0.01
art-business
Art Rank (N)
Bus
ine
ss R
an
k (N
)
Fig. 26 Linear proximation plots of Art-Technology, Art-Economy in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.13x + 48.81R² = 0.02
art-technology
Art Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.03x + 42.13R² = 0
art-economy
Art Rank (N)
Eco
nom
y R
ank
(N)
Fig.27 Linear proximation plots of Art-Politics, Business-Science in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.11x + 36.88R² = 0.01
art-politics
Art Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.42x + 17.7R² = 0.24
business-science
Business Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 28 Linear proximation plots of Business-Politics, Business-Economy in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.42x + 24.32R² = 0.17
business-politics
Business Rank (N)
Pol
tics
Ran
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.66x + 14.11R² = 0.41
business-economy
Business Rank (N)
Eco
nom
y R
ank
(N)
Fig. 29 Linear proximation plots of Business-Technology, Economy-Science in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.61x + 18.19R² = 0.39
business-technology
Business Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.3x + 21.95R² = 0.13
economy-science
Economy Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 30 Linear proximation plots of Economy-Technology, Economy-Politics in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.49x + 22.6R² = 0.25
economy-technology
Economy Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.45x + 22.85R² = 0.21
economy-politics
Economy Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 31 Linear proximation plots of Science-Technology, Science-Politics in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.64x + 19.89R² = 0.26
science-technology
Science Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.37x + 25.45R² = 0.11
science-politics
Science Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 32 Linear proximation plots of Technology-Politics in India
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.19x + 34.22R² = 0.03
technology-politics
Technology Rank (N)
Pol
itics
Ra
nk
(N)
Fig. 33 Linear proximation plots of Art-Science, Art-Business in All-country
0 10 20 30 40 50 60 70 80 90 1000
20
40
60
80
100
120f(x) = 0.48x + 17.89R² = 0.2
Art-Science
Art Rank (N)
Sci
en
ce R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.2x + 33.61R² = 0.04
Art-Business
Art Rank (N)
Bus
ine
ss R
an
k (N
)
Fig. 34 Linear proximation plots of Art-Technology, Art-Economy in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = -0.27x + 50.59R² = 0.07
Art-Technology
Art Rank (N)
Tech
nolo
gy R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = -0.18x + 54.81R² = 0.02
Art-Economy
Art Rank (N)
Eco
nom
y R
ank
(N)
Fig. 35 Linear proximation plots of Art-POlitics, Business-Science in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.24x + 26.66R² = 0.08
Art-Politics
Art Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.45x + 16.99R² = 0.26
Business-Science
Business Rank (N)
Sci
en
ce R
an
k (N
)
Fig. 36 Linear proximation plots of Business-Politics, Business-Economy in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.2x + 31.57R² = 0.04
Business-Politics
Business Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120f(x) = 0.61x + 14.77R² = 0.4
Business-Economy
Business Rank (N)
Eco
nom
y R
ank
(N)
Fig. 37 Linear proximation plots of Business-Technology, Economy-Science in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.29x + 25.32R² = 0.11
Economy-Science
Economy Rank (N)
Sci
en
ce R
an
k (N
)
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.48x + 20.16R² = 0.25
Business-Technology
Business Rank (N)
Tech
nolo
gy R
an
k (N
)
Fig. 38 Linear proximation plots of Economy-Technology, Economy-Politics in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.2x + 34.6R² = 0.04
Economy-Politics
Economy Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.36x + 24.78R² = 0.15
Economy-Technology
Economy Rank (N)
Tech
nolo
gy R
an
k (N
)
Fig. 39 Linear proximation plots of Science-Politics, Science-Technology in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.35x + 24.77R² = 0.13
Science-Politics
Science Rank (N)
Pol
itics
Ra
nk
(N)
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.46x + 23.83R² = 0.17
Science-Technology
Science Rank (N)
Tech
nolo
gy R
an
k (N
)
Fig. 40 Linear proximation plots of Technology-Politics in All-country
0 20 40 60 80 100 1200
20
40
60
80
100
120
f(x) = 0.29x + 32.11R² = 0.08
Technology-Politics
Technology Rank (N)
Pol
itics
Ra
nk
(N)
Table 1 Linear-Proximation of Each Category in 4 countries and All-country(Part-1)
Art-Science japan china france india All-countrya 0.428 0.458 0.33 0.351 0.48b 20.89 18.73 21.67 22.36 17.88R2 0.208 0.23 0.128 0.174 0.203count 44 51 47 46 48
Art-Business japan china france india All-countrya 0.073 0.01 0.323 0.081 0.1905b 36.87 40.9 32.39 38.24 33.61R2 0.0057 0.0001 0.102 0.007 0.038count 49 53 50 52 51
Art-Technology japan china france india All-countrya -0.025 -0.04 0.006 -0.124 -0.274b 50.484 45.79 38.56 48.81 50.59R2 0.057 0.002 0.000004 0.016 0.074count 39 41 39 41 36
Art-Economy japan china france india All-countrya 0.04 -0.2 0.071 -0.029 -0.183b 44.05 54.55 48.65 42.13 54.81R2 0.001 0.034 0.0044 0.0008 0.022count 33 39 35 37 34
Art-Politics japan china france india All-countrya 0.028 0.192 0.362 0.107 0.238b 37.54 30.19 23.78 36.88 36.66R2 0.001 0.045 0.164 0.011 0.081count 48 52 50 49 48
Business-Science japan china france india All-countrya 0.234 0.43 0.253 0.422 0.453b 24.74 18.48 23.12 17.7 16.99R2 0.056 0.224 0.093 0.237 0.258count 46 57 56 59 56
Business-Politics japan china france india All-countrya 0.146 0.244 0.112 0.415 0.195b 32.71 28.41 33.09 24.32 31.57R2 0.023 0.059 0.015 0.167 0.044count 57 60 61 65 64
Business-Economy japan china france india All-countrya 0.57 0.067 0.477 0.656 0.61b 15.96 13.51 23.26 14.11 14.77R2 0.333 0.457 0.253 0.41 0.402count 69 72 72 68 72
Table 2 Linear-Proximation of Each Category in 4 countries and All-country(Part-2)
Business-Technology japan china france india All-countrya 0.664 0.474 0.456 0.614 0.482b 14.91 22.96 22.08 18.19 20.16R2 0.341 0.237 0.236 0.395 0.249count 66 75 71 75 67
Economy-Science japan china france india All-countrya 0.244 0.31 0.207 0.3 0.292b 22.03 26.31 27.3 21.95 25.32R2 0.075 0.098 0.045 0.126 0.106count 40 52 46 54 50
Economy-Technology japan china france india All-countrya 0.538 0.576 0.467 0.488 0.361b 19.83 17.89 19.41 22.6 24.78R2 0.293 0.339 0.207 0.25 0.146count 64 68 59 72 65
Economy-Politics japan china france india All-countrya 0.282 0.301 0.169 0.455 0.196b 28.02 29.55 33.72 22.85 34.6R2 0.091 0.087 0.029 0.208 0.037count 50 57 55 59 56
Science-Politics japan china france india All-countrya 0.403 0.393 0.425 0.641 0.353b 22.92 27.24 22.2 19.89 24.78R2 0.148 0.126 0.152 0.262 0.131count 59 60 56 62 65
Science-Technology japan china france india All-countrya 0.307 0.366 0.459 0.34 0.459b 29.74 23.64 23.83 25.45 23.83R2 0.081 0.133 0.166 0.114 0.166count 47 63 57 63 57
Technology-Politics japan china france india All-countrya 0.217 0.229 0.22 0.18 0.289b 30.7 30.7 27.3 34.22 32.11R2 0.05 0.057 0.05 0.033 0.075count 52 58 55 62 58
3.3 カテゴリーを橋渡しするキーワード
互いの Category にて上位 20 以内を満たすキーワード(ex. Business で 1 位かつ Economy
で 13 位のキーワード)を Table 3 に示す。なお、ここに記されたキーワードは、二つのCategory を橋渡しするキーワードであると本論文では想定する。 ここで米国に関連するキーワード(United States ではじまるキーワード)およびカテゴリーと直結するキーワード(ex. Politics のカテゴリーなら Politics and Government)を除して、それぞれの Category 間のキーワードを明らかにすると、Table 4 のような結果になる。 ※本論文では、Table 4 に示される各々のキーワードが真にカテゴリーを橋渡しするものであるかについての検証までは行わない。
Table 3 Co-registered keywords within Top 20 between Two categories
Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology
Art Art Books and Literature Art Art
Museums Books and Literature Museums Museums
Books and Literature Travel and Vacations Books and Literature Books and Literature United States Economy
Motion Pictures Travel and Vacations Motion Pictures United States Economy United States Economy
Deaths (Obituaries) Motion Pictures Deaths (Obituaries) Automobiles
Music Books and Literature Books and LiteratureDeaths (Obituaries) Stocks and Bonds Art AutomobilesPhotography Banks and Banking International Relations Books and Literature
Theater Stocks and BondsArchitecture International Relations Art
Design
International Relations
Economic Conditions and Trends
Economic Conditions and Trends
Economic Conditions and Trends
International Trade and World Market
International Trade and World Market
International Trade and World Market
Computers and the Internet
Computers and the Internet
Computers and the Internet
Politics and Government
Politics and Government
Politics and Government
Computers and the Internet
Mergers, Acquisitions and Divestitures
Oil (Petroleum) and Gasoline
United States International Relations
United States International Relations
Oil (Petroleum) and Gasoline
Computers and the Internet
Subprime Mortgage Crisis
United States International Relations
Business-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-Politics
Books and Literature Books and Literature
Global WarmingUnited States Economy United States Economy United States Economy United States Economy Global Warming Art International Relations
Art United States Economy
Books and Literature Stocks and Bonds
Art International Relations Global Warming
International Relations Environment Deaths (Obituaries)
International Relations Books and Literature Automobiles United States Economy
Global Warming International Relations Books and Literature International Relations Books and Literature
Environment Global Warming United States Economy Museums Art
Books and Literature International Relations
Global Warming
Labor Motion PicturesEnvironment
Economic Conditions and Trends
Economic Conditions and Trends
Economic Conditions and Trends
Economic Conditions and Trends
Economic Conditions and Trends
International Trade and World Market
International Trade and World Market
International Trade and World Market
International Trade and World Market
Science and Technology
International Trade and World Market
Politics and Government
Politics and Government
Politics and Government
Politics and Government
Politics and Government
United States International Relations
Oil (Petroleum) and Gasoline
Computers and the Internet
Economic Conditions and Trends
United States International Relations
Oil (Petroleum) and Gasoline
United States International Relations
Politics and Government
International Trade and World Market
Oil (Petroleum) and Gasoline
United States Politics and Government
United States International Relations
Politics and Government
United States Politics and Government
Economic Conditions and Trends
Oil (Petroleum) and Gasoline
United States International Relations
International Trade and World Market
United States Politics and Government
United States Politics and Government
United States Politics and Government
United States Politics and Government
United States International Relations
United States International Relations
Table 4 Co-registered keywords within Top 20 between Two categories (After omitting some keywords which have little impact)
Business-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-Politics
Art Global Warming Stocks and Bonds Global Warming Global Warming Global Warming
Environment Global Warming Deaths (Obituaries)Automobiles Environment MuseumsGlobal Warming Motion PicturesLaborEnvironment
Oil (Petroleum) and Gasoline
Oil (Petroleum) and Gasoline
Oil (Petroleum) and Gasoline
Computers and the Internet
Oil (Petroleum) and Gasoline
Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology
Motion Pictures Travel and Vacations Travel and Vacations Motion Pictures Automobiles
Deaths (Obituaries) Motion Pictures Deaths (Obituaries) Stocks and Bonds Art
Music Banks and Banking Automobiles
Deaths (Obituaries) Stocks and Bonds
Photography Art
TheaterArchitectureDesign
Computers and the Internet
Computers and the Internet
Computers and the Internet
Mergers, Acquisitions and Divestitures
Computers and the Internet
Oil (Petroleum) and GasolineSubprime Mortgage Crisis
Oil (Petroleum) and Gasoline
Computers and the Internet
3.4 全カテゴリーキーワード分析 (Fig. 41 ~ 48 )
各々の登録キーワードカウント数(y)は、登録キーワード順位(x)に対してベキ乗則に従うことがわかる(exp(αy) = C・exp(βx))。全体の直線近似の R2 も高い数値(0.9 以上)を示しているが、詳細に観察すると、近似直線は二つの領域:上位 10 位と 10 位以降に分割しているように思われる。そこで、Total keywords count 数の近似直線(Fig. 47)を、上位 10 位と10 位以降に分割したグラフを Fig. 48 に示す。
Fig. 48 より、上位 10 位の近似直線の傾きは 10 位以降のそれよりも緩やか(順位変動に対して)でああることがわかる。このことから NYT の記事における登録キーワードカウント数に関しては、少なくとも二つの領域があるものと考えられる(なお、登録キーワードの階層設定【例えば「Art」と「Picture」の場合、前者の方がより頻繁に用いるキーワード群に含まれると考えられる】の重みは考慮しない)。本論文では上位 10 位のデータに見られる近似直線を「T – Climb (Top - climb)」、10 位以降のデータにみられる近似直線を「M – Climb (Middle-Climb)」と名付ける。
両者を比較すると、本論文においては総じて Top – Climb の傾きの絶対値は M-Climb の傾きの絶対値よりも小さい(変数 x の増加に対しアウトプット y の減少量が小さい)。これは、一律で定義するベキ乗則に期待される数値に対し、現実の数値が乖離していることを意味し、各々のデータプロットの結果(Fig. 41 ~ Fig. 46 )にも見受けられる。乖離する理由としては、
1. 解析データ数の母数が小さい(本論文のキーワード母数:20 万件)。2. キーワードの階層に応じ、異なるベキ乗則を適用する必要がある。3. キーワードの登録カウント数にはベキ乗則を適用すべきではない(無理矢理な統計モデルの適用による誤判断)
などが考えられる。
Fig. 41 Keyword-counts and regression line of Art-category
Art
Sculpture
Antiques
Classical Music
Politics and Government
Restoration and Rehabilitation
Poetry and Poets
International Relations
World War II (1939-45)
Weddings and Engagements
Interior Design and Furnishings
Spanish Civil War (1936-39)
Academy Awards (Oscars)
0 500 1000 1500 2000
Art
number
rank
0 1 2 3 4 52
3
4
5
6
7
8f(x) = -1.02x + 7.58R² = 0.99
Artt
ln (rank)
ln (
num
ber)
Fig. 42 Keyword-counts and regression line of Business-category
0 1 2 3 4 53
4
5
6
7
8f(x) = -0.75x + 7.7R² = 0.98
Business
ln (rank)
ln (
num
ber)
Economic Conditions and Trends
Books and Literature
Company Reports
Recession and Depression
Foreign Investments
Apparel
Energy and Power
News and News Media
Science and Technology
Factories and Manufacturing
Wages and Salaries
United States Armament and Defense
Taxation
0 200 400 600 800 1000 1200 1400
Business
Number
Ran
k
Fig. 43 Keyword-counts and regression line of Economy-category
Economic Conditions and TrendsBanks and Banking
United States Politics and GovernmentComputers and the Internet
CreditEnergy and Power
Dow Jones Stock AverageUnemployment
TaxationGross Domestic ProductScience and TechnologyHousing and Real Estate
Olympic Games (2008)Mutual Funds
Entrepreneurship
0 1000 2000 3000
Economy
Number
Ran
k
0 1 2 3 4 53
4
5
6
7
8
9f(x) = -0.92x + 8.02R² = 0.99
Economy
ln (rank)
ln (
num
ber)
Fig. 44 Keyword-counts and regression line of Technology-category
Computers and the InternetStocks and Bonds
Oil (Petroleum) and GasolineEnergy and Power
Airlines and AirplanesColleges and Universities
Subprime Mortgage CrisisMotion Pictures
EntrepreneurshipUnited Nations Framework Convention on Climate Change
Presidential Election of 2008Engineering and Engineers
Small BusinessSoftware
Photography
0 100 200 300 400 500 600 700 800
Technology
Number
Ran
k
0 1 2 3 4 53
4
5
6
7
f(x) = -0.75x + 7.14R² = 0.97
Technology
ln (rank)
ln (
num
ber)
Fig. 45 Keyword-counts and regression line of Politics-category
Politics and GovernmentUnited States Politics and Government
IslamDemonstrations and Riots
Writing and WritersAtomic Weapons
Energy and PowerAgriculture
Leaders and LeadershipBuddhism
AutomobilesFinances
Carbon DioxideStocks and Bonds
Race
0 100 200 300 400 500 600 700 800
Politics
Number
Ran
k
0 1 2 3 4 52
3
4
5
6
7
f(x) = -0.87x + 6.89R² = 0.99
Politics
ln (rank)
ln (
num
ber)
Fig. 46 Keyword-counts and regression line of Science-category
Books and LiteratureEnvironment
International RelationsCulture
Carbon DioxideThird World and Developing Countries
PhysicsFish and Other Marine Life
Vietnam WarImmigration and Refugees
Computer SecurityFood Contamination and Poisoning
Language and LanguagesMathematicsPhilanthropy
0 50 100 150 200 250 300 350
Science
Number
Ran
k
0 1 2 3 4 52
3
4
5
6
f(x) = -0.82x + 6.6R² = 0.95
Science
ln (rank)
ln (
num
ber)
Fig. 47 Total-keyword-counts and regression line
Economic Conditions and TrendsOil (Petroleum) and Gasoline
LaborMedicine and Health
SculptureTheater
Carbon DioxideNuclear WeaponsEntrepreneurship
AuctionsBuildings (Structures)
CoalCensorship
Consumer BehaviorOlympic Games
Trade Shows and FairsInventions and Patents
Fish and Other Marine LifeHistoric Buildings and Sites
0 1000 2000 3000 4000 5000 6000 7000
Total
Number
Ran
k
0 1 2 3 4 5 64
5
6
7
8
9
10f(x) = -0.76x + 9.09R² = 0.99
Total
ln (rank)
ln (
num
ber)
Fig. 48 Total-keyword-counts and regression line (a):Top 10 (b):After Top 10
0 1 2 3 4 5 64
5
6
7
8
9
10
f(x) = -0.62x + 8.84R² = 0.98
Total
ln (rank)
ln (
num
ber)
0 1 2 3 4 5 64
5
6
7
8
9
10
f(x) = -0.82x + 9.31R² = 0.99
Total
ln (rank)
ln (
num
ber)
M - Climbは、しばしば他の文献等で言及される「Long-Tail(=ベキ乗則に従う商品の売り上げを、販売数 (population)を縦軸に、商品 (product) を横軸にして、販売成績の良いものを左側から順に並べると、あまり売れない商品が右側になだらかに長く伸びるグラフが描かれる[wikipedia抜粋])」と似た傾向を持つ。
また、各カテゴリー別のキーワードカウント数においても、T-Climb, M-Climbの傾向はみられ、他の文献の売上量と売り上げ順位の調査( Takashi Iba, Masaya Mori “Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs”)データにも散見される。詳細な研究については、今後の課題とし、これ以上の分析は行わないこととする。
◇◇◇◇◇ 総 括 ◇◇◇◇◇
各々のカテゴリーに登録されたキーワードから、カテゴリー同士の相関度を導出した。NYTの記事に関しては、広範囲のカテゴリーと相関関係を持つカテゴリーとして、Businessがあげられる一方、他のカテゴリーと相関関係に乏しいカテゴリーとしてArtがあげられる。背景には、NYTの読者の多くはビジネスマンであると想定され、記事の多くは Businessと関係性の高いものになっているためと考えられる。
また、キーワードの登録数は大まかにはベキ乗則に従うが、詳細に分析すると T-Climb (登録上位のキーワード)とM-Climb (登録上位以外のキーワード)の二つの傾向があることがわかる。今後の課題として、キーワード登録数に関し、より詳細な傾向把握を達成するためには、1 キーワードそのものがもつ包括性(フレームの広さ:図参照)などを考慮した分析が必要となろう。
◇◇ 参考文献 ◇◇
1. Google 世界銀行, 世界開発指標 (http://www.google.co.jp/publicdata/explore?ds=d5bncppjof8f9_&hl=ja&dl=ja)
2. NHK 放送文化研究所 生活時間調査 (http://www.nhk.or.jp/bunken/yoron/lifetime/index.html)
3. Takashi Iba, Masaya Mori “Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs” (http://www.ifr.ac.uk/netsci08/Download/CT25_Uzzo_visual/CT252_IBA.pdf)
4. wikipedia Long tail (http://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%B3%E3%82%B0%E3%83%86%E3%83%BC%E3%83%AB)
◇◇◇ 論文1、2を踏まえての今後の課題 ◇◇◇
今回の調査国は時間的な制約から4カ国に留めてしまったため、調査傾向に偏重が現れているとも考えられる。先進国として、ドイツ、イギリスのデータを追加するとともに、新興国としてブラジル、ロシアのデータを追加していく必要性があろう。
また、T-Climb (Top Climb) の有効性については、他の分野(コマースサイトやソーシャルサービスなど)での登録キーワードおよび商品売り上げ等について、本論文と同様の手法による分析を重ねるとともに、キーワードそのものの包括性を考慮した分析も進める必要があろう。