「情報アクセス技術入門」サンプルページ · ii まえがき...

「情報アクセス技術入門」

サンプルページ

この本の定価・判型などは，以下の URL からご覧いただけます．

http://www.morikita.co.jp/books/mid/088041

※このサンプルページの内容は，初版 1刷発行当時のものです．

http://www.morikita.co.jp/books/mid/088041

i

まえがき

近年，大量の情報資源の中から必要な情報を効率的に見つけ出すための情報アクセス技術がますます重要になってきています．インターネット上の膨大な情報の中から利用者にとって有用な情報を見つけ出すWeb 検索エンジンは，今や社会に欠かせない基盤技術となっています．最近では，単に必要な情報を検索するだけでなく，利用者の嗜好に合った情報を推薦してくれる技術や，膨大なテキストデータの中から重要な情報を発掘してくれるテキストマイニングなどの技術が出現してきており，このような，大量の情報資源の中から必要な情報を得るための情報技術のことを，情報アクセス技術とよびます．情報アクセス技術は人の生活に密着しています．たとえば，インターネット

のショッピングサイトで商品を選択すると，他のお薦め商品を推薦されることがあります．ショッピングサイトでは，商品の購入された履歴をデータとして保存しており，データを分析することにより，お薦め商品を推薦します．これにより，思いもかけなかった商品に巡り会うことが可能になりました．他にも，ソーシャルネットワーキングサイトやマイクロブログのサイトでは，今話題になっていることをキーワードとして表示することがあります．これらのサイトでは，投稿されたメッセージやブログのテキストをデータとして保存しており，データの中で高い頻度で出現するキーワードを抽出することにより，話題を表示します．これにより，世の中の話題や流行を瞬時に知ることが可能になりました．これらはすべて，情報アクセス技術の一種です．本書では，主に理系・情報系の大学の学部生を対象として，情報アクセス技

術の基本的な知識と実現方法について理解することを目標としています．前半（第 1章～第 7章）では，情報アクセスの基本となる情報検索技術の基

礎を学びます．まず，情報検索技術の概要とこれまでの発展の歴史について述べ（第 1章～第 2章），次に情報検索システムを構成するいくつかの重要な要素技術について説明します（第 3章～第 6章）．また，情報検索システムの有効性を客観的に評価する方法について説明します（第 7章）．後半（第 8章～第 13章）では，情報アクセスにかかわるさまざまな応用技

ii まえがき

術を学びます．まず，類似する情報をグループ化するための分類・クラスタリング技術について説明します（第 8章）．次に，インターネット上のコミュニティを利用するソーシャル検索や，利用者の嗜好に合った情報を選別する情報推薦技術（第 9章），文書以外の各種メディアの検索技術（第 10章），多言語情報アクセス技術（第 11章）について説明します．また，大量の情報の中から有用な情報を掘り起こすテキストマイニング技術（第 12章），抽出した情報をわかりやすく示すための情報可視化技術（第 13章）など，情報アクセスにかかわる最新の話題について解説します．さらに，いくつかの章には章末問題と，その章で説明した技術に関するコラムを掲載しています．本書の読者が，情報社会の基盤技術の一つとなっている情報検索の各種理論と，それを実現するための技術について理解し，さらに情報アクセス技術に関する最新の技術動向を把握されることを期待しています．本書の執筆にあたって，森北出版の富井晃氏には，企画段階から辛抱強く励ましていただきました．また，千先治樹氏には，原稿に対して非常に的確で有益な多くのコメントをいただきました．深く感謝いたします．

2017年 6月著者

iii

目次

第 1章情報アクセス技術の概要 1

1.1 情報検索とは ·························································································· 11.2 情報アクセスとは ···················································································· 31.3 情報検索の歴史 ······················································································· 4

1.3.1 計算機以前の情報検索 4 1.3.2 計算機を用いた情報検索 61.3.3 全文検索 7 1.3.4 Web検索エンジン 7

1.4 情報要求と情報検索システム ····································································· 81.5 情報検索システムの全体像 ········································································ 9コラム：ロボット型検索エンジンとディレクトリ型検索エンジン 10演習問題 11

第 2章情報検索システムの構成 12

2.1 情報検索システムの全体構成 ··································································· 122.2 索引付けの処理 ····················································································· 12

2.2.1 文書の収集・変換 14 2.2.2 索引語の抽出 152.2.3 索引の作成 16

2.3 検索の処理 ···························································································· 172.3.1 問合せ処理 17 2.3.2 文書の検索・ランキング 17

演習問題 18

第 3章文書の収集・変換 19

3.1 文書の収集 ···························································································· 193.1.1 クローリング 19 3.1.2 ディレクトリの走査 21

3.2 文書の加工 ···························································································· 213.2.1 テキストの抽出 21 3.2.2 文字コード 213.2.3 文字コードに関する用語の定義 223.2.4 符号化文字集合 23 3.2.5 文字エンコーディング 253.2.6 日本語における文字コード 25 3.2.7 多言語文字コード 28

コラム：「葛城市」？「葛城市」？ 30演習問題 30

iv 目次

第 4章索引付け 31

4.1 索引付けとは ························································································ 314.2 索引付けの手順 ····················································································· 31

4.2.1 語の切り出し 31 4.2.2 不要語の除去 314.2.3 接辞処理 32

4.3 索引語の重み付け ·················································································· 334.3.1 索引語頻度 33 4.3.2 逆文書頻度 344.3.3 TF・IDF 34

4.4 索引のデータ構造 ·················································································· 354.5 索引付けの実際 ····················································································· 374.6 索引を用いた検索 ·················································································· 38コラム：商品の型番による検索 38演習問題 38

第 5章検索モデル 40

5.1 ブーリアンモデル ·················································································· 415.1.1 ブーリアンモデル 415.1.2 ブーリアンモデルを用いた問合せの例 415.1.3 ブーリアンモデルを用いた検索の例 415.1.4 ブーリアンモデルの利点と欠点 41

5.2 ベクトル空間モデル ··············································································· 435.2.1 ベクトル空間モデルの概要 43 5.2.2 コサイン類似度 465.2.3 ベクトル空間モデルによる検索の例 475.2.4 ベクトル空間モデルの利点と欠点 48

5.3 確率モデル ···························································································· 495.4 検索モデルの比較 ·················································································· 52コラム：類似度と距離 52演習問題 53

第 6章問合せ処理・ユーザインタフェース 54

6.1 問合せ処理 ···························································································· 546.1.1 問合せ処理 54 6.1.2 問合せ拡張 556.1.3 スペル修正 56 6.1.4 適合性フィードバック 58

6.2 検索結果の出力インタフェース ································································ 59コラム：オートコンプリート 60演習問題 61

第 7章情報検索システムの性能評価 62

7.1 情報検索システムの性能評価の観点 ·························································· 62

目次 v

7.2 検索の有効性の評価尺度 ········································································· 637.2.1 再現率と適合率 64 7.2.2 再現率と適合率の関係 657.2.3 再現率 ̶適合率曲線 66 7.2.4 再現率・適合率の要約 68

7.3 情報検索テストコレクション ··································································· 69演習問題 72

第 8章分類・クラスタリング 73

8.1 分類とクラスタリングの定義 ··································································· 738.2 機械学習による分類の手順 ······································································ 748.3 単純ベイズ分類器による分類 ··································································· 76

8.3.1 ベイズの定理と文書分類の関係 768.3.2 ベイズの定理を用いた文書分類 77

8.4 クラスタリング ····················································································· 798.4.1 階層的クラスタリング 79 8.4.2 分割最適化クラスタリング 83

コラム：クラスタリングは意外と手軽にできます 84演習問題 85

第 9章ソーシャル検索 86

9.1 ソーシャル検索とは ··············································································· 869.2 タグを用いた情報への索引付け ································································ 87

9.2.1 統制語彙 87 9.2.2 フォークソノミー 889.2.3 タグの検索 89

9.3 タグの推定 ···························································································· 899.3.1 語の重要度を用いたタグの推定 909.3.2 機械学習による分類を用いたタグの推定 90

9.4 タグのブラウジング ··············································································· 909.5 情報推薦 ······························································································· 91

9.5.1 内容に基づくフィルタリング 93 9.5.2 協調フィルタリング 949.6 情報推薦の研究課題 ··············································································· 95コラム：良い口コミ，高い評価は疑ってかかったほうがよい？ 96演習問題 97

第 10章各種メディアの検索 98

10.1 文書と，各種メディアの検索の違い ························································· 9810.2 各種メディアの検索手法の概要 ······························································· 99

10.2.1 テキストによる検索 99 10.2.2 コンテンツによる検索 10110.2.3 意味情報による検索 101

10.3 XML文書検索 ··················································································· 10110.3.1 XML文書で可能な検索方法 103

vi 目次

10.3.2 XML文書検索の課題 105コラム：検索エンジンのオプションを活用しよう 107

第 11章多言語情報アクセス 108

11.1 多言語情報アクセスとは ······································································ 10811.2 多言語情報アクセスが必要とされる場面 ················································ 10911.3 言語横断情報検索 ··············································································· 109

11.3.1 訳語曖昧性の解消手法 110 11.3.2 言語横断情報検索の例 11111.4 検索結果の機械翻訳 ············································································ 112

11.4.1 機械翻訳方式の分類 112 11.4.2 トランスファ方式 11311.4.3 多言語情報アクセスの将来 114

演習問題 114

第 12章テキストマイニング 115

12.1 テキストマイニングとは ······································································ 11512.2 テキストからの単語の抽出 ··································································· 116

12.2.1 単語の重要度の評価 117 12.2.2 単語の共起関係の評価 11812.3 テキストからの単語の役割の抽出 ·························································· 12012.4 テキスト集合の特徴分析 ······································································ 121

12.4.1 アソシエーション分析 12212.4.2 サポートベクタマシンによるテキストの分類 124

コラム：質問応答システム・意思決定支援システム Watson 127演習問題 128

第 13章情報可視化 129

13.1 情報可視化とは ·················································································· 12913.2 情報可視化のための要素 ······································································ 12913.3 情報可視化の例 ·················································································· 130

13.3.1 階層構造の表現 130 13.3.2 フローの表現 13213.3.3 メタファを利用した情報可視化 134

コラム：可視化でタバコのポイ捨てを防ぐ 137

演習問題解答 139参考文献 145索引 147

執筆分担1～4, 6, 7, 11章：前田5, 8～10, 12, 13章：西原

1

第1章

情報アクセス技術の概要

まえがきでもふれたように，近年，大量の情報資源の中から必要な情報を効率的に見つけ出すための技術がますます重要になってきている．インターネット上の膨大な情報の中から利用者にとって有用な情報を見つけ出す GoogleやYahoo! などのWeb 検索エンジンは，今や社会に欠かせない重要な基盤技術となっている．最近では，Web 検索エンジンのように単に必要な情報を検索するだけでなく，利用者の嗜好に合った商品やサービスなどの情報を推薦してくれる情報推薦技術や，膨大なテキストデータの中から隠れた重要な情報を発掘してくれるテキストマイニングなどの技術が出現してきており，このような情報技術のことを，情報アクセス技術とよび，本章で概観する．とくに，最も古くからある情報アクセス技術であり，近年盛んに開発されている各種情報アクセス技術の基盤となっている情報検索の技術について，その歴史と概要を述べ，さらに典型的な情報検索システムの構成を説明する．なお，情報検索技術については，本書の前半（第 2章～第 7章）でより詳しく説明する．

1.1 情報検索とは

情報検索は，英語で information retrieval と表記される．このうち infor-mation（情報）は，一般によく使われる用語であり，おそらく読者にも馴染みがあると思われる．一般に「情報」「データ」「知識」などの用語は，明確な区別なしに使われることが多いが，情報技術の分野における「情報（information）」の定義は，「ある決められた表現方法によって伝えられる，意味をともなったデータ」（『計算機科学の基礎』[1]）である．すなわち，人間にとって何らかの意味をもったデータが情報である．一方，retrieval（検索）は，多くの読者にとってあまり馴染みのない用語であ

ると思われる．これは，英語の動詞 retrieveの名詞形であり，「どこかにあったものを手元に取り戻す」というような意味をもっている．ちなみに，猟犬の一種である「レトリバー（retriever）」は，狩りのときに「獲物を捕って戻ってくる」ように訓練されており，そのために動詞 retrieveに行為者を表す接尾辞-erを付けて retrieverという名前が付けられている（図 1.1）．なお，retrieval

2 第 1 章情報アクセス技術の概要

図 1.1 ゴールデンレトリバー（出典：flickr/Dirk Vorderstraße, https://www.flickr.com/photos/dirkvorderstrasse/10577749343/, Creative Commons Attribution 2.0 Generic）

という用語は，最近の英語辞書ではコンピュータ用語としても掲載されている場合が多く，この場合は「コンピュータの記憶装置に格納されている情報を取り出す，あるいは調べる行為」という意味になる．したがって，「情報検索」とは，何らかの情報資源から必要な情報を見つけ出すことであると理解できるだろう．情報検索の対象となる情報資源は，文字情報（文書）であることが多いが，近年では文書に限らず，画像・映像・音声・音楽など，さまざまなメディア情報の検索技術が発展してきている．これらの技術については第 10章で詳しく紹介する．なお，最近では「検索」の代わりに「サーチ（search）」という用語が使われることも多い．Webサーチエンジンなどはその例である．searchも日本語にすると「検索」と訳される場合が多く，retrievalと似たような意味であるが，あえて違いを挙げると，retrievalは上で説明したように「すでにあるとわかっているものを見つけてくる」のに対し，searchは「対象が見つかるかどうかわからないが，とにかく探してみる」というようなニュアンスの違いがある．その意味で，たとえば図書館の本の検索は retrievalが適切であるが，Web検索は searchのほうがより適切であるといえる．また，情報検索はデータベースの検索と似ているが，明確な違いがある．いわゆるデータベース管理システム（DataBase Management System: DBMS）で管理されるような表形式のデータの検索では，あるクエリ（問合せ）に対する検索結果は，対象のデータが同じであれば一意に定まる．たとえば，ある銀行における口座情報のデータベースから，「A支店の普通預金口座で預金残高

1.2 情報アクセスとは 3

が 1,000円未満の口座の名義と口座番号を知りたい」という問合せに対する検索結果は，対象のデータベースの中身が同じであれば，どのデータベース管理システムを用いていたとしても同じでなければいけない．これに対して，一般に情報検索では，ある問合せに対する検索結果は一意に

定まらない場合が多い．たとえば，同じ「オリンピック」という問合せを二つの異なるWeb検索エンジン（たとえば Googleと Bing）で検索してみてほしい．おそらく検索結果の上位 10件を見ただけでも，検索されるWebページやその順序は異なっているはずである†．情報検索においては，データベース検索のように問合せに一致する結果を得

るというだけでなく，より適切な結果（通常は文書）を上位にもってくることが重要であり，このための技術をランキングとよぶ．ランキングは，検索対象の情報が大量になるほど重要性が増すものであり，さまざまな手法が開発されている．これらの技術については，第 5章で詳しく説明する．また，問合せに対する検索結果がどの程度適切であるかを客観的に評価する方法について，第7章で詳しく説明する．

1.2 情報アクセスとは

前節で情報検索技術について説明したが，本章の冒頭でも述べたとおり，情報検索技術は，各種情報アクセス技術の基盤となるものである．では，情報アクセス技術とはどのようなものだろうか？これは，文字どおり，情報にアクセスするための技術の総称であり，情報検

索技術だけでなく，

•情報の内容に応じて自動的に分類する技術（自動分類・クラスタリング）•利用者にとって有用と思われる情報を提示したり，逆に利用者にとって不要な情報を削除したりする技術（情報推薦・フィルタリング）

•利用者の母国語以外の言語で書かれた情報へのアクセスを支援する技術（多言語情報アクセス）

•大量のテキスト情報の中から隠れた知識を発見する技術（テキストマイニング）

† ただし，各検索エンジンがまったく同じデータをもっているわけではないことに注意する必要がある．


•抽出した情報を整理して利用者にとってわかりやすい形で提示する技術（情報可視化）

など，さまざまな情報技術がこれに含まれる．これらについては，本書の後半（第 8章～第 13章）で詳しく述べる．

1.3 情報検索の歴史

1.1節において，情報検索とは「何らかの情報資源から必要な情報を見つけ出すこと」であると説明したが，このようなことは，コンピュータが出現する以前から必要とされていたことは想像できるだろう．では，コンピュータ出現以前はどのような形で情報検索が行われていたのだろうか？本節では，現在に至るまでの情報検索技術の発展の歴史を概観する．

1.3.1 計算機以前の情報検索コンピュータの出現以前からある情報検索の方法の一つとして，図書館における蔵書の検索を挙げることができる．現在の図書館では，蔵書の管理はコンピュータで行われることが多いが，かつては，カード目録という紙媒体の目録が広く用いられていた．カード目録には，書名目録・著者名目録などがあり，図 1.2に示すような多数の引き出しがある棚に，アルファベット順などでカードが並べられ，利用者はまず目的の書名・著者名が含まれる引き出しを探し，その中に格納されているカードをめくって，目的の書籍の情報（配架棚）を見つけ出すという手順であった．

図 1.2 カード目録が格納されている棚の例（出典：Wikimedia/Dr. M. Gossler, https://commons.wikimedia.org/wiki/File:Schlagwortkatalog.jpg,GNU Free Documentation License 1.2 / Creative Commons Attribution-Share Alike 3.0 Unportedlicense）

1.5 情報検索システムの全体像 9

図 1.5 情報要求の四つの段階

にどのような検索式を入力すれば目的の情報が得られるかがわかっている状態である．ここで，検索式とは，利用者が情報検索システムに入力する内容のことであり，情報要求をキーワードやそれらをつなぐ演算子（第 5章で詳しく説明する）などで表現したものである．本書では，このような検索式を含む，利用者の情報要求を情報検索システムに入力できる形で表現したものを，問合せ（query）とよぶ．上記のように，情報要求は Q1 のような漠然とした状態から，Q4 のような

具体的な状態まで，さまざまな段階が存在する．情報検索システムは，本来はQ1 や Q2 のような漠然とした状態から，利用者が必要な情報を見つける作業を支援することが理想であるが，現状の情報検索システムは，ほとんどが Q3

あるいは Q4 の段階になって初めて利用できるものである．

1.5 情報検索システムの全体像

本章では，情報アクセス技術について概観したが，終わりに，その基盤となる情報検索システムについて，利用者とシステムとのやりとりの全体像を示す．典型的な情報検索システムにおける処理の流れを図 1.6に示す．ここで，文書集合（document collection）とは，その情報検索システムで検

索対象とする文書群のことである．また，索引（index）とは，1.3.2項で簡単に説明したが，検索を高速化するために，あらかじめ文書集合から作成しておくデータ構造のことである．索引には，どの単語がどの文書に含まれるかという情報などが格納される．索引付け（indexing）とは，文書集合の各文書中から索引に用いる索引語（index term）を抽出し，索引を作成する処理のことである．索引の構造および索引付けの方法については，第 4章で詳しく説明する．一方，何らかの情報要求をもっている利用者は，それを言語化して情報検索


図 1.6 情報検索システムにおける処理の流れ

システムに問合せとして入力する．問合せはシステムの内部表現に変換され，これと索引との照合・ランキングが行われる．これにより，利用者の問合せに対する検索結果が得られ，利用者に返される．この検索結果が利用者の情報要求を満たしていれば，検索は終了する．満たしていない場合は，利用者は問合せを修正して再び検索を行う．情報検索システムは，大まかには以上のような流れで処理を行う．第 2章では，情報検索システムを構成する各構成要素について，より詳しく説明する．

コラム：ロボット型検索エンジンとディレクトリ型検索エンジン現在のWeb検索エンジンは，利用者が入力したキーワードからWebページを検索するものが主流となっています．このような検索エンジンは，あらかじめWebロボットあるいはクローラとよばれるソフトウェアによって世界中のWebページを収集しておき（詳しくは 3.1.1項で説明），これらを対象に検索を行うことから，ロボット型検索エンジンとよばれます．これに対して，人手で収集したWebサイトを分野ごとに分類しておき，利用者が分類の階層をたどったり，キーワードを入力することで目的のサイトを見つけるためのサイトのことを，ディレクトリ型検索エンジンあるいはWebディレクトリとよびます．ディレクトリ（directory）とは，もともとは住所録や電話帳などの意味で，情報を何らかの基準で分類・整理したものを指します．

40

第5章

検索モデル

第 2章で説明した情報検索システムの構成をもう一度思い浮かべてみよう．文書が収集されると，まず，文書を特徴付ける索引語が抽出される．その後，それぞれの文書は索引語の集合として表現された．検索システムは，利用者が問合せを入力すると，問合せに応じて，利用者が求める文書を返すものであった．利用者が求める文書を返すためには，問合せの内容と文書の索引語が近いものを探す必要がある．近いものを探すには，たとえば，問合せに含まれる単語と文書内の索引語が一致するかどうかを調べる（マッチングをとるともいう）ことで達成される．調べた結果，複数の文書が見つかった場合は，図 5.1に示すように，より利用者の問合せの内容に近い順にランキングすることも必要になってくるだろう．本章では，利用者の問合せと文書の比較，および文書のランキング方法について説明する．比較のためのさまざまな検索モデルが提案されているが，本章では，5.1節にてブーリアンモデル，5.2節にてベクトル空間モデル，5.3節にて確率モデルについて説明する．

図 5.1 文書のランキングの様子

5.1 ブーリアンモデル 41

5.1 ブーリアンモデル

本節では，ブーリアンモデルについて説明し，その後，ブーリアンモデルを用いた検索方法を，例を挙げて説明する．

5.1.1 ブーリアンモデルブーリアンモデルとは，利用者の問合せをブール代数に基づく論理式によ

り表現し，文書とのマッチングをとるモデルである．ブール代数では，AND,OR, NOTと三つの演算子が定義されている．この三つの演算子を用いて問合せを表現し，文書とのマッチングに用いる．

5.1.2 ブーリアンモデルを用いた問合せの例ブーリアンモデルを用いた問合せは，利用者の要求を表す単語と演算子の組

合せにより構成される．たとえば，利用者の要求が，「滋賀県でクライミングか山登りができる公園を知りたい」だとする．この場合の問合せは

「滋賀県 AND (クライミング OR 山登り) AND 公園」

となる．問合せ中の「滋賀県」「クライミング」「山登り」「公園」は検索語とよばれる．

5.1.3 ブーリアンモデルを用いた検索の例ブーリアンモデルを用いると次のような検索ができる．先に作成した問合せ

を用いて検索を実行すると，文書集合から問合せにマッチする文書のみが抽出され，利用者に返却される．すなわち，「滋賀県」と「公園」の両方を含み(AND)，「クライミング」または「山登り」のいずれかを含む (OR)文書のみが抽出される．図 5.2では，1番，2番，3番の文書は利用者に返却され，4番の文書は返却されない．理由は 4番の文書には，「滋賀県」が含まれないためである．検索語を含む文書間の関係をベン図で表現すると，図 5.3のようになる．アミ掛けした範囲に存在する文書が返却されることになる．なお，NOT演算子は検索語を含まないこと，つまり条件の否定を表す．

5.1.4 ブーリアンモデルの利点と欠点ブーリアンモデルの利点と欠点を紹介する．ブーリアンモデルの利点は，検

索語どうしの関係を明示的に記述でき，複雑な検索要求にも対応できることで

42 第 5 章検索モデル

図 5.2 「滋賀県 AND (クライミング OR 山登り) AND 公園」を問合せとした際に返却される文書集合の例

図 5.3 図 5.2 の例を表したベン図

ある．利用者は求める情報を検索語により表現し，その関係を ANDと ORとNOTにより表現するだけで，文書を得ることができる．利用者は問合せを直感的に作成しやすい．一方で，ブーリアンモデルでは，検索語を「含む」または「含まない」の 2択しかない．すなわち，検索語を「部分的に含む」や，検索語に「類似した語を含む」といった中間の値は扱うことができない．さらに，文書中の検索語の頻度は考慮しない．先の問合せの例であれば，探しているものは「公園」であり，これが最も重要な単語と考えられる．したがって，「公園」について多数言及されている文書のほうが望ましい可能性があるが，考慮することはできない．これらの理由から，ブーリアンモデルでは，検索結果の文書集合を，問合せとの近さに基づきランキングすることはできない．ランキングするためには，他のモデルを利用する必要がある．

5.2 ベクトル空間モデル 43

5.2 ベクトル空間モデル

本節ではベクトル空間モデルの概要を説明し，問合せと文書の類似度を評価するためのコサイン類似度の算出方法を説明する．その後，ベクトル空間モデルを用いた検索の例を説明する．

5.2.1 ベクトル空間モデルの概要ベクトル空間モデルは，文書を単語の塊とみなし，ある単語が文書内に含ま

れる数値などをベクトルとして表現する．高校の数学で 2次元平面上のベクトルを履修された方がいれば，方向と大きさをもった，あの矢印を思い浮かべてもらえればよい．ベクトルでは，たとえば (x, y)という二つの数値の組を，x

軸と y 軸の二つの軸が張る 2 次元平面上に原点から伸びる矢印で表す．同様に，文書のベクトル空間モデルは，たとえば文書中の単語 X, Yの数 x, y をベクトルとして表現する．ベクトル空間モデルでは，文書は索引語によりベクトルとして表現される．

同時に，利用者の問合せも検索語によりベクトルとして表現される．2本のベクトルの向きと大きさを用いて，問合せと文書の類似度を評価するモデルである．図 5.4に示すように，単語である「クライミング」「山登り」を軸にし，文書中に含まれる各単語の数などを値とすると，文書をベクトルで表現することができる．ベクトルは方向と大きさをもつ．二つのベクトルがあり，方向と大きさが同じであれば，二つのベクトルは同一である．方向と大きさに大差がないほど，二つのベクトルは似ている．図 5.5に示すように，図 (a)の 2本のベクトルは似ていて，図 (b)の 2本のベクトルは（図 (a)ほど）似ていないと評価できる．実際には，文書中には 2個よりも多くの単語が含まれるため，文書

図 5.4 文書のベクトル表現

44 第 5 章検索モデル

図 5.5 ベクトルを用いた文書の類似度の比較

のベクトル表現ではベクトルの次元数が単語の数だけある．次元数が増えると図で表現することが困難になり，想像がしづらくなるが，以降の説明は 2次元または 3次元で考えていただければ理解がしやすくなると思われる．ベクトル空間モデルによる方法では，まず，文書を特徴付ける索引語を何らかの方法により抽出し（第 4章参照），索引語をベクトルの成分としてその索引語の重みを各成分の値とする．これにより，文書は索引語の m次元ベクトルとして表現される．これを文書ベクトルという．mは文書集合中の各文書から抽出された索引語の種類数である．

j 番目の文書 �dj に含まれる i番目の索引語を dij とすると，文書 �dj のベクトルは式 (5.1)で表現される．

�dj =

⎡⎢⎢⎢⎢⎢⎣

d1j

d2j

...dmj

⎤⎥⎥⎥⎥⎥⎦

(5.1)

文書集合 D 中に n個の文書があり，各文書に対して式 (5.1)を適用すると，n個の文書ベクトルができる．各文書のベクトルを横に並べていくと，文書集合Dが式 (5.2)のように，行列として表現できる．この行列を索引語 ̶文書行列とよぶ．

D =

⎡⎢⎢⎢⎢⎢⎣

d11 d12 . . . d1n

d21 d22 . . . d2n

......

. . ....

dm1 dm2 . . . dmn

⎤⎥⎥⎥⎥⎥⎦

(5.2)

11.3 言語横断情報検索 109

図 11.2 Web サイトの言語別の割合（2017 年 6 月 21 日現在，出典：Q-Success, Usage Statisticsand Market Share of Content Languages for Websites, https://

w3techs.com/technologies/overview/content_language/all）

多言語情報アクセス技術により，利用者の母国語だけでなく，他の言語の情報源からも情報を入手し活用することが可能となる．

11.2 多言語情報アクセスが必要とされる場面

すでに述べたように，情報アクセス技術の基盤となっているのが情報検索技術である．通常の情報検索では，検索対象の文書集合が書かれている言語と利用者が問合せに用いる言語が同じであることが前提となっている．したがって，利用者が日本語で問合せを入力すれば，検索結果は通常日本語で書かれた文書のみとなる．これでは，Web 全体の膨大な情報の 6% しか活用できていないことになる．また，検索要求によっては，利用者の母国語の文書だけでなく，他の言語の

文書も探したいという場合がある．たとえば，ある国で起きた事件に関するニュースは，日本語のニュースサイトよりもその国で使われている言語のサイトのほうが情報が豊富であると考えられる．

11.3 言語横断情報検索

前節で述べたような要求に対応する技術として，言語横断情報検索という技術がある．これは，ある言語で書かれた文書群を，別の言語による問合せで検

110 第 11 章多言語情報アクセス

索することを可能とする情報検索の技術である．言語横断情報検索には，いくつかのアプローチがある．一つは，検索対象の文書群をあらかじめ翻訳しておく方法である．あらかじめ翻訳した文書群を索引付けしておけば，通常の情報検索と同じ手法で他の言語による問合せが可能となる．しかし，Web のように大規模で多言語かつ更新が頻繁な文書群に対しては，この手法は現実的ではない．もう一つのアプローチとして，利用者が入力した問合せをその場で翻訳する方法が考えられる．この手法では，翻訳された問合せは，既存の検索システムにそのまま適用可能であり，あらかじめ膨大な文書群を翻訳しておく必要がない．ただし，問題点として，問合せを辞書を用いてそのまま翻訳しただけでは，訳語の曖昧性が生じる．たとえば，英語の bankという単語は，日本語の「銀行」という意味の他に，

「堤防」「土手」「川岸」といった意味をもっている．また，英語の craneという単語は，日本語で鳥の種類である「鶴」という意味と，機械の「起重機（クレーン）」という意味をもっている．言語横断情報検索では，問合せを翻訳するアプローチがとられる場合が多いが，その場合上記のような訳語曖昧性を解消する必要がある．

11.3.1 訳語曖昧性の解消手法上で述べたような訳語の曖昧性を解消する手法として，検索対象言語のコーパス中における単語の共起傾向を利用した手法がある．単語の共起傾向とは，単語間の関連の強さを測る統計量である．コーパス（corpus）とは，統計的な解析を行うために多数の文書を収集したものである．コーパスは，新聞記事・論文・特許など，分野が限定されているものが多いが，次項では，Web文書をコーパスとして用いて訳語曖昧性を解消する手法について述べる．Web 文書は多様な分野にわたる膨大な量の言語資源であり，コーパスとして有用であると考えられる．しかし，膨大なWeb文書群をすべて収集するのは現実的ではない．ここでは，文書を収集することなく，Web 検索エンジンでのヒット数を共起頻度とみなして訳語曖昧性解消を行う手法を紹介する．

11.3 言語横断情報検索 111

11.3.2 言語横断情報検索の例前項で説明した訳語曖昧性解消手法を利用した言語横断情報検索における，

問合せ翻訳の流れを図 11.3に示す．

図 11.3 言語横断情報検索における問合せ翻訳の流れ

ここで，利用者の母国語による問合せは，まず単語ごとに対訳辞書を用いて検索対象文書の言語に翻訳される．このとき，一般に単語は多義性をもつため，複数の訳語候補が得られる．次に，得られた各訳語候補の組合せについて，Web検索エンジンのヒット数から単語共起頻度を取得し，共起傾向を求める．通常，単語共起頻度は，前項で述べたように検索対象言語の単言語コーパスから得る場合が多いが，Web 検索エンジンのヒット数を用いることで，より大規模で広範な分野の文書集合から共起傾向を得ることができる．最後に，共起傾向が高い訳語の組を曖昧性が解消された問合せとして出力する．この出力を既存の検索システムの問合せとして用いることで，言語横断情報検索が実現できる．単語の共起傾向を用いた訳語曖昧性解消の例を図 11.4 に示す．この例で

は，英語の問合せ「bank money trade」に対し，問合せ中の各単語の日本語による訳語候補を取得し，元の 3単語に対するすべての訳語候補の組合せに対して，前項で述べた手法を用いて共起傾向を求めている．その結果，この例では「銀行通貨貿易」と「銀行資産商売」が英語の問合せに対する訳語の組として選択されている．人間は，英語の問合せ「bank money trade」の単語の組

115

第12章

テキストマイニング

情報にアクセスする利用者は，自らの嗜好に合致する情報や，現在話題になっている情報を得たいと考えられる．これまでに紹介した検索技術では，利用者の興味が問合せとして表現されると，問合せに合致する情報を得ることができた．一方で，利用者の興味の外にある情報は，検索では手に入りにくい．現在話題となっている情報を，問合せの入力をともなう検索で得ることは難しい．大量の情報の中から，有用な情報を掘り起こすには別の技術が必要となる．本章では，大量のテキストデータから，有用な情報を掘り起こす技術として，

テキストマイニングを紹介する．

12.1 テキストマイニングとは

テキストマイニング（text mining）は，テキストの英語表記である textと，「掘り起こす」を意味する英語 mining を組み合わせた語句である．テキストデータの中から有用な情報を発掘するということから名付けられた．テキストデータとは，文字のみで表現されたデータを指す．例としてWebページのテキストや，図書のテキストといった文書データがある．テキストマイニングを情報アクセス技術として使うシーンを，例を挙げて説

明しよう．

例：ある学生 Aが夏休みの旅行先をWebの検索エンジンを用いて検討しているシーンについて考える．A君はバックパッカーで，今年の夏休みには海外に魚釣りに出かけようと考えているとする．彼は，旅行先を決めるために「東南アジア魚釣り」という問合せを作り，検索エンジンでWebページ検索した．多くのWebページが検索にひっかかったが，どういう魚が釣れるのか，どういうポイントで釣るのかなどがよくわからない．情報が整理されていないためだと感じた A君は，Webページのテキストに含まれる情報を自分で整理することにより，魚やポイントの情報を得ることにした．しかし，Webページの数が多すぎて，一つ一つ読んで，手作業で整理していては旅行に行くことがままならない．情報検索だけでは，必要な情報が手に入

116 第 12 章テキストマイニング

れられない．このようなときにテキストマイニングの技術を用いると，必要な情報を手に入れることができる．たとえば，釣れる魚を表す単語，釣りができるポイントなどを表す単語を抽出することができる．さらに，どういう魚が好まれて釣られているか，どのポイントでどの魚が釣れるかという対応付けられた情報も抽出することができる．加えて，釣りをするポイントの良し悪しの評価や，素人が釣りをするポイント，プロが釣りをするポイントといった主体と場所の関連が対応付けられた情報も抽出できる可能性がある．

12.2 テキストからの単語の抽出

テキストは文字により構成されるが，意味をもつより小さい単位は単語と考えられる．テキストマイニングを行うためには，まずテキスト中の単語を抽出する必要がある．単語とは，意味をもつまとまりで，文法上一つの機能をもつ最小の言語単位であり，一つ以上の形態素からなる．形態素とは意味をもつ最小の単位である．日本語のテキストは形態素が区切りなく記されている．英語では単語と単語の間にスペースがあるため，単語の抽出はスペースごとに区切ることで比較的容易に抽出できるが，日本語のテキストはそうはいかない．日本語のテキストから形態素を抽出するために，形態素解析器を用いることが多く，ChaSenなどのフリーソフトウェアが利用できる（2.2.2項参照）．

例： ChaSenを用いて「さくらさくら」（作者不明）のテキストから形態素を抽出した例を図 12.1に示す．図では 1行に 4から 6個の情報が記述されている．各行の 1列目は入力したテキスト中の形態素（表記のまま）であり，

図 12.1 「さくらさくら」の歌詞のテキストを形態素解析にかけた例

129

第13章

情報可視化

これまでに紹介した技術を用いて，大量の情報の中から求める情報を抽出することが可能になった．一方で，抽出された情報は人がわかりやすい形で整理されてはおらず，何らかの方法でわかりやすい形で示す必要がある．本章では，抽出された情報をわかりやすく示すための，情報可視化の技術を紹介する．

13.1 情報可視化とは

情報可視化とは，数値やテキストなどで表された情報の特徴を捉えて，特徴がわかりやすく，比較しやすい形で可視化することを指す．たとえば，一日の気温を 1時間ごとに記録した数値データがあり，一日の気温の変化や最高温度と最低温度の差を知りたい場合には，データを折れ線グラフとして表現することにより，これらの情報を得られる．第 9章で紹介した図 9.2のタグクラウドも，単語の重要度を文字のサイズに対応させた可視化の一例である．このように，知りたい特徴に適した表現方法で可視化することが重要になる．

13.2 情報可視化のための要素

数値やテキストといった文字で表現されたデータを，視覚的に表現し直すためには，点，線，面などを組み合わせた図画の要素を用いる必要がある．本節では，情報可視化のための要素として，有向グラフ，無向グラフ，ヒストグラム，折れ線グラフ，円グラフについて紹介し，図 13.1に要素の例を示す．学術用語のグラフとは，要素をノードとよばれる点，要素間の関係をエッジ

とよばれる線を使って描かれる図であり，要素間の関係の全体像を可視化する際に用いられる．関係を表すエッジには，矢印の向きがつけられていることがあり，そのようなグラフを有向グラフとよぶ．矢印がないものは無向グラフとよぶ．無向グラフはネットワークとよばれることが多い．有向グラフの例としては，飛行機の路線図があり，空港がノード，空港を結ぶ便がエッジ，飛行機が飛ぶ方向に矢印がつけられている．無向グラフの例としては，人物相関図などがある．重要なノードとそうでないノードを区別したい場合は，ノードの大きさに変化をつけることで表現ができる．同様に，重要なエッジとそうでない

130 第 13 章情報可視化

図 13.1 情報可視化のための要素の例

エッジを区別したい場合は，エッジの太さに変化をつけることで表現ができる．ヒストグラムとは縦軸に度数，横軸に階級をとった統計のグラフの一種である．データの階級ごとの分布を可視化する際に用いられる．折れ線グラフとは，縦軸と横軸に別々の指標で表現される値をもたせ，各データを縦軸と横軸で区切られた平面上にマッピングし，線でつないだものである．線でつなぐ順番は時間経過の順などと定められている．円グラフとは，丸い図形を扇形に分割し，データの構成比率を表現するものである．各データを一つの指標で分けてクラスタを作り，全データ数に対するクラスタ内のデータの割合などを表現することができる．

13.3 情報可視化の例

本章では，情報の複雑な構造をわかりやすく表現するための方法を紹介する．

13.3.1 階層構造の表現8.4節で紹介したデンドログラムは可視化の一例で，階層構造を表現している．クラスタリングではクラスタ間の距離を評価し，距離の近いものをまとめることで階層構造を構成し，2次元の図として表現している．情報アクセスにおいては，利用者はシステムと対話的に操作を行う．その際，可視化された結果を眺めて，再度別の角度からアクセスを試みることも想定される．可視化においては多くの場合，コンピュータのディスプレイ上で行われるので，2次元

147

索引

▶英数字11点補間適合率 67Bag of Wordsモデル 46CLEF 70Dice係数 119EUC 27EUC-JP 27F 値 69HTML 21IDF 33ISO-2022-JP 27Jaccard係数 119K-means法 83NTCIR 70Okapi BM25 117OPAC 7Simpson係数 119TF 33TF・IDF 33, 45, 90, 117TREC 70Unicode 28UTF-8 28UTF-16 28Webロボット 19XML 102

▶あ行アソシエーション分析 121アソシエーションルール 122異体字セレクタ 30一次資料 7ウォード法 83

エッジ 129円グラフ 130演算子 41オートコンプリート 60折れ線グラフ 130

▶か行階層的クラスタリング 79, 83係り受け解析器 120確信度 122確率モデル 49カテゴリ 73カード目録 4感性情報 101完全連結法 81関連語辞書 55機械学習 74機械翻訳 112木構造 131逆文書頻度 33, 34共起関係 118共起傾向 110共起の頻度 118教師あり学習 74教師なし学習 74, 79凝集型クラスタリング 80協調フィルタリング 94クエリ 2クラス 73クラスタ 73クラスタリング 3, 73, 79クラスラベル 76

148 索引

グラフ 129クローラ 14, 19クローリング 19群平均法 82訓練データ 75形態素 15, 31, 116形態素解析 15, 31形態素解析器 15, 116言語横断情報検索 109検索 1検索結果の出力 54検索語 41検索式 8構文トランスファ方式 113効率性 62コサイン値 46コサイン類似度 43, 46コーパス 110コミュニティ 86コーンツリー 131コンテンツベースフィルタリング 93

▶さ行再現率 64サイトリンク 60索引 7, 9, 31索引語 9, 40, 87索引語頻度 33索引語 ̶文書行列 44索引付け 9サジェスト 60サーチ 2サポートベクタマシン 121サンキーダイアグラム 133支持度 122辞書 117シソーラス 55, 89自動分類 3自動要約 59シフト JIS 25重心法 82

重要度 117樹形図 80情報 1情報アクセス技術 1情報可視化 4, 129情報検索 1情報推薦 3, 91情報フィルタリング 91情報要求 8スキーマ 106ストップワード 32ストリームグラフ 132スニペット 59スペル修正 55, 56精度 64接辞処理 32全文検索 7相関ルール 122相互情報量 119ソーシャル検索 86ソーシャルメディア 87

▶た行タグ 87タグクラウド 90タグのリスト 90多言語情報アクセス 3, 108単語の極性 120単純ベイズ分類器 76単連結法 81逐次探索方式 6ツリーマッピング 131ディレクトリ型検索エンジン 10適合性フィードバック 17, 49, 54, 58適合率 64テキストマイニング 3, 115デスクトップ検索 15テストデータ 76データベース管理システム 62転置索引 16, 35デンドログラム 80, 130

索引 149

問合せ 2, 9問合せ拡張 17, 54, 55問合せ言語 17問合せ候補の表示 55問合せ処理 54問合せの入力 54問合せログ 55統制語彙 88トランスファ方式 113

▶な行ナイーブベイズ分類器 76内容に基づくフィルタリング 93二次資料 7日本十進分類法 5ノード 129

▶は行パターン認識 124非階層的クラスタリング 83ピーカブーシステム 6ヒストグラム 130フィルタリング 3フォークソノミー 88符号化文字集合 22不要語 31ブーリアンモデル 41ブール代数 41フロー 132プロファイル 91, 93分割型クラスタリング 80分割最適化クラスタリング 79, 83文書 ID 16文書集合 9文書頻度 34文書ベクトル 44分類 73

分類法 5平均適合率 69ベイズの定理 50, 76ベクトル 43ベクトル空間モデル 43ベルヌーイ分布 78編集距離 56ベン図 41補間適合率 67ポスティングリスト 36

▶ま行マイクロフォーマット 59マージン 125マッチング 40無向グラフ 129メジアン法 83メタデータ 7, 99メタファ 134文字エンコーディング 25文字コード 21文字集合 22文字符号化方式 22

▶や行訳語曖昧性 110有向グラフ 129有効性 62

▶ら行ランキング 3, 40, 42リッチスニペット 60リフト 122類似度 43, 81レーベンシュタイン距離 56連想配列 37ロボット型検索エンジン 10

著者略歴前田亮（まえだ・あきら）

1995年図書館情報大学図書館情報学部卒業1997年図書館情報大学大学院図書館情報学研究科修士課程修了1999年日本学術振興会特別研究員 DC22000年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了同　年日本学術振興会特別研究員 PD2001年科学技術振興事業団 CREST研究員2002年立命館大学理工学部助教授2004年立命館大学情報理工学部助教授2007年立命館大学情報理工学部准教授2011年立命館大学情報理工学部教授

現在に至る，博士（工学）

西原陽子（にしはら・ようこ）2003年大阪大学基礎工学部卒業2005年大阪大学大学院基礎工学研究科博士前期課程修了同　年日本学術振興会特別研究員 DC12007年大阪大学大学院基礎工学研究科博士後期課程修了同　年日本学術振興会特別研究員 PD2008年東京大学大学院工学系研究科助教2009年東京大学大学院工学系研究科講師2012年立命館大学情報理工学部准教授

現在に至る，博士（工学）

編集担当千先治樹（森北出版）編集責任富井晃（森北出版）組版ウルス印刷エーヴィスシステムズ製本ブックアート

情報アクセス技術入門情報検索・多言語情報処理・テキストマイニング・情報可視化

© 前田亮・西原陽子 2017

【本書の無断転載を禁ず】2017 年 8月 31日第 1版第 1刷発行

著者前田亮・西原陽子発行者森北博巳発行所森北出版株式会社

東京都千代田区富士見 1–4–11（〒102–0071）電話 03–3265–8341／ FAX 03–3264–8709http://www.morikita.co.jp/日本書籍出版協会・自然科学書協会会員

＜（社）出版者著作権管理機構委託出版物＞

落丁・乱丁本はお取替えいたします．

Printed in Japan／ISBN978–4–627–88041–2

「情報アクセス技術入門」 サンプルページ · ii まえがき...

Documents

「情報アクセス技術入門」サンプルページ · ii まえがき...