情報検索演習第 2 回

1

情報検索演習第 2 回

2005 年 10 月 05 日後期水曜 5 限

江草由佳国立教育政策研究所

[email protected]

前から 4 列目までに着席すること

2

今日のおしながき• 講義内容

– レコードと検索フィールド– 情報検索の理論

• 論理演算子（ AND,OR,NOT ）• 位置演算子（隣接演算子、近接演算子）• トランケーション（前方一致、後方一致、中間任意、中間一

致）– データベースのファイル構成

• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル

– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度

3

レコードと検索フィールド(1) 　– 18p.

• レコード– データベースに収録されている個々の論文や

新聞記事などの情報単位– レコードの内容はデータベースの種類や内容

によって異なる• 検索フィールド

– レコードは複数の検索フィールドからなる– 例）レコード番号、論題、著者名

p.? はテキストのページ数

を表す

4

レコードと検索フィールド (2)

レコードレコードレコードレコード

論題 Reading― 速読・多読について考える著者名清水由理子請求記号 P343-5C2-14掲載誌名獨協大学外国語教育研究 14発行年月 1995.12掲載ページ数 p.273 ～ 282登録日 19970930

請求記号フィールド

発行年月フィールド

著者名フィールド論題フィールド

掲載ページ数フィールド登録日フィールド

掲載誌フィールド

5

情報検索の理論 (1) —p.20

• コンピュータ検索では論理演算の概念が基本

1. データベース全体から合致するものを検索し

2. 論理積、論理和、論理差の集合の概念をもちいて、広げたり、狭めたりして検索

• 情報検索の理論の説明のために、ＪＯＩＳで使われているコマンドを利用するが、コマンドはシステムによって様々である。

6

情報検索の理論 (2) —p.20(1) 論理演算子 – p.20

• 論理積（ AND ）– Ａという検索語を持つ情報の集合と B という

検索語をもつ集合の両方を含む部分を検索すること

– 情報を絞り込んでいくときに有用– 例：「高校におけるコンピュータ教育」– 検索式：”高校 AND コンピュータ教育”


を表すＡ：高校Ｂ：コンピュータ教育

7


• 論理和（ＯＲ）– Ａという検索語を持つ情報の集合と B という

検索語のいずれか一方の検索語をもつ集合部分と、両方をもつ集合部分全てを検索すること

– 同義語などの検索に有用– 例：「高校におけるコンピュータ教育」– 検索式：”高校ＯＲ高等学校” p.? は

テキストのページ数を表すＡ：高校　Ｂ：高等学校

8


• 論理積（ＮＯＴ）– Ａという検索語を持つ情報の集合から B という

検索語をもつ集合部分を除いた部分を検索すること

– 複数の言語で書かれていることはすくないので、ロシア語文献を抜くといった検索に有効

– 例：「トラック事故以外の自動車事故」– 検索式：”自動車事故 NOT トラック事故”p.? は

テキストのページ数を表すＡ：自動車事故Ｂ：トラック事故

9

• 位置演算子– 検索語と検索語の位置関係や出現順位を限定

するために使用– 英語のように単語に分かれている言語の場合

有効、日本語の検索には通常使えない

情報検索の理論 (5) —p.20(2) 位置演算子 – p.22


を表す

10


1) 隣接演算子　– p.22– 2 つの語が隣り合わせに存在し、入力した語順を指定

するもの、しないものがある– 語順指定あり　　 --- (W)

• 例） Information systemだけを検索→　 Information (W) system

• 例） information と system が 2 語以内で隣接しているレコードの検索→ information (2W) system

information management support system, information management system などが検索される

– 語順指定なし　　 ---(N)• Information system, system Information 両方を検索→　 Information (N) system


を表す

11


2) 近接演算子　– p.2３– 2 つの語が同一文章中もしくはフィールド中にあるレ

コードを検索するもの　– 文章中　　 --- (S)

• 例）文章中に information, system があるもの• →　 information (S) system • Information literacy education and network systems といった

ものがヒットする– フィールド中　　 ---(F)

• 例）フィールド中に information, system があるもの• →　 information (F) system• ・・・・・・ network system. ・・・ information

science ・・・・・ . というような同一文ではないが同じ抄録フィールド内に２つの語が存在する場合に検索される


を表す

12

• トランケーション– 検索語を入力する場合に、語の一部を任意文字

に指定して検索すること– 1-1 表 – p.24

• ？： 0 文字以上、何文字でもよい• ＃：０文字または一文字• ！：ちょうど一文字

情報検索の理論 (8) —p.20(3) トランケーション – p.23


を表す

13

1) 前方一致検索　– p.25– 前方の末尾を任意文字に指定する検索– 大抵どのシステムにもある

• 例）　– 情報？ ⇒ 情報、情報検索、情報検索システム– CAT# 　⇒ CAT,CATS,CATV

• 猫を検索したいときによいが、 CATV まで検索されてしまう

– DIS! ⇒ 　 DISK,DISC• 英米綴りの違いを同時に検索できる



を表す

14

2) 後方一致検索　– p.25– 検索語の始まりを任意文字に指定する方検索

• 例）　–？情報 ⇒ 情報、安全情報、特許情報



を表す

15

3) 中間任意検索　– p.26– 検索語の途中を任意文字に指定する検索

• 例）　– 情報？システム⇒ 情報システム、情報管理シス

テム、情報検索システム– ログ ! ン　⇒ ログイン、ログオン

• 同義語が同時に検索できる– WOM!N WOMAN,WOMEN⇒

• 単数形、複数形が同時に検索できる– GR!Y ⇒ 　 GREY,GRAY

• 英米綴りの違いを同時に検索できる



を表す

16

4) 中間一致検索　– p.26– 検索語の両側を任意文字に指定する検索– インターネットの検索エンジンでは中間一致している

ことが多い– 一般に 3 文字以下の略字ではノイズを招くので、トラ

ンケーションを使わず、完全一致させたほうがよい• 例）　

– ？情報？ ⇒情報、交通情報、情報システム、交通情報システム



を表す

17

データベースのファイル構成 (1) 　– p.29

• インバーテッドファイル（ inverted file ） – p.29– 転置ファイル、倒置ファイルとも呼ばれる– レコード毎に蓄積されたデータを、検索語を基準に

して並べなおしたファイル– レコード番号、検索フィールドおよび検索フィール

ドの何番目かを示す番号、および検索語の件数が明記される

– 図 1-9 データベースファイルの構成　– p.30

• ストップワード– レコード中での出現頻度は高いが、検索上あまり重要でないため、検索対象から除外した語

18

データベースのファイル構成 (2) 　– p.29

• シーケンシャル・ファイル (sequential file) –p.31– シリアル・ファイル、順次編成ファイル、線形ファイル、リニアファイルなどとも呼ばれる

– レコード毎に蓄積されたデータ– 検索結果の出力や一度検索した結果を対象

に絞込み検索するときに用いられる

19

情報検索結果の評価 (1) 　–p.32

• 検索結果の評価– 検索終了後、求める情報が適切に検索できているか、

検索漏れはやノイズがないかどうかをチェックする• 検索漏れ

– 本来必要な情報でデータベースに存在するにもかかわらず検索されなかった情報

• ノイズ– そのテーマに不要な情報が入り込んで検索された情

報p.? は

テキストのページ数を表す

20


• 再現率（ recall ratio ）– データベースに合致する適合情報のうち、どれだけ適合情報が検索されたかという割合を表す

– 検索漏れの程度を表す指標となる– データベース全体の適合情報を実際に調べるのは不可能なため、普通、正確にはわからない

• 精度 (precision ratio) （適合率 (relevance ratio) ）– 実際に得られた検索結果の情報全体のうち、どれだ

け適合情報が検索されたかという割合を表す。– ノイズの程度を表す指標となる– 検索結果から容易に計算可能

• 両方とも高いのが理想だが、どちらかを上げるとどちらかが下がるという関係にある

21


Ａ検索漏れ

Ｃノイズ

Ｂ検索された適合情報

データベース全体に存在する適合文書

検索された情報の全体

再現率　Ｒ　 = 　Ｂ ÷ ( Ａ + B) ×100%精度　 P = B ÷ (C + B) ×100%

図 1-10 –p.33


を表す

22


• 例） 10件の文献を出力、１０件全部が適合文献、データベース全体には 100件の適合文書が存在– 精度： 10/10×100=100%– 再現率： 10/100×100=10%残りの９０％が検索漏れ

• 例） 50件の文献を出力、 30件が適合文献、データベース全体には 70件適合文書が存在– 精度： 30÷50×100 = 60%

• ノイズは 40%

– 再現率： 30÷70×100 = 43%• 検索漏れは 57%

23

今日のまとめ• 講義内容

– レコードと検索フィールド– 情報検索の理論

• 論理演算子（ AND,OR,NOT ）• △　位置演算子（隣接演算子、近接演算子）• トランケーション（前方一致、後方一致、中間任意、中間一

致）– データベースのファイル構成

• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル

– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度

情報検索演習 第 2 回

Documents

情報検索演習第 2 回