情報検索演習 第 2 回

23
1 情情情情情情 情2情 2005 情 10 情 05 情 情情 情情 5 情 情情情情 情情情情情情情情情 [email protected] 情情情 4 情情情情情情情情情情情

Upload: fatima-dean

Post on 30-Dec-2015

75 views

Category:

Documents


0 download

DESCRIPTION

情報検索演習 第 2 回. 2005 年 10 月 05 日 後期 水曜 5 限 江草由佳 国立教育政策研究所 [email protected]. 前から 4 列目までに着席すること. 今日のおしながき. 講義内容 レコードと検索フィールド 情報検索の理論 論理演算子( AND,OR,NOT ) 位置演算子(隣接演算子、近接演算子) トランケーション(前方一致、後方一致、中間任意、中間一致) データベースのファイル構成 インバーテッド・ファイル ストップワード シーケンシャル・ファイル 情報検索結果の評価 検索漏れ、ノイズ 再現率 精度. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 情報検索演習 第 2 回

1

情報検索演習第 2 回

2005 年 10 月 05 日後期 水曜 5 限

江草由佳国立教育政策研究所

[email protected]

前から 4 列目までに着席すること

Page 2: 情報検索演習 第 2 回

2

今日のおしながき• 講義内容

– レコードと検索フィールド– 情報検索の理論

• 論理演算子( AND,OR,NOT )• 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一

致)– データベースのファイル構成

• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル

– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度

Page 3: 情報検索演習 第 2 回

3

レコードと検索フィールド(1)  – 18p.

• レコード– データベースに収録されている個々の論文や

新聞記事などの情報単位– レコードの内容はデータベースの種類や内容

によって異なる• 検索フィールド

– レコードは複数の検索フィールドからなる– 例)レコード番号、論題、著者名

p.? はテキストのページ数

を表す

Page 4: 情報検索演習 第 2 回

4

レコードと検索フィールド (2)

レコードレコードレコードレコード

論題 Reading― 速読・多読について考える著者名 清水由理子請求記号 P343-5C2-14掲載誌名 獨協大学外国語教育研究 14発行年月 1995.12掲載ページ数 p.273 ~ 282登録日 19970930

請求記号フィールド

発行年月フィールド

著者名フィールド論題フィールド

掲載ページ数フィールド登録日フィールド

掲載誌フィールド

Page 5: 情報検索演習 第 2 回

5

情報検索の理論 (1) —p.20

• コンピュータ検索では論理演算の概念が基本

1. データベース全体から合致するものを検索し

2. 論理積、論理和、論理差の集合の概念をもちいて、広げたり、狭めたりして検索

• 情報検索の理論の説明のために、JOISで使われているコマンドを利用するが、コマンドはシステムによって様々である。

Page 6: 情報検索演習 第 2 回

6

情報検索の理論 (2) —p.20(1) 論理演算子 – p.20

• 論理積( AND )– Aという検索語を持つ情報の集合と B という

検索語をもつ集合の両方を含む部分を検索すること

– 情報を絞り込んでいくときに有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 AND コンピュータ教育”

p.? はテキストのページ数

を表すA:高校 B:コンピュータ教育

Page 7: 情報検索演習 第 2 回

7

情報検索の理論 (3) —p.20(1) 論理演算子 – p.20

• 論理和(OR)– Aという検索語を持つ情報の集合と B という

検索語のいずれか一方の検索語をもつ集合部分と、両方をもつ集合部分全てを検索すること

– 同義語などの検索に有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 OR 高等学校” p.? は

テキストのページ数を表すA:高校  B:高等学校

Page 8: 情報検索演習 第 2 回

8

情報検索の理論 (4) —p.20(1) 論理演算子 – p.20

• 論理積(NOT)– Aという検索語を持つ情報の集合から B という

検索語をもつ集合部分を除いた部分を検索すること

– 複数の言語で書かれていることはすくないので、ロシア語文献を抜くといった検索に有効

– 例:「トラック事故以外の自動車事故」– 検索式:”自動車事故 NOT トラック事故”p.? は

テキストのページ数を表すA:自動車事故 B:トラック事故

Page 9: 情報検索演習 第 2 回

9

• 位置演算子– 検索語と検索語の位置関係や出現順位を限定

するために使用– 英語のように単語に分かれている言語の場合

有効、日本語の検索には通常使えない

情報検索の理論 (5) —p.20(2) 位置演算子 – p.22

p.? はテキストのページ数

を表す

Page 10: 情報検索演習 第 2 回

10

情報検索の理論 (6) —p.20(2) 位置演算子 – p.22

1) 隣接演算子 – p.22– 2 つの語が隣り合わせに存在し、入力した語順を指定

するもの、しないものがある– 語順指定あり   --- (W)

• 例) Information systemだけを検索→  Information (W) system

• 例) information と system が 2 語以内で隣接しているレコードの検索→ information (2W) system

information management support system, information management system などが検索される

– 語順指定なし   ---(N)• Information system, system Information 両方を検索→  Information (N) system

p.? はテキストのページ数

を表す

Page 11: 情報検索演習 第 2 回

11

情報検索の理論 (7) —p.20(2) 位置演算子 – p.22

2) 近接演算子 – p.23– 2 つの語が同一文章中もしくはフィールド中にあるレ

コードを検索するもの – 文章中   --- (S)

• 例)文章中に information, system があるもの• →  information (S) system • Information literacy education and network systems といった

ものがヒットする– フィールド中   ---(F)

• 例)フィールド中に information, system があるもの• →  information (F) system• ・・・・・・ network system. ・・・ information

science ・・・・・ . というような同一文ではないが同じ抄録フィールド内に2つの語が存在する場合に検索される

p.? はテキストのページ数

を表す

Page 12: 情報検索演習 第 2 回

12

• トランケーション– 検索語を入力する場合に、語の一部を任意文字

に指定して検索すること– 1-1 表 – p.24

• ?: 0 文字以上、何文字でもよい• #:0文字または一文字• !:ちょうど一文字

情報検索の理論 (8) —p.20(3) トランケーション – p.23

p.? はテキストのページ数

を表す

Page 13: 情報検索演習 第 2 回

13

1) 前方一致検索 – p.25– 前方の末尾を任意文字に指定する検索– 大抵どのシステムにもある

• 例) – 情報? ⇒ 情報、情報検索、情報検索システム– CAT#  ⇒ CAT,CATS,CATV

• 猫を検索したいときによいが、 CATV まで検索されてしまう

– DIS! ⇒   DISK,DISC• 英米綴りの違いを同時に検索できる

情報検索の理論 (9) —p.20(3) トランケーション – p.23

p.? はテキストのページ数

を表す

Page 14: 情報検索演習 第 2 回

14

2) 後方一致検索 – p.25– 検索語の始まりを任意文字に指定する方検索

• 例) –?情報 ⇒ 情報、安全情報、特許情報

情報検索の理論 (10) —p.20(3) トランケーション – p.23

p.? はテキストのページ数

を表す

Page 15: 情報検索演習 第 2 回

15

3) 中間任意検索 – p.26– 検索語の途中を任意文字に指定する検索

• 例) – 情報?システム⇒ 情報システム、情報管理シス

テム、情報検索システム– ログ ! ン ⇒ ログイン、ログオン

• 同義語が同時に検索できる– WOM!N WOMAN,WOMEN⇒

• 単数形、複数形が同時に検索できる– GR!Y ⇒   GREY,GRAY

• 英米綴りの違いを同時に検索できる

情報検索の理論 (11) —p.20(3) トランケーション – p.23

p.? はテキストのページ数

を表す

Page 16: 情報検索演習 第 2 回

16

4) 中間一致検索 – p.26– 検索語の両側を任意文字に指定する検索– インターネットの検索エンジンでは中間一致している

ことが多い– 一般に 3 文字以下の略字ではノイズを招くので、トラ

ンケーションを使わず、完全一致させたほうがよい• 例) 

– ?情報? ⇒情報、交通情報、情報システム、交通情報システム

情報検索の理論 (12) —p.20(3) トランケーション – p.23

p.? はテキストのページ数

を表す

Page 17: 情報検索演習 第 2 回

17

データベースのファイル構成 (1)  – p.29

• インバーテッドファイル( inverted file ) – p.29– 転置ファイル、倒置ファイルとも呼ばれる– レコード毎に蓄積されたデータを、検索語を基準に

して並べなおしたファイル– レコード番号、検索フィールドおよび検索フィール

ドの何番目かを示す番号、および検索語の件数が明記される

– 図 1-9 データベースファイルの構成 – p.30

• ストップワード– レコード中での出現頻度は高いが、検索上あまり重要でないため、検索対象から除外した語

Page 18: 情報検索演習 第 2 回

18

データベースのファイル構成 (2)  – p.29

• シーケンシャル・ファイル (sequential file) –p.31– シリアル・ファイル、順次編成ファイル、線形ファイル、リニアファイルなどとも呼ばれる

– レコード毎に蓄積されたデータ– 検索結果の出力や一度検索した結果を対象

に絞込み検索するときに用いられる

Page 19: 情報検索演習 第 2 回

19

情報検索結果の評価 (1)  –p.32

• 検索結果の評価– 検索終了後、求める情報が適切に検索できているか、

検索漏れはやノイズがないかどうかをチェックする• 検索漏れ

– 本来必要な情報でデータベースに存在するにもかかわらず検索されなかった情報

• ノイズ– そのテーマに不要な情報が入り込んで検索された情

報p.? は

テキストのページ数を表す

Page 20: 情報検索演習 第 2 回

20

情報検索結果の評価 (2)  –p.32

• 再現率( recall ratio )– データベースに合致する適合情報のうち、どれだけ適合情報が検索されたかという割合を表す

– 検索漏れの程度を表す指標となる– データベース全体の適合情報を実際に調べるのは不可能なため、普通、正確にはわからない

• 精度 (precision ratio) (適合率 (relevance ratio) )– 実際に得られた検索結果の情報全体のうち、どれだ

け適合情報が検索されたかという割合を表す。– ノイズの程度を表す指標となる– 検索結果から容易に計算可能

• 両方とも高いのが理想だが、どちらかを上げるとどちらかが下がるという関係にある

Page 21: 情報検索演習 第 2 回

21

情報検索結果の評価 (3)  –p.32

A検索漏れ

Cノイズ

B検索された適合情報

データベース全体に存在する適合文書

検索された情報の全体

再現率 R  =  B ÷ ( A + B) ×100%精度  P = B ÷ (C + B) ×100%

図 1-10 –p.33

p.? はテキストのページ数

を表す

Page 22: 情報検索演習 第 2 回

22

情報検索結果の評価 (4)  –p.32

• 例) 10件の文献を出力、10件全部が適合文献、データベース全体には 100件の適合文書が存在– 精度: 10/10×100=100%– 再現率: 10/100×100=10%残りの90%が検索漏れ

• 例) 50件の文献を出力、 30件が適合文献、データベース全体には 70件適合文書が存在– 精度: 30÷50×100 = 60%

• ノイズは 40%

– 再現率: 30÷70×100 = 43%• 検索漏れは 57%

Page 23: 情報検索演習 第 2 回

23

今日のまとめ• 講義内容

– レコードと検索フィールド– 情報検索の理論

• 論理演算子( AND,OR,NOT )• △ 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一

致)– データベースのファイル構成

• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル

– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度