情報検索演習 第 2 回
DESCRIPTION
情報検索演習 第 2 回. 2005 年 10 月 05 日 後期 水曜 5 限 江草由佳 国立教育政策研究所 [email protected]. 前から 4 列目までに着席すること. 今日のおしながき. 講義内容 レコードと検索フィールド 情報検索の理論 論理演算子( AND,OR,NOT ) 位置演算子(隣接演算子、近接演算子) トランケーション(前方一致、後方一致、中間任意、中間一致) データベースのファイル構成 インバーテッド・ファイル ストップワード シーケンシャル・ファイル 情報検索結果の評価 検索漏れ、ノイズ 再現率 精度. - PowerPoint PPT PresentationTRANSCRIPT
2
今日のおしながき• 講義内容
– レコードと検索フィールド– 情報検索の理論
• 論理演算子( AND,OR,NOT )• 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一
致)– データベースのファイル構成
• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル
– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度
3
レコードと検索フィールド(1) – 18p.
• レコード– データベースに収録されている個々の論文や
新聞記事などの情報単位– レコードの内容はデータベースの種類や内容
によって異なる• 検索フィールド
– レコードは複数の検索フィールドからなる– 例)レコード番号、論題、著者名
p.? はテキストのページ数
を表す
4
レコードと検索フィールド (2)
レコードレコードレコードレコード
論題 Reading― 速読・多読について考える著者名 清水由理子請求記号 P343-5C2-14掲載誌名 獨協大学外国語教育研究 14発行年月 1995.12掲載ページ数 p.273 ~ 282登録日 19970930
請求記号フィールド
発行年月フィールド
著者名フィールド論題フィールド
掲載ページ数フィールド登録日フィールド
掲載誌フィールド
5
情報検索の理論 (1) —p.20
• コンピュータ検索では論理演算の概念が基本
1. データベース全体から合致するものを検索し
2. 論理積、論理和、論理差の集合の概念をもちいて、広げたり、狭めたりして検索
• 情報検索の理論の説明のために、JOISで使われているコマンドを利用するが、コマンドはシステムによって様々である。
6
情報検索の理論 (2) —p.20(1) 論理演算子 – p.20
• 論理積( AND )– Aという検索語を持つ情報の集合と B という
検索語をもつ集合の両方を含む部分を検索すること
– 情報を絞り込んでいくときに有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 AND コンピュータ教育”
p.? はテキストのページ数
を表すA:高校 B:コンピュータ教育
7
情報検索の理論 (3) —p.20(1) 論理演算子 – p.20
• 論理和(OR)– Aという検索語を持つ情報の集合と B という
検索語のいずれか一方の検索語をもつ集合部分と、両方をもつ集合部分全てを検索すること
– 同義語などの検索に有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 OR 高等学校” p.? は
テキストのページ数を表すA:高校 B:高等学校
8
情報検索の理論 (4) —p.20(1) 論理演算子 – p.20
• 論理積(NOT)– Aという検索語を持つ情報の集合から B という
検索語をもつ集合部分を除いた部分を検索すること
– 複数の言語で書かれていることはすくないので、ロシア語文献を抜くといった検索に有効
– 例:「トラック事故以外の自動車事故」– 検索式:”自動車事故 NOT トラック事故”p.? は
テキストのページ数を表すA:自動車事故 B:トラック事故
9
• 位置演算子– 検索語と検索語の位置関係や出現順位を限定
するために使用– 英語のように単語に分かれている言語の場合
有効、日本語の検索には通常使えない
情報検索の理論 (5) —p.20(2) 位置演算子 – p.22
p.? はテキストのページ数
を表す
10
情報検索の理論 (6) —p.20(2) 位置演算子 – p.22
1) 隣接演算子 – p.22– 2 つの語が隣り合わせに存在し、入力した語順を指定
するもの、しないものがある– 語順指定あり --- (W)
• 例) Information systemだけを検索→ Information (W) system
• 例) information と system が 2 語以内で隣接しているレコードの検索→ information (2W) system
information management support system, information management system などが検索される
– 語順指定なし ---(N)• Information system, system Information 両方を検索→ Information (N) system
p.? はテキストのページ数
を表す
11
情報検索の理論 (7) —p.20(2) 位置演算子 – p.22
2) 近接演算子 – p.23– 2 つの語が同一文章中もしくはフィールド中にあるレ
コードを検索するもの – 文章中 --- (S)
• 例)文章中に information, system があるもの• → information (S) system • Information literacy education and network systems といった
ものがヒットする– フィールド中 ---(F)
• 例)フィールド中に information, system があるもの• → information (F) system• ・・・・・・ network system. ・・・ information
science ・・・・・ . というような同一文ではないが同じ抄録フィールド内に2つの語が存在する場合に検索される
p.? はテキストのページ数
を表す
12
• トランケーション– 検索語を入力する場合に、語の一部を任意文字
に指定して検索すること– 1-1 表 – p.24
• ?: 0 文字以上、何文字でもよい• #:0文字または一文字• !:ちょうど一文字
情報検索の理論 (8) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
13
1) 前方一致検索 – p.25– 前方の末尾を任意文字に指定する検索– 大抵どのシステムにもある
• 例) – 情報? ⇒ 情報、情報検索、情報検索システム– CAT# ⇒ CAT,CATS,CATV
• 猫を検索したいときによいが、 CATV まで検索されてしまう
– DIS! ⇒ DISK,DISC• 英米綴りの違いを同時に検索できる
情報検索の理論 (9) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
14
2) 後方一致検索 – p.25– 検索語の始まりを任意文字に指定する方検索
• 例) –?情報 ⇒ 情報、安全情報、特許情報
情報検索の理論 (10) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
15
3) 中間任意検索 – p.26– 検索語の途中を任意文字に指定する検索
• 例) – 情報?システム⇒ 情報システム、情報管理シス
テム、情報検索システム– ログ ! ン ⇒ ログイン、ログオン
• 同義語が同時に検索できる– WOM!N WOMAN,WOMEN⇒
• 単数形、複数形が同時に検索できる– GR!Y ⇒ GREY,GRAY
• 英米綴りの違いを同時に検索できる
情報検索の理論 (11) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
16
4) 中間一致検索 – p.26– 検索語の両側を任意文字に指定する検索– インターネットの検索エンジンでは中間一致している
ことが多い– 一般に 3 文字以下の略字ではノイズを招くので、トラ
ンケーションを使わず、完全一致させたほうがよい• 例)
– ?情報? ⇒情報、交通情報、情報システム、交通情報システム
情報検索の理論 (12) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
17
データベースのファイル構成 (1) – p.29
• インバーテッドファイル( inverted file ) – p.29– 転置ファイル、倒置ファイルとも呼ばれる– レコード毎に蓄積されたデータを、検索語を基準に
して並べなおしたファイル– レコード番号、検索フィールドおよび検索フィール
ドの何番目かを示す番号、および検索語の件数が明記される
– 図 1-9 データベースファイルの構成 – p.30
• ストップワード– レコード中での出現頻度は高いが、検索上あまり重要でないため、検索対象から除外した語
18
データベースのファイル構成 (2) – p.29
• シーケンシャル・ファイル (sequential file) –p.31– シリアル・ファイル、順次編成ファイル、線形ファイル、リニアファイルなどとも呼ばれる
– レコード毎に蓄積されたデータ– 検索結果の出力や一度検索した結果を対象
に絞込み検索するときに用いられる
19
情報検索結果の評価 (1) –p.32
• 検索結果の評価– 検索終了後、求める情報が適切に検索できているか、
検索漏れはやノイズがないかどうかをチェックする• 検索漏れ
– 本来必要な情報でデータベースに存在するにもかかわらず検索されなかった情報
• ノイズ– そのテーマに不要な情報が入り込んで検索された情
報p.? は
テキストのページ数を表す
20
情報検索結果の評価 (2) –p.32
• 再現率( recall ratio )– データベースに合致する適合情報のうち、どれだけ適合情報が検索されたかという割合を表す
– 検索漏れの程度を表す指標となる– データベース全体の適合情報を実際に調べるのは不可能なため、普通、正確にはわからない
• 精度 (precision ratio) (適合率 (relevance ratio) )– 実際に得られた検索結果の情報全体のうち、どれだ
け適合情報が検索されたかという割合を表す。– ノイズの程度を表す指標となる– 検索結果から容易に計算可能
• 両方とも高いのが理想だが、どちらかを上げるとどちらかが下がるという関係にある
21
情報検索結果の評価 (3) –p.32
A検索漏れ
Cノイズ
B検索された適合情報
データベース全体に存在する適合文書
検索された情報の全体
再現率 R = B ÷ ( A + B) ×100%精度 P = B ÷ (C + B) ×100%
図 1-10 –p.33
p.? はテキストのページ数
を表す
22
情報検索結果の評価 (4) –p.32
• 例) 10件の文献を出力、10件全部が適合文献、データベース全体には 100件の適合文書が存在– 精度: 10/10×100=100%– 再現率: 10/100×100=10%残りの90%が検索漏れ
• 例) 50件の文献を出力、 30件が適合文献、データベース全体には 70件適合文書が存在– 精度: 30÷50×100 = 60%
• ノイズは 40%
– 再現率: 30÷70×100 = 43%• 検索漏れは 57%
23
今日のまとめ• 講義内容
– レコードと検索フィールド– 情報検索の理論
• 論理演算子( AND,OR,NOT )• △ 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一
致)– データベースのファイル構成
• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル
– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度