≡汗・:.:・..・∴ i :・・日.:i-工 ・:'捌.:i..・.i;i.・・.;・i ......什ト・.}・...

11
.≡汗・:.:・. .・∴ i :・・日.:I-工 ・:'捌.:I..・.i;I.・・.;・i!∴; 、′、・.1、・、∴ 一二・・.・:- ..I.1:∴十 ・…言.:-,:I:,I I:!.・.I.辛工∵・,,∴∴ ~I ..{・・・,.=…:・言 ●立 {L::・、∴l・∴・\、:.ll-・廿十・中十● 田野相 思温 (大阪大学) ・・. ・'≠ - i: ・'・ ‖十吉日帖 い・十!・高車工! こ、∴∴.・、一 W浦 上のサ-チエンジンを利用 して 日本語の現象について調べるとき, そ の 目的 に最 も 適 したサ-チエンジンはどれ? サ-チェンジンの検索結果が必ず しも正確 で ない こ とは広 宅知 られ ところであろ うゆこのたびタ荻野綱男民 との個太的なや り取 りがきっかけとなっ情を具体的に かめてみた 宅な りタ筆者が数年来主に利用 してきた 鎧鍼g且襟とそサ-チェンジ ンを比較評価 してみることに した& 以下ではタサ-チェンジ汐を畳 と 質の二面か ら比較 してみた結¢ 調査 を行 っ たのは望鍼8年i月 旦9日 らの約 且 か月である◎ 一・ ・L .L・・・・・ J:.I まずタサ-チエンジンが収集 し検索対 象 と してい る 日本語 デ- る調査 につ いて述べる。日本語研究の観点らサ-チ エンジンにはそのデ- 加 えて大量 性が期待される。他の条件が同じであればデ-夕盛の多いサ- が利用価 値が太きい。 . ! .守::.・斗ゝミ: ・、:、・. それぞれのサ-チエンジンが検索対象としている We甑 現検索時 のヒット件数の比率らほぼ推定 で き る と仮 定 して大 きなサ-チエ ンジンによ ってデ-夕自体や検索方法が異な り得 るので ヒッ - 比例する と無条件に言えるわけではないがタ業際 28 2で述べる調査か 当性 が確 か め られ る8 手始めに 且扮種類余 りのサ-チエンジンでい電つかの 日本語表現を結果夕 桁違いのヒッ ト件数で勉を圧倒 したのほ以下のサ-チエンジンであった (名 )辛 ・11:-:∴、′パ ‥㍉;・'∴い・,,,、・:.!‥rl::;,L工、-・:' -・:・・.、 こ・Ll.'・.・tl・,/,・:・∴::・tL:・i・・・一・・rl L、、・ -二・,・,・:\・-.:.・- :'.,' 'ロt.;十I.r・い:1=・:'t・- .:、・∴・、、・・;・.t・・.L.}!:‖さ!・、・r;∴・二 ・.;十・い:ミZ・・=・了一‥・ざ・l:l.、I.I こ・こ・.、::・∴・.:・∴:L:.・:・H:..了.‥∴;ll:}・. 十、′●‥一・′ j凋7

Upload: others

Post on 13-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

  • .≡汗・:.:・..・∴ i :・・日.:I-工 ・:'捌.:I..・.i;I.・・.;・i!∴; 、′、・.1、・、∴ 一二・・.・:-

    ..I.1:∴十 、

    ・…言 .:-,:I:,II:!.・.I.辛 工 ∵ ・,,∴ ∴ ~ I . . {・・・,.=…:・言 ●立

    {L::・、∴ l・∴・\、:.ll-・廿十 ・中十●

    田野相 思温 (大阪大学)

    ・・・. ・'≠ -i: ・'・ ‖十 吉日帖 ●言 い・十!・高車工!

    こ 、∴∴.・、一

    W浦 上のサ-チエンジンを利用して日本語の現象について調べるとき, その目的に最も

    適したサ-チエンジンはどれか?

    サ-チェンジンの検索結果が必ずしも正確でないことは広宅知 られ て い る ところであろ

    うゆこのたびタ荻野綱男民との個太的なや り取 りがきっかけとなって その 実 情を具体的に

    確かめてみた宅なりタ筆者が数年来主に利用 してきた 鎧鍼g且襟とそれ 以 外 の サ-チェンジ

    ンを比較評価してみることにした&

    以下ではタサ-チェンジ汐を畳と質の二面から比較 してみた結果 を 述 べ る ¢ 調査を行っ

    たのは望鍼8年 i月 旦9日からの約且か月である◎

    一・ ・L .L・・・・・ J:.I

    まずタサ-チエンジンが収集し検索対象 としている日本語デ- タ の 量 に 関 す る調査につ

    いて述べる。日本語研究の観点からサ-チエンジンにはそのデ- タ の 多 様 性 に 加えて大量

    性が期待される。他の条件が同じであればデ-夕盛の多いサ- チ エ ン ジ ン の ほ う が利用価

    値が太きい。

    . ! .守::.・斗 ミゝ: ・、:、・.

    それぞれのサ-チエンジンが検索対象としているWe甑 文 書 の 相 対 的 な 畳 は 表 現検索時

    のヒット件数の比率からほぼ推定できると仮定して大きな間 違 い は な い だ ろ う 沓 サ-チエ

    ンジンによってデ-夕自体や検索方法が異なり得るのでヒッ ト 件 数 が デ - 夕 畳 に 比例する

    と無条件に言えるわけではないがタ業際 28 2で述べる調査か ら も その 仮 定 の 妥 当性が確

    かめられる8

    手始めに 且扮種類余 りのサ-チエンジンでい電つかの日本語表現を検 索 し て み た 結果夕

    桁違いのヒット件数で勉を圧倒 したのほ以下のサ-チエンジンであった (名 前 順 ) 辛

    ・11:-:∴、′パ ‥㍉;・・'∴い・,,,、・:.!‥rl: :;,L工、-・:'

    -・:・・.、 こ・Ll.'・.・・・tl・,/,・:・・∴::・tL:・i・・・一・・rl

    L、、 ・ -二 ・,・,・:\・-.:.・- :'.,'

    'ロt.;十I.r・い:1=・:'t・- .:、・∴ ・、、・・;・.t・・.L.}!:‖さ!・、・r;∴ ・二 ・.;十 ・い:ミZ・・=・・了一‥・ざ ・l:l.、I.I

    こ・こ・.、::・∴ ・.:・∴:L:.・:・H:..了.‥∴;ll:}・. 十、′●‥一・′

    j凋7

  • ・ - ・二;

    .:・、 ト ∴ ‥ ・ :、!

    1 ' j '..・ ・・ ・・ ・/ . ・ ・: I. :

    ∴ ・ tt・ .ニー 1 : ..-、 、て ・∴ ∴ 十 一 ・. √ 一 浩古 .描 ,:,・ 、 ・ lm ・、- ‥ I.∴ : ・・ ・ .・ ・ 一1 - h

    ‥ 川 ′:・' ・ }' .-;:三、 ・ ト 一㌦ 、 ;・'!・'・′- .,, . 、 ~・.:':・ ト ミ∴ .'. - こ 、 十 ・亘 卜 吉 .i/ ' ・ .. I .. 上 目

    ヒ ッ ト 件 数 と な る 砂 し た が っ て タ 英語版サイ ト を 比 較 の 対 象 に 含 め る 必 要 は な い . 以 後 タ

    、 .'- ∴ ′、- ∴ ∴ : 日 日 一 . 辛 : ・′ ,、:●∴ .''.( .、

    ま た タ A 弧 も 払 eW e髄 と A 息恵級Visも級は,それぞれの サ イ ト の 説 明 に よ れ ば 検 索 を 協 甑 駿 緋 に

    依 存 し て お り , 現 に い ず れ も 協 ぬ⑳㊥警に近いヒット件数 を 示 す 申 ま た , e x e 息もe も 協 甑 の 緋 に

    近 い 結 果 を 返 す こ と か ら , 髄 甑。扮貫に依存 していると見 ら れ る ◎ し た が っ て タ Å 弧もh e W e 毎 夕

    一 二 Itt.㍉ ∴ ∴ 、.I,‥ I..!,I;-′・十 ・.rr十 ・∴トト ...

    と い う こ と か ら タ 以 下では協 甑扮0雪と綴扮iBg瞳の関係をさらに 詳 し く 見 て い く 。

    、 ∴、・・・- ∴ iI.I.;.:∴一・、・・ . '、・

    約 3扮扮個のさまざまな種類の日本語表現を協 甑誠 と鎧扮岱g漫鰹 で 検 索 し た と き に 表 示 さ

    れるヒット件数の関係をグラフ化 したのが (図 且)である⑳プ ロ ッ ト さ れ た 個 考 の 点 の 座

    巨い∴、、こ ・:!一十日・・・・.'∴

  • 什 ト ・. } ・ ・・. 一 ㌦ .' ・・ 一・.日 工 トI∵工.1二.I:‖'l・・l:,車高 ∴ ■・'・) 中 .;.t・:吊

    率 は表現 に よってば らつ きが あるもののタお しなべ て 3 ;i程度 で あ るこ とが分 か る¢

    鎧鍼g且eの ヒッ ト件数 が 協 甑扮緋の ヒッ ト件数 を上回 る表現 はきわめで少 ない。

    したがって,各サ-チエ ンジンが慈意的な ヒッ ト件数 の操作 を していない との仮定の う

    .、 ~ -ll.・・・,H :.吉 ・・ :.r 一・、 .・・、.一 ・J帖 : ;卜・l:I :・'J,・・・・.J' ]・、

    ンの首位 を占める と考 えて よいであろ う.なおタ 2つの独立 したサ-チエ ンジンの示す ヒ

    ッ ト件数 がほぼ比例 の関係 にある とい うことはタ正否 を必ず しも直接 に確認 できない ヒッ

    ト件数 がそれ な りに信頼 のお ける数値 であることを物語 ってい る と考 え られ る。

    _ 、・、‥ ∴‥ :・~・./:.∴

    では,協 施療。掌が検索対象 とす る 日本語 の W哲髄 文書の具体的な畳は どれ くらいなのであ

    ろ うか。それ をサ-チエ ンジンの外側 か ら直接 に知 る三 とはできないがタ次の単純 な計算

    式 によって推定 してみ る昏

    ・ ・I/・: -∴L・t・・f・i:i;1 -・古い・・IlJ‖JJ -J十(∫,;・'/

    まず,日本語 We甑文書 の平均サイズは どれ 宅らいか¢これ を知 るには実際に多数 の We翫

    文書 を調べてみ る しかない◎そ こでタ約 3扮縫個 の 日本語表現 を 嘗義弘oeB葦で検索 しタその検索

    結果 に示 されたそれぞれ 息63扮個 の 関配鮎にある文書 を取得 し (正確 にはタ取得 を試み),そ

    れ らのサイズを調べ る とい う方法 によった。結果 としてタ全部で 望毎夕5鋼 個 の文書が取得

    ・ ・・ い -/.:lH ・・ 、・1. 1ト .∫ ,. ・一・∴∴′ ′日日㍗‡I1.,:J ・一′lt・.・.

    バイ トとい うことになる (以後,6,㊥鰻63バイ トとして扱 う)◎ これ は文書か ら 欝管Aa鮎のタ

    ダな どを一通 り除去 した うえでの量であるがタデ- タを さらに限定 してタいわゆる全角文

    ..,:,・・':, 言・:I-..:l ・≡:'・J 、'.I J言 :・,・.,' 日jl・ . .I.・i H ll .JL,'/

    ラ)B これ は文字数 では約 望,5粉⑳字 に相 当す る昏

    参考 までに,文書サイズ (半角文字 も含む)か ら見た 望8953後悔 の 日本語文書 の分布 は

    (図 望)の通 りである⑳

    次 にタ日本語 W哲毎文書の数 は どうか砂日本語文書の圧倒 的太多数 は平仮名 を含む。協 を製の0葦

    で個 考の平仮名 を検索 してみ るとタ使用率の高い仮名上位 且扮位 はタ ヒッ ト件数 の多い順

    にタ 「の」 「を」 「に」 「ほ」 「が」 「で」 「と」 「お」 「も」 「な」であった争協 ぬ踊 空や 鎚・oo離農

    では Å または 誤 のいずれかを含む とい う条件 を 「Å 粉既 済」 とい う形 で指定できる。五段

    帖 ・・Ll',,'.‥ Ll・●… .. ・ - 1. L・弓 ': ・ ・・r :I;,'!:≡ ・/:}畔 ・・()/I.I.t・t;

    いずれかを含む We魁文書 を検索す るとタヒッ ト件数 は約 5ヲ8碍扮,輯鍼 ,⑳63窃件 タす なわちタ58

    億件 であった (以後夕霞鰯健棒 に丸 めて扱 う)争 目下の荒い推定ではその数値 を 日本語文書

    の数 と解す ることにす る。ちなみ にタ実は仮名 を 息0個つな 宅やまで もな く, 「の 粉艶 を」

    で検索す る程度で もここでの 目的には十分であった魯

    さてタ以上の よ うに して得 られ た 日本語 W鰹髄文書の平均サイズ と数 とを先 ほ どの組)に

    ∴ Ii:・.;. ・'-.;. ・(,日 工..・'1. 'L・,.十 i L:..・ ..斗∴ ・ ;三 日 !里 -IiI::・∴

    限定すれ ば 5,碍碍扮×鴎扮億 -3粉兆バイ トとい うことになる。市販 されてい る新聞記事 のデ-

    夕畳 をか りに 1社 1年 間で 且億バイ トとすれ ば-- 以前 はそれ よ りも少 なかったがタ最近

    ではそれ を上回ってい る---夕瀧 甑㊥緋のデ- 夕量は実 に新 開記事 のデ- タ 3万年分以上 に

    ■∴

  • ._

    紳‥

    :.・!‥./1!:A..高-20,000-19,000-18,000-'17,000-16,000-15,000-14,000-13,000-12,000-~11,000-10,000-9,000-8,000-7,000-6,000-5,000-4,000-3,000-2.000-1,000

    1,000 2,000 3.000

    ∴、:、て∴二

    i∵;':);工 ∴十町-二十(、∴.≡ll~, -11・∴、::,:

    4,000 5,000

    相当することになる.(注1)

    、 てミ ・..、、 ; ∴十...:':.

    デ-夕量以外の点では 徽 ぬoo署と綴mg旦短での検索はどのような関係にあるのだろうか¢

    指定可能な検索条件の種類などの仕様面では両サ-チエンジンで太差はない砂

    以下では,協 甑駿粉雪と 綴扮扮g畳eが検索の結果 として表示するヒット件数について,論理的

    整合性 と安定性 とい う2つの観点から比較する。

    l ∴ ∴ .I.I;.I:::!・∴十一:-:I:.

    ∴≡- 二、 ㌦J∴- I.:I.巨.守:'.・L∴ [:! ・t,,;.i.∴,∴日日!i ・十 、一 雄1・ヾ;・. ../∴ ∴ /I:∴L・・

    いずれ か を含 む とい う条件 を表すことには上で触れたがさ「A B」は たは 「A AN欝 凝」)

    と指定すれ ば A と 誤 を両方含 む We毎文書を検索することができる合また,ト鬼」はAを

    含 まない とい う条件 を表す ゆ

    「犬」 「猫」 とタそれ らを含む幾通 りかの複合的な条件で検索してみた結果を (豪 且)に

    示す ◎

    この表 か らタ醍醐g随 の示すヒット件数は論理的に問題が太きいことが分かる砂

    上か ら順 に見てい けばタまず 農と 魂の関係がおかしい⑳「犬 猫」と 「猫 未」は等価な

    条件 のはず であるが,綴駿扮g盈哲では両者のあいだに倍以上の開きがある匂

    ・.・∴

  • い さ\き豆十膏)・.il,工嵩十日I:'f・i'f:i:・:烏山卜、:;ト音J'亘t

  • r: 1 :.∴ 工・∴■ ・ 、一t・.' I. i . 、

    Yahoo 呈

    犬 と猶は

    )!:・・::I:.I・

    雨がやんだ

    雨がやんだ ら

    酒を飲まされ

    酒を飲まされた

    ..-∴日・言、 .・ 、tl.、

    旦夕580/ 1タ570

    ∴!.'・ ∵・/・L ' 日.i

    ≡,' .、一,.-日 日.i日日・

    37タ300/7タ300

    .・ :日.・ ′、・

    Google

    ・1.日t、日 :1'二・:、:・

    3昌40/ 上之90

    75タ700/76タ900

    31タ400/41タ700

    i9タ900/53,700

    -日 ;一 一 、

    サ-チエンジンが検索条件 を どの よ うに扱 うか正確 な ところが分 か らないので この豪 を

    十分に解釈することはで きないがタ少 な 竃ともタ引用符 を付 けた ときの ヒッ ト件数 は引用

    符を付けないときの ヒッ ト件数 よ りも小 さ竃な るはず で あ る。ところがタ(豪 望)に見 るよ

    ・■ ∴ -.、 '・、 ・-:≡:.: .t!、, ‖一半 ,∴:.・・巨・i :・.・ l・;臣 JI ∴ ・. ∴ 、・;

    なる点はい くつ か あるものの-- 「犬 と猶 は」「未 は猶 と」が斜線 の左右 でほぼ同 じヒッ ト

    件数になってい るこ とや タ「雨がや んだ (ら)」では斜線 の左右 の差 が大 きい こ とな ど--,

    特にそれ と して確 か め られ る矛盾 はないゆ

    以上 の よ うにタ協 甑駿扮葦と異 な り 鎧扮駿g且腔には容易 に確認 可能 な論理的不整合が多い◎・こ.、.. 1・・~>、

    3鳥 で見たのは,異 な る条件 で検 索 した ときのヒット件数の相互関係の問題であった。

    サ-チエンジンにはヒット件数の変動の問題もある.つまりタ同じ条件で検索してもタ

    得 られる結果が検索 目時によってまった宅違ってくることがあるのである砂このことにつ

    I: :.= 、・■臣!:,!'.'・・、・ -I.判、-+: :.日日;=1一 ・一3日!;:"-L摘 廿 日hいL・・.・i .Ii;

    ではその実態をさらに細か宝調べてみることにしたいせ

    ・.、㌦・! :毒 口..,、・.:l●、. 一帖 十 ・・.I) - ・:・∴ 、-.十 、 、再 出i.':t′、言!

    の検索を3紛うきごとに行ってみた¢まず以下に掲げる (図 3)- (図 5)はタその調査によ

    って得 られた 鎧掴g且哲による検索結果の--一滴βを抜き出してグラフ化 したものである①ここ

    では表現を引用符で囲んで指定して検索した場合の結果を示すがタ引用符で囲まない場合

    にも同様の現象が観察される㊥

    (図 3)はタ 1月 望冒日から且月 3且日までの5日間における 「日本語 」 と 「英語」のヒ

    ット件数の時間的な推移の様子であるe

    何よりもまず夕「日本語」のヒット件数が時折急激な上昇を示 し, そ の前 後 の約 6倍の件

    数に達 している様子に驚かされる◎そしてタ考の一方で 「英語」のヒット件数は安定して

    お り,ほとんど変化 しない三とも注意を引宅勾

    息52

  • 700,0()0,000

    600.0〔)0.000

    500.000.000

    200.000,00O

    一oo.000.000

    0 1/'2 9

    0 0 :0 0

    :・..: 矧 ;、.

    0 卜 30

    00:()0

    L':・日∴ _. ∴・ :.I: 二・…・ 、・、言 ・ ∴ ~:毒 ]

    次の (図 4)は 「東京に行 電」 「東 京 - 行 宅」 のヒット件数の推移であるe

    l.00O,OOO

    900.000

    800,000

    700.000

    600.000」.

    Il_: ・.I- 1・㍗上」

    400,000

    300.000

    200,000

    100.000

    0

    01了′'2700:00

    0ト ′28

    00:00

    0■レ′29

    00:00

    0ト′30

    00:00

    Ol/'3100:00

    =- . '11巨

    t'い ・ 1・ :二一 ;: ・、 ・ .・ . : '・- ・∴ ; .. t . I.- , :. 5

    02/0100二00

    且53

  • (図 4)ち (図 3)に似た,しかしタより頻繁なヒット件数の変動を示 している秒「東京

    に行 宅」のヒット件数は安定している捌 こ対 し,「魔窟Jp、行電」のヒット件数は時にその前

    後の4倍以上の値を示す㊥

    このようなことでは,いっ統計を取るかによって表現の相対頻度がまった宅違って宅る

    ことになる。すなわちタ三の5日間の任意の時点、で統計を取ったとすればタ「東京に行く」

    T・:申・十 lい い目 .、」、f牛UJJ:'.FL,.;勺号 'L.∴目端十日目汗・.:;日日、岬由 一い ・L ,I.'吉 :.柚∵・:.I/'J、

    商いが,たまたま 「廉廉J-、行宅」のヒット件数がはね上がっているときに統計を取ったと

    日日十 r ;ド(・'L・[:''!(,:用言 ,/;:'':.J臣さ晶冊 .廿日一吉、卑岬ト十 ・・':i',) J,ト・-巨目上i' 、.叫上・仁 一

    ことになる血

    (図 3)と (図 4)の比較からさらに注目に値するのはき横軸が同-の期間を表す両図

    においてヒット件数の変動が同期 しておらずタ検索条件によってまちまちなタイミングで

    変動 していることである。また,変動ずると言ってもタなぜか変化の幅は検索条件ごとに

    ほぼ決まってお りタヒット件数が短時間だけ一定の高い健を示す形になっている令検索条

    件によってはヒット件数がほとんど変動 しないとい う事実も含め,すべてが謎であるとし

    か言いようがない砂

    (図 5)は使役の受け身を表す 「食べさせ られた」「食べさされた」「飲ませ られた」「飲

    まされた」のヒット件数の推移である.

    400,000

    350,000

    300,000

    250.000

    I.;,ii

    :ト … 川、・>⊥」

    150.000

    100,000

    01/2700:00

    01′/2800:00

    01/2900:00

    01/3000:00

    01/3100:00

    ;'.iI::I:I.;=LS;

    暗号)(晶ul.巨、軒 圭 {1::-iyH.-、t.・L…什1:!:恒J.1描:i(.:t 圧十 ・、∴ 十 ,汗 ÷ぎ ;了吊;

    02/′0100:00

    ここでは, 4通 りの表現の うち 「食べ させ られた」が (図 凌)の場合よりもいっそ う激

    しいヒッ ト件数の変動を見せているBまた,この事例ではヒット件数が-時的に約半分に

    まで落ち込む現象 も観察 されるゆ

    約 2週間にわた り協 ぬoo雪と綴oog漫eを使って共通の検索条件でヒット件数捌 寺間的推移

    巨工

  • ∴.1臣卜吊 ,・:.調工上 :'L・・十 ・・j・!..出帖,'刷 :il・ト項目・ll・!!廿(J∴i.ト ト 、;I:'.hミい三.'j

    綴oog且哲におけるようなヒット件数の大幅な変勤は見られなかった.(図 5)に相当する検

    索を翫甑oo葦で行った結果を参考までに図示すれば (図6)の通りである9(「食べさされた」

    と 「飲ませられた」はいずれもヒット件数が少な宅タダラフ上横軸に重なってほとんど判

    別できない。)

    Ol/2800:00 01ノ./2900:00

    I;.:.∴ ;臣

    01∫/3000:00

    01一/3100:00

    Lrl';.:.日昌 卜汗,・J十・;i.r・L.十 号_Ji・:;「十.:毎 号巨 、・ 立 ・、、 、,:高 .・一 蔓 汗 川 ;

    02/0'100:00

    「飲 ま され た」の ヒッ ト件数 は多少の増 減 を 示 し て い る が 夕 張oo繭 で の大幅な変動には比べ るべ 宅もない小規模 な変動 に とどまっ て い る や

    以上 の よ うに, ヒッ ト件数 の安 定性の点 で も 鎧oog呈e は 協甑oo萱に比 べ て信 頼 性 が低 い ことが分 か る¢ 3。 1で見た 綴065g3.哲のヒッ ト件数の論理的不整合もこの不 安 定 性 が 一 因 として関わ ってい る可能性 が あ る8

    もっ ともタ協 甑oo葦の ヒ ッ ト件 数 にま っ た 宅問題がないことが確かめられたわけ で は な い 中

    上 、、,i,'こ :∴ 工 ;'い ..・::'...・・・)十 . 1日 二一 日 帖;‖ i.I:,‖-1伸了黒い'i,工 .:上l・:右記 ・小 ( 、′

    ト件 数 の 変 動 の 例 が 挙 げ られ て い る 。 確 実 に言えると思われるのはタ協払oo葦の示すヒット

    件 数 の ほ うが 綴oo離農よ り も相 対 的 に信 頼 性が高いと見られるということにとどまる由

    ; L・;ト ::き

    以 上 の 調 査 で 分 か っ た こ とを ま とめ れ ば 次の通 りである9

    ・妻トト"・'r.∴ I .L:..・J宣 ・.:I.・・l H j 一一 、:'l.-/∴巨.:,I.I:I:i.I:I,., L・/,∴・ '・.冒,.I.:晶lH亘、

    の 3倍 程 度 で タ 30 兆 バ イ ト 拍 5 兆 文字)程度 と推定される⑳これは一社の新聞記

    事 3万 年 程 度 に相 当 す る 砂

    昌・,

  • ・鎧ooがeほ 翫 施療藍損こ比べて検索の論理的整合性や安定性に関して問題が多いo

    結論 として,サ-チエンジンを使 って日本語の表現を検索しクモのヒット件数を見る冒

    的にとってほ,協 艶oo萱が最 も適 していると言ってよいだろう⑳これは荻野飽く望扮O朝の意見

    に一致する◎

    なお,以上のことは今回の調査で確認できた 望扮扮8年 1-2月における状況に基づく評

    価に過ぎない。別の角度からの調査ではサ-チエンジンのまた違った側面が見出される可

    能性はあるし,今後状況が年考変わっていく--それぞれのサ-チエンジンがさらに進化

    するとともに,新 しいサ-チエンジンが登場する- であろうことも確実であるゆ

    いずれにせよタサ-チエンジンはブラックボックスでありタ外側から確認できることに

    は限界があるB荻野渡扮扮紬 も いろいろなタイプの条件を多数の普-チエンジンで検索 し

    たときの結果の違いを調査 ◎分析 しているoサ-チエンジンの示す ヒット件数はタあから

    さまな問題が認められない場合もタその不確実性に十分注意 して受け止めるようにするこ

    とが肝要である8

    (注1)拙論渡りm)として収録 している口頭発表でタ本稿とは異なるきわめて簡便な方法によ

    る協hoo葦のデ--夕量の推計を述べためしかし,そこではヨ_つの We髄文書に当該の検索語が複

    数含まれる可能性を考慮 し忘れるという重大な手落ちがあった砂そのこともあってタデ-夕畳

    の推計が今回の結論よりもかなり少ない値になってしまった8

    (注 2)「フレ-ズ検索」という用語は 鎧oog瞳のものであるが,ここでは便宜上協甑榊軍に関し

    ても用いる。髄払扮緋,醍醐g且eともフレ-ズ検索の内実はその表向きの説明よりも多少複雑で,

    例えば,Weも文書に含まれる記号類は無視 して検索される㊤そのため,例えば 「門AB門」とい

    うフレ--ズを指定して検索したときヲ「A ⑳欝」とか 「A (盟)」といった形の表現を含むWe態

    文書もヒットする¢また,協hM苦では引用符の付加は異表記の同一視を抑制する効果も持っ◎

    践oog且eには (注 3)で触れるような問題もあるや

    (注 3)鎧oog旦哲-ルプセンタ-のペ-ジに 「検索 した単語または語句が含まれないペ-ジを表

    示することがあります」とあり,「該当するページを指定しているリンクのアンカ-テキス ト

    にヲ検索したフレ-ズと一致する語句が含まれていればタそのペ-ジほ検索結果に表示され」

    るとの説明が記されているやフレ-ズ検索にそのような役割を担わせている仕様 自体が不可解

    であるが,ともあれ (泰 望)に見るようなヒッ ト件数の気紛れな振舞いはそ うしたサ-チエン

    ジンの仕様の結果として理解することは無理だと思われる。

    ∴ 工

    荻野綱男綾004)各種検索エンジンの実態と特徴 『日本語学』第 望3巻第 望号

    荻野綱男渡006)検索エンジン醍醐継 の使い方とWWW コ-パ刻 こよる日本語研究 域生栢太

    郎博士還暦記念論文集編集委員会編 『実験音声学と一般言語学』(東京堂出版)

    荻野綱男 ◎末永絵梨 ◎下墓秋弓 申三好亜萌綾輯m)WWW の検索による日本語研究鰻) 『東京女

    子大学日本文学』第 息輯3号

    田中ゆかり渡鍼3)ネット検索は日本語の研究に有用か 『日本語学』第 望望巻第 5号 (望扮扮3年

    ・・:・

  • 4月臨時増 刊 号 『 コ - パ ス 言 語 学 』)

    田野相思温渡り 0 鶉 コ ピ ュ ラ の 分 布 の 分 析 と 調 査 - - コ-パ スの種類 と規模 の妥 当性-柳 田

    野 村忠温 ◎ 服 部 匡 砂 杉 本 武 歯 石 井 正 彦 『 コ - パ ス を用いた 日本語研 究 の精密化 と新 しい研

    究領域 ⑳手法 の 開 発 ‡ 』 (文 部 科 学 省 科 学 研 究費補助金特定領域研 究 「日本語 コ-パ ス」

    日本語学班平成 息8 年 度 研 究 成 果 報 告 書 )

    (望008年 2月 望8日受付)

    旦57