検索デスク 検索の視点:22 ホーム サイトマップ

第3世代Web検索エンジンについて

2001年7月5日　　　浅井勇夫

[内容] Web検索エンジンの発展過程をコンテンツの処理方法により分類します。コンテンツの濃縮、一部処理、全部処理、そして現在は第3世代のコンテンツ間の関連性を処理、へと発展しています。
[目次]　1.急発展中のWeb検索エンジン 2.Web以前のデータベースはコンテンツを濃縮 3.第１世代はコンテンツの一部分だけを処理 4.第２世代はコンテンツの全部を忠実に処理 5.第３世代はコンテンツ間の関連性をもとに処理 6.まとめジャンプ視点:目次前へ次へ

■１．急発展中のWeb検索エンジン

　Web検索エンジン開発の歴史はインターネットの開始から数えてもまだ6～7年しか経っていません。この間にWebコンテンツが爆発的に増加したため、検索エンジンの性能は短期間にも関わらず長足の進歩を遂げています。ここでは、その進歩の足取りをたどり、現状の検索エンジンについて理解を深めたいと思います。

　ロボット系といわれる検索エンジンは、(1)Webページを収集し、(2)それを索引化してデータベースを構築し、(3)検索要求に応じてランキングし、(4)検索結果を返します。ここでは(2)のデータベースを構築する際にWebページの内容をどのように取り込んでいるかという観点から、検索エンジンの発展過程を見ていきます。

　ここでは、以下、

2節　Web以前のデータベースはコンテンツを濃縮、

3節　第１世代はコンテンツの一部分だけを処理、

4節　第２世代はコンテンツの全部を忠実に処理、

5節　第３世代はテンツ間の関連性をもとに処理、

6節　まとめ、
について述べます。

■２．Web以前のデータベースはコンテンツを濃縮

　Web開始後の検索を理解するには、開始前の検索技術の状況を理解するのがベターです。情報の流通システムとして、本・雑誌・テレビ・ラジオなどの巨大メディアがあります。コンピュータや通信技術を利用したデジタル情報の流通も普及していました。

　それはオンライン商用データベースといわれ、代表的なものに、Dialog、JOIS、日経テレコンなどがあります。いずれもテキストベースで専用回線や電話回線を使ってアクセスします。もちろん有料ですので、IDやパスワードを取得しなければならず、いわばクローズドなシステムです。検索システムは統一されてなく、データベースごとに検索コマンドは異なっていました。しかも、検索条件の設定が複雑なため検索コマンドの習得は難しく、そのため企業では専門のサーチャーを介して利用しました。

　データベースの属性として、例えば記事データベースの場合、タイトル、キーワード、抄録、発行日などがあります。タイトルは40字以内、キーワードは5個以内、抄録文は200字まで、発行日の表記法、さらに細かな項目、など各新聞社ごとに異なっていました。キーワードは自由に使えるフリーキーワードや、検索精度をよくするためにキーワードを統一するディスクリプタなどを使いました。特に、抄録の作成は困難でした。例えば論文の場合、コンテンツを読んでそれを短い抄録にしなければならず、コンテンツは濃縮されました。データベースの作成は時間とコストのかかるものでした。

　分野により属性が異なるため、データベースごとにソフトウェアが開発されました。したがって、ソフトごとに検索コマンドが異なり、利用するのは本当に使いづらいものでした。キーワード検索は主に属性のキーワードの部分を対象にし、さらに属性ごとに条件を設定して絞り込みました。数万～数百万件のデータ、しかも構造のはっきりしたデータのみを処理する検索システムで、Web検索エンジンからみれば非常にシンプルなものでした。検索システムを標準化する前にインターネット時代を迎えてしまいました。

■３．第１世代はコンテンツの一部分だけを処理

　Webが始まったのは1993年です。当初はどこにコンテンツがあるかを知るために、新着情報やディレクトリなどの検索サイトは貴重な存在でした。1995年初めに米Yahoo!の収集したデータ数は約3万、1996年初めのNTT DIRECTORYのデータ数は約5,200ということを知れば、Webがいかに急成長したか理解できます。情報量が増えるにつれて、ディレクトリをサーフする代わりにキーワードを入力して検索するサービスも提供されました。サイト単位に情報を整理するディレクトリと異なり、ページを収集するロボットといわれるアルゴリズムが公開され、それを使ったロボット型検索サービスが始まりました。

　Webコンテンツはオンライン商用データベースのコンテンツとは似ても似つかないものでした。まず、属性はあるようで全然ないのも同然でした。HTML文はテキスト、画像、音楽、それにレイアウトを示すタグが混在しています。そしてコンテンツは玉石混交で分野の垣根もなく、ページの構成もバラバラでした。これらを処理するにはソフトが必要で、従来のデータベース処理システムを転用したところ、新たに開発したところなど、参入ベースはさまざまでした。いずれにしても従来とは異質で多量なデータを処理しなければならなくなりました。

　Webデータベースが商用データベースと異なる点は入力コストと更新です。Webでは全文がデジタルで得られ、しかも商用に較べればコストはゼロです。次に更新ですが、従来はデータを蓄積し、新しいものよりも古いものに価値があったのですが、Webの世界は逆にデータを更新し、古いものよりも新しいものに価値があります。データベースやホームページを作成するには常識と反対の考え方が必要でした。

　最初の頃はコンテンツの一部分だけしか処理できませんでした。例えば、(1)画面に表示されるテキスト部分だけでタグを処理しない、(2)タグのリンク情報を重点的に処理する、(3)研究段階であった全文の索引化手法がいろいろテストされた、などなどです。このコンテンツの一部しか処理しないものを第1世代検索エンジンとみなします。検索機能の標準はなく、暗黙の空白をOR検索したりもしました。これはデータ数が少ないときにヒット数を多くしようとしたときの名残りです。新しいWebの世界を把握できず、実社会に影響された参入者は敗退していきました。

■４．第２世代はコンテンツの全部を忠実に処理

　1995年12月にAltaVistaは新しい検索エンジンを発表しました。それはタグを含めて収集したページ内容をすべてデータベース化しました。翌1996年5月に開始したInktomi系のHotBot、8月に開始したInfoseekのUltraseekはこの第2世代に属します。英語の場合、単語の区切りがあるため、全文索引化は日本語よりも容易です。

　日本語の場合は単語の区切りが難しいため、日本語全文検索システムの開発は困難を極めました。1997年3月末に、HotBotと提携したgooは第2世代検索エンジンによる検索サービスを始めました。1997年の検索力調査には、gooは従来のものに較べてデータ数10倍の検索エンジンを投入しました。それから3ヶ月以内にInfoseekとInfoNavigatorがデータ数を4倍にしたというドラマティックなことが記録に残っています。

　goo以降の第2世代検索エンジンとして、1997年5月にInfoseek、翌1998年4月に日本語AltaVista、2000年8月に日本語Fast Searchなどがあります。逆リンク情報は非常に貴重な情報源です。第2世代は全文検索ができて、かつタグを処理して得られる逆リンクの検索ができるかどうかで判断します。したがって、優れた形態素解析を開発して日本語全文検索していても逆リンク情報を提供しないところは第1世代とみなします。なお、検索デスクは1997年からリンク検索ができるようにしています。

　第2世代のデータベースの構成単位はこまぎれにしたページでした。ページにはトップページ、サイトマップ、主要コンテンツ、ヘルプなどいろいろな性格のページがあります。ページを隅から隅まで丹念にデータベース化しても、それがデータベースの中に入ると埋没してしまいます。データが増えすぎて検索結果が冗長になったためロボット系は使いにくいといわれるようになりました。そこでディレクトリを作成してロボット系とディレクトリ系の2種類のデータベースを運用したりなど、いろいろ努力を重ねています。1999年4月にフレッシュアイが始めた「ずばリンク」、その後、ぴったりgoo、ジャストシーク、公式サイト、ダイレクトリンク、などは、ページ検索とサイト検索の融合を図ったものです。しかし、一部のサイトしかあつかわず、しかも人手によるのであれば、更新が大変なことになります。

■５．第３世代はコンテンツ間の関連性をもとに処理

　1999年10月にGoogleがリンク情報を利用した検索システムを登場させ、日本語Googleは2000年9月から本格サービスを始めています。この特徴は検索結果のランキングが優れていることです。それにポータル化を進めている他の検索サイトが盛沢山な情報を画面いっぱいに表示するのに較べて、検索に特化した結果をシンプルなデザインで表示しています。最近、日本語Googleは新しい形態素解析を導入し全文検索を強化し