Webが始まったのは1993年です。当初はどこにコンテンツがあるかを知るために、新着情報やディレクトリなどの検索サイトは貴重な存在でした。1995年初めに米Yahoo!の収集したデータ数は約3万、1996年初めのNTT DIRECTORYのデータ数は約5,200ということを知れば、Webがいかに急成長したか理解できます。情報量が増えるにつれて、ディレクトリをサーフする代わりにキーワードを入力して検索するサービスも提供されました。サイト単位に情報を整理するディレクトリと異なり、ページを収集するロボットといわれるアルゴリズムが公開され、それを使ったロボット型検索サービスが始まりました。
Webコンテンツはオンライン商用データベースのコンテンツとは似ても似つかないものでした。まず、属性はあるようで全然ないのも同然でした。HTML文はテキスト、画像、音楽、それにレイアウトを示すタグが混在しています。そしてコンテンツは玉石混交で分野の垣根もなく、ページの構成もバラバラでした。これらを処理するにはソフトが必要で、従来のデータベース処理システムを転用したところ、新たに開発したところなど、参入ベースはさまざまでした。いずれにしても従来とは異質で多量なデータを処理しなければならなくなりました。
Webデータベースが商用データベースと異なる点は入力コストと更新です。Webでは全文がデジタルで得られ、しかも商用に較べればコストはゼロです。次に更新ですが、従来はデータを蓄積し、新しいものよりも古いものに価値があったのですが、Webの世界は逆にデータを更新し、古いものよりも新しいものに価値があります。データベースやホームページを作成するには常識と反対の考え方が必要でした。
最初の頃はコンテンツの一部分だけしか処理できませんでした。例えば、(1)画面に表示されるテキスト部分だけでタグを処理しない、(2)タグのリンク情報を重点的に処理する、(3)研究段階であった全文の索引化手法がいろいろテストされた、などなどです。このコンテンツの一部しか処理しないものを第1世代検索エンジンとみなします。検索機能の標準はなく、暗黙の空白をOR検索したりもしました。これはデータ数が少ないときにヒット数を多くしようとしたときの名残りです。新しいWebの世界を把握できず、実社会に影響された参入者は敗退していきました。