前回は各全文検索システムでインデックスを作成し、インデクシングにかかる時間やインデックスのサイズを測定、比較しました。今回はその実験で作成した インデックスを用いて検索を行い、検索速度を測定、比較していきます。また、インデクシング時や検索時のリソース消費量についても測定を行い、比較しま す。
「第2回:検索エンジンの選定と評価項目」では、全文検索システムを比較するにあたってはさまざまな評価項目があることを解説しました。今回はインデクシングの速度やインデックスのサイズを実際に測定/比較していきます。比較対象とするのは、Namazu、Lucene、 Estraier、Hyper Estraier、Sennaの5つの全文検索システムです。
全文検索システムの比較には、さまざまな評価項目があります。ここではまず、その評価項目について解説していきます。検索の精度は検索システムにとって最も重要な評価項目です。精度が低い検索システムでは、目的の文書を的確に見つけることができません。検索システムの 精度としては、適合率と再現率という2つの数値がよく使われます。
現在、多くのWebサイトではそのサイト内の情報を検索できる「検索窓」「検索ボックス」を設置しています。例えば、この記事の上の方にも検索窓があります。検索ログとは、この検索窓から得られるログのことです。サイトの閲覧者はそれぞれが欲しい情報を探すた めに、検索窓にキーワードを入れてサイト内のドキュメントから検索を行います。そのときに検索についての履歴を記録したのが検索ログです。
本誌は、読者登録いただくことにより、毎月無料でみなさまのお手元まで直接お届けいたします(書店などでは販売していません)。
企業の情報システムを担当する方々や事業部門のIT担当の方々、およびIT関連プロフェッショナルの方々を対象に、実践的に役立つ情報を掲載、幅広く業務にご活用いただけます。