検索速度の比較実験

2008年12月24日(水)
早坂 良太

全文検索システム選定のポイント

 これまでインデクシング速度やインデックスサイズ、検索速度、リソース消費量といった処理性能に注目して全文検索システムの比較をしてきました。これらの処理性能は全文検索システムを選ぶ上での重要な要素となりますが、選定のポイントとなる要素はほかにもあります。

 第2回(http://thinkit.co.jp/article/726/1/)では全文検索システムの評価項目として精度と処理能力を挙げましたが、以下ではそれ以外の選定のポイントを解説していきます。

 サイトに検索窓として組み込むことを考えた場合、デザインをどれだけ変更できるかというのは選ぶポイントになります。

 LuceneとSennaはライブラリですので自分で自由にデザインを決められる反面、検索ページを0から作成する必要があります。Namazu、Estraier、Hyper EstraierにはCGIや検索サーバーが用意されています。この3つのシステムではどれもテンプレートという形でデザインの部分が分離されていますので、一定の範囲でデザインを決めることができます。

 全文検索システムがどの言語で開発されているか、どの言語で使うことができるか、プログラムを自分で作成する必要があるのかというのも選定ポイントです。

 個人で手軽に検索窓を設置したいという場合には、実装の必要がなく、すぐに使用開始できるというのは大きな利点です。プログラムを作成する場合でも、開発者が知っている言語かどうかは選択のポイントになります。

 運用面では、インデックスをどのように扱えるかというのも選定のポイントです。

 インデックスを更新している最中でもそのインデックスに対して検索が行えれば、常に最新のインデックスを保つことができます。複数のインデックスを1つのインデックスにマージすることができれば、複数台のマシンで同時にインデクシングし、後で1つにまとめるというようなこともできます。

 また、複数のインデックスから検索した結果をまとめて提示できれば、各カテゴリのインデックスを用意して、各カテゴリから検索する検索窓と全カテゴリから検索する検索窓を用意する、というようなことも可能です。

 さらに、複数インデックスのマージや複数インデックスから検索ができれば、大量の文書をインデクシングすることが難しい全文検索システムでも、大量の文書を扱うことができる可能性があります。

おわりに

 本連載は、サイト運営において有用な情報源となる検索ログを取得するため、Webサイトに検索機能を構築するというのが最初のテーマでした。

 そして、検索機能を構築する手段として全文検索システム、特にオープンソースのシステムを用いる方法を紹介しました。日本語が扱えるオープンソースの全文検索システムは幾つもリリースされているため、その中からどれを選べばいいのか評価基準を紹介し、インデクシング速度やインデックスサイズ、検索速度、リソース消費量といった処理能力について比較を行ってきました。

 インデクシング速度の比較では、N-gramで単語分割したときのLuceneが最も高速であるという結果が得られました。インデックスサイズの比較では、Namazuのインデックスが最も小さいという結果が得られました。

 検索速度の比較では、Namazu、そして形態素解析で単語分割したときのLuceneまたはSennaが高速であるという結果が得られました。

 リソース消費量の比較では、CPUの消費量についてSennaが若干少ないという結果が得られました。

 今回の全文検索システムの性能比較では、なるべく実際に運用する際の参考になるように実験しましたが、おそらくハードウエアの性能やチューニングなど、条件によって結果は異なってしまうと思います。

 今回とは違った実験方法による調査に興味のある方は、筆者が以前に発表した「オープンソースの全文検索システムの速度性能比較」(http://www.seman.cs.uec.ac.jp/paper/oss_fulltext_search.html)という論文が参考になるかもしれません。

 全文検索システムを選ぶとき、本連載が参考になれば幸いです。

 なお、本記事に関して電気通信大学 尾内理紀夫氏と林貴宏氏からいただいたご支援、ご協力に深謝します。

電気通信大学 電気通信学研究科 情報工学専攻を修了。尾内・林研究室では検索エンジンをテーマとして研究。全文検索システムの速度性能比較や、検索エンジンの構築を行った。現在は日本アルゴリズム株式会社に所属している。http://www.nalgo.co.jp/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています