第1回：蓄積したデータを徹底活用〜全文検索 (1/3)

高性能なオープンソース全文検索システム「Ludia」

第１回：蓄積したデータを徹底活用〜全文検索
著者：NTTデータ加納寿浩 2006/12/6

はじめに

現在では、商品の詳細な解説や購買者からの感想、顧客からのクレームや問い合わせ内容とその回答など、様々な情報が企業のデータベースに蓄積されています。ショッピングサイトの訪問者やコールセンターのオペレータは、これらの膨大なテキストデータから迅速に求めるデータを抽出したいと望んでいます。そして、この際に必要となるのが本連載でとりあげる全文検索です。

本連載では、全文検索を実現するソフトウェアのなかでもオープンソースである「Ludia」に焦点をあてて、全文検索の技術そのものからその導入ポイントまでを解説していきます。なおLudiaは、オープンソースRDBMSとして著名なPostgreSQLに対して高度な日本語全文検索を実現するため、NTTデータが開発し、オープンソースとして公開しています。

SourceForge.jp:Project - Ludia
http://sourceforge.jp/projects/ludia/

全文検索ニーズの高まり

   ほとんどのインターネット利用者にとって、「検索」は日々利用する当たり前のサービスとなっています。ここで用いられる検索とは、テキストデータの中から指定した単語を含む文書を抽出する機能のことで、これを「全文検索」といいます。日々数千万回、数億回の全文検索がインターネット上で行われているほど、全文検索は非常に身近なものになっています。

   では、企業内においてはどうでしょうか。各企業内でも様々な場面において、イントラネット上のWebページを利活用されていると思いますが、企業内においてコアコンピタンスとなるデータ、商品情報、顧客情報、営業情報などは多くの場合がデータベースシステム上に存在します。これらの情報は売上高データなどの数値が主となる情報に加え、様々なテキストデータを含んでいることがあります。そして、実はこれらの情報が、先にあげた商品の詳細説明や購買客からの感想、クレームに問い合わせなどなのです。

   コールセンターでは顧客からの問い合わせに対しスピーディーな対応を要求されます。電話をかけてくる顧客は、商品などの知識が豊富なわけではありません。オペレータの目の前にあるシステムには過去の膨大な対応の詳細が登録されていて、実は似たような対応の記録があるかもしれません。

   しかし限られた時間の中、そのオペレータに使える検索の手段が、商品IDや顧客IDしかないとしたらどうでしょうか。それでは必要な情報にたどりづけることは稀でしょう。そこで既存のFAQの中から、今応対している顧客の求めている内容に近いものを迅速に抽出するには、全文検索機能が必要となります。

   全文検索機能は、企業内に蓄えられた膨大なテキストデータを徹底的に活用し、作業の効率化、顧客満足度の向上を得るための重要な技術なのです。

1 2 3 次のページ

著者プロフィール
株式会社NTTデータ加納寿浩
日本でも有数の大規模システム更改プロジェクトに企画段階からサービス開始まで従事。主にメインフレーム上のデータベース性能対策を行う。その後、該当システムのオープン化検証にて、オープン系DBMSの評価を行った。2005年から現職。Ludiaプロジェクトの立ち上げを行う。

INDEX
第1回：蓄積したデータを徹底活用〜全文検索
	はじめに
	普通の検索、全文検索
	PostgreSQLに高度な日本語全文検索を

高性能なオープンソース全文検索システム「Ludia」
第1回	蓄積したデータを徹底活用〜全文検索
第2回	データを徹底活用する全文検索機能の仕組みと製品比較
第3回	Ludiaの導入準備
第4回	Ludiaを体験
第5回	Ludiaの多彩な検索機能の秘密
第6回	柔軟に対応できるLudiaの検索機能
第7回	全文検索を企業向けミッションクリティカルに