TOP業務システム> クローラとゲートウェイ
エンタープライズ・サーチ
社内の情報資産を最大限に活用するエンタープライズ・サーチ

第3回:エンタープライズ・サーチの機能を見極める
著者:アイ・ティ・アール  上村 陽子   2006/5/11
1   2  3  次のページ
クローラとゲートウェイ

   今回は、エンタープライズ・サーチの機能を細かく紹介します。

   検索エンジンの機能のなかで、検索対象情報が置かれた複数のサーバを巡回する役割を果たすプログラムをクローラと呼びます。インターネットの世界では、クローラは世界中で公開されているWebサイトを循環して検索対象コンテンツを収集します。一方、エンタープライズ・サーチの場合は検索対象が企業内の幅広いコンテンツなので、クローラはWebサーバだけでなく、Notes/DominoサーバやMicrosoft Exchangeサーバなどの中にまで調べる必要があります。

   そこで、クローラが公開Webサーバ以外のサーバとも通信できるように、「Notes DB用ゲートウェイ」といったような名称で独自仕様のリポジトリと通信できる機能が開発され、エンタープライズ・サーチ製品の検索エンジンに組み込まれています。つまり、エンタープライズ・サーチ製品はどんなサーバでも検索できるわけではなく、その製品がゲートウェイを提供している範囲が検索対象となります。


インデックス作成のアルゴリズム

   クローラが巡回して収集した情報は検索エンジンの機能の1つであるインデクサーによってその内容が解析され、インデックスが作成されます。インデックスは本の索引に相当するものであり、キーワードとそのファイルの場所の情報が格納されます。

   長い文章をインデックス化するためには、自然言語を処理するアルゴリズムが用いられ、それはテキスト・マイニングツールなどにも利用される技術です。アルゴリズムは大きく分けて「形態素解析」と「N-gram」の2つがあります。

   形態素解析はテキストを意味ある言葉と捉えます。例えば、「私は会社員です」という文章からは、まず「私」「会社」「会社員」といった意味のある単語が抽出されます。意味のある単語かどうかは辞書データによって判断されるので、辞書の充実度が検索精度に影響します。

   N-gramは、テキストをN文字の間隔で区切ってキーワードとする方法です。「私は会社員です」の場合は、まず「私は」「は会」「会社」「社員」などといった機械的な分割が行われます。意味のないキーワードも作成されてしまいますが、分割文字の組み合わせであらゆるパターンを網羅するので検索漏れはなくなります。

   「社内の情報資産を最大限に活用するエンタープライズ・サーチ」というレポートを探す場合、普通は「情報資産」や「エンタープライズ・サーチ」で検索すると思いますが、一般的なキーワードでは検索結果が多すぎて困ることもあるでしょう。「活用するエン」といった意味のない単語で検索した場合でも、N-gramは他の意味ある単語と同様に検索が可能となります。

   「形態素解析」と「N-gram」には一長一短があり、どちらかのアルゴリズムを選択できる製品や、両者を融合した独自アルゴリズムを展開する製品も存在します。

1   2  3  次のページ


アイ・ティ・アール  上村 陽子
著者プロフィール
株式会社アイ・ティ・アール  シニア・アナリスト
上村 陽子(かみむら ようこ)

データウェアハウス、BI、CRM、コンテンツ管理分野の市場調査を担当する。慶応義塾大学理工学部卒業後、ユーザ企業の情報システム部門を経て、1999年より現職。


INDEX
第3回:エンタープライズ・サーチの機能を見極める
クローラとゲートウェイ
  自然文検索とパラメータ検索
  セキュリティ・アクセス管理