欲しい情報をピンポイントに検索する技術

2009年1月22日(木)
松田 潤

XML化フィルターの概要

 本連載の第1回(http://thinkit.jp/article/771/1/)でCBESは、全文検索や概念検索、数値検索、文書属性検索など、一般的な検索機能のほか、「構造指定検索」および「構造類似検索」と呼ばれる2つの検索機能が新たに搭載されていることを紹介しました。これまでのキーワードによる検索のほか、文書の構造を指定して検索できるのが、構造指定検索や構造類似検索なのですが、これを実現するのがXML化フィルターによる文書の構造化です。

 XML化フィルターは、文書をXMLに変換するための仕組みを提供するものです。一太郎や三四郎、Microsoft Word/Excel/PowerPoint、PDF、テキストファイルなどの文書のスタイルやデータ構造を解析して、その内容に基づいたXML構造化を行います。また、作成者や作成・更新日時、コメントなど、文書のプロパティ情報を構造化して抽出することも可能です。

 XML化フィルターにより構造化されたXMLデータを利用することで、例えばExcelで作成された表の見出しが「合計金額」で、金額が「100万円以上」のデータを絞り込むことが可能となり、構造を利用して業務に必要な情報をピンポイントで検索することができます。さらに、XMLの特性を活用することで、必要な項目だけを抽出して一覧表示できるのはもちろん、検索された情報を構造でまとめ、新たな表として再集計することも可能となり、コンテンツの再利用性を高めるほか、業務アプリケーションに容易に組み込むこともできます。

ランキングの制御

 XML化フィルターによる構造化によるもう1つのメリットとして、ランキングコントロールの機能が挙げられます。ランキングコントロールは、全文検索や概念検索を行う場合に、検索結果の順序(ランキング)を任意に制御する機能です。ランキングの制御方法には、「XML構造による重み指定」と「タグの値によるスコアの算出」の2種類があります。

 XML構造による重み指定では、あらかじめ指定されたXML構造にヒットした検索結果のスコアを高くすることが可能となります。検索結果が指定されたXML構造にヒットすると高いスコアが与えられ、そのスコア順に検索結果を表示できます。CBESでは、複数のXML構造を指定することが可能で、スコアも0.1~10.0まで自由に指定できます。

 またタグの値によるスコアの算出は、指定タグの値をもとに次の4種類の算出方法でスコアが算出され負荷されます。

1.検索語句のヒット判定によるスコア決定
2.数値データをスコアに変換
3.文字列データをスコアに変換
4.計算式でカスタマイズした数値データをスコアに変換

 「1.検索語句のヒット判定によるスコア決定」は、指定タグに語句がヒットした場合にスコアを算出します。スコアは、完全一致、全方一致、後方一致、部分一致の度合いにより算出されます。また、「2.数値データをスコアに変換」は、金額や日付などの数値データをスコアに変換して、昇順/降順に並べ替えることが可能です。計算式によりカスタマイズした数値をスコアに変換することもできます。

 さらに、「3.文字列データをスコアに変換」は、拡張子や作成者、ステータスなどの文字列データをあらかじめスコアテーブルに登録しておき、そのスコアテーブルに基づいてスコアを算出します。「4.計算式でカスタマイズした数値データをスコアに変換」では、指定タグを変数にした計算式からスコアを算出します。計算式には、四則演算や三角関数、対数などを使用し、プログラムにより動的に生成することも可能です。

 さて、前回と今回はファイルサーバー検索のためのESPの機能について解説してきました。最終回となる次回は、ファイルサーバー検索にESPを活用することで、何ができるようになるのか業務がどう改善されるのかを具体的に紹介していこうと思います。

株式会社ジャストシステム
エンタープライズマーケティング部 部長。鐘紡株式会社にて、主に金融機関向けシステムの開発・導入や、企業向けパッケージ・ソリューションの企画、事業化を担当。94年より株式会社ジャストシステムに移り、企業向けソリューション販売事業を担当。ConceptBase事業については、事業企画から、アライアンス、KMエバンジェリストまで、幅広い活動を行っている。http://www.justsystems.com/jp/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています