正確に、確実に情報を検索する！

連載 :

2009年1月8日(木)

すべての検索処理を1つの検索エンジンで実現

　ファイルサーバー検索に適したCBESの特徴は大きく2つあります。「検索のかしこさ」と「システムの拡張性」で、最大のポイントは、多彩な検索処理を1つのインデックスで実現できる「ハイブリッド検索エンジン」（図2）を搭載していることです。

　このハイブリッド検索エンジンは、全文検索や概念検索、数値検索、文書属性検索などに加えて、「構造指定検索」および「構造類似検索」と呼ばれる2つの技術を活用しています。

　構造指定検索とは、例えばExcelで作成した文書の「日付」という構造を利用して、「2008/1/8」という値が入ったデータを検索する仕組みです。一方、構造類似検索では、例えばExcelで作成した顧客一覧と類似した構造の情報を検索するためのもので、名刺情報や社員名簿など、「氏名」「住所」「電話番号」などの構造が類似している情報を検索するための技術です。

ATOKの日本語処理技術を活用

　「漏れがない」「ノイズが少ない」検索を実現するためには高度な日本語処理技術が必要になります。CBESでは、日本語ワードプロセッサ「一太郎」や日本語入力システム「ATOK」の技術を利用することでより高い精度の検索を実現しています。

　例えば表記ゆれの統制として「売上げ／売上／売り上げ」や「コンピュータ／コンピューター」、全角／半角などの違いなどを吸収しています。また、「補填／穴埋め／補充」などの同義語や「走る／走れ／走ろう」などの用語の活用による語尾変化、「着色していない／無着色」などの肯定表現と否定表現の区別などがあります。

　また「ランキングコントロール」を利用した「かしこい検索」も特長の1つです。ランキングコントロールでは、最新性／オフィシャル度、人気度／便利度、重要度／緊急性、ビジネス価値／業務ルールなどのルールを事前に設定しておくことで、「ベストな情報を推奨する」ことが可能です。1つの検索エンジンで検索ランキングを自由にコントロールすることができます。

　こうした高度な日本語処理を実現する技術としてCBESでは、N（V）gram処理と自然言語処理（NLP：Natural Language Processing）の2つの技術を採用しています。

　N（V）gram処理では、検索対象を1～n文字ずつに区切りインデックスを作成するNgram処理と文字種ごとに最適なn数を決定するVgram処理を連携した技術を搭載しています。一方、NLPは文書から語句を抽出する高度な形態素解析で、正規化や表記ゆれの吸収、用語の活用形、否定語の区別などを実現しています。

サーバ構築・運用 / システム運用 / ファイルサーバー / 検索 / ジャストシステム / ハイブリッド検索 / ConceptBase Enterprise Search / 構造類似検索 / 構造指定検索

著者

松田潤

この著者の記事一覧この著者の
記事一覧

株式会社ジャストシステム

エンタープライズマーケティング部　部長。鐘紡株式会社にて、主に金融機関向けシステムの開発・導入や、企業向けパッケージ・ソリューションの企画、事業化を担当。94年より株式会社ジャストシステムに移り、企業向けソリューション販売事業を担当。ConceptBase事業については、事業企画から、アライアンス、KMエバンジェリストまで、幅広い活動を行っている。http://www.justsystems.com/jp/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

検索フォーム

正確に、確実に情報を検索する！

すべての検索処理を1つの検索エンジンで実現

ATOKの日本語処理技術を活用

Think ITメルマガ会員登録受付中

Iacツール「Terraform」の基本的な使い方

GPUを活用してデータベースを爆速化する「PG-Strom」の仕組み

「TAURI」で「簡易RSSリーダー」を開発してみよう

8年目の中堅エンジニアが感じる世代間ギャップー次世代リーダーへの道

初対面でも仲良くなれる! 初対面で聞いて「OK」な質問・「NG」な質問「5選」

Kubernetesにおけるオートスケーリングの概要

全文検索エンジンによるおすすめ記事

現在地

正確に、確実に情報を検索する！

すべての検索処理を1つの検索エンジンで実現

ATOKの日本語処理技術を活用

Think ITメルマガ会員登録受付中

他にもこの記事が読まれています

Iacツール「Terraform」の基本的な使い方

GPUを活用してデータベースを爆速化する「PG-Strom」の仕組み

「TAURI」で「簡易RSSリーダー」を開発してみよう

8年目の中堅エンジニアが感じる世代間ギャップー 次世代リーダーへの道

初対面でも仲良くなれる! 初対面で聞いて「OK」な質問・「NG」な質問「5選」

Kubernetesにおけるオートスケーリングの概要

全文検索エンジンによるおすすめ記事

8年目の中堅エンジニアが感じる世代間ギャップー次世代リーダーへの道