TOP業務システム> メタデータの限界
セマンティックWebによる情報統合 〜Web 2.0と情報活用を支えるメタデータ
セマンティックWebによる情報統合 〜Web 2.0と情報活用を支えるメタデータ

第1回:セマンティックWebとは
著者:野村総合研究所   田中 達雄   2006/7/26
前のページ  1  2   3  次のページ
メタデータの限界

   では、メタデータさえ情報リソースに付与すればそれで十分であるかというとそうではない。メタデータは所詮、人が恣意的に決めた語彙によるデータフォーマットに過ぎず、異なる人が決めれば異なるデータフォーマットができあがる。

   図4では、「メタデータA用に書かれたプログラムA」がメタデータBを理解できない様子をあらわしている。メタデータAを作成した企業Aでは当然そのメタデータAを処理するためのプログラムを作成する。ある日突然メタデータBも処理してくれといわれてもそれは不可能である。
メタデータの限界
図4:メタデータの限界
出典:野村総合研究所

   企業AでメタデータAもメタデータBも処理する必要があるならば、以下のどれかの方法を選択しなければならない。

企業A側で対応する場合 企業B側で対応する場合
  • プログラムAをメタデータBも処理できるように拡張する
  • メタデータBをメタデータAに変換するプログラムを別途用意する
  • メタデータBを採用することにし、関係するプログラムをすべて入れ替える
  • メタデータAも別途用意する
  • メタデータBをメタデータAに変換するプログラムを用意する

表1:対応方法

   共通メタデータを用意する方法もあるが、すべての企業が同じ共通メタデータを利用することがない限り、同じことが繰り返される。なるべく共通化することは大切であるが、すべてを共通化することは実際には不可能である。

   また、例えすべての企業で同じ共通メタデータが利用されたとしても、それはあくまでもデータフォーマット部分だけを共通化したに過ぎず、情報リソース(データ)そのものは依然として人が恣意的に作成したものとなっている。情報リソースそのものも共通化するということは、全世界の人が1つの言語(例えばすべて英語)で情報リソースを記述することよりも困難な話であり、あまりにも非現実的である。


オントロジーの重要性

   先に述べたメタデータの限界を補足し、より広範囲な情報リソースをコンピュータに自律的に処理させるためには、オントロジーの利用が有効である。

   オントロジーとは「ある特定分野の概念や知識」のことを指し、「語彙の定義」や「語彙と語彙の関係」を記述したものである。図5は簡単なオントロジーの例である。ここでは、「住所」と「所在地」が同意語であることや「診療科目」が「歯科」の「医者」は「歯医者」であることなどが定義されている。

オントロジーの例
図5:オントロジーの例
出典:野村総合研究所

   図6は、図5のオントロジーを検索エンジンに理解させたセマンティック検索の例である。注目していただきたいのは、異なるメタデータを使っているWebサイトの情報リソースを同様に扱えることと、丸の内という文字列がなくとも八重洲が丸の内近辺であることを推論することの2点である。このようにオントロジーという形で事前に語彙が持つ意味を検索エンジンに理解させることで、より人が判断することに近い検索が可能となる(この例ではもちろん自然言語処理も必要であるが)。

オントロジーを使ったセマンティック検索の例
図6:オントロジーを使ったセマンティック検索の例
出典:野村総合研究所
(画像をクリックすると別ウィンドウに拡大図を表示します)

前のページ  1  2   3  次のページ


野村総合研究所 田中 達雄
著者プロフィール
株式会社野村総合研究所  田中 達雄
1989年4月に富士通株式会社に入社。ソフトウェア工学を専門分野とし「UMLによるオブジェクト指向開発実践ガイド(技術評論社出版)」を共著。2001年2月に野村総合研究所に入社。現在、情報技術本部にてIT動向の調査と分析を行うITアナリスト集団に所属。Webサービス/BPMなどの統合技術、エンタープライズ・アーキテクチャなどが専門。


INDEX
第1回:リスクアセスメントの範囲の策定
  はじめに
メタデータの限界
  セマンティックWebの標準化動向