データマネジメントの基礎を学ぶ(1)データマネジメントの全体像
はじめに
前回までで、データ分析の高度化ステップの最終段階である「推論・予測」までを説明しました。これまでに登場した分析用データベースであるデータウェアハウスとデータレイクは、いずれも分析用データを物理的に1か所に統合するというのが基本的な考え方になっています。しかし、今後はデータ分析システムを支えるデータベース構成はより複雑化し、システム間でのデータ連携を必要とするものになっていくでしょう。
このような複雑なシステムを企画、構築、運用するためには、データマネジメントの知識が必要不可欠ですが、データマネジメントが対象とする範囲は広く、実現方法も多岐にわたるため、全体像を体系的に理解すると同時に、実現に向けては段階的な取り組みが必要となるでしょう。
そこで、今回からはテーマを「データマネジメントの基礎を学ぶ」と改め、データマネジメントを体系化したDMBOK(Data Management Body of Knowledge)の概要と、その最新版で追加されたデータ統合領域を解説するとともに、データマネジメントの高度化ステップについて考察していきます。
データマネジメントを体系化したDMBOK
データマネジメントとは、企業内に存在する全てのデータを管理する業務全般を表す言葉ですが、その業務範囲は広く、実現方法も多岐にわたるため、体系的な理解が必要となります。データマネジメントの全体像の把握と体系的な理解を行ううえでは、DMBOKを利用することが有効です。
DMBOKは、非営利団体DAMA-I(Data Management Association International)が作成したデータマネジメントに関する知識体系であり、その内容は「データマネジメント知識体系ガイド」として2011年に第一版が、2017年に第二版が発刊されています。DMBOKでは、データマネジメントの全体を11の領域に整理し、それぞれの領域について、以下のような項目の詳細が定義されています。
- 対象範囲:その領域に含まれるデータマネジメント業務や機能の範囲
- 解決すべき課題:その領域で解決されるべきデータマネジメントにおける課題
- 実現プロセス:課題解決に向けた作業項目とその進め方
- 実現パターン:作業時に使用される方法論や採用されるアーキテクチャ
- 利用されるツール:その領域で利用可能なミドルウェアやアプリケーション
- 評価基準:課題解決の実現度合いを計測するための数値、指標
DMBOKは事実上の標準というだけでなく、DAMA日本支部にはベンダーやユーザー企業に所属する100名以上のデータマネジメントの専門家が会員として参加しており、DMBOKに基づいたデータマネジメント体系が、今後日本においても普及していくと考えられます。
データマネジメントを構成する11の領域
DMBOKでは、データマネジメント全体を11の領域に整理しています。その中でも「データガバナンス」はデータマネジメント全体の一貫性を保つためのものとして位置づけられています。
各領域の概要は、以下の通りです。
- データガバナンス:データ管理の計画立案と、実行の監視、徹底
- データアーキテクチャ:データニーズの明確化とデータ構造の設計
- データモデリング:概念、論理、物理それぞれのデータモデル定義
- データストレージとオペレーション:物理的なデータベースの構築と運用管理
- データセキュリティ:セキュリティポリシーの定義、実行、認証と権限の付与、アクセス制御と監査
- データ統合:アプリケーションや組織間のデータの移動と統合の管理
- ドキュメントとコンテンツ管理:ドキュメント情報の取得、保存、アクセス制御
- 参照データとマスタデータ:共通マスタデータの作成と組織間で共有する仕組みの提供
- データウェアハウジングとビジネスインテリジェンス:レポート作成、分析用データの提供のための計画立案、実行と統制
- メタデータ:メタデータの収集、統合と標準的なアクセス方法の提供
- データ品質:データ品質の標準の設定、データ品質の維持と監視
高まるデータ統合の重要性
前節で示した領域の1つである「データ統合」は、2011年発刊のDMBOK第一版にはなく、2017年発刊の第二版で新たに追加されました。これは、企業内に存在するデータの管理において、データ統合の重要性が高まったためです。
この背景としては、2つの理由が考えられます。1つは、ビジネス環境の変化やDX(デジタルトランスフォーメーション)の進展に伴い、単一の企業、もしくはグループ企業における業務システムの範囲が拡大する一方で、それらのシステムで発生するデータを横断的に利用したいというニーズが高まっていることです。そのためには、多数のシステムを連携し、サイロ化したデータの統合が必要不可欠ですが、従来のDWHのような物理的な単一データベースへの統合を目指すだけでは、DXの推進に合わせて頻繁に発生するデータソースの追加に対応することは困難です。そのため、物理的、仮想的を問わずデータを一貫した形式に統合することを目的としたデータ統合への取り組みが必要となります。
もう1つは、ビッグデータ解析の進展です。ビッグデータのデータソースは、今までにはなかった新しいデータであることが多く、これを最短時間かつ最低限のコストで、既存のデータベースに統合することが求められています。
このように、データマネジメントの11領域の中でも、特にデータ統合の重要性が高まっていると言えます。
データ統合で解決すべき課題
多種多様な業務システムが存在してデータがサイロ化することは、以前からある課題です。このような状態のデータを統合し、活用するための代表的な解決策がDWHです。DWHは複数のデータソースからデータを抽出、変換し単一のデータベースに統合します。しかし、ビジネス環境の変化とともにデータソースは変更され、DXの推進に伴い、新しいデータソースが追加され続けます。このような状況で最短の時間でシステムを改修、拡張し、安定した運用を継続するためには、データ統合によるデータの移動と統合のためのプロセスを確立する必要があります。
DWHにおいては、データの移動と統合は物理的に行われるため、データソースが多様化し、データ量が増大するにつれて、移動と統合に要する時間は長くなります。また、IoTから入手されるデータのようなリアルタイム性の高いデータソースからの移動と統合には、従来のDWHでの物理的な統合では処理速度が不足します。このような状況でデータ統合を実現するには、物理的だけでなく、仮想的な方法も併用したうえで、論理レベルで一貫した形式へのデータ統合が必要です。
データの移動と統合プロセスが複雑化、高度化すると、新たなデータソースの統合に要するコストも増大します。いかにして最少のコストでのデータソースの追加を可能にするかも、データ統合で解決すべき重要な課題です。
おわりに
今回は、データマネジメントを体系化したDMBOKの概要と、その中でも特に重要性が高まっているデータ統合が解決すべき課題について解説しました。次回は、データ統合の実現プロセスやパターン、さらには利用されるツールなどを解説します。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- データマネジメントの基礎を学ぶ(3)データマネジメント高度化ステップ(前編)
- データマネジメントの基礎を学ぶ(4)データマネジメント高度化ステップ(後編)
- データ分析システムの全体像を理解する(8) データカタログとデータ・プレパレーション・ツール
- データマネジメントの基礎を学ぶ(2)データ統合の実現方法
- AI/機械学習とデータ分析の関係を知る(4) 学習済み開発における留意点
- データ分析システムの全体像を理解する(4) レポーティングツールとセルフサービスBIツール
- データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ
- データ分析システムの全体像を理解する(1) データ分析の高度化ステップ
- データ分析システムの全体像を理解する(7) データレイクとNoSQLデータベース
- データ分析システムの全体像を理解する(2)定型的な分析と非定型な分析