DWHのプライベート・クラウド化
進まないデータ統合
エンタープライズ・データ・ウエアハウス(DWH)、つまり全社規模のDWHは、その大半が期待通りの成果を出せずに失敗に終わっています。では、なぜ全社規模のDWHは成功しないのでしょうか。
いきなり挑戦的な発言になってしまいましたが、今回は、過去にエンタープライズDWHというコンセプトで作られてきたDWHにどのような問題があったのかを示し、どう問題を解決すればよいのかを解説します。
エンタープライズDWHというコンセプトが生まれた背景には、業務のシステム化にともなうデータ量の増大があります。基幹システム同士のデータ連携が進み、データを一元的に管理/活用できる環境の必要性が高まっていったのです。
EUC(エンドユーザー・コンピューティング)の普及も、結果としてDWHを後押ししました。当時の主流はC/S(クライアント・サーバー)型システムであり、表計算ソフトなどのデータ活用ツールがクライアントPCに配備され、ユーザーは十分なコンピューティング・リソースを利用できるようになっていました。
EUCには大きな弊害がありました。部門単位や事業所単位といった個々の分散システム単位でデータ処理が行われるようになり、結果としてデータベースがサイロ化してしまい、セキュリティや管理コストが大きく懸念されるようになっていったのです。
こうしたEUC(=分散システム)の弊害から、企業内のすべてのデータを1カ所に統合するというエンタープライズDWHのコンセプトが生まれ、受け入れられてきたと考えられます。
しかし、エンタープライズDWHを構築したユーザーに話を聞くと、なかなか企業内のデータを一元化することは難しく、推定で10%未満のデータしか統合できていません。ほとんどのデータは、データ・マートやスタンド・アローンのシステム、個人のPCに散在したままであるのが実情です(図1)。
データ統合の阻害要因
多くのユーザー企業に共通している、データ統合の主な阻害要因は、以下の通りです。
- データのモデリング時に、業務部門間で調整がつかない
- DWH製品が高価すぎて、すべてのデータをDWHに入れられない
- DWHの性能が低く、データ・マートが必須になる(データが分散する)
データを利用する業務部門間では、データのモデル化の調整がなかなか進みません。必要なデータと必要でないデータの切り分けやデータ項目の名称などを決めなければなりませんが、部門ごとに考え方が異なるからです。
苦労の末にモデリングを完了させたとしても、各業務部門がDWHを介さずに直接基幹システムからデータを取得するケースが後を絶ちません。
DWH製品の価格の高さもデータ統合を阻害します。DWHに入れるデータと入れないデータを選別することになり、DWHに統合しなかったデータを利用するために各業務部門が個別システムを構築するという事象が発生します。
DWHの性能問題もデータ統合を阻害します。DWHの性能が悪いためにデータ・マートを個別に切り出すことで、システムが分散化します。ある企業では、エンタープライズDWHを導入したものの、結局は数百個のデータ・マートを持たねばならず、逆に管理コストが増大しました。
クラウドでDWHの問題を解決
エンタープライズDWHが抱えるこれらの問題を解決するべく、各ベンダーは競って、大規模なデータ処理を安価に実現する各種の製品を提供しています。こうした中、DWHの課題解決の1つの選択肢として、クラウド・コンピューティングの利用が注目されています。
例えば、DWHベンダーによる取り組みでは、米Teradataの「Teradata Enterprise Analytics Cloud」や米Greenplumの「Enterprise Data Cloud Initiative」といったコンセプトが登場しています。今後は、DWHをクラウド・コンピューティングの文脈で考えることが一般的になると思われます。
特に、米GreenplumのEnterprise Data Cloud Initiativeというコンセプトは、エンタープライズDWHの問題を解決する1つの選択肢として、またDWHをプライベート・クラウド化するという観点で、参考になるかと思います。
次ページからは、Enterprise Data Cloud Initiativeについて、事例をまじえながら解説します。