データ分析システムの全体像を理解する(4) レポーティングツールとセルフサービスBIツール
はじめに
前回で解説したように、「非定型な分析」で使用される分析手法である多次元分析を可能にするにはスタースキーマを持つデータウェアハウスの構築が必要であり、結果として「定型的な分析」と「非定型な分析」ではデータベースのスキーマ構造が異なります。
また、第2回で解説したように「定型的な分析」と「非定型な分析」ではデータ分析の目的も異なります。そのため、使用される分析ツールも「定型的な分析」と「非定型な分析」では異なります。
そこで今回は、「定型的な分析」と「非定型な分析」で使用される分析ツールである「レポーティングツール」と「セルフサービスBIツール」について解説します。
レポーティングツール
「定型的な分析」の目的は問題の兆候を発見することなので、分析ツールの利用者は、自ら進んでデータを分析するのではなく、あくまでも日常業務の流れの中でKPIやKMの状態を確認するに留まります。そのため、別途開発者が定型的なレポートを作成し、それを利用者が参考するという流れになります。
この定型レポートを作成するためのツールが「レポーティングツール」です。レポーティングツールは、開発者がレポートのレイアウトを設定し、同時にそのレポートに表示するデータを検索するためのクエリを定義する機能を持っています。作成されたレポートはレポーティングツールのサーバに格納され、利用者はレポーティングツールのサーバにアクセスし、Webブラウザから自分の業務に必要なレポートを参照することになります。
一方、「非定型な分析」では、問題の原因を突き止めるために多次元分析が行われるので、スタースキーマを持つデータウェアハウスと連動して軸の入れ替え、スライス、ドリルダウン&ドリルアップといった操作を可能にするOLAPツールが利用されます。一般的に、レポーティングツールとOLAPツールを総称して「BIツール」と呼びます。
しかし、OLAPツールによる「非定型な分析」の範囲は、スタースキーマで定義された分析軸と数値項目に限定されるため、最近では利用者が新しい分析軸や数値項目を自ら追加できる「セルフサービスBIツール」と呼ばれる分析ツールが主流となっています。
セルフサービスBIツールの特徴
セルフサービスBIツールの一般的な定義は、「データ分析の専門家ではない一般のビジネスユーザーが、IT部門の支援を受けることなく、非定型なデータ分析を行うことができる環境」とされており、この定義の中にセルフサービスBIツールの3つの特徴が含まれています(図1)。
レポーティングツールやOLAPツールでは、分析軸、計算値およびクロス集計表や棒グラフといった表現形式があらかじめ決められており、一般のビジネスユーザーは、与えられた分析結果の中からビジネス上の判断を行うことが求められています。一方で、一部のビジネスユーザーは、ビジネス上の新しい課題に対処するために、レポーティングツールやOLAPツールでは提供されていない分析軸、計算値、表現形式、あるいは従来型BIでは入手できない種類のソースデータ(分析の元となる生データ)を必要としており、これらを提供してくれるのがセルフサービスBIツールです。
ビジネスユーザーがIT部門にリクエストすることで、新たな分析軸、計算値、表現形式、あるいは新たな種類のソースデータを手に入れることは理論的には十分可能ですし、現実解として実際に行われているプロセスでもあります。しかし、このやり方では時間と工数がかかり、ビジネス上の要求に追いつけないという問題があります。セルフサービスBIでツールは、これらの作業をビジネスユーザーが自分自身で行うことで時間と工数の問題を解決することが期待されています。
多くの企業では、レポーティングツールやOLAPツールではカバーされてないデータへアクセスする手段として、「非定型なデータ検索と抽出」機能が用意されています。この機能を使えば、データウェアハウス以外の業務系アプリケーション(会計、販売管理など)から分析に必要と思われるデータを自分自身で検索し、抽出するところまではできるようになります。しかし、その先のデータの加工、集計、グラフ作成といった分析プロセスについては支援ツールが用意されていないため、ビジネスユーザーはこの部分をExcelやAccessといったデスクトップ型の汎用ツールを使うことになります。
汎用ツールはビジネスユーザーが日常的に使用しているためスキル修得に時間がかからないという利点はありますが、おのずと不足する機能も存在します。例えばExcelの場合、集計やグラフ作成の範囲ではかなり強力な機能を備えていますが、データの加工という面では機能が足りません。
一方、汎用ツールに欠けているこれらの機能を満たす専用ツールは、統計解析ツールあるいはデータマイニングツールという形で以前から提供されています。しかし、これらはあくまでも「データ分析の専門家」向けで、使いこなすためには統計を中心とした高度なデータ分析知識が前提となります。このような汎用ツールと専門家向けツールのギャップを埋めるのがセルフサービスBIツールと言えます。
セルフサービスBIツールの課題
セルフサービスBIツールはすでに多くの企業で利用されていますが、そのほとんどは一部のユーザーを対象とした部分的な導入に留まっており、今後、セルフサービスBIツールを広く全社へ展開するには解決すべき課題があります。
セルフサービスBIツールでは、分析に必要なデータをデータソースから取得し、そのデータをソフトウェア内部のインメモリDBとして物理メモリ上に展開することで、集計や計算の性能を飛躍的に向上させています。しかし、より広範囲に展開する際には、このようなアーキテクチャであるがゆえの問題が発生します。
クライアントPCで動作させるタイプのセルフサービスBIツールでは、個々のユーザーのPCから分析に必要なデータを持つデータソースへ別々にアクセスすることになります。それまでのBIツールはデータウェアハウスに格納されたデータにアクセスするだけだったので、データベースへの接続およびアクセスに関する制限を一元管理できましたが、セルフサービスBIツールではそれが難しくなります。データガバナンスの観点から、このデータソースへのアクセスの一元管理の問題は、全社展開の際に解決すべき課題となります。
この課題に対して、セルフサービスBIツールを提供するベンダーは、サーバ側に共有型のインメモリDBを配置することで解決を図っています。しかし、サーバにインメモリDBを配置することでデータソースは一元管理できるようになりますが、別の課題が生じます。
共有型のインメモリDBの場合、より広範囲のユーザーで共有させるためには、ロードするデータの範囲が広がり、データベースの容量が増大します。肥大化したインメモリDBを物理メモリ上に展開させるには、サーバのキャパシティを同時に増強する必要があります。さらに、インメモリDBはデータ内容の更新やデータ項目の追加時に行うデータベース全体の再作成に膨大な時間がかかるようになります。つまり、全社展開にあたっては、セルフサービスBIツールの特徴であるインメモリDBを使用したアーキテクチャはスケーラビリティに課題があるといえます。
ベンダーはサーバに配置する共有型のインメモリDBの性能を強化してはいますが、ユーザー数の規模によっては十分な性能を得られないのが現状です。したがって、別の解決策としてデータベース仮想化製品を利用するケースも出てきています。
データベース仮想化製品はデータソースとBIツールの中間に配置されるサーバ製品であり、データソースへの接続および共有型のインメモリDBを作成できます。データベース仮想化製品のインメモリDBがセルフサービスBIツールと異なるのは、全てのデータを事前にデータソースからロードする必要がない点で、サーバのキャパシティやアクセス頻度を考慮しながらチューニングすることで、コストと性能のバランスをとることができます。
セルフサービスBIツールの全社展開における課題はもう1つあります。異なるベンダーのBIツールを利用する際に「いかにして運用・管理を一元化するか」という課題です(図2)。それまでのレポーティングツールとOLAPは同一ベンダーが提供する製品を利用するケースが多かったため、この課題は顕在化していませんでしたが、セルフサービスBIツールを提供するベンダーの多くは新興ベンダーであるため、全社展開にあたっては、ユーザー管理やアクセス権限管理といった業務が2度手間になることが問題視されるケースが増えています。このため、既存BIベンダーは、自らの製品ラインアップにセルフサービスBIツールを追加すると同時に、運用・管理の一元化を差別化ポイントとして宣伝しており、ベンダーを変更するケースも今後増えてくるものと予想されます。
おわりに
今回は「定型的な分析」と「非定型な分析」で使用される分析ツールであるレポーティングツールとセルフサービスBIツールについて解説しました。セルフサービスBIツールの導入に伴い、エンドユーザーが直接アクセスを希望するデータソースの範囲が拡大することは、IT部門が維持してきたデータガバナンスに対する脅威となります。
次回は、自由な分析環境とデータガバナンス強化を両立させる組織体制について解説します。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- データ分析システムの全体像を理解する(8) データカタログとデータ・プレパレーション・ツール
- データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ
- データ分析システムの全体像を理解する(5) 自由な分析環境とデータガバナンス強化を両立させる組織体制
- データ分析システムの全体像を理解する(7) データレイクとNoSQLデータベース
- データマネジメントの基礎を学ぶ(1)データマネジメントの全体像
- OLAP分析機能を使う
- オープンソースBI「Pentaho」とは
- データ分析システムの全体像を理解する(1) データ分析の高度化ステップ
- データレイクとストリームデータ処理を理解する
- インストールからはじめるEclipse BIRT