データ分析システムの全体像を理解する(1) データ分析の高度化ステップ
はじめに
DWH(データウェアハウス)、BI(ビジネスインテリジェンス)、データマイニング、ビッグデータ分析、AIによる予測・推論など、データ分析に関連するシステムの種類とその構成は複雑さを増しており、システム企画担当者には体系的な理解が求められています。本連載では、システム企画担当者がデータ分析業務の内容およびデータ分析システムの全体像を理解し、システム企画やプロジェクト計画に必要となる基本的な知識を習得できるよう、データ分析システムの重要なキーワードや専門用語を、わかりやすく解説していきます。
第1回の今回は、データ分析システムの全体像を把握していただくために、個人単位での分析に始まり、定型的な分析、非定型な分析、統計的な分析を経て、推論・予測に至るデータ分析の高度化ステップを解説します。
データ分析の高度化ステップとは
いつも時代であっても、最新で最高レベルのものが脚光を浴びるのが世の常であり、データ分析の世界でも、現在はAI/機械学習を使った推論・予測に耳目が集中しています。しかし、AI/機械学習を使った推論・予測システムを正しく構築、運用するためには、テクノロジーの導入だけではなく、データの収集・統合、組織・体制の整備、人材の確保といったさまざま側面での努力の積み重ねが必要です。例えば、Excelを使って行う個人単位での分析しか行われていない企業が、いきなり、AI/機械学習を使った推論・予測システムを正しく構築、運用することは、ほとんど不可能と言えます。
歴史的に見ても、データ分析に関わるシステム、分析手法、分析組織は、いくつかの段階を経て進化してきており、現時点ですでにAI/機械学習を使った推論・予測システムを正しく構築、運用している企業であっても、このような過程を経て今に至っています。
このようなデータ分析に関わるシステム、分析手法、分析組織の進化の過程は、データ分析の高度化ステップとして図1のように整理できます。
この企業のデータ分析の高度化ステップを理解することで、システム企画担当者は、自社の現在地を把握し、より高度なレベルに上がるために、どのような課題を克服する必要があるのかを知ることができます。
「個人単位での分析」から
「定型的な分析」へ
「個人単位での分析」のレベルでは、データはExcelシートなどのファイルに散在し、レポート作成にいたる集計なども手作業で行われています。これを「定型的な分析」レベルに引き上げることで、データはデータベースで一元的に管理され、集計などの作業はバッチ処理として自動実行されるようになります。
このステップにおける最大の課題は、RDBMSを導入し、分析用データベースを構築することです。これは、RDBMSを業務アプリケーション・パッケージに組み込まれた形で間接的にしか触れていない企業にとっては、大きな課題となりえます。また、定型的な分析結果をレポートとして多くのユーザーで共有するため、新たにレポーティング・ツールを導入する必要があります。
「定型的な分析」から
「非定型な分析」へ
「定型的な分析」のレベルでは、ユーザーは決まった形式のレポートを閲覧するだけです。これを「非定型な分析」レベルに引き上げることで、異なる視点での集計や、新たな指標の作成といった、ユーザーの自発的な分析作業が行われるようになります。
このような「非定型な分析」の要求に応えるためには、可能な限り事前に多様なデータを収集しておく必要があります。したがって、このステップにおける最大の課題は、論理的なDBスキーマを定義したうえで、DWHを構築することにあります。また、非定型な分析を行うユーザーが使用する分析ツールとしては、セルフサービスBIツールを導入するのが一般的です。
セルフサービスBIツールは、従来のBIツールで行っていた非定型な分析機能を一般のエンドユーザーでも扱いやすく設計されているため、非定型な分析作業をデータ分析に関心の高いユーザー(データアナリスト)に委ねることも可能になります。これにより、企業は新たにデータ分析チームを組織化しなくても、こうしたユーザー層のコミュニティ化を促進することで、仮想的な分析チームを形成することも可能になるでしょう。
「非定型な分析」から
「統計的な分析」へ
「非定型な分析」のレベルでは、ユーザーは加減乗除で計算可能な範囲でデータを集計し、線グラフや棒グラフといった古典的な可視化手段による分析にとどまります。これを相関、回帰、確率分布などの統計的な分析手法を利用して、大量のデータから未知の知見を発見するビッグデータ分析を行うことにより、「統計的な分析」レベルに引き上げることができます。
このような「統計的な分析」を可能にするためには、IoTデバイスから送られてくるような非構造化データも収集する必要があります。したがって、このステップにおける最大の課題はデータレイクの構築です。非構造化データはクラウドストレージやNoSQLデータベースで構成されるデータレイクに保存され、その一部は非構造化データのまま分析処理が実行されます。クラウドストレージやNoSQLデータベースで構成されるデータレイクは、RDBMSを利用するDWHとはアーキテクチャや構築手法が全く異なるため、その導入のには新たな技術の修得が必要となります。
また、統計的な分析手法の利用には、データマイニングツールの導入が必要となりますが、これを使用するユーザーには統計学の知識が必要となるため、データサイエンティストの養成も大きな課題となります。
「統計的な分析」から
「推論・予測」へ
「統計的な分析」のレベルでは、データサイエンティスト自身の経験やスキルに基づいて分析が進められます。これをAI/機械学習を利用して予測モデルの開発を行うことで「推論・予測」レベルに引き上げることができます。
このステップにおける最大の課題は、AI/機械学習技術の導入です。今日ではさまざまなAIサービスが提供されるようになりましたが、その導入には未だ高度なスキルと高額な費用が必要となるケースが多く、「推論・予測」レベルに到達しているのは、一部の先進企業にとどまっているのが現状です。
また、このレベルでは、多種多様なデータが分析対象となるため、標準的なデータベース管理機能ではメタデータの管理に対応できなくなります。そのため、物理的なデータベースを横断し、仮想的なメタデータのリポジトリを持つデータカタログの作成が必要となります。
おわりに
今回は、データ分析システムの全体像を把握していただくために、個人単位での分析に始まり、定型的な分析、非定型な分析、統計的な分析を経て、推論・予測に至るデータ分析の高度化ステップを解説しました。
次回からは、データ分析の高度化ステップに登場する重要なキーワードや専門用語を順番に解説していきます。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- データ分析システムの全体像を理解する(8) データカタログとデータ・プレパレーション・ツール
- データ分析システムの全体像を理解する(6) 統計的な分析とデータマイニングツール
- データ分析システムの全体像を理解する(7) データレイクとNoSQLデータベース
- データマイニング基礎講座 ービッグデータを業務に活かすためのポイントとは
- データレイクとストリームデータ処理を理解する
- データ分析システムの全体像を理解する(4) レポーティングツールとセルフサービスBIツール
- データマネジメントの基礎を学ぶ(1)データマネジメントの全体像
- AI/機械学習とデータ分析の関係を知る(1)データ分析業務と組織の現状
- ビッグデータ分析で効果を発揮するAzure Data Explorerとは
- データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ