AI/機械学習とデータ分析の関係を知る(1)データ分析業務と組織の現状
はじめに
前回まで、データ分析の高度化ステップの第4段階「統計的な分析」までを解説しました。今回からは、データ分析の高度化ステップの最終段階である「推論・予測」について解説していきます。「推論・予測」における最大のポイントはAI/機械学習の活用であり、この最終段階は「AI/機械学習を活用した分析」と言い換えても過言ではありません。そこで、今回からはテーマを「AI/機械学習とデータ分析の関係を知る」と改め、AI/機械学習がデータ分析の業務、組織、システムにどのような影響を与えるのか見て行きます。
AI/機械学習がもたらす
データ分析業務の効率化
推論・予測までを想定した高度なデータ分析業務の作業工程は、図1のように6つの工程に分類することができます。この中で作業工数の大部分を占めるのが、「データ準備」と「モデリング」の工程です。
「データ準備」とは、教師データ(モデルの作成に使用するデータ)と検証データ(作成されたモデルの精度検証に使用するデータ)への分割、外れ値の検出・排除、データの標準化などを行う工程です。「モデリング」とは、アルゴリズムの選択、パラメータの変更やアンサンブル(異なる方法で得られた結果の加重平均を求めること)による精度の向上などを行う工程です。
これらの工程は、経験豊富なデータ・サイエンティストでも試行錯誤的なアプローチが要求されるため、非効率になりがちでした。そこで複数の経験の少ない要員に比較的単純な作業を割り当て、並行作業をさせることで生産性の向上を図っていましたが、かえって指導や監督に要する工数が増大し、短期的には生産性が低下するという結果を招いていました。さらに今後は、経験の有無にかかわらず要員の確保自体が難しくなることが予想されており、データ分析業務の生産性向上には新しいテクノロジの導入が求められています。
以上のような背景から、最近になってデータマイニング・ツール(統計解析処理を目的とするデータ分析ツール)にAI/機械学習技術を利用することで、「データ準備」と「モデリング」工程を半自動的に実行する機能が実装されるようになってきました。
少数精鋭化するデータ・サイエンティスト組織
AI/機械学習技術を利用した最新のデータマイニング・ツールでは、これまで手作業で行われていた比較的単純な作業を自動的に実行できます。これにより、経験の少ない要員に作業を割り当てて指導・監督を行う必要がなくなり、経験豊富なデータ・サイエンティストの生産性が大幅に向上します。
さらに、AI/機械学習技術を利用することで、複数の異なるアルゴリズムやパラメータ設定下での統計処理を自動的に分割し、並列に実行して「モデリング」工程に要する時間そのものを短縮できるようになります。これは、少数でも経験豊富なデータ・サイエンティストがいれば、より多くの分析テーマに関われることを意味しています。
以上のように、AI/機械学習技術でデータ分析業務の全ての工程を自動化できるわけではありませんが、これまで経験の少ない要員に割り当てられていた比較的単純な作業を自動化することは十分に可能だと言えるでしょう。
これにより、データ分析業務全体の作業工数の削減はもちろんのこと、不足しがちなデータ分析担当者の人数を減らすと同時に、外部リソースへの依存度も減らすことができます。
その結果、非効率な作業分担や多大な育成工数を必要とするピラミッド型組織を維持する必要がなくなり、少数精鋭のデータ・サイエンティストから構成される専門家集団として、垂直型の組織に変化できます。この新たなデータ・サイエンティスト組織においては、特定の事業部門や業務分野にサービスを提供するだけではなく、より広範囲に部門や業務をまたがってサービスを提供する全社共通組織としてより高度な役割を果たすことが期待されます(図2)。
シチズン・データ・サイエンティストの登場
前節で述べたように、AI/機械学習技術を利用することで、データ分析業務工程のうち、大部分の工数を占める「データ準備」と「モデリング」工程を効率化・省力化する機能が実装され、結果としてデータ・サイエンティストの生産性を大幅に向上させることが可能となりました。その後、データマイニング・ツールにおけるAI/機械学習技術の利用はさらに高度になっており、近い将来「データ準備」と「モデリング」工程は自動化されると予想されます。これが実現すると「データ準備」と「モデリング」工程の実行に必要なツールやプログラム言語(R、Pythonなど)のスキルが不要になり、一般のビジネスユーザーでも一定の統計解析知識があればデータ分析業務を遂行できるようになります。
そこで注目されているのがシチズン・データ・サイエンティストです。一般的に、シチズン・データ・サイエンティストとは「データ分析を本業としてはいないが、データサイエンスの知識を持ち、所属するビジネス部門での業務の一環としてデータ分析を行う社員」と捉えられています。ITRでは「AI/機械学習技術の利用により『データ準備』と『モデリング』工程が自動化された環境下で、一定の統計解析知識を持つことで、データ・サイエンティストに代わってデータ分析業務を遂行できる社員」と定義しています(図3)。
おわりに
今回は、AI/機械学習がもたらすデータ分析業務効率化の結果としてもたらされる、データ・サイエンティスト組織の少数精鋭化とシチズン・データ・サイエンティストの登場について解説しました。次回は、シチズン・データ・サイエンティストの役割と、これからのデータ分析の組織・体制について解説します。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- AI/機械学習とデータ分析の関係を知る(2) シチズン・データ・サイエンティストの役割
- AI/機械学習とデータ分析の関係を知る(3) 学習済みモデルによるデータ分析の効率化
- データ分析システムの全体像を理解する(8) データカタログとデータ・プレパレーション・ツール
- データ分析システムの全体像を理解する(6) 統計的な分析とデータマイニングツール
- データマネジメントの基礎を学ぶ(1)データマネジメントの全体像
- データ分析システムの全体像を理解する(1) データ分析の高度化ステップ
- データマネジメントの基礎を学ぶ(2)データ統合の実現方法
- データマネジメントの基礎を学ぶ(3)データマネジメント高度化ステップ(前編)
- データマネジメントの基礎を学ぶ(4)データマネジメント高度化ステップ(後編)
- データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ