データマイニング基礎講座 ービッグデータを業務に活かすためのポイントとは
はじめに
この記事では、データマイニングの基礎や代表的な分析手法、実際の流れ、データマイニング成功のポイントについて解説します。データマイニングの基礎を学び、業務に生かすための知識と実践力を身に着けておきましょう。
データマイニングとは
インターネットの普及とIT化が進んだ現代は、膨大な量のデータがあふれ返っている時代です。その中でも注目されているのが、量が多いだけでなく複雑さを備えた「ビッグデータ」であり、これをいかに効率的に利用できるかがビジネスを成功させるカギと言っても過言ではありません。では、ビッグデータを活用するためには何をどのように進めていけば良いのでしょうか。そのための手段として注目されているのが、データマイニングです。
データマイニングとは、膨大なデータの中から有用な情報を見つけ出す手段のことです。ビッグデータを効率的にビジネスに活かすために、さまざまな業種・職種において注目されています。データマイニング(Data Mining)とは、統計学やAIなどのさまざまな分析手法を駆使して有用な情報や役に立つ知識を見つけるための技術のことです。「Data」は「データ」、「Mining」は「採掘する」という意味です。データという鉱山から、知識という価値ある鉱物を掘り出すと想像するとわかりやすいでしょう。
従来は、この掘り出し作業は人の手で行われてきましたが、データ量が爆発的に増大した現代ではとてもすべてを処理することはできません。この問題に対応すべく注目され始めたのがデータマイニングです。数えきれないデータの中からビジネスに役立てられる情報を的確に見つけ出し、その内容に合わせた適切な対策が可能となります。
データマイニングは、すでに金融業界や小売業界など実際にさまざまな業界で導入されています。熾烈な企業間競争を生き残るためにも、データマイニングは今後ますます重要な技術となっていくでしょう。
データマイニングの目的
データマイニングの主な目的は「データの関連性を見つけること」「結果を予測すること」「データを分類すること」の3つです。抽出した情報に一定の法則や傾向を見出すことができれば、その内容に基づいた予測を立てたり、ターゲットを絞った戦略を立てたりできるようになります。また、人の手では辿り着けなかったような発見に結び付くこともあるかもしれません。
データマイニングで得られる知識
データマイニングで得られる知識は次の4つに分類され、それぞれの頭文字を取って「DIKWモデル」と呼ばれています。
- データ(Data):収集された全素材の数字や記号(そのものでは意味をなさない)
- 情報(Information):「データ」を整理・分類したもの(意味が理解できるようになる)
- 知識(Knowledge):「情報」を分析した結果として得られるパターンや知見
- 知恵(Wisdom):「知識」をもとに物事を判断する能力
収集された「データ」は単なる数字や記号の羅列であり、それだけでは意味をなしません。これを整理・分類して意味のある「情報」に変換し、「知識」を見出すところまで行うのがデータマイニングです。4つ目の「知恵」については知識をどう活用するかを問うものであり、実際に役立てられるかどうかはその知識を使う「人」の判断力にかかっています。
データマイニングとデータウェアハウス(DWH)
データマイニングを行うためには、元となるデータを集めなければなりません。データを保管するために欠かせないのが、「データウェアハウス(DWH)」です。データベースと混同されがちですが、データベースはデータ登録後の更新や削除など改変を加えられるのに対し、データウェアハウスはデータを蓄積するだけであり、データの改変を目的としていません。収集した状態そのままのデータが大量に保管されることで、より価値のある情報を引き出せる可能性が高くなります。
主なデータマイニングの分析手法
データマイニングの分析手法のうち、主に使用されるのは「クラスタリング」「ロジスティック回帰分析」「マーケット・バスケット分析」の3つです。それぞれ詳しく解説します。
手法1 クラスタリング
「クラスタ」は「集団」を意味する英語。収集したデータの中で似たような人を1つの集団としてグループ分けし、そのグループごとに最も適したマーケティング施策を行うことを目的とした手法です。例えば来店した顧客の年齢層、来店の時間帯、頻繁に購入している商品、まとめ買いの傾向がある人などのカテゴリで分類し、その行動を先読みしたキャンペーンの展開などに役立てられます。
手法2 ロジスティック回帰分析
ロジスティック回帰分析は、データマイニングの中でも特によく使われる手法です。例えば、キャンペーンなどを行った際、その商品が実際に購入されたかどうかなどの結果の確率を予測します。何パーセントの確率で顧客が商品を購入するのかを把握できることから、アプローチするべき顧客層を明確にできるのがメリットです。
手法3 マーケット・バスケット分析
マーケット・バスケット分析は、顧客が購入した商品の関連性を見つける手法です。どの商品がどんなものと一緒に買われているのかを分析することで、店舗レイアウトの変更や効果的なキャンペーンを実施できます。その結果、売り上げの向上に繋がるのがメリットと言えるでしょう。なお、マーケット・バスケット分析という名称は、買い物カゴ(バスケット)の中に入っている商品の組み合わせを分析するところから名付けられました。
データマイニングの実際の流れ
以降では、データマイニングがどのような手順で行われているのかを見ていきましょう。データマイニングをするには決まった流れがあります。データマイニングで適切な効果を得るためにも、正しい手順で進めることが大切です。
データマイニングの事前準備
データマイニングを進めるには、まず事前準備から始めます。「目的を決めてデータを収集する」「収集したデータを加工・整理する」の2つを行うのが一般的です。
準備1 目的を決めてデータを収集する
事前準備の第一段階として行うのが、目的を決めたデータ収集です。データが多いほど有益な情報を見出せる可能性は高まりますが、ただ無闇に集めれば良いわけではありません。例えばマーケティングに役立てたいなら顧客の購買履歴、金融なら顧客のカード利用歴といったように、目的に応じたデータ収集が大切です。また、新しいものに限らず古いデータについても可能な限り集めしましょう。新旧データを比較することで、その間にどのような変化があったのか可視化できるからです。
準備2 収集したデータを加工・整理する
事前準備の第二段階は、収集したデータの加工・整理です。収集したデータは数値や記号などの形式がバラバラのことが多いため、表記を統一された状態にしなければなりません。その理由は、そのままデータマイニングのシステムにかけても読み取ってくれなかったり、正しい結果が得られなかったりする場合があるからです。データから余分なものを除去し、分析するのに最適な形式に整える作業のことを、メイクを落とす際の行為になぞらえて「データクレンジング」と呼んでいます。
データマイニング(データ分析)を行う
データの収集と加工・整理が完了したら、次はいよいよ分析作業です。有用な情報を引き出すため、目的に応じた分析方法を使い分けます。
データマイニング2つの具体的手法
データマイニングを実施する際に用いられる具体的手法が「機械学習」と「統計分析」の2つです。ここでは、2つの手法について詳細を解説します。
・事前に仮説を立てない「機械学習」
「機械学習」は、AIなどの人工知能を活用した手法です。データをシステムにかけるだけでコンピューターが自ら学習しながら分析を進めてくれるため、事前に仮説を立てる必要はありません。膨大なデータの中からコンピューターが相関関係などを導き出し、人の手では見つけきれなかった新たな分類の発見などに繋がります。機械学習はデータを多く与えれば与えるほどコンピューターも学習を重ねてくれるため、結果の精度も上がりやすくなります。
・事前に仮説を立てる「統計分析」
「統計分析」は、統計学や確率論などを活用した手法のことです。この手法では仮説を事前に立て、その仮説を裏付けるようなデータを収集・分析することが必要です。さまざまな統計手法を組み合わせて分析を行い、予測モデルを構築したり、ある出来事の発生原因を特定したりと、ビジネス上有用となる結果を導き出してくれます。なお、分析結果を読み取るには統計学などの専門知識が求められる場合が多く、これらのスキルを備えた人材の確保も重要だと言えるでしょう。
分析結果を検証・評価する
分析結果が出たら、なぜそうなったのか要因を特定します。データマイニングで見つけ出したパターンやルールが他でも使えるのかどうか、実際のデータに当てはめながら検証・評価を行うことも大切です。
データマイニングを成功させるポイント
データマイニングを成功させるために、いくつかのポイントを押さえておきましょう。ここでは、「データウェアハウス(DWH)の整備」「データクレンジングのための体制確保」「適切なツールの導入」の3つの観点から解説します。また、データマイニングをビジネスで活用している事例についてもご紹介しますので、参考にしてください。
データウェアハウス(DWH)の整備
データマイニングを成功させるポイントの1つ目は、データウェアハウス(DWH)の整備です。データマイニングの分析対象となるデータは膨大な量になります。これらのデータを適切に管理するためには、データマイニングに特化した保管庫の構築が欠かせません。その保管庫がデータウェアハウスです。
データウェアハウスは、データマイニングを行うのに最適な形式に整えられたデータを保管します。また、データウェアハウスはセキュリティ機能も備わっており、外部からの攻撃を防いだりデータを暗号化したりするといったことが可能です。なお、使用するデータ量が少ない場合は必ずしもデータウェアハウスは必要ではありません。
データクレンジングのための体制確保
データマイニングを成功させるポイントの2つ目は、データクレンジングのための体制確保です。収集したデータそのものには欠損やノイズなどが残っています。また、数値や記号などの形式も統一されていません。正しい分析結果を得るためにも、入手したデータの見た目を整えるデータクレンジングの作業は必須です。
データクレンジングはそれぞれのデータを人の手で整えていきます。膨大な工数がかかることは想像に難くないでしょう。データマイニングをスムーズに行うためにも、データクレンジングに長けた人材を確保したいところです。
適切なツールの導入
データマイニングを成功させるポイントの3つ目は、適切なツールの導入です。データマイニングは近年注目を浴びているだけに、さまざまなツールがリリースされています。しかし、それぞれのツールが得意としている分析対象や適している用途は異なります。データマイニングを行う目的、データマイニングを通して得たいことを明確にした上で、その内容に最適なツールを選びましょう。
その際、使い勝手が良いツールであるかどうかも重要です。どんなに目的に合ったツールでも、担当者が使いにくいとなるとなかなか現場で浸透させることができません。本格的に導入する前に無償トライアル期間を利用するなど、ツールを使いこなせるようになるための準備も非常に大切なことです。
データマイニングをよく知るための資料集
ここからは、データマイニングをもっとよく知るために役立つ資料集を紹介します。書籍、Web記事など数種類ありますので、ぜひ目を通してください。
書籍(電子書籍)・雑誌
エンジニア初心者におすすめしたいのが「エンジニアのためのAI入門」(Think IT 編集部・著、2017/7/7発売)です。AIに関する基礎知識や機械学習の仕組みを解説するとともに、各業界での活用事例を紹介しています。データマイニングはAIなどの人工知能を使って分析を行うため、AIに関する知識を持っていると、データマイニングの仕組みをより理解しやすくなるでしょう。
Web記事(テック系メディア、開発会社、動画サイト)
Web記事の中では、Think ITの『「システム企画担当者のためのデータ分析システム超入門」シリーズ』がおすすめです。データ分析システムの全体像の理解に始まり、AIとデータ分析の関係やデータマネジメントの基礎について段階的に学習できます。エンジニア初心者もより理解が深まるでしょう。
同じく、Think ITの『「大規模化するDWHに挑む」シリーズ』もチェックしたいところです。データウェアハウスについて掘り下げた説明をしています。データウェアハウスはデータマイニングを進める上で必要な場合が多いので、その仕組みをしっかり理解しておくことが大切です。
Web記事(コミュニティ、個人)
データ分析に関する講演活動などで有名な平井明夫氏が執筆するWeb記事もチェックしてみましょう。平井氏はITRアカデミーでデータ分析スキルコースの講師も担当されています。なお、先ほど紹介した『「システム企画担当者のためのデータ分析システム超入門」シリーズ』も平井氏が執筆されました。
おわりに
今回は、ビッグデータを効率的に業務に活かすためのデータマイニングの基礎知識について解説しました。データマイニングを上手に活用できれば、これまで思い至らなかった新たなアイデアやヒントを得られるかもしれません。データマイニングを行う目的、流れ、分析手法をしっかり理解し、正しい手順で進めていきましょう。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ
- 富士通ソーシアルサイエンスラボラトリ、OSSベースのデータ統合製品を販売開始
- データレイクとストリームデータ処理を理解する
- 最新IT技術とBI
- データ分析システムの全体像を理解する(8) データカタログとデータ・プレパレーション・ツール
- バズワードではないDX、3大クラウドベンダーのビッグデータ分析サービス
- ビッグデータ分析で効果を発揮するAzure Data Explorerとは
- データ分析システムの全体像を理解する(6) 統計的な分析とデータマイニングツール
- データ分析システムの全体像を理解する(4) レポーティングツールとセルフサービスBIツール
- データ分析システムの全体像を理解する(1) データ分析の高度化ステップ