リアルタイムにビッグデータを処理する「ストリームデータ処理」勉強会
ストリームデータ処理とは
- 従来のHadoopに代表されるビッグデータ処理は、データを一定期間(例えば1日)蓄積し、それを高速にバッチ処理することで行っていました。
- しかし、スマートデバイスやIoTの普及により、データ量がさらに増加している状況の中で、よりリアルタイムにデータを処理したいというニーズが高まっています。
- 「ストリームデータ処理」は、大量に発生するデータを、発生したタイミングで逐次リアルタイムで処理するデータ処理技術です。
(似たような方式として、Apache Sparkなどを使った方法がありますが、これはバッチ処理の単位を小さくし実行頻度を上げるというアプローチです。「ストリームデータ処理」はデータが発生した都度、1件ごとに処理します。)
(ストリームデータ処理を行うOSSとしては、Apache Stormがあります。) - 「ストリームデータ処理」は、HadoopやApache Sparkなどのビッグデータ処理方式と競合するものではなく、連携して用いるものです。「ストリームデータ処理」は、HadoopやApache Sparkなどのビッグデータ処理方式の「前処理」として位置付けられることが多くあります。
- 「ストリームデータ処理」の特長は、大きく以下の2点です。
-データ量が多すぎて、「溜めて置くだけでも大変!」といった状況に対して、データが発
生したタイミングで、データの集約、抽出、正規化、編集などを行うことで、「価値のあ
るデータ」だけを保存し、Hadoopなどのビッグデータ処理につなぐことができます。
-次々と発生する膨大なデータ(例えば、各種デバイスの状態など)をリアルタイムに「モ
ニタリング」して、必要なアクションを行うことができます。例えば消費者の行動に対し
てリアルタイムにオファーを送ったり、不審者の行動に対してリアルタイムにアラートを
発することができます。
【対象者】
- IT企業で、ビッグデータ関連のソリューションをご担当者されている方
- ユーザ企業で、ビッグデータ関連の業務をご担当されている方
【参加者のメリット】
- 「ストリームデータ処理」について知る事ができます。
- ビッグデータ関連のソリューションと、「ストリームデータ処理」とをどう組合せて有効活用できるか、議論します。