「ストリームデータ処理」勉強会

リアルタイムにビッグデータを処理する
「ストリームデータ処理」勉強会

～ストリームデータ処理とは～

従来のHadoopに代表されるビッグデータ処理はデータを一定期間（例えば1日）蓄積し、それを高速にバッチ処理することで行っていました。
しかし、スマートデバイスやIoTの普及によりデータ量がさらに増加している状況の中で、よりリアルタイムにデータを処理したいというニーズが高まっています。
「ストリームデータ処理」は、大量に発生するデータを発生したタイミングで逐次リアルタイムで処理するデータ処理技術です。（似たような方式としてApache Sparkなどを使った方法がありますが、これはバッチ処理の単位を小さくし実行頻度を上げるというアプローチです。「ストリームデータ処理」はデータが発生した都度、１件ごとに処理します。）（ストリームデータ処理を行うOSSとしては、Apache Stormがあります。）
「ストリームデータ処理」は、HadoopやApache Sparkなどのビッグデータ処理方式と競合するものではなく、連携して用いるものです。
ビッグデータ処理方式の「前処理」として位置付けられることが多くあります。

「ストリームデータ処理」の特長は、大きく以下の２点です。

データ量が多すぎて「溜めて置くだけでも大変！」といった状況に対してデータが発生したタイミングでデータの集約、抽出、正規化、編集などを行うことで、「価値のあるデータ」だけを保存しHadoopなどのビッグデータ処理につなぐことができます。
次々と発生する膨大なデータ（例えば、各種デバイスの状態など）をリアルタイムに「モニタリング」して、必要なアクションを行うことができます。例えば消費者の行動に対してリアルタイムにオファーを送ったり、不審者の行動に対してリアルタイムにアラートを発することができます。

【対象者】