イベント・セミナー2014 第31回

Hadoopの拡がりを体感できたCloudera World Tokyo 2014

Hadoopソリューションの御三家のひとつ、Clouderaが2014年11月6日に東京でプライベートイベント、「Cloudera World Tokyo 2014」を開催した。ビッグデータへの解決策として有望視され、ソリューションも事例も揃いつつあるHadoopの現状に関して方向性や活用事例などが

松下康之 - Yasuyuki Matsushita

2014年11月11日 22:00

Hadoopソリューションの御三家のひとつ、Clouderaが2014年11月6日に東京でプライベートイベント、「Cloudera World Tokyo 2014」を開催した。ビッグデータへの解決策として有望視され、ソリューションも事例も揃いつつあるHadoopの現状に関して方向性や活用事例などが紹介された。Hadoopソリューションを提供するベンダーのショーケースも展示され、30にも及ぶブレークアウトセッションと合わせて現時点での最新情報が詰まった充実したカンファレンスとなった。

Hadoopは一般的にはApache Software Foundationによるビッグデータの分散並列処理プラットフォームのオープンソースプロジェクトを指す。コアとなるMapReduce及びHDFSはGoogle社内の分散処理基盤から触発され、開発された。現在、ビッグデータを扱うソリューションとしては最も期待されていると言っていいだろう。冒頭にHadoop御三家と書いたが、ここではCloudera、Hortonworks、MapRを指し、Apache Hadoopに加えて独自の管理ツールやサービスを提供することで差別化を行っている企業で、北米ではこの3社が市場を引っ張っている。

特にClouderaはHadoopのクリエイターのひとりであるDoug Cuttingが所属する会社ということで注目されており、今回はいち早くプライベートイベントを開いたことで日本において認知を高める狙いがあるのだろう。またHPやEMC、シスコ、インテルなどのハードウェアベンダーからNTTデータ、日立ソリューションズなどのインテグレーター、更にエンドユーザーも参加してHadoopとClouderaの勢いが感じられるイベントになった。

今回のイベントの冒頭の基調講演では、Cloudera株式会社の代表取締役社長のジョー・シニョレリ氏が登壇、ビッグデータのトレンドと日本市場への期待を語った。Clouderaの差別化のポイントはオープンソースコミュニティへの貢献とサポート及び教育サービスで、オープンソースコミュニティへの貢献やデータサイエンティストの教育など他の会社と比べても大きなリードをつけているという。

ジョー・シニョレリ氏はオープンソースへの貢献に加えサービスとサポートが強みと強調

次にCOOのカーク・ダン氏が登壇し、世界中での導入事例を紹介。次に登壇したチーフテクノロジストのイーライ・コリンズ氏はインテルの事例をベースにビッグデータプロジェクトにおいて必要とされるセキュリティなどについて解説を行った。

その後、今回のイベントのスポンサーであるインテルとSASがプレゼンテーションを行った。インテルはInternet of Thingsによるデバイスの増加によるビッグデータ化への対応が必要と強調し、SASはこれまでの分析ソリューションにおける経験を訴えた。

ブレークアウトセッションでは、KSKアナリティクスがデータ統合やBIツールを販売するPentahoやインテルの事例でも紹介されたRevolution Analyticsを紹介した。来日したPentahoのAsia Pacific地域のマネージャー、Salmon Sim氏はPentahoの事例として米国のベンチャー向けの株式市場、NASDAQを運営しているNASDAQ OMXにおいて分析サービスの中にPentahoとClouderaが導入されており、Clouderaを中心としたHadoopソリューションが評価されていることを解説した。

Pentahoのソリューションはユーザー数に比例したライセンス料ではなくデータ量やCPUのコア数によって課金されるサブスクリプション課金ということでベンチャー株を取引するユーザーが増加してもコスト的には優位性を持てるということだろう。更にClouderaがデータ統合やBIなどに手を出さずにサードパーティに任せているところがHadoopエコシステムを上手く回しているポイントではないかとコメントした。

筆者が受講したセッションでは、Hadoopの分散処理の弱点として指摘されるクラスター内のNameNodeの障害によって発生するSingle Point of Failure問題を解決するソリューションをWANdiscoのPaul Scott-Murphy氏が紹介。これは実際にシンガポールとオーストラリアでそれぞれ稼働するHadoopクラスタで動くジョブが障害発生時に片方からちゃんとフェイルオーバーされる動作をデモンストレーションしたもの。パクソスアルゴリズムによってActive-Activeの高可用性のクラスター構成が可能になり、Hadoopにおいてディザスターリカバリーを実現できるという。数時間かかる場合もあるHadoopのバッチジョブにおいてNameNodeが障害を起こすことによってそれまで進んでいた処理が無駄になってしまうことを防げるのであれば検討に値するソリューションだろう。

ビッグデータを分析する際のビジュアライゼーションツールのTableau JapanのセッションにおいてはPowerPointを使わずに、ビッグデータから分析された知見をインタラクティブなスライドに仕立てるストーリーで製品を紹介。データ分析のフロントエンドとして評価の高いTableau Desktopの優位点を強調した。

ユーザー事例としてはヤフー株式会社の杉山朋広氏がHadoopで利用出来るSQLクエリエンジンのImpalaを利用する際のチューニングを紹介。4300億行という巨大なデータにクエリを発行して処理時間を短縮するというタスクについてツールやフォーマットの選択だけではなく細分化されるデータのサイズが大きく影響することを解説した。