Intelが主導する新しいAIフレームワーク、BigDLとは?
オライリー主催のAI Conferenceシリーズの第4弾は、Intelが開発を主導するオープンソースソフトウェア、BigDLを取り上げたい。プレゼンテーションを行ったのは、IntelのビッグデータグループのJason Dai氏とDing Ding氏だ。
まず問題提起としてDai氏は、深層学習を実行するためのインフラストラクチャーを用意することが難しいことを挙げた。これはビッグデータであればHadoopやSparkなどが実際に稼働しているのに対し、深層学習の場合はCaffeやTorch、TensorFlowなどのフレームワークはすでに存在するものの、それを稼働させるインフラストラクチャーを構築する知見が少ないことを意味する。そこでIntelは、すでに実績のあるSparkの中に深層学習のフレームワークを構築して、実行させることを目指した。それがBigDLである。
Dai氏は「深層学習の専門家とビッグデータのエンジニアの間に大きな溝があり、それが深層学習の普及を阻んでいる」という認識から発想されたものがBigDLであると解説した。
Dai氏はBigDLの要件を「使い慣れたインフラストラクチャーを活用できること」「データが格納されているHadoop/Sparkのストレージを使えること」「Hadoop/Sparkのプログラミングと同じように実行できること」そして「すでに構築されたHadoop/Sparkクラスターを流用できること」であると説明した。つまりビッグデータの稼働環境にCaffeやTorchと同等機能を持つフレームワークを載せて、分散処理を行うのがBigDLということだ。
その後、ユースケースとして中国のUnionPayを紹介した。ここではビッグデータのプラットフォームであるSparkの上で、BigDLがSparkのジョブの一つとして実行できるという例だ。チャートの後半の記述によれば、BigDLによるニューラルネットワークによって不正使用かどうかを推測しているそうだ。
アーキテクチャーとして、Sparkのジョブを並列的に実行可能であることは、次のスライドでも説明がなされた。
またパラメータの分散と同期の処理にもBigDLが利用できるために、テストデータを複数に分割して処理を行った上で最終的に収束させることも可能であるという。
そして並列で処理を実行する際にジョブのスケジューリングを行うためのエンジン、Drizzleに関しても概要が説明された。これもオープンソースソフトウェアとして公開されているもので、UC Berkeleyとのコラボレーションによって開発が進んでいるという。
このスケジューリングエンジンを採用することで、並列実行時にSparkのオーバーヘッドを抑えることができたという。その検証の結果が次のスライドだ。
1日目のキーノートにおけるIntelのセッションでも、JD.comにおいてBigDLが使われていることが紹介されていた。そこで「BigDLは主に中国でのユースケースが多いのはなぜ?」という質問をセッションの後にDai氏に投げかけてみたが、意図的に選択しているわけではなく、北米でも利用が進んでいるという。ただ機械学習のエンジニアリングを行っているエンジニアに中国勢が多いのも事実であり、「AIで世界一を目指す」という中国の勢いがここでも確認できたということなのだろう。
また深層学習といえばGPUをフルに活用する例が多いのは事実だが、Intelとしてはその部分にもチャレンジがあるという。それをBigDLに置き換えることで、大量の処理を実行する際にIntelのCPU(Xeon)を活用することができるというのも、いかにもIntelらしい方向性だろう。
ここでもGPUではなく、IntelのXeon上のSparkを使ってスケールアウトできることがアピールされていた。
まだ公開されて1年未満という新しいソフトウェアだが、Intelが本気を出して、AIコミュニティに対してXeonをプロモーションしていこうという強い思いを感じる熱いセッションであった。
より詳細な情報は、Intelのサイトにあるこのページを参考にされたい。
BigDL: Distributed Deep Learning on Apache Spark*
GitHubにおけるBigDLのリポジトリは、こちら。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- 感情を数値化するAffectivaとSparkで動くBigDL
- KubeCon EU 2022からバッチシステムをKubernetesで実装するVolcanoを紹介
- Spark Streamingの概要と検証シナリオ
- MSが「Azure IP Advantage」を発表、インテル「BigDL」をオープンソース化、ほか
- インテルがAIにフォーカスしたイベント「インテルAI Day」でPreferred Networksとの協業を発表
- Apache HadoopでTensorFlowを動作させる「TensorFlow on YARN(TonY)」リリース
- Apache HadoopでTensorFlowを動作させる「TensorFlow on YARN(TonY)」リリース
- FacebookとApple、NVIDIAのAIプラットフォーム
- 中国人のためのイベント、Open Infrastructure Summit上海開催
- KubeCon Europe 2024開催。前日に開催されたAIに特化したミニカンファレンスを紹介