感情を数値化するAffectivaとSparkで動くBigDL

連載 [第1回] :

未来を垣間見る　オライリーAI Conference 2017レポート

2017年12月22日(金)

米国オライリーメディアが、サンフランシスコで人工知能に関するカンファレンスを開催した。

オライリーメディアは、表紙に動物のイラストを使ったソフトウェアに関する書籍で知られている、アメリカの出版及びメディア企業だ。そのオライリーがAI、人工知能に関するカンファレンスを2017年9月18日から20日までサンフランシスコにて開催。この連載シリーズでは、その概要といくつかのセッションについて解説を行いたい。

ライトニングトーク的なキーノート

カンファレンス初日の朝のキーノートセッションは最も注目が集まり、カンファレンスの参加者の全てが集まる時間帯となる。MicrosoftやVMware、AppleなどのITベンダーであれば、ここではCEOが最新のトピックについてデモを交えて紹介するのが一般的だ。しかしオライリーは、注目されるベンチャーや研究者に短い時間を与えて、連続でプレゼンテーションを行わせる形式をとった。

今回は、Affectiva、Intel、IBM、Googleなどの研究者が、それぞれ15分程度の短い講演を行った。ここではAffectivaとIntel、それにスタンフォード大学のAndrew Ng氏のパートを紹介しよう。

「感情」を数値化することで拡がる可能性

AffectivaのCEO、Rana el Kaliouby氏

最初に登壇したAffectivaは「Emotion AI」を標榜し、MIT Media Labの研究者たちが創立した「感情のある人工知能」を開発しているボストンの新興企業だ。単にAIを使って問題を解決するだけではなく、「もしもコンピュータが人間の感情を理解することができるようになったら、どんな可能性が拡がるのだろう？」という問いに応える製品とサービスを開発している。

Affectivaの創業者兼CEOのRana el Kaliouby氏は、近い将来に様々なデバイスがAIを搭載するだけではなく、感情も扱えることが必要だと語った。感情が顔の表情や音声などに表れることで、人間同士はコミュニケーションをスムーズに行うことができるが、現在のコンピュータにはそれが不可能である。そのためAffectivaは、感情を読み取るためのソフトウェアを開発しているという。ここで動画を使って、Affectivaのソリューションの中でも顔の表情から感情を数値化するソフトウェアを紹介した。

ビデオの中の顔から怒り、驚き、恐れなどを検知

また音声から同じような感情を数値化するデモも紹介された。顔の表情や声の調子からその人の感情を読み取ることで、例えば車を運転している時に退屈しているのか、感情が高ぶっているのかを理解できれば、自動車に搭載したAIからより適切な支援が行えるという例を出して解説を行った。この例は、日常の生活に自動車が切り離せないアメリカ人にとってかなり納得できる例だったようだ。また冷蔵庫がユーザーの気分を理解して、感情に合ったレシピを提案するなどと言う例に、笑いが起こる場面もあった。また医療の場面では、問診をする前に表情から痛みの強さなどを認識できれば、診断がより素早く正確に行えるようになるだろうと語った。

Affectivaは、すでに多くのデータ（動画、音声）を学習データとして世界中で収集しており、深層学習によって数値化を進めていることを紹介した。文字では表現できない感情を、数値として扱うことの可能性を印象付けたプレゼンテーションであった。

すでに多くのデータが活用されているという

エンタープライズAIは少ないデータで利用できるべき

次に登壇したのはIBMのRuchir Puri氏だ。Puri氏はIBMの開発するWatsonのチーフアーキテクトで、今回はエンタープライズAIについてのプレゼンテーションを行った。

IBMのPuri氏

ここでPuri氏は、エンタープライズが利用するAIは、Googleなどが実現している膨大なデータや多重化したニューラルネットをベースしたものではなく、より少ないデータで利用できることを目指すべきと解説。ここではGoogleなどがImageNetで画像認識を行うコンペティションにおいて、データとニューラルネットの階層の双方が爆発的に増えていることを一つの傍証として紹介し、エンタープライズAIでそれを行うのは現実的ではないということを訴えた。

エンタープライズAIはより少ないデータを指向すべき

この辺りは、巨大なIT資源を駆使してAIのコモディティ化を目指すGoogleなどとは方向性の違いを見せたと言えるだろう。

増加するデータとニューラルネットの階層

BigDLの事例を紹介

その後、Intelからもプレゼンテーションが行われた。ここではIntelらしく、同社製のハードウェアであるXeonがAIのワークロードで多く使われていることを紹介した。

AIが最も拡大しているワークロードだという

数あるAI関連のプロジェクトの中から、Intelが主導権を握って開発を行っているBigDLを簡単に紹介した。BigDLはIntelが開発し、今年2017年にオープンソースソフトウェアとして公開された、Apache Spark上で稼働する深層学習の分散型フレームワークである。Xeonプロセッサに最適化されており、マルチノードで実行することでリニアに性能を上げることができ、GPUに匹敵する処理性能を達成できるという。

マルチノードでの高速さがBigDLの特徴

BigDLについては別途セッションを紹介する予定だが、BigDLは「中国のアマゾン」と言っても過言ではないオンラインストア大手であるJD.comにおいてすでに使われており、他にも近年成長が著しい中国のキャッシュカード会社、UnionPayでも不正利用の検出に利用されているという。Sparkのクラスターの上で、SparkのJobと同様に深層学習が実行できる点が特徴だ。

XeonとBigDLのユースケース、JD.com

他に印象的だったのは、オンライン学習プラットフォームのCourseraのCo-Founderで機会学習については自身で講師を務めるAndrew Ng氏の講演だ。Ng氏はBaiduのチーフサイエンティスト、Stanford大で機械学習を教える准教授の顔を持つ、人工知能の世界では非常に著名な一人だろう。Ng氏は一切スライドを使わず、ステージ上に設置された3枚のホワイトボードにキーワードを書き出しながら解説を行うというスタイルで、これまでの大きなスクリーンに映し出されるスライドから一転して、手書き文字を参加者が見つめるという大学の講義のようなスタイルであった。Ng氏は「人工知能は、これから電気と同じぐらいに一般的なものになる」ということを訴求するものだった。