Microsoftのデータサイエンティストが解説するモバイル向けCNNとは?

2018年1月10日(水)
松下 康之 - Yasuyuki Matsushita
昨今の高性能なスマートフォンを用いて画像認識などの処理を行う場合のポイントを、Microsoftの研究者が解説する。

オライリーが開催したAI Conferenceシリーズの第7弾は、Microsoftのモバイル向け機械学習フレームワークに関するセッションを紹介したい。これは「Deep learning on mobile: The how-to guide」と題されたセッションで、これまでXeonやGPUで実行されていた深層学習の推論の部分を、スマートフォンなどのモバイル端末で実行する際にどのようなポイントに注意する必要があるのか? などを解説するものだ。

セッションを担当したのは、Microsoft Researchに所属するデータサイエンティストであるAnirudh Koul氏だ。コンピュータサイエンスでは名門と言って良いStanfordとCarnegie Mellonでデータマイニングや自然言語処理を学んだ経験を活かして、MicrosoftでCognitive Toolkitを活用した開発に従事しているという。

MicrosoftのAnirudh Koul氏

MicrosoftのAnirudh Koul氏

このセッションでは、画像認識における畳み込みニューラルネットワーク(CNN)をクラウドではなくスマートフォンのメモリーやプロセッサーパワーの限られた環境下で、いかに実行するのかを詳細に解説した。

まずKoul氏は、どれくらいの遅延がユーザーに影響を与えるのかを紹介した。Koul氏によれば、数秒の遅延がユーザーの離脱を発生させてしまうため、画像認識においても処理時間の短縮と正しい結果の導出についてはバランスが重要だという。

遅延によってユーザーの行動が変わる

遅延によってユーザーの行動が変わる

「0.1秒の遅延では何も問題はないが、1秒の遅延でユーザーの意識は離れ、10秒の遅延はユーザーにとって操作を続ける限界である」これは30年も前に行われた調査の結果に基づくもので、今ではもっと短くなっているのではないだろうか。とにかくこの遅延を防ぐために、スマートフォンにおいても推論処理を素早く終わらせることが重要であるという指摘だ。

そしてアプリケーションの処理速度は、「モバイルのバックエンドで稼働する推論エンジンの速度と予めトレーニングを終えたデータセットモデルの総和である」と解説し、処理エンジンの性能だけではなくトレーニングデータの優劣にも関係する説明した。それに加えて、クラウド側でトレーニングを行うライブラリーの選択が重要だとして、次のスライドでクラウドの機械学習ソフトウェアを紹介した。

Koul氏が紹介したいくつかの機械学習ライブラリー

Koul氏が紹介したいくつかの機械学習ライブラリー

特にMicrosoft Cognitive Servicesに関しては、ImageNetのチャレンジ(ILSVRC2015)でも勝利したとして、顔認識の例を紹介した。

Microsoft Cognitive Servicesの紹介

Microsoft Cognitive Servicesの紹介

他にも、少量のデータセットを学習させるだけで画像認識が行えるMicrosoftのCustom Vision Serviceについても簡単に触れ、ここでもMicrosoftのプラットフォームの宣伝を忘れなかった。

参考:Custom Vision

またオープンソースソフトウェアの画像認識ライブラリーとしてKeras.jsを紹介。Pythonで書かれたKerasを、ブラウザのJavaScript環境で稼働させることが可能だという。この辺りは常に最新の情報を集め、どのライブラリーを使うか? を判断する必要があるところだろう。

Keras.jsの紹介

Keras.jsの紹介

また深層学習のレイヤーが深くなれば認識率も向上するということを、ILSVRCの例を引いて紹介した。プロセッサーが高速になるにつれ、ニューラルネットが多層化するという傾向が紹介された。

年々深くなるニューラルネットと認識エラー率の変化

年々深くなるニューラルネットと認識エラー率の変化

実際、最近発表されたApple iPhone Xは、すでにMacBook Proを超える性能を叩き出しているため、モバイル端末側でもかなりの処理が行えるということを示唆したかったのだろう。

すでにiPhone XはMacBook Proを超える性能に到達しているという

すでにiPhone XはMacBook Proを超える性能に到達しているという

最後に性能と処理コストに関するチャートで、求める認識率と処理時間に関して慎重に選ぶべきであると解説を行って、セッションは終了した。

チャートを解説するKoul氏

チャートを解説するKoul氏

深層学習の専門家としての満足する性能と機能を達成するためのプラットフォーム及びライブラリーの選択は、スマートフォンユーザーにとっては頭が痛い問題だろう。iPhoneとAndroidが深層学習においても定番のプラットフォームであり、Windows Phoneは最初から無視されていたのも、現状のシェアを考慮すれば仕方のないところであろう。聞き終えた後には、機械学習ライブラリーを数多く使っている専門家としてのKoul氏に、具体的にアプリケーションをどうやって構築、更新するのか? などについて、もっと長い時間をかけて聞いてみたいと思わせるセッションとなった。

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

AI・人工知能イベント
第9回

AIは究極の悪になりえるか? Tim O'Reillyの答えは?

2018/1/12
オライリーのAI Conferenceレポートシリーズの最後は、Tim O'Reillyによるクロージングセッションと、会場の様子をお届けする。
AI・人工知能イベント
第8回

機械学習でサイバー攻撃に対抗するCylanceのソリューション

2018/1/11
高度化するマルウェアへの対抗策は、人工知能を用いた自動化であると主張するCylanceのセッションを紹介する。
AI・人工知能イベント
第7回

Microsoftのデータサイエンティストが解説するモバイル向けCNNとは?

2018/1/10
昨今の高性能なスマートフォンを用いて画像認識などの処理を行う場合のポイントを、Microsoftの研究者が解説する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています