マシンビジョンの進化をGoogleの中の人が語る

2017年12月26日(火)
松下 康之 - Yasuyuki Matsushita
画像認識技術の進化について、Google Translateを手がけるエンジニアが語る。

オライリー開催のAI Conferenceシリーズの第3弾として、Googleのマシンビジョンのセッションを紹介する。これは「A visual and intuitive understanding of deep learning」と題されたセッションで、登壇したのはOtavio Good氏だ。Good氏は、2010年に発表されたWord Lensの開発者として知られる著名なエンジニアだ。

プレゼンテーションを行うOtavio Good氏

プレゼンテーションを行うOtavio Good氏

Word Lensは、スマートフォンのカメラで文字列を撮影するだけでリアルタイムに翻訳を行えるアプリケーションで、AR(Augmented Reality)としても優れている。その後、Word Lensを開発したQuest Visualは2014年にGoogleに買収された。Good氏は現在、GoogleでGoogle Translateの開発に従事している。

参考:Word Lensの紹介ビデオ。これが2010年に公開されていたもの

Word LensはCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)と呼ばれる機械学習を用いて、スマートフォンのカメラから入力される画像に存在する文字を翻訳するアプリケーションだが、現在はGoogle Translateの機能の中に組み込まれている。Google Translateは、オフラインで利用するためには学習データをダウンロードする必要があるが、インターネットとクラウドの力を借りなくても文字を翻訳できる点は、旅行者などにとってはありがたいツールだ。

Good氏は、PCのモニター側に付いているカメラで自身が着用しているTシャツに書かれている様々な言語を認識させ、実際に画像から文字列を抽出し、翻訳するというデモを行った。

PCに取り込まれた元画像

PCに取り込まれた元画像

文字の認識を行っているようす

文字の認識を行っているようす

機械学習によって推定された文字が表示されている

機械学習によって推定された文字が表示されている

Good氏は画像から文字の抽出の方法について解説した後に、CNNについても解説を行い、画像認識においてその技法が使われる背景などを説明した。次にImageNetの例を引き合いに、画像認識の領域ではすでにエラー率の面で人間を超えたモデルが存在することを紹介し、いまだにCNNの進化が止まっていないことを解説した。最新の2017年のImageNetの画像認識チャレンジで、中国のWMWというチームが開発した「Squeeze and Excitation」と言うモデルが2.25%のエラー率を達成したことは、記憶にとどめておくべきだろう。中国は2030年までに世界でAIのトップに立つことを目標にしているというが、それを肌で感じることのできる結果である。

ImageNetでのエラー率の違い。最も低いのがSqueeze and Excitationだ

ImageNetでのエラー率の違い。最も低いのがSqueeze and Excitationだ

参考記事:AIの世界王者決定戦「ImageNet」で中国チームが上位を独占

WMWが開発した「Squeeze and Excitation」の詳細については、このスライドを参照していただきたい。

Squeeze-and-Excitation Networks

なおImageNetのコンペティションについて、概要を理解するためには、以下のスライドが役に立つだろう。単にImageNetと称しているが、正式には「ImageNet Large Scale Visual Recognition Challenge(ILSVRC2017)」と表記するのが正しいようだ。

Large Scale Visual Recognition Challenge 2017 (ILSVRC2017)

Good氏は最後に、文字の認識において教師データが少ない場合の機械学習の方法論として、Zero Shot Learningを紹介した。

Zero Shot Learning

Zero Shot Learning

このセッションによって、画像認識技術は世界中で引き続き継続して開発が行われており、今後もこの領域では激しい競争が行われることが想像できる。監視カメラなどへの応用領域がすぐに思い浮かぶだけに、この領域での中国の進歩は凄まじいレベルだろう。Googleのエンジニアによるプレゼンテーションを聞きながら、なぜかそんなことが頭に浮かんだ。

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

AI・人工知能イベント
第9回

AIは究極の悪になりえるか? Tim O'Reillyの答えは?

2018/1/12
オライリーのAI Conferenceレポートシリーズの最後は、Tim O'Reillyによるクロージングセッションと、会場の様子をお届けする。
AI・人工知能イベント
第8回

機械学習でサイバー攻撃に対抗するCylanceのソリューション

2018/1/11
高度化するマルウェアへの対抗策は、人工知能を用いた自動化であると主張するCylanceのセッションを紹介する。
AI・人工知能イベント
第7回

Microsoftのデータサイエンティストが解説するモバイル向けCNNとは?

2018/1/10
昨今の高性能なスマートフォンを用いて画像認識などの処理を行う場合のポイントを、Microsoftの研究者が解説する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています