マシンビジョンの進化をGoogleの中の人が語る

連載 [第3回] :

未来を垣間見る　オライリーAI Conference 2017レポート

2017年12月26日(火)

画像認識技術の進化について、Google Translateを手がけるエンジニアが語る。

オライリー開催のAI Conferenceシリーズの第3弾として、Googleのマシンビジョンのセッションを紹介する。これは「A visual and intuitive understanding of deep learning」と題されたセッションで、登壇したのはOtavio Good氏だ。Good氏は、2010年に発表されたWord Lensの開発者として知られる著名なエンジニアだ。

プレゼンテーションを行うOtavio Good氏

Word Lensは、スマートフォンのカメラで文字列を撮影するだけでリアルタイムに翻訳を行えるアプリケーションで、AR（Augmented Reality）としても優れている。その後、Word Lensを開発したQuest Visualは2014年にGoogleに買収された。Good氏は現在、GoogleでGoogle Translateの開発に従事している。

参考：Word Lensの紹介ビデオ。これが2010年に公開されていたもの

Word LensはCNN（Convolutional Neural Network、畳み込みニューラルネットワーク）と呼ばれる機械学習を用いて、スマートフォンのカメラから入力される画像に存在する文字を翻訳するアプリケーションだが、現在はGoogle Translateの機能の中に組み込まれている。Google Translateは、オフラインで利用するためには学習データをダウンロードする必要があるが、インターネットとクラウドの力を借りなくても文字を翻訳できる点は、旅行者などにとってはありがたいツールだ。

Good氏は、PCのモニター側に付いているカメラで自身が着用しているTシャツに書かれている様々な言語を認識させ、実際に画像から文字列を抽出し、翻訳するというデモを行った。

PCに取り込まれた元画像

文字の認識を行っているようす

機械学習によって推定された文字が表示されている

Good氏は画像から文字の抽出の方法について解説した後に、CNNについても解説を行い、画像認識においてその技法が使われる背景などを説明した。次にImageNetの例を引き合いに、画像認識の領域ではすでにエラー率の面で人間を超えたモデルが存在することを紹介し、いまだにCNNの進化が止まっていないことを解説した。最新の2017年のImageNetの画像認識チャレンジで、中国のWMWというチームが開発した「Squeeze and Excitation」と言うモデルが2.25％のエラー率を達成したことは、記憶にとどめておくべきだろう。中国は2030年までに世界でAIのトップに立つことを目標にしているというが、それを肌で感じることのできる結果である。

ImageNetでのエラー率の違い。最も低いのがSqueeze and Excitationだ

参考記事：AIの世界王者決定戦「ImageNet」で中国チームが上位を独占

WMWが開発した「Squeeze and Excitation」の詳細については、このスライドを参照していただきたい。

Squeeze-and-Excitation Networks

なおImageNetのコンペティションについて、概要を理解するためには、以下のスライドが役に立つだろう。単にImageNetと称しているが、正式には「ImageNet Large Scale Visual Recognition Challenge（ILSVRC2017）」と表記するのが正しいようだ。

Large Scale Visual Recognition Challenge 2017 (ILSVRC2017)

Good氏は最後に、文字の認識において教師データが少ない場合の機械学習の方法論として、Zero Shot Learningを紹介した。

Zero Shot Learning

このセッションによって、画像認識技術は世界中で引き続き継続して開発が行われており、今後もこの領域では激しい競争が行われることが想像できる。監視カメラなどへの応用領域がすぐに思い浮かぶだけに、この領域での中国の進歩は凄まじいレベルだろう。Googleのエンジニアによるプレゼンテーションを聞きながら、なぜかそんなことが頭に浮かんだ。