マシンビジョンの進化をGoogleの中の人が語る
オライリー開催のAI Conferenceシリーズの第3弾として、Googleのマシンビジョンのセッションを紹介する。これは「A visual and intuitive understanding of deep learning」と題されたセッションで、登壇したのはOtavio Good氏だ。Good氏は、2010年に発表されたWord Lensの開発者として知られる著名なエンジニアだ。
Word Lensは、スマートフォンのカメラで文字列を撮影するだけでリアルタイムに翻訳を行えるアプリケーションで、AR(Augmented Reality)としても優れている。その後、Word Lensを開発したQuest Visualは2014年にGoogleに買収された。Good氏は現在、GoogleでGoogle Translateの開発に従事している。
参考:Word Lensの紹介ビデオ。これが2010年に公開されていたもの
Word LensはCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)と呼ばれる機械学習を用いて、スマートフォンのカメラから入力される画像に存在する文字を翻訳するアプリケーションだが、現在はGoogle Translateの機能の中に組み込まれている。Google Translateは、オフラインで利用するためには学習データをダウンロードする必要があるが、インターネットとクラウドの力を借りなくても文字を翻訳できる点は、旅行者などにとってはありがたいツールだ。
Good氏は、PCのモニター側に付いているカメラで自身が着用しているTシャツに書かれている様々な言語を認識させ、実際に画像から文字列を抽出し、翻訳するというデモを行った。
Good氏は画像から文字の抽出の方法について解説した後に、CNNについても解説を行い、画像認識においてその技法が使われる背景などを説明した。次にImageNetの例を引き合いに、画像認識の領域ではすでにエラー率の面で人間を超えたモデルが存在することを紹介し、いまだにCNNの進化が止まっていないことを解説した。最新の2017年のImageNetの画像認識チャレンジで、中国のWMWというチームが開発した「Squeeze and Excitation」と言うモデルが2.25%のエラー率を達成したことは、記憶にとどめておくべきだろう。中国は2030年までに世界でAIのトップに立つことを目標にしているというが、それを肌で感じることのできる結果である。
参考記事:AIの世界王者決定戦「ImageNet」で中国チームが上位を独占
WMWが開発した「Squeeze and Excitation」の詳細については、このスライドを参照していただきたい。
Squeeze-and-Excitation Networks
なおImageNetのコンペティションについて、概要を理解するためには、以下のスライドが役に立つだろう。単にImageNetと称しているが、正式には「ImageNet Large Scale Visual Recognition Challenge(ILSVRC2017)」と表記するのが正しいようだ。
Large Scale Visual Recognition Challenge 2017 (ILSVRC2017)
Good氏は最後に、文字の認識において教師データが少ない場合の機械学習の方法論として、Zero Shot Learningを紹介した。
このセッションによって、画像認識技術は世界中で引き続き継続して開発が行われており、今後もこの領域では激しい競争が行われることが想像できる。監視カメラなどへの応用領域がすぐに思い浮かぶだけに、この領域での中国の進歩は凄まじいレベルだろう。Googleのエンジニアによるプレゼンテーションを聞きながら、なぜかそんなことが頭に浮かんだ。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- Microsoftのデータサイエンティストが解説するモバイル向けCNNとは?
- ハイプサイクルに登場する技術①ー エッジと組み込み型AI
- そもそもディープラーニングとは何か?
- IBMとAmazonのAIプラットフォーム
- GoogleとMicrosoftのAIプラットフォーム【前編】
- User-oriented web design
- 「PyTorch」がMeta(旧Facebook)からLinux Foundationの傘下に新しく設立されたPyTorch Foundationへ移管
- 感情を数値化するAffectivaとSparkで動くBigDL
- MicrosoftがStreetViewと深層学習を使って行った社会実験とは?
- AIを支えるハードウェアとライブラリ