MicrosoftがStreetViewと深層学習を使って行った社会実験とは?

2017年12月28日(木)
松下 康之 - Yasuyuki Matsushita
Street Viewの画像を元に画像認識を行った結果、あるエリアの住民の支持政党、収入などが驚くべき精度で推定できたという。

オライリーが主催したAI Conferenceシリーズの第5弾は、MicrosoftのリサーチャーがGoogle Street Viewと深層学習を活用して、「実際に人口統計に関する調査を行わなくてもある程度の確率で結果を予測できる」というAAAI 2017(AAAI:Association for the Advancement of Artificial Intelligence、アメリカ人工知能学会)で発表された論文に関するプレゼンテーションだ。

発表したのはTimnit Gebru氏で、Gebru氏はStanfordのAI Labでコンピュータービジョンに関する研究を行っているポスドクのエンジニアだ。また、Microsoftのニューヨークにあるリサーチグループにも所属しているという。Gebru氏によれば、アメリカでは人種や性別、雇用状態、支持する政党などを訪問形式で行う人口統計調査のために毎年10億ドルの予算が使われており、これを少しでも減らすことができないかと考えたという。そして、GoogleがGoogle Mapsのために撮影し続けているStreet Viewの画像から、必要とする情報を導けないか? という仮説のもとに行われたのがこの研究だ。

プレゼンテーションを行うTimnit Gebru氏

プレゼンテーションを行うTimnit Gebru氏

Gebru氏による仮説のひとつは、「ストリートビューで写っている車種を同定することで、その地域に暮らす人の収入や支持政党を想定できないか?」というものだ。これは常識で考えれば、すぐに納得できるだろう。つまりセダンや環境に優しい車種を使っている人は総じてリベラル、トラックやSUVなどを使っている人はおおむね保守的という、アメリカに暮らしている人であれば「なんとなくそういう気がするよね」という感覚だ。これをStreet Viewのデータから画像認識を行って、検証してみようという試みだ。

同様の研究として、都市の建物の損壊状況から犯罪発生率を想定する「割れ窓理論」というものがあるが、今回のリサーチはそれを車とその運転者の特性に応用したものだとも言えるだろう。

実際に建物の損壊状況から、犯罪発生率を想定するリサーチも存在する

実際に建物の損壊状況から、犯罪発生率を想定するリサーチも存在する

人手で行えば、非常に時間がかかる内容の実験だが、コンピューターを用いて5千万枚のStreet Viewの画像と、200を超える都市の写真を画像認識することで、驚くべき正確さで支持政党や収入、教育のレベルなどを推定できたと言う。具体的にはある都市を15分間運転する中で、セダンを認識する回数がピックアップトラックを認識する回数よりも多ければ、その都市において大統領選の際に民主党に投票する確率が88%、そうでなければ共和党に投票する確率が82%になるという。

画像認識に使われたStreet Viewの1例

画像認識に使われたStreet Viewの1例

ここでは撮影されたプリウスの年式、ボディの形式、市場価格、燃費などのデータを使って、それに乗る人の属性情報の推定を行っている。ここで使用されている論理は、空間自己相関分析(Moran’s I)を使って相関を推定するものだ。

これが今回の研究で利用された数式

これが今回の研究で利用された数式

シカゴの例を使って解説を行ったGebru氏は、認識された車と支持政党などの相関関係が強く出たことが確認できるという。画像認識には、画像認識において高く評価されている「畳み込みニューラルネットワーク(Convolutional Neural Network)」を使い、5千万枚の写真から約2千2百万台の車輌を同定できたそうだ。

シカゴでは、車種と支持政党の相関が強く表れているという

シカゴでは、車種と支持政党の相関が強く表れているという

また2008年に行われた大統領選においては、実際の投票データと画像認識によって推定された投票の傾向がかなり似ていることも確認できる。

人間の想像したことが、実際に検証できたことになる

人間の想像したことが、実際に検証できたことになる

またGoogle Street Viewは同じ場所を時間をあけて撮影することで、常に最新の情報に更新されているわけだが、同じ場所の違う年月の写真を比べることにより、その場所の変化の傾向もつかめると言う。単に地図を補完するだけだったStreet Viewが、そこに写り込んでいる車輌や建物などの特性から、より的確に把握できる可能性を示したということで、大きな可能性を感じさせてくれたセッションであった。

車から社会の構成員である住民の属性を割り出すというのは、いかにもアメリカ的な発想であるが、車以外にも歩行者が着用している服や持ち物など、これからの画像認識の応用が期待できる発表であった。

結論として画像認識は社会の役に立つ技術であることが検証された

結論として画像認識は社会の役に立つ技術であることが検証された

なお、Timnit Gebru氏が共同で執筆を行った論文へのリンクは、以下を参照されたい。

Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

AI・人工知能イベント
第9回

AIは究極の悪になりえるか? Tim O'Reillyの答えは?

2018/1/12
オライリーのAI Conferenceレポートシリーズの最後は、Tim O'Reillyによるクロージングセッションと、会場の様子をお届けする。
AI・人工知能イベント
第8回

機械学習でサイバー攻撃に対抗するCylanceのソリューション

2018/1/11
高度化するマルウェアへの対抗策は、人工知能を用いた自動化であると主張するCylanceのセッションを紹介する。
AI・人工知能イベント
第7回

Microsoftのデータサイエンティストが解説するモバイル向けCNNとは?

2018/1/10
昨今の高性能なスマートフォンを用いて画像認識などの処理を行う場合のポイントを、Microsoftの研究者が解説する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています