『Siri』、『しゃべってコンシェルジュ』...音声認識はネット連携で花開く

OSS

技術解説

連載 :

エンジニアtype

2012年3月22日(木)

『エンジニアtype』編集部

ジャーナリスト・西田宗千佳のデジMONO先端研

IT・家電ジャーナリスト
西田宗千佳 [@mnishi41]

「電気かデジタルが流れるもの全般」を守備範囲に執筆活動を続ける気鋭のフリージャーナリスト。主要日刊紙や経済誌、MONO系雑誌にあまねく寄稿し、書籍の執筆も多数。最近は電子書籍関連の著書が多い。近著は『形なきモノを売る時代－タブレット・スマートフォンが変える勝ち組、負け組』（ビジネスファミ通刊／税込1500円）など

2012年3月8日。iPhoneファンは、目を覚ますと、自分のiPhone 4Sにプレゼントが届けられていることに気付いた。『Siri』が、ついに日本でも使えるようになっていたからだ。

3月のiOSアップデートに合わせて発表された、音声認識『Siri』の日本語版

Siriは、音声を使ってiPhoneを操作する機能。2011年10月に発表されたiPhone 4Sから導入されたものである。音を使って、さまざまな操作をするための機能である。当初は英語・フランス語などには対応していたものの、日本語には未対応だった。それがようやく、3月から可能になったのである。

Siriでできることはかなり広い。「明日の天気は？」と聞けば、天気予報を表示する。口述で簡単なメールを書いて、そのまま送ることもできる。日本ではまだ無理だが、アメリカでは、これから行く先の渋滞情報を確認したり、そこでレストランを探したり、といったこともできる。

一つ一つは、スマートフォンなら簡単にできる、特別なことではない。だが、それらを「しゃべるだけ」で実行できるところが違う。決まったしゃべり方でないと認識されないわけでも、自分を認識させるために何度も声を覚えさせなければいけないわけでもない。ただ普通にしゃべればいいのだ。返答も、画面に出る表示だけでなく、合成された「声」でなされる。

もちろん、まだまだ完璧ではない。認識してくれない言葉・文章も多いし、返答だって不自然なことはある。しかし、自分がしゃべったことの多くがそのまま「命令」として認識され、文章にもなっていく様は、多くの人に新鮮な驚きを与えることだろう。事実、一足先に使えるようになっていたアメリカでは、街角などでSiriを使う人々の姿を見かけることも珍しくない。

なぜこのようなことができているのか？実のところ、音声を認識することだけで言えば、アップルの魔法でも何でもなく、どんな機器でもある程度の水準で可能になっている。それどころか、もう6、7年も前から、日本の携帯電話では声での文字入力などが実現されている。

グーグル、ドコモ......広がりを見せる「声のインターフェース」

特にスマートフォン向けとしては、Androidにも音声認識によって検索する機能が組みこまれており、こちらもかなりの認識精度を誇る。検索キーワードの入力やメールなどの単文であれば、驚くほどきちんと認識してくれる。しかも、誰がしゃべったかを問わない。

DocomoからリリースされたAndroidスマホ用の『しゃべってコンシェル』の評判は上々だ

日本からも優れたサービスが生まれている。NTTドコモの『しゃべってコンシェル』という機能だ。同社のスマートフォン向けに、Siri日本版がスタートする直前の3月1日前から展開していた。

しかも実のところ、できることはSiriに勝る。Siri日本版は、まだ経路検索・地点検索に対応していないが、しゃべってコンシェルは対応している。レシピ情報も教えてくれるし、オススメの本も教えてくれる。

なぜこのようなサービスが続々生まれているのか？その裏にあるのは「ネット連携」の力だ。

現在の音声認識では、「DSR（分散型音声認識）」というアプローチが採用されている。DSRでは、機器の側だけでは声から音声の特徴量だけを取り出し、そこから意味や言葉を見つけ出すのはネットの向こうにあるサーバが行っている。こうすると、機器側にはさほど演算力がなくても、かなりの精度で音声認識を実現できる。

サーバ側でどのような処理をするかは、もちろんサービスによって異なる。例えば、グーグルのサービスで変換精度が高いのは、同社が大量のネット検索キーワードのデータベースを持っており、そこから同音異義語・音が似ている語をピックアップ、検索頻度や単語の前後の文脈から、正しいと思うものを呼び出す、という形を採っている。対象となるデータベースの種類やロジックは多少異なるが、『グーグル日本語入力』に近い手法と言っていい。

Siriなどほかの音声入力でも、データベースの種類・手法は異なっていても、似たような技術を使っていることに違いはない。

ではその上で、サービスの質はどう変わるのだろうか？

どんなDBとつながるかで、サービスの幅は無限に広がる

重要なのは、音声を認識した上でテキストに変換し、さらにそこから「どのようなネットサービスにつなぐか」という部分にあたる。

しゃべってコンシェルは、NTTドコモが同社スマートフォン向けに提供しているWebサービス・ポータル『dメニュー』と連携している。音声から生成したテキストをベースにネット検索し、ヒットした情報をそれらしく見せている......。これが、しゃべってコンシェルの秘密である。

Siriとの間で機能の差があるのは、Siriがまだ日本では地点情報や店舗情報などのネットデータベースに接続されていないからである。逆に言えば、ネット側にデータベースさえ用意されれば、さまざまなサービスを声で呼び出し、利用することは難しくない。

NTTドコモは、しゃべってコンシェルで『dメニュー』に対する顧客動線を作ろうとしている。メニューをたどってコンテンツを探してもらったり、検索エンジンからコンテンツを見つけてもらうのは重要な方法だが、情報が多様化した現在、それではリーチできない顧客も増えている。「音声」という使いやすい手法を導入することで、シンプルにコンテンツへたどり着く導線を作り、利用を活性化したい、と考えているのだ。

この手法を使うと、サービス構築側が選んだネットサービスへ、顧客を一意に誘導しやすい。「言葉では検索されにくいが、声では検索されやすい生活サービス」を見つけて、そこへの導線として活用する方法を模索すれば、大きなビジネスにつながる。

一方、アップルの発想はちょっと違う。Siriのユーザーインターフェースを、あくまで機器の差別化に使う、という考え方をしている。だから、例えば「愛してる」といったキーワードに対するウィットに富んだ回答をネット上に大量に用意し、ふとした瞬間に「この機器は人間味がある」と思わせるよう、仕掛けをしている。ネット連携だから、こういう部分の情報を追加・更新していくのも簡単だ。

ネットありきで生まれるユーザーインターフェースの新しい形。それが、今の「音声認識」であるのだ。

撮影／芳地博之（人物のみ）

エンジニアtypeについて

『エンジニアtype』は、「どう創る？これから先のシゴト人生」をテーマに、エンジニアの皆さんの今後の仕事選択・働き方・スキルアップなどに役立つ情報をお送りする"キャリアニュース"Webマガジンです（毎週火曜・金曜更新）。
エンジニアの皆さんに、もっと楽しいシゴト人生を手に入れていただくために――。『エンジニアtype』は他メディアでは見られない「先読みニュース」を発信していきます。
（サイト挨拶文より抜粋）

→　エンジニアtypeはこちら
→　エンジニアの転職情報はこちら