会話認識技術はルネッサンスを迎えているのか?(1)
過去数か月、Microsoft、IBM、Googleがそれぞれ会話認識の精度において新記録を出したという発表があった。そのエラーの発生率は5.1%だという。この結果は人間レベルの正確性だということになる。
とはいっても、それほど正確だと思えないかもしれない。私が前回機械と会話した時、人間レベルの認識精度に近いとは感じられなかった。ここで三者の主張が正しいかどうかを明らかにするために、次世代の会話認識技術がどのように新しい分析を可能にするか、企業にとってこの分析がどのような意味を持つか、を見ていこう。
会話認識技術の歴史
2000年初頭、会話認識の精度は80%に達した。精度向上に伴い、まずはカスタマーサービスにおける複雑な問題解決のための実装を皮切りとして、インタラクティブな音声応答(IVR)の普及が始まる。
ただ会話アプリはその語彙力と言語に大きく依存する。高度に専門化されたシステムインテグレータによるセットアップが必要であり、主要な言語にはそれぞれの会話認識技術のスタートアップ企業が存在している状況だった。Nuanceがこれら企業の15社を買収し、この分野の整理が進んだのはほんの2005年のことである。
音声応答は会話目的としての用途のほかに、品質管理目的の用途も出てきた。カスタマーサービス業社は品質管理アプリを使って応対内容の評価を行なってきた。かつてそのプロセスは気が遠くなるようなもので、評価対象となる応対内容の量は限られていた。会話認識技術を用いることでこのプロセスの一部を自動化することが可能になった。労働力配置の最適化をリードするNICEやVerintといった企業は、会話分析のための開発や買収に乗り出し、相談窓口インフラを扱うAvayaやGenesysといった企業も出てきた。
しかしこれらの開発は限られたものだった。音声応答は顧客体験を変えることができず、音声によるセルフサービスの評価は変わらず低いものだった。また品質管理に会話内容を利用するためには、コンプライアンスの絡みや、後で検証するために常に内容を書き起こさなければならないなど、さまざまな制約があった。2010年代に入り、音声技術は失速したかのように思えた。
機械学習による変化
カスタマーサービス向けの会話技術が進む中、Amazon, Apple, Google, IBM, やMicrosoftはこの分野の研究開発に投資を続けた。青写真に基づく音声技術の開発は、開発と投資の相互作用が最終的には重要になる。
Appleは機械学習により会話認識に変化をもたらしたSiriでこの市場に乗り込んできた。AIにより技術的な複雑さだけでなく、新しい言語や語彙を取り入れる際のエンジニアリングのやり直しといった問題の多くが取り除かれた。
今日ではAlibaba, Baidu,Tencentといった中国の”Big Three”などに代表される変革者たちが、会話認識のためのソフトウェアスタックを構築している。というのも汎用的な機械学習エンジンが使えるようになったことで参入障壁が下がったからだ。CMUSphinx, HTK, Julius, Kaldi,Simonといったオープンソースの選択肢が広く利用可能だ。
カスタマーサービス分野に変化を起こす
AIの進歩により新たな道筋が開かれた。iFLYTEKやSpeechmaticsなどの企業は、特に主要言語以外においても会話認識の使いやすさや正確さ、展開のしやすさなどにおいて積極的に取り組んでいる。
カスタマーサービスではその競争は自然言語処理(NLP)と自然言語理解(NLU)という、これまでとは違うところで展開されている。
Yactraq自社の特許技術でオーディオマイニングを身近なものにするために応用している。この技術が企業にとって身近なものになることで、これまでのコンプライアンスなどの制約にとらわれずに、顧客との対話から効率的な改善の仕方を発見することができる。
2013年以来、機械学習もスピーチスタックを支えるものになっている。複数の発言者からの命令を同時に理解し、これに優先順位を付けられることから、NLUが次の技術的な最前線になると見られている。コールセンターの自動化やアシストにターゲットを定めて以来、その幅はほかの産業やユースケースに広がりを見せている。産業のターゲットを定めることは解決策を見つける上で重要なことだ。
ある産業における例としてOmiliaの件がある。元々同社はIVRシステムインテグレータとして設立されたが、2007年にIVRの質問と回答で成り立つ会話という壁を超え、自然な会話を提供することを目標に、独自技術の開発に乗り出した。Omiliaは機械学習を使ったソフトウェアスタックを作り上げることに成功し、これによりIVRでのやり取りに我慢できずに電話を切られてしまう率はなんと59%も下がり、カナダのロイヤル銀行の場合はIVRで最後までやり取りを達成出来た件数は2桁台の増加を見せた。
後半の記事はこちら
NICOLAS DE KOUCHKOVSKY
[原文4]
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- AIが人間の心をわしづかみにする日はやってくるのか
- Twilio日本法人設立、ポートフォリオを拡げつつもコミュニケーションに専念
- 日本オラクル、国内に新データセンターを開設、企業のカスタマーエクスペリエンス強化を支援
- サードウェア、バックアップソリューション 「Bacula Enterprise Edition」のサポートを開始
- 【最新データで比較】生成AI活用、日本 vs 世界のギャップ
- T-MobileとHostelworldがデジタル化で最も大切にしたこと
- OSSの脆弱性をチェックするWhiteSourceが日本でのビジネスを本格的に開始
- OpenStack専業のMirantis、日本法人代表を発表
- システムインテグレータ、「SI Object Browser for Postgres」の新バージョン2.0を提供開始
- 会話認識技術はルネッサンスを迎えているのか?(2)