GLOBALIZED by Wovn.ioレポート第3回

多言語化を支援するWovnのCEOにインタビュー。ハイパーローカライゼーションとは？

Wovnのカンファレンスにおいて、WovnのCEOにインタビューを実施した。文化、法令まで含めたハイパーローカライゼーションとは？

2023年7月10日 6:00

WovnのプライベートカンファレンスGLOBALIZEDから、WovnのCEOである林鷹治氏のインタビューをお届けする。

今回のカンファレンスはエンジニアよりもビジネスサイドのお客さんが多く参加していたようですが、その中でAutopilotをお披露目されました。反応はどうでしたか？

WovnのCEOである林鷹治氏

今回は訪日DXというテーマでしたので、確かにエンジニアよりもビジネスマンの方が多かったと思います。Autopilotもそういう皆さんに対して発表したわけですが、ポイントとして「翻訳が簡単に行える」という部分は伝わったのかなとは思いますが、エンジニアに対しては、実は別のポイント、間違いを少なくするという点についても強調したいとは思います。

その点についてもう少し詳しく教えてください。

機械翻訳について理解していただきたい点として「どれだけ簡単に翻訳が行えるのか？」というのは大事なんですが、それと同じぐらいに大事なのはその質なんですね。ところが実際に翻訳をやってみると、質を上げるというのは結構難しいわけです。つまりある日本語の文章を翻訳したとして、完全に誰が見ても正解であるという翻訳結果はそれほど多くないんですね。それを評価する人によって点数が変わるというか。

例えば対象が初心者ならもう少し易しい文章にして欲しいとか、ニュアンスによって別の単語を使った方が良いとかそういう場合ですか？

そうです。人によって「意味は通じるけどちょっとおかしい」とかそういうことは起こり得ます。なので誰もが完璧に納得する翻訳を目指すのではなく、間違いを少なくするという部分を強化したのが今回のAutopilotなんです。Autopilotは機械翻訳によって発生した間違いを人間が訂正するという機械と人間のハイブリッドワークなんですが、その間違いを常に学習して次に翻訳した時には間違わないようになります。その学習を行うという部分に大きな意味があると思っています。

実際に完璧を目指そうとすると100ページの文書の中からたった1つの翻訳エラーを見つけて「だから機械翻訳は使えない」ということを言う人もいそうですね。

その部分にだけ注力しても最後に100％の正解になることはないんですよね。なのでWovnは間違いを常に集めてそのデータを集中的に使うことで最初は間違えるけど、次からは間違えないというようになります。機械翻訳に使うサンプルデータというのはネットに存在する公開情報で、それをどんどんクロールしてデータベースとして使うわけですが、Wovnは翻訳して「間違えた情報」だけを集めて学習させているんですよ。そういうことをやっているベンダーは他にないと思いますので、そこが差別化できるポイントでもあると思っています。

最近の大規模言語モデル（LLM）についてはどう思いますか？ LLMが機械翻訳を置き換えるみたいな論調もありますが。

私は機械学習の進化には注目していますし、凄いイノベーションだと思いますが、それが翻訳を置き換えるというのはそんなに近い未来ではないのかなと思っています。

ChatGPTもタマに凄いウソというか間違った回答を普通に生成しますよね（笑）。

そうですね（笑）。でも要約させるという要件にはとっても適していると思います。要するに使い方次第ですね。なのであるサイトやドキュメントをまず要約させてその後にその要約を翻訳して使うみたいな使い分けができるのかなと。この発想だと、翻訳は単にデータを変換するのではなく提案型みたいなシステムになると思います。提案型というのは例えば日本語の文章を英語に変換する時に「この単語だと英語が不自然になるので別の単語を使いましょう」というようなことをシステムが提案するということですが。

つまり日本語を要約させてから伝えたいことはこれですよね？ということを確認してから「だったら英語ならこの単語を」という提案をするということですか？

そうです。一例を挙げますと日本語で翻訳が難しいジャンルとしてマンションポエムというのがありまして（笑）。つまりそのまま直に英語に翻訳すると全然意味が通じないことってあるじゃないですか。それを一旦、伝えたいことの総意を要約してから英語に変えるみたいなことですね。

データを大量に使って処理をするとなるとこれからインフラストラクチャーに対して処理が増大してコスト的に問題になりませんか？

コストは逆に下がると思います。つまりデータが大量に集まれば、間違いもより多く集まることになりますから翻訳の間違いはどんどん少なくなるわけです。翻訳の間違いが減れば人間のコストも減りますから。

これからWovnが向かっていく先というかこの先のチャレンジは何ですか？

翻訳という作業は、最後に必ず相手の言語のスペシャリストが必要になるんですよ。つまり日本語から英語であれば、最後の確認のために英語のスペシャリストが必要ですよね？でもそれって人的資源との競争になってしまって、限られた資源をどうやって獲得するのか？という壁に突き当たるわけです。

なので日本人だけで英語のチェックをできるようにすると良いわけです。日本語から英語に翻訳してそれを再度、英語から日本語に翻訳して元の日本語と比較してその違いを見つければ、何が悪かったのか日本人だけで確認ができる。そういうことにチャレンジしていきたいですね。

そもそも翻訳のミスって5つのタイプに分類できるんですよ。1つ目は意味がそもそも間違ってる、これは月の次に水、火と来てきたらそれは「みず」ではなくて水曜日の水だと翻訳するべきですけど、英語だとWaterって翻訳してしまう例ですね。2つ目は言語として流暢さがない、3つ目はWebサイトだと起こり勝ちな翻訳したテキストによってデザインが崩れてしまうことですね。4つ目が翻訳としては合っているだけど公序良俗に反する内容になってしまう場合、そして5つ目が専門用語やキャッチコピーが翻訳できないというものです。1つ目と2つ目は間違いを学習することで精度が上がっていきますので、デザインや公序良俗の違反とかは人間がやった方が速いわけです。なのでどこをコンピュータでやってどこを人間が担うのかを、バランスを取りながらシステム化するというのが方向性ですね。

公序良俗の違反やその現地にあったローカライゼーションというのは実は法令や文化までカバーしないと難しいのでは？

そうです。Wovnが目指しているのはハイパーローカライゼーションと言っているんですが、その例を挙げましょう。東南アジアではGrabというマレーシア発の配車サービスが存在していて、メインはUberではないんですね。これってつまり北米のUberをそのまま持って行っても通用しなかった、Grabというローカルの配車ビジネスに負けたっていうことなんですよ。そもそもマレーシアとかインドネシアとかバイクの後ろに客を乗せるタクシーなんてUberは想定してなかったと思います。

●参考：Uberは2018年に東南アジアのビジネスをGrabに売却してアジアのビジネスから撤退している。

実はUberにWovnを入れたらGrabになるというのが、我々が目指しているハイパーローカライゼーションなんですね。つまりビジネスをそのまま持っていっても通用しないけど、文化や法令、習慣に適合したローカライゼーションをWovnによって実現するということです。私は言語適合から文化適合、そして法令適合というレベルに分けて考えているんです。今現在は言語適合の段階ですが、近いうちにその次に行きたいと思っています。そういう部分まで含めてローカライゼーションを行う道具を提供する、それがWovnの向かう方向です。