インタビュー第214回

ページの変更を検知して翻訳をする特許をWOVNが解説

WOVNがアメリカで特許を取得した変更検知の概要を解説する。

2021年4月1日 7:33

Webサイトやスマートフォンアプリの多言語化ソリューションを開発・販売するWovn Technologies株式会社（以下、WOVN）に、インタビューを実施した。今回のインタビューは2020年7月に公開したThinkITのインタビューと同様にZoomを介して行われた。サブスクリプションサービスを展開するZuoraの導入事例に次いでTreasure Dataへの導入が決まったこと、さらに2020年11月に米国で取得した特許に関する内容を解説するものとなった。

インタビューに参加したのは、COOの上森久之氏、開発チームの幾田雅仁氏、サポートチームの寺西哲平氏だ。

インタビューに応える開発チームの幾田氏

今回は日米で取得された特許の件とTreasure Dataへの新たな導入事例についてお訊きします。まず日米で取得した特許について解説してください。

上森：これは2020年11月11日に公開したプレスリリースで解説していますが、変更検知に関する詳細な部分については幾田のほうから解説させてください。ちなみに日本での特許登録は2018年5月11日、アメリカは2020年12月29日になっています。

参考：WOVN.io、米国で特許取得～変更箇所の自動検出技術で多言語サイトの推進を図る～

幾田：これはWOVNが提供する翻訳サービスを、より効率的に行うための仕組みになります。WOVNは機械翻訳を使ってWebサイトやスマートフォンアプリケーションの翻訳を行いますが、今回はWebサイトの翻訳に利用する機能です。

具体的な例を挙げて説明しましょう。例えば製品紹介のページがあるとします。そのページに新しいコンテンツが追加されたり、内容が修正されたりする場合、それを自動的に検出して翻訳を行うには、サーバーからサイトのページをスクレイピングするなどの方法が取られてきました。しかしこの手法には動的に生成されるページの場合に漏れが発生する可能性がありますし、またサーバー側の負荷が高くなるなどの問題点もありました。今回の特許技術はそれを解消するものです。

WOVNのサイトにあるプレスリリースのページにはその処理を表す図がありますが、これはブラウザーでそのページを閲覧した時にそれが変更されているのか？を検知してWOVNのサーバーに送って翻訳を行うという形になっていますが、もう少し具体的に説明してください。

ブラウザー、Webサイト、そしてWOVNの翻訳サーバーの関係を解説

幾田：具体的にはブラウザーにJavaScriptで書かれたスクリプトをインストールして、それがページの変更を検知し、WOVNのサーバーに通知して翻訳するという流れになります。この場合、インストールされるブラウザーはそのWebサイトの持ち主である企業、つまりWOVNの顧客、具体的にはWeb担当者のブラウザーということになります。

つまりWebサイトの更新担当者のブラウザーにインストールしておくと、更新内容の確認のために閲覧すれば翻訳されるわけですね？　エンドユーザーの環境になにかをインストールしてもらうよりは適切だと思います。

幾田：そうですね。この方式であれば動的に生成されるページであっても翻訳漏れがなくなるわけです。SPA（Single Page Application）でも対応可能ですし、実際にサーバーからスクレイピングして翻訳する方式よりもはるかに効率が良いと考えています。

日本の企業のWebサイトで、最初から多言語化を前提に構成してあるところは、ほとんどないというのが実情です。通常はテキストの部分に言語ごとのリソースファイルを用意して、日本語から他の言語への翻訳がアーキテクチャーとして可能なようにするべきなのです。しかし、それができている企業は、ほぼ存在していません。そのため、英語サイトから始まって日本語のサイトを後から作るみたいな流れになりがちなのです。そのような方法ですと、運用面でどうしても追いつかないということになってしまいます。

本社のほうはどんどん英語の情報を公開・更新しているのに日本語サイトは追いついてない、みたいな状況ですよね。同じ悩みを抱えている企業は非常に多いと思います。これの特許の根幹の部分は、ブラウザーがページの変更部分を検知してWOVNのサーバーに翻訳を依頼するというその部分ですね？

幾田：そうです。サーバーがスクレイピングするというのはもう誰もがやっていることですが、ブラウザーのスクリプトからトリガーがかかるという部分がコアですね。そのため、今後他社が同じことをやろうとしても特許で守られることになります。

それでは次に、Treasure Dataでの導入が始まった件について詳しく教えてください。

上森：Treasure Dataは日本から始まった会社ですが、今はアメリカで主に活動をしています。しかし日本にも彼らの重要な顧客がいますから、技術情報の日本語化も検討されていました。しかし全体で約1500ページの規模で、月間に100ページ程度が更新されるという製品情報の量ですので、人的な翻訳で提供するというのは不可能だったと伺っています。そこがWOVNによる機械翻訳でなんとかなると感じていただいて、取り組みが始まったという感じです。

Treasure Dataの翻訳例

Zuoraの場合はサブスクリプションということで、会計などの専門用語を正確に翻訳するのは難しかったと思いますが、Treasure Dataの場合は？

寺西：以前に事例として紹介したZuoraの場合は英語でしかFAQが公開されていなかったので、それを日本語化しようというプロジェクトが始まった時に「すべての翻訳の品質を人的翻訳のレベルにする」というのは最初から無理だと言う認識がありました。だからといって致命的な誤訳は避けたいということで、合同のプロジェクトとしてポストエディットをするというプロセスを実施しています。ここで数百文字から数千文字程度のサンプリングを行って翻訳の品質を評価するということをやりました。

機械翻訳と人的翻訳の品質の違いを数値化して、機械翻訳が1だとすると人的翻訳は5というように点数を付けて、全体では3を目指すというような方針でプロジェクトのゴールを決めて進めました。そこでのすり合わせに数か月掛かりました。実際にポストエディット作業が終わったのが、2020年10月22日なので、公開はそこから始まった感じですね。ZuoraのFAQは総量で言えば150万文字程度はあったので、それを徐々に翻訳していくというやり方です。Zuoraは会計に関わる情報や単語がありますので、それをキチンと日本語に翻訳するという部分に重点がありました。