AIリスク管理プラットフォーム「Robust Intelligence platform」を提供する米Robust Intelligence Inc.共同創業者大柴行人氏インタビュー【前編】

連載 :

2023年8月23日(水)

AIのリスクを適切に管理したモデルの運用“AI Integrity”を実現するシリコンバレー発のAIスタートアップ・Robust Intelligence, Inc.(本社：米国カリフォルニア州、CEO：ヤローン・シンガー)の共同創業者である、大柴行人さんにお話を伺いする機会がありましたので、紹介します。

グローバルで戦うなかで見えてきた「日本の課題」

Q：まず、最初に日本の大学に行かなかったのは、どうしてですか。

大柴氏：高校までは日本にいましたが、当時はアメリカに行ってグローバルで起業をしたいと思っていました。明確なアイデアがあったわけではなく、なんとなくグローバルに挑戦したいと思ってアメリカのハーバード大学に行ったのですが、そこでAIの脆弱性に関する研究をしていました。それが、現在提供しているリスク評価サービスや我々の会社につながってきます。当時のハーバードの指導教授と一緒に会社を作って、今に至ります。

Q：東大を出て起業する人もいると思いますが、そういう人はロールモデルにならなかったということですか。

大柴氏：もちろん日本で起業して海外にチャレンジされている方もいらっしゃると思いますが、やはり「グローバルに使われるプロダクトを作りたい」という思いが先に強くあったので、最初から海外で挑戦することにしました。

Q：たしかに、ワンステップが無駄ですよね。

大柴氏：私はそう思って直接アメリカに行きました。我々の会社もそうですが、技術系の会社であれば日本にいるメリットはあまりありません。BtoBで技術寄りのプロダクトは、あまり言語の壁や文化の壁を気にせずに提供できます。むしろ我々の領域は、特にアメリカでやる価値がすごく強いと思います。

Q：日本語特有の問題だと、昔から言われている2バイト文字はよくありますよね。それは弱点にはならないという認識ですか。

大柴氏：なり得ますね。会社として日本で会社を始めるところとしてはアメリカで最初からやった方が良いと思っていました。まさに今日本で我々はビジネスをしていますが、日本企業が実際に生成AIを活用するときには、日本語特有のリスクがあることがわかってきています。
また、新技術への考え方にも違いがあります。アメリカだと最初から「とりあえず生成AIのサービスを実装して、リスクについては後から考える」といったケースが多いのですが、日本のお客様とお話ししていると、むしろ「AIのリスクが参入障壁になって、なんとなく怖くて足踏みをしてしまう」といったケースが非常に多いことがわかります。逆に言えば、そういったAIリスクをしっかりと管理できれば、日本におけるAIの利活用を促進にすることにつながると強く感じています。

米Robust Intelligence, Inc. 共同創業者大柴行人氏

生成AIの流行により複雑化する「3つのAIリスク」

Q：現在、どれくらいの日本企業とお付き合いがありますか。

大柴氏：エンタープライズの企業様が非常に多く、パブリックにできるところですと東京海上、Zホールディングス、楽天、リクルート、セブン銀行といった企業です。また、SIerではNTTデータ、NEC、日立といった企業も利用してくださっています。

Q：印象としては新しい技術の採用に積極的な会社のように感じます。例えば、製造業ではいつぐらい始めるのだろうということに非常に興味があります。

大柴氏：今後はよりマーケットが広がると思っており、まさにSIerや監査法人などのプレイヤーとも協業しながら、市場開拓を進めていきたいと思っています。
その背景には生成AIの流行があります。これまでのAIとの大きな違いは、AI活用の裾野の広さです。これまでのAIはなかなか専門家しか触れないもので、博士号を持っているような優秀なエンジニアが論文を読みながら作っていくことが主流でした。しかしChatGPTはログインして登録すれば誰でも使えますが、その反面、しっかりとリスクを考えて使わないと問題が起きてしまいます。これを指して私たちは、よく「赤ん坊に機関銃を持たせるようなものだ」と言っています。
私たちは「AIには3つのリスクがある」というお話しをします。1つ目は「機能・品質面のリスク」で、生成AIであればでっち上げの回答をしてしまうようなリスクです。2つ目は「倫理的なリスク」。AIが暴言や差別発言といった出力をしてしまう問題で、多くの問題がすでに起きています。最後が「セキュリティ面のリスク」。これも大きな問題で、AIへの攻撃が詐欺被害や個人情報の流出などにつながるおそれがあります。
例えば、保険会社では「保険のチャットボットで商品を推薦する」など、いろいろなユースケースがあります。各会社のデータをうまくAIが要約して見せてくれるわけですが、要するにそれはAIといろいろなデータが繋がっているということなので、実はAIを介してセンシティブな情報を抜き出すようなことができてしまいます。
我々のプラットフォームはこういった大きく3種類のAIリスクに関して、網羅的にリスク評価を行えるようになっています。

AIリスクに立ち向かうための
「テストベースアプローチ」と「第三者検証」

Q：リスク評価は、どのようなやり方で行っているのですか。

大柴氏：そこが我々の技術的なポイントです。これまで、AIを評価するというときによく「精度が95％出ました」といった情報がプレスリリースなどで出ますが、AIはすごく複雑なものなので、それを1つの数字で測るのは実際には非常に難しいです。そこで我々が取っているアプローチが「テストベースアプローチ」です。簡単に言えば「たくさんのテストをAIに走らせて、どのテストをパスして、どのテストをパスしないかをチェックする」という考え方です。
これは、考えてみるとソフトウェアだと当たり前の話です。ソフトウェアでも単体テストとユニットテストを行い、インテグレーションテストをしっかりと行ってからデプロイするのが普通だと思います。AIに関しては、これまで「精度で95％が出たらOK」といったゆるい運用をしてきました。我々の中ではこれをよく「精度至上主義」と言っていますが、「精度」自体の定義が難しい中、リスク評価としては適切ではないのです。その代わりに私たちは、例えば「こういう質問をしたらこう返さなくてはいけない」「同じ質問を2回返したときに、それぞれの回答でソースが変わったらおかしい」など、いろいろなテスト群を用意してAIをテストします。それに対してきちんとした受け答えができるかを見るわけです。我々は数百個ぐらいのテストケースをプロダクトの中に用意しており、それを自動的に走らせてAIモデルをテストしています。こうしたテストを自動で走らせるプラットフォームを持っていることからくる効率性が、私たちのプロダクトの強みです。AIモデルのテストはマニュアルでやるとかなり骨が折れる仕事なので、我々の製品技術では全てのテストを自動化できるようにしています。また、我々としてもいろいろな会社にプロダクトを提供し、そのフィードバックで知見が溜まってきており、それをまた新しいお客様に提供して、またフィードバックをもらう……といった好循環が生まれています。
もう1つの観点は「第三者検証」という考え方です。いろいろなところでAIリスク管理に関する規制が出てきています。アメリカでは、バイデン政権がOpenAIなどの基盤モデルを第三者企業を使ってリスク評価するという動きがあります。また、EUでもAI Act(AI規則案)が採択されています。各国の政策の中でも「AIを第三者がしっかりと評価する」ことが非常に大事だと叫ばれているのです。
日本では、我々も自民党のAIプロジェクトチームに参画させていただいていますが、AIモデルの第三者評価をどのようにやっていくか、といった議論が出てきていて、経産省や総務省がガイドラインを改定しようとしています。第三者検証も各企業がせっかく採用した貴重なAI人材を使って自前でやるよりは、リスク評価、性能評価の部分は我々が担って、より意味のある新規事業開発などにリソースを割けるようにした方が有益です。こうした「第三者検証」を提供するということも、私たちの重要な提供価値です。
あとは、弊社ではこうしたテストベースアプローチを活かして、AIリスクの研究も行っています。例えば、オープンソースのLLMのリスク評価などです。公にしていますが、例えばデータブリックスという会社の「Dolly」というモデルを作ったり、UAEの「Falcon」というモデルを作ったり、いろいろなChatGPTの代替が出てきています。ただ、実はLLMもオープンソースもモノによって性格が違います。例えばDollyに「よく犯罪を犯す人種は何ですか?」と聞くと「ヒスパニックや黒人です」といった差別的な回答を平気で返してきます。一方でFalconのモデルは性能指標的には良いと言われていますが、例えば「フォルクスワーゲンがなぜ有名なカーカンパニーになったのでしょうか?」といった当たり障りのないことを聞いても、「すみません。それは答えられません」といった回答が返ってくる。性能を気にしすぎるあまり、逆に役に立たなくなってしまっているのです。モデルによって性質は違ってくるので、そういったところで啓蒙活動をしながら、お客様に関してはそのお客様のユースケースごとに特化した生成AIを使い、どのようなリスクが発生し得るのか、といったことをよりドメインに寄り添った形でチェックしています。

Q：例えば、とある会社が新しいLLMを発表したとします。それが使えるものかどうか、リスク評価の対象とするためにはどれくらいの時間がかかりますか。

大柴氏：実際のテストは、すべてアルゴリズムでコーディングされているため、数時間走らせていれば終わります。我々の超大手エンタープライズのお客様の例を挙げましょう。この企業は、自分たちでAIのリスク評価を行っていたのですが、その際は2〜3週間ほどかけて最終的に20ページ程度のレポートを毎回作成していました。私たちはこれを「AIのおもり業務」と言っていますが、せっかくAIを作って自動化しようと思っているのに、結局PowerPointやGoogle Docsで膨大なレポーティングを行っているのです。
一方、ロバストインテリジェンスが入ることで、このようなレポーティングにかける時間を2〜3時間にまで削減できました。まさにテストによる自動化でこうしたチェックもスピーディーにできますし、かつ網羅性という観点でも毎回チェックをかけるため規制のアップデートなどにも自動で対応できます。
アナロジーとしてサイバーセキュリティのドメインを考えていただくと分かりやすいと思います。例えば、ペネトレーションテストや脆弱性診断をするのに、各事業会社が脆弱性診断専門チームなど持たないですよね。基本的には外部のソリューションを適用して脆弱性があるか見てもらったり、ペネトレーションテストも外部のセキュリティエンジニアを雇ったりします。それと同じ構図で、セキュリティも専門性を持った人たちにキャッチアップしてもらい、そこに委ねて自分たちは自分たちのビジネスをやる、というのが正しいあり方です。
AIの品質に関しても全く一緒で、AIのどのようなユースケースに適用したり、どのようなビジネスインパクトがあるかといったこと各事業会社がやるけれども、セキュリティや品質、どのようなモデルが良いのかといった部分に関しては、いちいち各企業が追っていても仕方がないです。「そこはロバストインテリジェンスがやります」というのが、業界内での住み分けとして今後より明白になっていくのだろうなと思います。

Q：その評価はオープンソース版のLLMとそうではないLLMでどれくらいの差があるのでしょうか。

大柴氏：基本的にはモデルのインプットとアウトプットを見るので、差はありません。

Q：それがオープンソースであるというのは、それほど問題ではないということですか。

大柴氏：それほど問題ではないです。唯一違いとしては、サプライチェーンのリスクはプライベートなものであればなかなか中身が見られないので、そこは難しいのですが、それ以外の部分に関しては同じようなテストケースを適用できます。それをしらみつぶしにやっていると日が暮れてしまうので、我々がスマートに「このようなインプットでこのようなアウトプットが返ってくるなら、次はこんなインプットを入れてみよう」という感じで、プロンプトをスマートに探索してできるのです。

【後編へつづく】

著者

吉田行男

この著者の記事一覧この著者の
記事一覧

2000年頃からメーカー系SIerにて、Linux/OSSのビジネス推進、技術検証を実施、OSS全般の活用を目指したビジネスの立ち上げに従事。また、社内のみならず、講演執筆活動を社外でも積極的にOSSの普及活動を実施してきた。2019年より独立し、オープンソースの活用支援やコンプライアンス管理の社内フローの構築支援を実施している。