AI_devよりエグゼクティブディレクターのIbrahim Haddad氏にインタビュー

連載 [第2回] :

AI_dev Europe 2024レポート

2024年8月26日(月)

AI_dev Europe 2024の会場において、LF AI＆Data FoundationのエグゼクティブディレクターIbrahim Haddad氏にインタビューを実施した。

The Linux Foundation（LF）が主催した生成型AIに特化したカンファレンスAI_devにて、LF AI＆Data FoundationのエグゼクティブディレクターであるIbrahim Haddad氏にインタビューを行った。Haddad氏はPyTorch Foundationのエグゼクティブディレクターを務めたほか、Samsung Electronicsなどでもオープンソース関連の仕事に関わってきており、オープンソースのベテランと言える経歴の持ち主だ。

LF AI＆Data FoundationのエグゼクティブディレクターIbrahim Haddad氏

自己紹介をお願いします。

Haddad：私はLF AI＆Data FoundationのエグゼクティブディレクターのIbrahim Haddadです。LF AI＆Data Foundationが設立された2020年10月からこの仕事をしています。かつてはPyTorch Foundationなどにも関わってきましたが、ずっとオープンソースに関する仕事をしてきました。

今回のカンファレンスはLF AI＆Data Foundationの主催ですが、今年の3月に行われたKubeCon＋CloudNativeConでもAIは大きなテーマになっており、キーノートではPryanka Sharma氏がクラウドネイティブこそAIのプラットフォームと強調していました。CNCFもLFも多くの組織で生成型AIがテーマになっています。お互いの組織でオーバーラップしているような気がするんですが、それについて弊害はないのでしょうか？

Haddad：興味深い質問ですね。確かに外から見ればさまざまな組織がAIをテーマに挙げているように見えますが、LFという大きな傘の下で活動していることになります。つまりオーバーラップしているように見えても、実際は協力しあいながら活動していると思ってください。

今回のキーノートではModel Openness Frameworkが発表されました。AIにおいてはプログラムコードだけではなくモデル自体が非常に重要となるわけですが、そのデータセット、モデルを含めてオープンの度合いを評価して公開するという仕組みだと理解しています。それらのコンポーネントがすべてオープンになり、公開され、再利用できることで誰でもが同じソフトウェアを実行して同じ結果が得られるようになると言う仕組みだと思いますが、これについてもう少し詳しく教えてください。

Haddad：今の段階では、Model Openness Framework（以下、MOF）の目的は再現性というよりも透明性を測ると言う方が妥当でしょうね。多くの企業がオープンソースのライセンスをAIに応用しようとしていますが、そこには混乱が生じています。ソースコードが対象だったオープンソースのライセンスを整理して、どのような対象に何を適用すべきかを模索していると言えます。

MOFはそこを整理してまず生成型AIの中に何が含まれているのか、それらにどのようなライセンスが適格なのかという部分にフォーカスしています。MOFが3つのクラスに分かれているという意味は、オープンの度合いは0か1かではなく、もっと濃淡があるものであるという認識からです。ライセンス自体にも非常に民主的な内容のものからより厳しい運用を要求するものまで濃淡がありますよね。なのでYesかNoかではなく、それぞれのコンポーネントを精査して透明にしようというのが目的なのです。

MOFのツールであるMOT（Model Openness Tool）を使えば、セルフサービスでそのオープンさを検証できるようになります。デベロッパーにとっては自分のペースで検証を行えますし、生成型AIを使うユーザー、企業側は市場にある生成型AIの中身を比較することが可能になります。MOFはデベロッパーにとってもユーザーにとっても利益となる道具であることを目指しています。

現在、AIが間違った答えを返してしまうことが問題となっています。CNCFのキーノートでもプレスカンファレンスでも信頼できるAI、倫理的なAIが必要だということが繰り返し述べられました。しかし物理的な事象のように世界中どこにいても正しい答えは一つであるような問いなら、AIは信頼できるが解答を生成可能だと思いますが、地域性や政治的な側面があるような内容については何が正しいのか？は変わってしまうと思います。例えば『1989年6月4日に北京で何が起こりましたか？』と中国製のAIに質問したら「何も起こらなかった。普段と変わらない日だった」と答えるでしょう。正しい解答はその時と場所によって変わることがあり得ます。そのような状況の中で信頼できるAIをどうやって実現するのですか？

Haddad：非常に大事な質問ですね。最後の例について特にコメントはしませんが、多くの企業がその問題に直面していると言えます。その努力の最初の部分はデータをどのように利用するのか？ということを真剣に考えているということです。利用するモデルに対してどういうデータを入力するのか、そのデータセットのオリジナルは何かを確認するという方法です。2番目に多くの企業がハルシネーション^※を避けるために、その利用シーンをより限定していこうとする努力ですね。これは例えば自社の製品に対して顧客からの質問に答えるAIアプリケーションにはその企業がそれまで蓄積してきたデータ、製品情報や過去のQ＆Aを使ってより限定的なエリアに特化したデータを使うという発想です。

※ハルシネーション：AIが事実とは異なる幻覚（hallucination）のような情報を生成する現象のこと。

なるほど。例えば自社製の洗濯機の使い方に関する質問に答えるAIに、製品とは関係ない地理的な質問をしても変な回答をするのではなく「それはデータがありませんので答えられません」というように解答すれば、顧客は満足しますよね。

Haddad：一つの例を挙げましょう。アメリカで2人の大学生が求職のために履歴書を用意します。同じ年齢、ほぼ同じ学歴、成績も同じ程度、家庭の状況も収入も同じ、でも住んでいる地域が一人は良い環境の高級住宅地、もう一人は都市部のそれほど環境が良くない犯罪率も高い地域に住んでいるという二人に対してAIがレイティングを行うと、高級住宅街に住んでいる候補者に高い点数を付けてしまうという例があります。これは倫理的に言えば間違っています。でも実際は判断の難しい問題でもありますよね。そういう問題をこれから私たちは克服していかなければいけないですし、チャレンジしていかなければならない問題だと思っています。

では最後に今の問題点、チャレンジとは何ですか？

キーノートで講演を行うHaddad氏

Haddad：LFの配下には数百のプロジェクトが存在します。クラウドネイティブなインフラストラクチャーを支えるソフトウェアに限っても、Kubernetesを始めとして多くのプロジェクトが存在し活動しています。ファウンデーションとしてはAIとデータに関するプロジェクトに対して透明性と高めるというのがMOFの役割ですが、それと同時に曖昧性（Ambiguity）をなくしていくことがチャレンジだと思っています。それは企業や政府に対しても必要な部分だと思います。

アメリカ政府が調達にオープンソースソフトウェアであることを求めたエグゼクティブオーダーのように、生成型AIについてもそれを必須とするような働きかけをしているのですか？

Haddad：我々はその部分に関して政府機関についてコンタクトはしていませんね。もっと教育や認知度を高める活動が今のところメインになっています。

昨年GitHubのイベントに参加し、今年の5月にデンバーでRed Hatのイベントに参加して感じたのはMicrosoft/GitHubはオープンソースの資産を使ってCo-Pilotというコード生成のAIをプロプライエタリーで開発しています。他方Red HatはIBMと協力してオープンソースでAIを作成することを選択しました。オープンとプロプライエタリーという2つの選択肢がそれぞれ存在して競っている状況だと思います。これについて何かコメントはありますか？

Haddad：昔と変わらないいつもの物語（same old story）ですね。こういう状況は前からずっと続いており、オープンソースでInternetが開発されて、その上で企業がビジネスを続けるということと同じです。私がかつて通信事業に関連した企業で働いていた時も、同じようにオープンソースを使ってプロプライエタリーのソフトウェアでビジネスをするということは当たり前だったと思います。なので何が正しいのかを問うのではなくそれが必要なのか、最適なのかを選択していくだけだと思いますね。

Ibrahim Haddad氏は会期中、さまざまなミーティングに引っ張りだこのようで、このインタビューも当初予定されていた時刻からは大幅に遅れて開始されたが、多くの質問に真摯に答えてくれたのが印象的だった。

ちなみにLF AI＆Data Foundationのプロジェクトページを見ると、多くのプロジェクトがホストされているのがわかる。その中でAT＆TとインドのTech Mahindraが提供したAcumos AIがすでにその役割を終えて、アーカイブプロジェクトとなっていることを発見した。2つの巨大なIT企業がコードを提供してもそれが存続しないこともあるという良い見本だろう。プロジェクトは存続し発展することが目的だが、そのソフトウェアが目指していた目的を別のプロジェクトが達成できるのであれば、新陳代謝として終了するという良い例かもしれない。

●参考：Projects - LF AI＆Data Foundation