AI開発の外注リスク ーデータ品質と労働環境問題

はじめに
AI開発には高度なスキルが必要です。しかし、世界的にAIを開発できるような高度人材は不足しています。また、AIモデルを高精度にトレーニングするには膨大なデータが必要であり、その収集には時間とコストがかかります。
そのため、多くの企業がAI開発やAIで用いるデータの処理を外部に委託していますが、これにはリスクが伴います。開発の品質やデータの管理方法に十分な注意を払わなければ、後に大きな問題となる可能性があります。
今回は、AI開発を外注するリスクについて、事例を見ながら解説していきます。
アウトソーシングされるアノテーション
AI開発において重要なプロセスの1つが「アノテーション」です。アノテーションとは、AIモデルのトレーニングに使用するデータに正しいラベルやタグを付ける作業を指します。
AIはデータを学習する際、データに付与されたラベルやタグを読むことで、データの内容を理解します。学習データにラベルやタグがなければ、AIは学習することができません。
アノテーションは、AIがデータを正確に理解するために不可欠な作業であり、その精度はAIモデルの性能に直接影響します。
しかし、アノテーションは多くの場合、コスト削減のために外部委託されることが多く、クラウドワーカーが採用されることも多いです。この場合、アノテーションの質が保証されないことがあり、結果としてAIモデルの精度が低下するリスクがあります。
アノテーションの質がAIモデルの精度に直接影響するため、誤ったタグ付けが行われた場合、モデルが誤作動を引き起こす可能性があります。特に海外の企業/クラウドワーカーに外部委託する場合、文化的な違いや基準の理解不足によって、データに対する誤った解釈が生じることがあります。
そのため、AIの学習データを管理する際には、アノテーションの品質管理が重要です。外部委託する際には、信頼性の高いパートナーを選び、適切な基準を設けて作業を進めることが必要です。
さらに、アノテーション作業を行うクラウドワーカーが低賃金で搾取されているという問題も存在します。特に、労働環境が悪化すると、企業のイメージや法的リスクにも影響を与える可能性があります。例えば、劣悪な条件で働かせていることが明るみに出た場合、社会的な批判を浴び、企業の信頼性が低下するリスクがあります。
したがって、外部委託先を選定する際には、労働環境や賃金に対する配慮も重要なポイントとなります。倫理的な側面を考慮したパートナーシップの構築が、企業の持続可能な成長にとっても必要不可欠です。
OpenAIがアフリカにアウトソーシングすることで
出現する単語に地域性が出た事例
ここで、具体的な事例としてOpenAI社がアフリカにアウトソーシングした際に発生した問題を紹介します。
ChatGPTが応答の中で「delve」という単語を頻繁に出現する傾向が見られましたが、これは主にアフリカ英語で使われる表現で、特にナイジェリアでよく使用される言葉です。
この現象は、LLMの性能を改善するためにアフリカのクラウドワーカーが多く関与していたことが原因とされています。このように、アウトソーシング先の地域的な影響が、AIの出力結果に現れることもあるため、学習データの多様性や公平性に配慮する必要があります。
【参照】TechScape: How cheap, outsourced labour in Africa is shaping AI English
https://www.theguardian.com/technology/2024/apr/16/techscape-ai-gadgest-humane-ai-pin-chatgpt(The Guardian 2024/4/16)
時給2ドル未満の給与で暴力描写のあるテキストを
学習データから除く作業を行わせた事例
もう1つの事例として、OpenAI社がChatGPTの学習データをクリーニングする作業をケニア人労働者に時給2ドル未満で委託していた事例を紹介します。
Sama社がOpenAI社よりポルノや暴力描写のあるテキストを学習データから除く業務を受託し、Sama社はケニア人の労働者に作業させていました。精神的な負担が非常に大きい作業ですが、ケニア人の労働者には時給2ドル未満の給与しか支払われませんでした。
この事例から分かるように、AI開発の裏側では労働者が過酷な条件下で作業を行っていることがあり、その労働環境の改善が求められています。企業は倫理的な観点からも、適切な労働条件を確保することが重要です。
【参照】Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic
https://time.com/6247678/openai-chatgpt-kenya-workers/(TIME 2023/1/18)
北朝鮮IT労働者が
日本でクラウドワーカーとして働いている
AI開発とは関係ない事例ですが、北朝鮮のIT技術者が日本でクラウドワーカーとして活動している事例についても触れておきます。
中国に住む北朝鮮の技術者が、知人の名義を使用して兵庫県の防災アプリ「ひょうご防災ネット」の修正作業に関与していたことが2022年に明らかになりました。このアプリは、約26万人が利用する防災アプリでJアラート(日本のミサイル発射情報)や防災情報の配信サービスを提供しており、ミサイルを発射する国の技術者がそのシステムに関わっていたことは深刻な問題です。
【参照】不正送金事件の北朝鮮技術者、兵庫県防災アプリも改修 個人情報流出は確認されず
https://www.kobe-np.co.jp/news/sougou/202205/0015315236.shtml(神戸新聞NEXT 2022/5/20)
北朝鮮IT労働者が稼いだお金は北朝鮮の核・ミサイル開発の資金として利用される可能性が指摘されています。また、外国為替及び外国貿易法(昭和24年法律第228号)等の国内法に違反する恐れもあり、外部委託先の身元確認や雇用契約の透明性が重要となります。警察庁やFBIから注意喚起が出ています。
【参考】北朝鮮 IT 労働者に関する企業等に対する注意喚起
https://www.npa.go.jp/bureau/security/NK_it.pdf(警察庁 2024/3/26)
クラウドワーカーを雇用する際の対策
クラウドワーカーを雇用する際に考慮すべき具体的な対策について紹介します。これらの対策を講じることで、外部委託のリスクを最小限に抑えることができます。
学歴や職歴を検証する
応募者が経歴を偽っている可能性があります。履歴書やLinkedInのプロフィールだけを鵜呑みにせず、卒業証明書を要求する、SNSでの投稿内容との整合性を確認するなど、学歴や職歴の正当性を確認する必要があります。
身元確認のための面接を実施する
履歴書や職務経歴書の確認だけでなく、対面またはオンラインでの面接を実施し、応募者の身元を確認することが重要です。本人確認を行うことで、虚偽申告や代理応募のリスクを減らすことができます。日本人だと身分を偽って応募してくる外国人のクラウドワーカーを排除することができます。
暗号通貨での報酬支払いを避ける
暗号通貨のアドレスは、身分情報に紐づけず作成することもでき、所有者の特定には時間がかかります。また、本人確認が行われている、取引所に紐づくアドレスであったとしても、海外の取引所の場合、取引所の協力がなければ所有者の特定が難しいです。そのため、犯罪組織がクラウドワーカーとして潜り込む際に、暗号通貨のアドレスを報酬支払い先として指定することがあります。報酬支払いには、銀行振込など、身元確認が行われており、追跡が容易な支払い手段を選定するべきです。
市場価格より異常に安い候補者を避ける
市場価格より極端に安い賃金で働く候補者は、違法な形での労働や不当に搾取を行っている可能性があります。労働者に対して適正な報酬を提供することで、労働環境の改善や品質の向上につながります。
業務システムへ海外からアクセスしてきていないか監視
クラウドワーカーに業務システムへアクセスさせる場合、アクセスログを監視し、海外のIPアドレスからの接続がないかをチェックするべきです。アクセスログを監視することで、日本人だと身分を偽っている外国人のクラウドワーカーを排除できます。日本にあるVPNサーバーを経由してアクセスしてきている場合は、日本からのアクセスと見分けがつかないため、完璧な対策ではありませんが、一定の効果が期待できます。
おわりに
AI開発の外注には多くの利点がある一方で、データ品質の低下、倫理的問題、国家安全保障上のリスクなど、多くの課題が潜んでいます。特にアノテーション作業やデータクリーニングを外注する際には、品質管理だけでなく、労働環境の監視や法的リスクへの配慮が欠かせません。
クラウドワーカーの雇用は、企業にとってコスト削減や柔軟な労働力確保のメリットがありますが、身元確認の徹底、支払い手段の選定など、適切な対策を講じる必要があります。
企業は単なるコスト削減だけでなく、長期的な視点での信頼構築を重視し、適切なパートナーと協力することが求められます。AI技術が進化し続ける中、倫理的で持続可能なAI開発の実現が、企業の競争力向上と社会的責任の両立につながるでしょう。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- OpenAI、チーム向けサービスプラン「ChatGPT Team」を発表
- 【OpenAI vs Google】年末AI戦争から見た未来
- 【白熱最前線】勝者は誰だ⁉ 群雄割拠「生成AIの主戦場」
- GPTで始まる大規模言語モデル時代
- 「ChatGPT Enterprise」と「Microsoft 365 Copilot」
- 【知っておきたい】DeepSeekの衝撃とChatGPTの新機能、何が変わった?
- OpenAI、生成AI「ChatGPT」をサインアップなしで利用できるように変更
- 【革新と規制】生成AIの未来はユートピアかディストピアか、その答えは?
- 「GPT-4 Turbo」と「AIアシスタント」の新機能
- 独自データを追加学習する「コンテキスト学習」と「ファインチューニング」