はじめに
GPT-5やGemini-3.1といった最新のフロンティアLLMを利用するには、OpenAIやGoogleが提供する公式APIを通じてアクセスするのが一般的です。しかし、公式APIには高額な利用料金、支払い手段の制約、そして地理的なアクセス制限が存在します。
例えば、OpenAIの公式APIは中国、ロシア、イランなど複数の地域からの直接アクセスを許可していません。Anthropicも同様に、サポート対象外の地域への販売を明確に禁止しています。
こうした制限を背景に台頭しているのが、本記事で取り上げる「Shadow API」と呼ばれるサードパーティのLLM APIサービスです。Shadow APIは「公式APIと互換性のあるエンドポイントを低価格かつ地理的制限なしで提供する」と謳っています。
2026年3月にCISPA Helmholtz Center for Information Securityの研究グループが発表した論文「Real Money, Fake Models: Deceptive Model Claims in Shadow APIs」は、このShadow API市場の実態を体系的に監査した初の研究です。本記事では、この論文の内容を紹介しながら、Shadow APIが研究や実務にもたらすリスクについて考えます。

Shadow APIとは何か
この論文では、Shadow APIを次の2つの性質を満たすサードパーティのLLM APIサービスとして定義しています。
1つ目は「間接アクセス」であることです。公式プロバイダから直接提供されるのではなく、中間経路を経由してモデルにアクセスする構造を持っています。
2つ目は「アクセス制限地域での提供」であることです。公式APIがサービスを提供していない地域のユーザーに対してもアクセスを可能にしています。
Shadow APIの技術基盤を見ると、確認された17のサービスのうち11がOneAPIやその派生であるNewAPIといったオープンソースのAIモデル集約・再配布システムを利用していました。OneAPIはOpenAI互換フォーマットでAPIを統合するセルフホスト型のツールで、APIキー管理、二次再配布、リクエストルーティング、自動リトライなどの機能を備えています。この仕組みが非正規な転売や不正利用を容易にしている面があります。
学術研究への浸透度
研究チームは、ICLR 2024とACL 2024の採択論文を起点に調査を進め、最終的に17のShadow APIを特定しました。これらのエンドポイントは187本の学術論文に使用されており、うち116本(62.03%)がACL、CVPR、ICLRといった査読付き会議やジャーナルに採択されたものです。
引用数・GitHubスター数で見た影響も無視できない規模です。最も広く利用されたShadow APIは5,966件の引用を集めており、関連するGitHubリポジトリには合計58,639のスターが付いています。これらの数字は2025年12月6日時点のものです。
著者の所属機関を見ると、全著者の82.75%が中国の機関に所属しており、地理的なアクセス制限がShadow API利用の主要な動機であることを示唆しています。
コンプライアンスの観点では、17のサービスのうち15が、透明性のある身元情報や検証可能な出所情報を持たない個人事業者によって運営されていました。有効な法人登録(中国のICP届出*)を保有していたのは1事業者のみで、調査期間中に2つのサービスが運営を終了しています。全プロバイダが上流のモデルソースを頻繁に変更しており、ユーザーへの事前通知も不十分でした。
*: ICP届出(Internet Content Provider備案)は、中国国内でWebサイトやインターネットサービスを運営する際に義務付けられる登録制度。中国工業情報化部が管轄しており、届出番号の有無がサービス運営者の実在性を確認する手がかりとなる。
性能評価の結果
論文では、Shadow API A、E、Hの3つを選定し、公式APIとの性能比較を実施しています。対象モデルはOpenAIのGPTファミリ、GoogleのGeminiファミリ、DeepSeekファミリの計8モデルです。
科学分野のベンチマーク
AIME 2025(数学コンペティションレベル)とGPQA Diamond(博士レベルの科学的質問)を用いた評価では、公式APIが概ね性能の上限を形成していました。Shadow API Eは公式との平均乖離が2.64%と比較的安定していたものの、Shadow API AとHはそれぞれ9.81%、6.46%の平均精度差を示しました。
注目すべきは推論モデルでの劣化です。AIME 2025ベンチマークにおいて、Shadow API AではGemini-2.5-proで40.00ポイント、DeepSeek-Reasonerで38.89ポイントの精度低下が観測されています。
高リスク分野のベンチマーク
医療と法律という高リスク分野での性能差はさらに深刻です。医療分野のMedQA(USMLE)では、Gemini-2.5-flashの公式API精度が83.82%であるのに対し、3つのShadow APIでは平均36.95%まで低下しました。その差は実に47ポイント近くに達します。法律分野のLegalBenchでも、全Shadow APIが公式エンドポイントから40〜43ポイント劣後していました。
論文では、HIV診断プロトコルの取り違えや、陪審員の誠実性に関する判例の誤解釈といった、医療・法律分野での具体的な誤回答事例も示されています。Gemini-2.5-flashのShadow APIでは、公式APIが正答したケースの約半数で正答を再現できていませんでした。
安全性評価
GCG、Base64、Combination、FlipAttackの4種類のジェイルブレイク攻撃を用いた安全性評価では、Shadow APIの挙動が公式APIから予測不可能な形で逸脱していることが確認されました。
それぞれの攻撃手法を簡単に説明します。
GCG
LLMを用いて生成した汎用的な敵対的サフィックス(接尾辞)をプロンプトに付加し、他のLLMに転移させる手法です。
Base64
有害なプロンプトをBase64エンコードして入力することで、モデルの安全フィルタを迂回します。
Combination
Base64エンコードに加えてプレフィックスインジェクションなど複数のテクニックを組み合わせた複合型の攻撃です。
FlipAttack
文中の文字を反転させることでモデルの入力解析を混乱させる手法で、本研究では文単位で文字を反転させるモードが使用されています。
例えば、Gemini-2.5-flashでは、FlipAttackに対する公式APIの有害性スコアが0.90であるのに対し、全Shadow APIのスコアは0.67〜0.68程度にとどまっています。これはShadow APIがリスクを過小評価していることを意味します。逆にGPT-5-miniでは、Base64攻撃においてShadow API Aの有害性スコアが公式の2倍に達するケースもありました。安全性の評価目的でShadow APIを使用すると、公式エンドポイントの挙動を再現できないリスクがあるわけです。

モデルの身元検証
論文はさらに踏み込んで、Shadow APIが本当に謳っているモデルを提供しているのかを直接的に検証しています。
LLMmapによるフィンガープリント
LLMmapは、あらかじめ用意したクエリセットに対するモデルの応答パターンをコサイン距離で比較し、背後で稼働しているモデルを特定するアクティブ・フィンガープリンティング手法です。
24のエンドポイントを評価した結果、45.83%がフィンガープリント検証に失敗し、別のモデルとして識別されました。加えて12.50%が公式モデルから大幅なコサイン距離の逸脱を示しています。
検出されたすり替えパターンは2種類に大別できます。1つは、プレミアムな商用モデルの代わりに安価なオープンソースモデルが提供されるパターンです。Shadow API HではGPT-4o-miniがQwen2.5-7Bのような挙動を示し、Shadow API AとEではGPT-5のフィンガープリントがGLM-4-9B-chatに類似していました。
もう1つは、推論(thinking)モデルの代わりに非推論モデルが提供されるパターンです。Shadow API AとHでは、DeepSeek-Reasonerへのリクエストが実際にはDeepSeek-Chat(非推論モデル)として動作していました。
一方、Gemini-2.5-proは全プロバイダで安定したコサイン距離(D ≈ 17.37〜18.04)を維持しており、モデルファミリによって信頼度に差があることも明らかになっています。
METによる補完検証
単一の検証手法の死角を補うため、Model Equality Testing(MET)による統計的検定も実施されています。METは、Shadow APIの出力が公式モデルの出力と同一の分布から得られたものであるかを二標本検定で判定する手法です。
LLMmapとMETの結果は74.1%(54ケース中40ケース)で一致し、Cohen's κ = 0.512という中程度から実質的な水準の一致度を示しました。GPT-4o-miniやGPT-5のShadow API Aにおける身元不一致はMETでも裏付けられ、DeepSeek-Chatはほぼ全プロバイダ・全ベンチマークの組み合わせで棄却判定を受けています。
興味深いのはGemini-2.5-flashの挙動です。能力レベルのベンチマーク(AIME 2025、GPQA)ではMETで棄却されないケースがある一方、安全性ベンチマーク(AdvBench、JailbreakBench)では全プロバイダで一貫して棄却されました。フィンガープリントが一致していてもセーフティの挙動が乖離するという、別種の不整合が存在します。つまり、挙動の類似性(LLMmap)だけでなく、出力分布の統計的な差(MET)を組み合わせることで、単独の手法では見逃してしまう巧妙な偽装も検出できるわけです。
推論レイテンシとトークン数の分析
メタ情報の分析でも不整合が確認されています。公式APIが同一の質問に対して比較的一貫した推論レイテンシとトークン数を示すのに対し、Shadow APIでは不規則なスパイクが頻発しています。標準偏差の分析によると、Shadow APIのボラティリティは公式APIの1.2倍、時には2.0倍を超えることもありました。
Shadow APIプロバイダの経済的動機
論文では、Shadow APIプロバイダが情報の非対称性を利用して利益を得る3つの経済的メカニズムを特定しています。
1つ目は「情報プレミアム型」です。Shadow API AがGemini-2.0-flashに対して公式の7.1〜7.25倍の価格を設定しながら、実際にはGemini-2.5-flashを提供していた事例がこれにあたります。より新しいモデルを安価に調達し、古いモデルの名前で高値で販売する手口です。
2つ目は「ディスカウント・すり替え型」です。公式と同等の価格を課金しながら、実際には低コストのオープンソースモデルで代替するものです。Shadow API AがGPT-5を公式価格(価格比1.00倍)で提供しつつ、フィンガープリント上はGLM-4-9Bであった事例が該当します。
3つ目は「リセール・マークアップ型」です。公式価格に若干の上乗せをしつつ、やはり背後ではモデルをすり替えています。Shadow API HがGPT-5に対して公式の1.09倍の料金を設定していた事例です。
具体的な金銭的影響も定量化されています。GPQAベンチマークでのGPT-5クエリ1,273件を分析したところ、ユーザーは公式料金相当額($14.84)を支払いながら、実際に受け取ったトークン量に換算すると$5.35〜$7.77分の価値しか得られていませんでした。1ドルあたりのエラー発生率で見ると、Shadow APIは公式の2〜4倍のエラーを生んでいます。
研究の再現性への影響
論文の推定によれば、Shadow APIを利用した187本の論文のうち、モデルの身元不一致が発覚した場合に再実行が必要となるのは控えめに見積もって約56本(フィンガープリント不合格率45.83%から30%と仮定)です。APIの再実行費用(1論文あたり$50〜$500)と研究者の時間(約40時間×$50/時=$2,000)を考慮すると、直接的なコストだけで$115,000〜$140,000と見積もられています。
この推定には、これらの論文を引用した5,966本の下流の研究に波及する再現性コストは含まれていません。モデルのすり替えは、依存する実験結果をエラーの兆候なく静かに汚染し得ます。

論文が提案する対策
論文は「Shadow APIを研究ワークフローで使用すべきではない」という明確な立場を示した上で、次の検証プロトコルを提案しています。
監査者向けには4段階の検証パイプラインが提示されています。
まずLLMmapプローブで24回以上クエリを発行し、コサイン距離が公式ベースラインの1.2倍を超えるか、識別されたモデルが主張と一致しなければ警告を出します。
次にMETを500サンプル以上で実施し、分布の同一性が棄却されればフラグを立てます。
3段階目では独立した3セッション以上でベンチマークを実行し、精度の標準偏差が5ポイントを超えるかレイテンシの変動係数が0.15を超える場合に警告とします。
最後に、ICP登録と法人情報の開示状況を確認します。
研究者向けには、データ収集前にエンドポイントURL、モデルバージョン、アクセス日、価格帯を記録し、上記の監査プロトコルを通過させてから実験に使用することを求めています。実行ごとの精度(3回以上の独立実行)、LLMmapフィンガープリントのコサイン距離、METのp値を実験結果と共に報告することも推奨されています。
コミュニティレベルでは、会議の主催者やプログラム委員長に対し、非公式・未検証のサードパーティAPIエンドポイントの使用を再現性リスクとして査読ガイドラインに明記することを求めています。また、公式モデルプロバイダに対しては、地理的アクセス制限の緩和、学術向け価格帯の導入、モデルIDを独立して確認できる軽量な公式検証エンドポイントの提供を呼びかけています。
まとめ
この論文を読んで改めて感じるのは、LLM APIのサプライチェーンが抱える構造的な脆弱性です。Shadow APIは「ブラックボックスの代理店」として機能しており、ユーザーのリクエストが経由するノードで何が行われているかを外部から検証する手段が限られています。
フィンガープリントが一致してもセーフティの挙動が乖離するGemini-2.5-flashの事例は、モデルの身元確認だけでは不十分であることを示しています。推論パラメータの設定ミス、コンテキストウィンドウの切り詰め、プロンプトの前処理といった、コサイン距離ベースのフィンガープリンティングでは検出できない改変が存在する可能性があります。
セキュリティエンジニアとしての立場から付け加えると、Shadow APIの問題はLLMに限った話ではなく、APIエコノミー全体に通底するサプライチェーンセキュリティの課題と地続きです。ソフトウェアサプライチェーン攻撃がCI/CDパイプラインや依存パッケージを標的とするように、LLMの世界ではAPIの中間業者がリスクの介在点になり得ます。正規のサービスと偽って品質の低い代替品を提供する行為は、技術的にはモデルのすり替えですが、経済的にはサービス詐称です。
日本国内ではOpenAIやGoogleのAPIに直接アクセスできるため、Shadow APIを利用する動機は海外の制限地域と比べると薄いかもしれません。しかし、コスト削減を目的に非正規のリセラーを利用する事例は十分に考えられます。
日本企業にとってより身近なリスクは、LLM APIの調達プロセスに潜んでいます。近年、複数のLLMプロバイダのAPIを一括で提供する中間事業者が増えており、企業がコスト比較や運用効率の観点からこうした事業者を選定するケースが出てきています。この論文が示したように、中間事業者がどのモデルを実際にバックエンドで提供しているかは外部から容易に検証できません。仮に調達先が裏側で安価なモデルにすり替えていた場合、社内の品質評価や安全性テストの結果は、本番環境で利用するモデルの実力を反映していないことになります。
医療・法律・金融といった判断の誤りが直接的な損害につながる領域でLLMを活用する場合、このリスクはより深刻です。論文でのMedQAベンチマークの結果が示す通り、モデルのすり替えによる精度低下は数ポイントの誤差ではなく、47ポイントという壊滅的な水準にまで達し得ます。調達先の選定時に、エンドポイントが公式プロバイダに直結しているかどうかを技術的に確認するプロセスを組み込むことは、セキュリティレビューの一環として検討に値します。
研究であれ業務利用であれ、LLM APIを利用する際には、エンドポイントの出所を確認し、公式プロバイダからの直接アクセスを基本とすることが、結局のところ最もコスト効率の良い選択肢になるでしょう。
- この記事のキーワード
