Association for the Advancement of Artificial Intelligence(AAAI)-26レポート第1回

AIの国際会議、AAAI-26がシンガポールで開催。3万件以上の応募論文をレビューする生成AIレビューを紹介

AIの国際会議、AAAI-26がシンガポールで開催。3万件以上の応募論文をレビューする生成AIレビューを紹介。

4月8日 6:00

人工知能の国際会議、AAAI-26が2026年1月20日から27日まで8日間に渡ってシンガポールで開催された。最初の2日間と最後の2日間は補助的なプログラムとしてチュートリアルやラボ、ワークショップなどが行われ、1月22日から24日までがメインのカンファレンスという構成だ。

今回はカンファレンスにメディアとして参加、香港で行われたSIGGRAPH Asiaと同様に研究者が競う国際カンファレンスを体験した形になった。この稿ではオープニングトークとして紹介されたAAAIの概略と、数多くの応募論文をレビューするプロセスに生成AIを導入した経緯を解説したコミュニティセッションの一部を紹介する。

AAAIは最初に開催されてから40周年を迎えたことを示すバナー

かつては「American Association for Artificial Intelligence」としてAAAI(トリプルAI)と命名されていたが、アメリカだけに留まる研究領域ではないことから名称を「Association for the Advancement of Artificial Intelligence」として略称は変えずに規模を拡大している。

オープニングトークは最も大きな会場で行われた

オープニングトークを行ったのはSven Koenig氏(General Chair, Univ. of California, Irvine)とEric Eaton氏(Associate General Chair, Univ. of Pennsylvania)でどちらもAAAIを統括する役職にある教授/研究者である。論文選考に関わる他の研究者も多くは大学の教授として自身が人工知能に関わる研究を行っている人物ばかりだ。

AAAI-26に提出された論文の数の推移。2026年は約31,000件、前年が15,000件余りだったので倍増である

このスライドではAAAIに提出された論文の数を示しているが、2026年が約31,000件で、2025年の約15,000件から倍増している。この論文をレビューして採択を行うためのプログラムコミッティーには26,000名のAAAIのメンバーが必要となり、さらに2000名のシニアプログラムコミッティーのメンバー、分野に特化したレビューを行うエリアチェアーメンバーが500名程度必要だったと説明。ここからも論文のレビューと採択が会期前の最も難しい仕事だったということが分かる。

論文をレビューして採択するためには経験豊富な多数の研究者が必要

これらの論文の著者を国別に分類したスライドは中国が圧倒的多数の論文を提出していることを示している。

国別の論文数を比較。中国が18000件で2位のアメリカに15000の差を付けている

中国からの論文が約18,500件、2位のアメリカが約3,000件であり、全体の半分以上が中国からの論文、アメリカに15,000件の差をつけていることが分かる。実際にポスターセッションやテクニカルペーパーのトークセッションを見ると海外の大学からの論文でも著者名がほぼ中国名で占められていることを考えれば、圧倒的多数のAIに関する研究が中国出身者によって行われていることが見えてくる。日本は約400件、韓国は第3位の約1,000件である。

論文のレビューは2つのフェーズで実施され、第1フェーズでは2名のメンバーによるレビューの後、大規模言語モデルを使った生成AIのレビューを経てシニアプログラムコミッティーのメンバーとアリアコミッティーのメンバーによる推薦を受けた後、第2フェーズで再度3名のレビューを受け、最終的にはシニアプログラムコミッティーのメンバーとアリアコミッティーのメンバーによる推薦で決定されるという流れだ。

論文が採択される流れ。第1フェーズにLLMによるレビューが行われる

ここからは、午後に行われたコミュニティセッションの中から、より詳しく解説されたレビュープロセスの説明を紹介する。

論文の著者に関する解説。2025年では46,050名だった著者数が2026年には77,302名に増加

論文は研究成果として書かれるわけだが、当然ながら複数人での研究では論文も複数名の著作ということになる。約30,000件の論文執筆に77,000人が関わっていたことになるが、当然同じ研究室で複数の論文を重複したメンバーで書くことも想定されるので単純に計算することは難しいが、この1年で多くの研究者がAIになだれ込んでいるという傾向が見えてくる。

レビューのプロセスをより詳しく解説

このスライドではAAAI-26で行われた論文レビューのプロセスを詳しく解説している。最初の段階はOpenReviewを使ったサブミッションである。その後AAAIのメンバーからプログラムコミッティ、シニアプログラムコミッティ、エリアチェアを選出し、レビューする人選を行った上で論文とレビューを個なうレビュアーをマッチングさせ、ここから2段階のレビューが始まることが説明されている。

レビューワーの詳細な情報

ここではオープニングトークでは丸められていた数値が実数として提示されている。プログラムコミッティのメンバー数は26,421名、約11,000名がボランティア、約15,000名がReciprocal Reviewerとなっていることから、論文の著者もレビューワーとして選任されることが分かる。研究を指導する教授などから選任されるということだろう。シニアプログラムコミッティー(SPC)のメンバーは1,728名、エリアチェア(AC)が471名である。SPCとACによって良い論文が推薦され、最終的に採択されることになる。

2段階のレビューフェーズ。フェーズ1に大規模言語モデルによるレビューが入っている

ここではフェーズ0として重複する研究を違う論文名で提出する事例や、生成AIによってレビューされることを知ったうえで論文上に採択に有利になるようなプロンプトを仕込む事例を排除してフェーズ1及び2に進むことが解説された。

論文のカテゴリー別の数をグラフ化。コンピュータビジョンと機械学習、自然言語処理がトップ3の論文数である

そして、フェーズ0のフィルタリングが終わった後のグラフが次のスライドだ。

フェーズ0で排除された後の論文数のグラフ。コンピュータビジョンでは9762から7612に減っている

ここではトップのカテゴリであるコンピュータビジョンにおいて論文数が9,762から7,612に減っていることが分かる。つまり審査に値しない論文を機械的に排除したことで約2,000本の論文が除外されたことになる。

論文とレビューワーのマッチングについてもシステム化されている

論文が採択されるかどうかは研究者にとっては大きなインパクトである。その研究が国際的な学会で認められるかどうかを決定するのはレビューワーである同じ研究者であるため、レビューワーと論文のマッチングは重要だ。AAAI-26では以下の論文にマッチングシステムに関して解説が行われている。この研究を行ったFei Wang氏もカーネギーメロン大学のAI研究者である。

●参考：Improving Robustness in Paper–Reviewer Assignment for AAAI 2026

2つのフェーズで論文は審査されたわけだが、その採択率を解説したのが次のスライドだ。

フェーズ1での採択率は41%、フェーズ2の採択率は17.5%

ここで分かるように、最終的に採択される論文は17.5%という低さだ。SIGGRAPH Asiaでの採択率が27%だったことからもAAAIが難関であることが分かる。

ここで生成AIの大規模言語モデルによるレビューがどのような成果を出したのか、解決すべき課題は何か、という視点の解説に移った。ここも新しい手法や技法を使った時に従来の方法と精密に比較するという研究者ならではの姿勢が現れている。

「AIは論文を相互にレビューするプロセスの支援になるのか?」という課題

ここでは赤字で強調された部分に注目したい。AIによるレビューは他のレビューワーによるレビューとは違うことがラベルとして明記され、スコアや推薦するという部分の出力を行わなかったという。つまり、あくまでも他の研究者にとっては補佐的な情報であったということだろう。しかしAIであることの利点として数式や表の解釈、引用先の検索などがAIによって実施されたという。ベースとして利用されたのはOpenAIのGPT-5である。論文のデータは再利用されることなく毎回フレッシュな状態でレビューを行ったという。

AIレビューのダッシュボードから。全体のトークン数は374億トークンであったという

ここでは全体として374億トークンが使用され、処理に掛かったコストは1論文に付き1USドル以下だったという。

AIによるレビューの課題。トークン数の制限や数式、表の解釈などが挙げられている

このスライドではAIによる論文レビューの課題を整理している。トークン数の制限や論文に含まれる数式や表の解釈などにおいてエラーが起こってしまったという。数式も表も人間の眼では解釈できるものもレイアウトなどによってはエラーが起きてしまうのはあり得る話だろう。逆に問題にならなかったのは大規模言語モデルでは往々に問題視されるハルシネーションだ。論文が客観的に事実と論理を組み立てる内容であることが要因かもしれない。

今回のAIレビューで使われたシステムの概要。GPT-5だけではなくOCRも利用

ここでシステムに関して説明を行っている。モデルはOpenAIのGPT-5、OCRはolmOCRだ。olmOCRにいては以下の公式ページを参照されたい。

●参考：Olmo

より詳細なシステムについては以下のスライドで解説されている。ここでは二酸化炭素の排出量も書かれているのが興味深い。

LLMのサイズなどと利用したGPUなどについても説明

AAAIが研究者の集まりであることがよく分かるのは、この新しい試みに対して客観的な評価を3つの大学をサンプルにして実施したことだろう。新しい技術、ツールを使ったらその評価を内部だけではなく外部に求めるという姿勢こそがあるべき研究者の姿だ。

AIレビューに対する評価を3つの大学に依頼

生成AIによる論文レビューが有意かどうかを評価。このグラフでは著者もレビューワーも満足していることが分かる。

AIレビューが有益か有害か?を調査した結果

グラフの左側が有益か?と問われた際の回答であることから、多くの研究者はAIによるレビューが有益であることを理解しているようだ。

最後にもう一度、生成AIによる論文レビューにおける質問を提示して、参加者にもこの議論に参加して欲しいという意図を感じた内容となった。

生成AIを論文のレビューに利用することに対する質問を提示

「これからも増え続ける論文に対して研究者が求める審査を続けられるのか?」「審査のプロセスを増加する論文に対して継続する仕組みは?」「その際のAIの役割は?」という質問を参加者に投げかけてセッションを終えた。ここでは生成AIによる論文レビューは発展途上であり、AAAI-26での利用もこれが最終形ではなく公開の議論を進めていこうと締めくくった。

レビューワーも研究者として論文を書く立場であり、自身がレビューを行う立場になった時に生成AIが支援するツールとなるのか、人間のレビューワーを阻害する道具になるのか、AIの研究者がいわば他の学会に先駆けて「ドッグフードを食べる」という状況だ。AAAI-26で発表された多くの論文の研究の成果が活かされてより良い論文レビューシステムが完成し、他の業界でも応用されることを期待したい。引き続き注目していきたい。

この記事のキーワード：