【ChatGPT超進化!】最新トレンド「AIエージェント」の全貌と実践的活用法
はじめに
本連載は、生成AIコミュニティ「IKIGAI lab.」で活動している各分野のエキスパート8名が執筆を担当しています。この記事を通して、ぜひ皆さんも各々の半歩先の未来を想像しながら、色々な価値観を楽しんでいただけると嬉しいです。
2025年最初の記事「【戦略と実践】顧客理解が変えるマーケティングの未来(実践的プロンプト付き)」はお読みいただけたでしょうか。「生成AI×マーケティング」という切り口で生成AIについてまとめた記事になっており、実践的なプロンプトも紹介しています。まだの方はぜひお読みいただき、新たな学びの一助にしていただければ幸いです。
さて、年が明けてから早1ヶ月が経とうとしています。年始に立てた計画や目標は順調に進んでいますか。私も英語学習を新年の抱負として挙げましたが、忙しい日常生活の中で学習時間を確保するのは難しく、さっそく計画の修正を迫られています。
そこで、本記事では始めに2025年のトレンドをピックアップし、その中でも私が注目している機能を活用して英語学習を効率的かつ継続できる具体的な方法を紹介します。
2025年のトレンド
皆さんはGartner(ガートナー)社の発表する「2025年の戦略的テクノロジのトップ・トレンド」をご存じですか。毎年このような形で「今後5年間で大きな影響をもたらす10のテクノロジ」を分析して発表しています。
これと似たものにMITテクノロジーレビュー(MITTR)の「10 Breakthrough Technologies 2025」(世界を変える10大技術)があります。MITTRが選んだ世界を変える10大技術について紹介している特集記事で、2001年から毎年発表されています。
ちなみに、2001年は「自然言語処理」が取り上げられています。20年近い歳月が経過したものの、2017年にはGoogleの研究チームより発表された「Transformer(トランスフォーマー)」がブレークスルーとなり、2018年にはBERTとGPTというモデルがGoogleとOpenAIから相次いで発表され、現在のLLM(大規模言語モデル)の隆盛につながっています(このあたりの歴史は「【誰でもわかる!】LLMの歴史」に分かりやすくまとめられているので、興味のある方はそちらをご参照ください)。
この2つのトレンド予測に共通で入っているのが、下記の人工知能チャットボット関連です。
- Gartner:エージェント型AI:主体性を持って行動する次世代の人工知能
- MITTR:生成AI検索
Agent(エージェント)
「エージェント」と言っても、エージェント黄昏*1のような諜報員のことではありません。エージェントというキーワードはここ最近出てきたもので、人によって解釈に幅がある可能性がありますが、IBMでは以下のように定義しています。
*1:「SPY×FAMILY」のキャラクター「ロイド・フォージャー」のこと人工知能(AI)エージェントとは、ワークフローを設計し、利用可能なツールを活用することで、ユーザーまたは別のシステムに代わってタスクを自律的に実行できるシステムまたはプログラムです。
【出典】「AIエージェントとは」(IBM 2024年7月3日)
ワークフローというキーワードからDifyを思い浮かべた人もいるかもしれませんが、Difyはエージェントではなく「プログラミングの知識がなくても、テンプレートやドラッグ&ドロップのフロー図を使って直感的にアプリケーションを開発できるLLM(大規模言語モデル)アプリケーション開発プラットフォーム」です。Difyとの大きな違いは「タスクを自律的に実行できるかどうか」になります(Difyはタスクを実行するために人が仕組みを作り上げる)。
Gartnerでも「エージェント型AIとは、特定の目標を達成するために、独自に意思決定を行い、行動を起こすように設計されたソフトウェア・プログラム」と定義されており、「独自の判断で目標を達成するためのタスクを実行」するところがポイントになっています。
これまで、LLM(大規模言語モデル)によるChatGPTをはじめとした生成AIチャットシステムは、あくまで人の指示(プロンプト)に従って回答する受動的なものでした。一方、エージェント型のAIは初期値として与えられた条件と達成すべき目標から、どうすれば目標を達成できるかを自ら思考し、実行する点に大きな違いがあります。
以下に「ピザを食べたい」という目標を例に、これまでのAIチャットボットシステムとエージェント型AIの動作例を示します。
例:ピザを食べたい
1. 従来の生成AI(ChatGPTでの例)
・プロンプト: "ピザを食べたい"
・出力例:
・ChatGPTは、ユーザーにピザのレシピや近所のピザ店のリストを提供します。
・ユーザーはその情報を元に、次の行動を自分で決定します。
2. エージェント型AIの場合
・プロンプト: "ピザを食べたい"
・AIの行動例:
・ユーザーの位置情報を取得し、近隣のピザ店を検索。
・オンラインで注文可能なピザ店を選定。
・ユーザーの好み(サイズ、トッピング、価格帯など)を基に最適なピザを提案。
(情報が不足していればユーザーに好みを自ら確認するなどのアクションを起こす)
・注文手続きと配達スケジュールを全て完了。
・結果:
・ユーザーはほとんど手を動かさずに、目標(ピザを食べること)を達成できます。
さて、このAgent型AIですが、2024年10月23日にAnthropicがClaudeを基盤とする「Computer Use」を発表し、続いて2024年12月12日にはGoogleがGemini 2.0の発表とともに「Project Mariner」を公開しました。そして、2025年1月23日にはOpenAI社がChatGPTを基盤とする「Operator」を発表しています(なお、Computer useについては「【新時代】「PCはAIが自動操作」が常識に?」で詳しく解説しています)。
ただ、まだAIに完璧にお任せできるところまでは至っておらず、現状は人がその進捗について見守る必要があります。下図はOpenAIが発表しているベンチマークですが、人が同じタスクを実施した場合の成功率である7割強には届いていません(WebVoyagerの成功率は87%ですが、WebArenaが複雑なタスクであるのに対し、WebVoyagerは主にライブウェブサイトでのシンプルな操作を評価しているため高成功率になっています。実際のテスト内容は「CUA eval extra information」を参照)*2。
*2:SOTA:State of the Artの略で、現時点での最高技術という意味。Previous SOTAで「これまでの最新技術」OpenAIが開発した「Operator」はコンピューター上で人間のように操作を行うAIエージェントで、例えばウェブサイトでのフォーム入力や商品購入など、通常は人が手動で行う作業を自動化できます。これにより、日常のさまざまなタスクを効率的にこなすことが可能になります。
Operatorの背後には「Computer-Using Agent(CUA)*3」と呼ばれる新しいAIモデルがあり、これはGPT-4oの視覚能力と強化学習による高度な推論を組み合わせています。CUAは画面上のボタンやメニュー、テキストフィールドなどのグラフィカルユーザーインターフェース(GUI)を人間と同じように認識し、操作できます。
*3:CUA:Computer-Using Agentの略でOpenAI社のOperatorで使用されている、GPT-4oの視覚機能と強化学習による高度な推論を組み合わせたモデル現在、Operatorは米国のChatGPT Proユーザー向けに提供されており、今後は他のユーザー層や地域にも拡大される予定です。この技術により、私たちの生活や仕事における多くのタスクがより簡単かつ迅速に行えるようになると期待されています。
生成AI検索
ソフトバンクユーザーに1年間無料でPro版を提供(2025年6月18日まで)したことで一躍有名になったPerplexityを初めとして、国産生成AI検索のFeloなどこの分野に多くのプレイヤーが参入しています。
Perplexity、Genspark、Felo、DeepSeekについては「思考する検索AIが登場! 知っておくべき新機能とは?」や「検索だけじゃ物足りない! 国産AI「Felo」超入門ガイド」で詳しく解説しているので、そちらを参照ください。
GoogleはWeb検索という分野で長年王者として君臨してきました。しかし、この分野に生成AIという新たな武器で参入してきたプレイヤーは、次の主要な情報検索プラットフォーム、つまり「次のグーグル」になろうと競い合っています。
これまではググる技術が重要とされ「キーワード検索」が主流でした。適切なキーワードを知っていること、または見つけ出す技術が重要で、この技術がないと知りたい情報へたどり着けないという問題がありました。しかし生成AI検索が出てきたことで、この状況は一変しています。
例えば、
来月2025年2月に、2週間の予定で日本へ旅行に行きます。初日は東京に滞在しますが、予算の範囲内で日帰り旅行や1泊2日の旅行もしたいです。日本のお祭りや文化、音楽に興味があり、特に日本の田舎風景はインスタ用にぜひ押さえておきたいです。日本国内での予算は$500です。
さらに、これまでの検索では不可能だった「正確に説明できない」「正確なキーワードが分からない」といった、あいまいな検索も可能となっています。「どのようなことを探しているのか」をユーザーが正確に説明できる必要はありません。これまでのように、Googleが提示するURL先の各記事を確認し、欲しい情報かどうかを判断する手間がなくなります。代わりに、生成AI検索と対話しながら求めている回答にたどり着くことが可能になります。まさに「AI検索エージェント」と呼ぶにふさわしい体験を実感できるでしょう(ただしハルシネーション*4には注意)。
*4: AIが不正確または事実に基づかない情報を生成する現象この変化はユーザーにとっては大きな利益をもたらす一方で、コンテンツ提供者からは「有料コンテンツを許可なく利用した」として、必ずしも歓迎されているわけではありません(これは検索機能がつく前から問題になっています)。
- 「ググる」時代の終わり、世界の知識を解き放つ生成AI検索がもたらすもの
- NYT、新興AIパープレキシティにコンテンツ使用停止求める
- 米紙ニューヨーク・タイムズがオープンAIとマイクロソフトを提訴 著作権侵害で
- 米NYタイムズ、OpenAIを提訴 記事流用で数千億円損害
もちろん、OpenAIなどもこの状況を良しとして放置しているわけではなく、出版社と記事利用について提携を行うなどして是正を進めていますが、すべての出版社と解決に至っているわけではありません。
- AIによる記事データ学習、メディアが許可した場合のメリットは?
- OpenAI、「Business Insider」版元と提携——xAIに対抗、「ChatGPT」がニュースを参照可能に
- Partnership with Axel Springer to deepen beneficial use of AI in journalism
OpenAIは、ジャーナリズムにおけるAI活用を強化するため、Axel Springerとグローバルパートナーシップを締結しました。この提携により、ChatGPTユーザーはAxel Springerのメディア(POLITICO、BILD、WELTなど)の有料コンテンツを含む要約とリンクを通じて質の高いニュースにアクセス可能になります。また、Axel SpringerのコンテンツはAIモデルのトレーニングにも活用され、両社はジャーナリズムの新たな収益モデルを模索します。
【出典】「OpenAI Partnership with Axel Springer to deepen beneficial use of AI in journalism」を要約(OpenAI 2023年12月13日)
生成AIによるタスク実行
2025年1月15日、OpenAIより「Tasks」(ベータ版)がリリースされました。
ユーザー側から処理を開始するのではなく、AI側からユーザーに通知を送りアクションを促すという点でエージェント機能の一部とみなすことができます。
これまで、ChatGPT内では時間の概念がなく「今日は何日ですか」という質問に答えることはできても「今は何時ですか」や「6時間後は何日ですか」という質問に答えることはできませんでした。
しかし、このTasks機能により、一部とはいえユーザーの指定した時間にリマインダーを行ったり設定したタスクを実行できるようになります。Tasksでできること、できないことの詳細は「ChatGPTの新機能「Scheduled tasks」徹底解説」で解説されています(注:一部有料)。
現在、Tasks機能はChatGPT Plus、Team、Proユーザーが利用可能です。正式版の一般提供時には、より多くのユーザーに提供されるということから無料ユーザーへも拡大していくと思われます。
また、動作環境はChatGPTのWeb版、iOS版、Android版、MacOS版で、Windows版は2025年第一四半期後半でのリリースが予定されています。
現時点では「同時にアクティブにできるタスクは10個まで」という制限がありますが、今後制限が緩和されれば、多くのタスクをエージェントが人間に代わって実行していくようになるでしょう。
実際にTasksを使ってみましょう。TasksはChatGPTのモデルで「スケジュールされたタスクがある GPT-4o(ベータ版)」を選択すると実行できます。
すると、モデル名の表示が「ChatGPTタスク」に変わります。これで準備は完了です。
さっそくタスクを登録しようとしましたが、実行できず。どうやら1時間に4回までしかタスクの実行はできないようです。
Tasksで何ができるのか、どのような制限があるのかをChatGPTに聞いてみました。
条件付きタスクの実行も可能とのことで、アイディア次第ではいろいろな使い方ができそうですね。
英語習慣化タスクの実行
冒頭で触れたように、私は今年の抱負として英語学習を挙げましたが、さっそく計画の修正を迫られています。
ChatGPTを英語学習に利用することで、これまでできなかったこと、特に「これで良いのかどうか分からない問題」については一定の目途がたったといっても過言ではありません。例えば、英文の和訳などは、単語の意味を辞書で調べても英語特有の言い回しまでは調べきれなかったりして、個人学習だけでは「この和訳合っているの?」という疑問を解消できませんでした。しかし、生成AIはこの悩みへの1つの解決策になりえます。
一方、このように英語学習の環境はChatGPTなどのLLM(大規模言語モデル)で改善されたものの、一番の障壁となるのは人間側にあったりします。つまり「継続的に学ぶ」(習慣化)です。
忙しい日常生活の中で学習時間を確保するのは容易ではありません。仮に学習時間を確保できても意志の弱さからWebサーフィンで終わってしまったり、ゲームをしたり、寝てしまったり…。
継続的に学ぶことに対しては、
- 1つのタスクの難易度を下げる
- 志を同じくする人と一緒に行う
まずは、基本となるプロンプトです。
# 役割
あなたは第二言語が英語である学習者に分かりやすく説明することで有名な英語教師です
# 目的
ユーザーの英語力向上のために、毎日決まった時間に英語学習を実施します
あらゆる手段でユーザーを励ます、褒める、新たな挑戦を提示するなどして、ユーザーのモチベーションを高めます
# 制約条件
・和訳を行う英文はTOEIC800またはCEFR Level B1としてください
・英文は15単語以上の構成とし、複文も認めます
・ことわざのような特定の言い回しや、イディオムを含んだ内容も認めます
・コロケーションについても認めます
・英文以外の解説部分は全て日本語で行ってください
# ステップ
1.制約条件に従って、和訳すべき英文を出力します。その英文をユーザーに和訳するように促してください
2.ユーザーが和訳について以下の観点で評価してください
・和訳がおおよそあっているか判定する
・調整案と改良案を示す
・単語、熟語の意味と品詞、文法構造を解説
# User:
Hello, please start a conversation using the prompt above.
このプロンプトを毎日21時に実行してください。
「TOEIC800」や「CEFR Level B1」の部分を変更することで、自分に合ったレベルを設定することが可能です。また、翻訳する英文を短くまたは長くする場合は「英文は15単語以上の構成」の部分を変更してください。また、最後の「このプロンプトを毎日21時に実行してください」でリマインドする時間を設定でき、この部分を削除すれば通常のプロンプトとしても実行可能です。
さて、ChatGPTに「毎日21時に実行してください」と頼んだのですが、表示が「毎週」になってしまっています。
ただ、「すべてのタスクを表示する」から確認すると、きちんと「毎日 午後9時」で設定できているようです(おそらく表示上のバグ)。
指示に関しては、設定したプロンプトと異なるものになってしまっていたため、修正しています。
無事に設定できれば、メールなどでリマインドが届きます。
(実行するたびに異なる結果が出る可能性があるため、上記表示と同じとならない可能性があります)
ほかに、おすすめとしてChatGPT研究所で紹介されている「最新ニュースの自動収集&TOEIC問題作成」があります。元のプロンプトは以下の通りです。
最新のニュースを検索し、TOEICレベルの読解問題を作成してください。具体的には、英語の記事、選択式の質問、回答、日本語の解説を含めてください。それを私に送ってください。
しかし、ハルシネーションと思われる挙動があったため、必ず英語で書かれたニュースを利用するようにし、解説も日本語で行われるように設定を変更します(ただし完全ではなく、日本語の記事をChatGPTが英語化して問題として提示する可能性があります)。
# 役割
あなたは第二言語が英語である学習者に分かりやすく説明することで有名な英語教師です。
# 目的
ユーザーの英語力向上のために、毎日決まった時間に英語学習を実施します。
あらゆる手段でユーザーを励ます、褒める、新たな挑戦を提示するなどして、ユーザーのモチベーションを高めます。
# 制約条件
・英語ニュースは実際に存在する**英文で書かれたものだけ**を使用してください
・架空のニュースを生成しないでください
・参照元を必ず表示してください
・問題のレベルはTOEIC800またはCEFR Level B1としてください
・英文および英文の問題文以外の解説部分は全て日本語で行ってください
# ステップ
1. 最新の英文ニュースを検索し、制約条件にしたがってTOEIC形式の読解問題を作成してください。
2. 具体的には、英語の記事、選択式の質問を含めてください。出題する前に制約条件を満たしているかステップバイステップで再度確認し、特に引用元のニュースが英語で書かれているか、引用した英語の記事の内容とあっているかを丁寧に確認したうえで提示してください。
3. ユーザーの回答に対して、正解を表示し、日本語で解説を行ってください。ユーザーの回答前に回答を表示しないでください。
4. 最後に問題文として提示した**英語記事全文と選択肢の日本語訳を表示**してください。
# User:
Hello, please start a conversation using the prompt above.
このプロンプトを毎日21時に実行してください。
おわりに
今回は、AgentとOpenAIのTasksについて取り上げ、実際にTasksを使ったリマインダーの設定を行ってみました。
Tasksでは簡単なプロンプトで多くのことができるようになります。自分好みのニュースを毎朝キュレーションする、生活に役立つTipsを自動表示するといった応用も考えられます。ただし、基盤となるLLM(大規模言語モデル)の特性を理解し、特にハルシネーションへの注意を怠らないことが重要です。
さらに、もっとTasksを効果的に活用する方法として、AIエージェントとの組み合わせが挙げられます。OpenAIのAIエージェント「Operator」は自律的にタスクを実行しますが、重要な判断には人間の確認が必要です。Tasksを組み合わせることで、近い将来AIエージェントが実行した結果をユーザーに通知し、チェックポイントごとに確認を求める「承認フロー」を実現できる可能性があります。
現在のTasksはベータ版で、承認フローを完全に実現するには機能面でまだ課題があります。しかし、個人の利用範囲では十分に役立つ機能であることに変わりありません。この機会に、ぜひTasksを活用してみてください!
今後も、生成AIに関する最新情報とその深掘りを発信していくので、楽しみにしていただけると嬉しいです。次回の投稿をお楽しみに!
※本ニュースは「IKIGAI lab.」が配信しているコンテンツです。
IKIGAI lab.はこちらをご覧ください。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- 【OpenAI vs Google】年末AI戦争から見た未来
- 【業務革命】ルーチン作業とお別れ!? 生成AIが拓く効率化の現在地
- 「ChatGPT Enterprise」と「Microsoft 365 Copilot」
- 【解決力UP】オーケストレーションが可能にする生成AIの活用法、具体例を徹底解説
- ファインチューニングの課題を解決する「RAG」と「エンべディング」
- AIリスク管理プラットフォーム「Robust Intelligence platform」を提供する米Robust Intelligence Inc.共同創業者 大柴 行人氏インタビュー【後編】
- GPTで始まる大規模言語モデル時代
- 【永久保存版】いまさら聞けない生成AIの使い方を“超”分かりやすく解説!
- AI駆動開発とエンタープライズChatGPTが企業にもたらす可能性 〜クリエーションラインの生成AIへの挑戦
- GitHub Universe 2024開催。初日のキーノートはデモ満載でCopilotの拡がりを見せつける内容に