新登場した「ChatGPT-4o」の特徴とマルチモーダルな使い方

AI・人工知能

技術解説

連載 [第15回] :

エンジニアなら知っておきたいGPTのキホン

2024年6月18日(火)

梅田弘之（うめだひろゆき）

前回で最終回の本連載でしたが、「ChatGPT-4o」の新登場を受けて、急遽第15回としてChatGPT-4oの特徴とマルチモーダルな使い方を解説します。

はじめに

前回で最終回の本連載ですが、その掲載日(5月14日)に「ChatGPT-4o」が登場したので、急遽もう1回追加して解説することにしました。

第1回が公開されたのが2023年6月1日で、タイトルは「GPTで始まる大規模言語モデル時代」でした。それからわずか1年で「生成AI」という名前ですっかり社会に浸透しましたが、まだまだ急激に進化し続けており、この先どうなるかドキドキ、ワクワクしています。

GPT-4oの「o」とは

GPT-4oのoは「omni(オムニ)」のoで「フォー・オー」と読みます。omniという単語は“すべての”という意味ですが、multi(マルチ)と解釈する方がピンと来ます。10年近く前にｅコマース関連でomni channelという言葉が流行りましたが、これはECサイトやリアル店舗、SNSなど個別の販売経路だったものを統合するという戦略でした。GPT-4oのomniも同様の意味で、テキスト、画像、動画、音声、PDF、グラフ、ドキュメントなどと生成AIのインターフェースを統合したマルチモーダルを意味します。

GPT-4oの特徴

まずは、GPT-4oがGPT-4からどう変わったのかを押さえておきましょう。表1はGPT-4oの主な特徴をまとめたものです。ついでに無料プラン(ChatGPT)と有料プラン(ChatGPT Plus)に分けて比較もしています。この表でGPT-4oのTOPICSをいくつか説明しましょう。

表1：GPT-4oの主な特徴

TOPICS	無料プラン「ChatGPT」	有料プラン「ChatGPT Plus」
利用料金	無料	20ドル/月
利用可能なモデル	GPT-3.5、GPT-4o	GPT-3.5、GPT-4、GPT-4o
GPT-4o利用制限 (変更の可能性あり)	3時間ごとに10件程度 (制限を超えるとGPT-3.5)	3時間ごとに80件 (GPT-4は3時間ごとに40件)
マルチモーダル	テキスト ◯ 画像入力 ◯ 画像出力 ✕ 音声入力 ◯ 音声出力 ◯ PDF入力 ◯ PDF出力 ✕	テキスト ◯ 画像入力 ◯ 画像出力 ◯ 音声入力 ◯ 音声出力 ◯ PDF入力 ◯ PDF出力 ◯
リアルタイム検索	可能	可能
リアルタイム会話・感情分析	可能	可能
多言語対応・翻訳	可能	可能
Plusに比べてその他の制限	トークン制限が1/5 GPTの作成はできない(利用は可) DALL-Eで画像生成できない

無料プランでも利用可能

今回の発表で一番驚いたのは、無料プランでも利用可能になったことです(朗報です!)。これまで無料プランではGPT-3.5しか提供されず、ユーザーの多くは生成AIの価値をかなり目減りして使っていました。そして、これに飽き足りない人はChatGPT Plusを契約してGPT-4を利用していたわけです。今回、無料プランでもGPT-4oが利用可能になったことで、より多くの人が生成AIの本当のすごさを体感できるのです。

GPT-4o利用制限

無料で利用できることでひっかかるのはGPT-4oの利用制限です。執筆時点では有料プランの制限は3時間で80件のメッセージ送信回数なので、ほとんど意識しないで使えます。無料プランの制限回数は明記されていませんが、3時間で10件くらいのようです。ちょっと使うとすぐに制限にかかりそうなのが迷うところですね。制限を超えるとGPT-3.5に切り替わり、一定時間後にリセットされます。

マルチモーダル(Multimodality)

omniと名前に付けているくらいなので当然ですが、GPT-4oは画像の入出力、音声の入出力など、マルチモーダル対応が強化されています。第5回と第6回でChatGPTプラグインを使ってPDFや画像、動画、音声、Webページなどマルチモーダルな入出力を行えることを解説しました。GPT-4oは、このような外付けプラグインを使わなくても、直接マルチモーダルなアクセスができるようになっています。ほとんどのマルチモーダル機能は無料プランでも利用できますが、現時点では画像や動画の生成はサポートしていません。

リアルタイム検索

GPT-4oは、GPT-4と同じく2023年9月までのデータを学習に使用しています。以前は、それ以降の出来事に関する質問をすると、古いネタで誤回答するか、新しい情報を学んでいないので回答できないと返ってきました。しかし、GPT-4oはMicrosoft Bing Copilotと同じく新しい情報に関する質問はリアルタイムにBing検索してちゃんと回答してくれます。

例えば「大谷翔平さんはどこの球団ですか」と聞くと、今は正しく「ドジャース」と答えてくれます。とはいえ、実はこの機能はGTP-4の途中から搭載されているので、既にその便利さを体験している方も多いでしょう。

リアルタイム会話(Real-Time Conversational)・感情分析

GPT-4oは、これまでよりさらに人間に近いやり取りができるように対話能力が強化されており、これを「リアルタイム会話」と名付けています。人の会話は、急に話が飛ぶとか黙り込んでしまうとか多々ありますが、GPT-4oはそのような自然な会話への対応力がUPしています。

音声入力への応答時間も短くなり、人間の返答スピードに近づいています。さらに、プラグインで用意されていた感情分析を標準搭載しました。マルチモーダルになると扱うデータが音声や画像に広がりますが、ユーザーの声や顔の表情などを分析して相手の感情を推し測った応答を返すことができそうです。まさに、人間が日常行っているような会話ですね。

多言語対応・リアルタイム翻訳

GPT-4も多言語対応でしたが、GPT-4oはさらに多くの言語がサポートされており、現時点で50以上の言語に対応しています。また、翻訳の品質が向上し、リアルタイム性も強化されているので、音声やテキスト、画像の中の文字を翻訳して自然に対話できるように機能UPしています。

GPT-4o API

第9回で「GPT-4 Turbo」を紹介しました。これは2023年7月にリリースされた「GPT-4.0 API」を進化させたもので、入力できる文字数や応答速度、マルチモーダル機能などが強化されました。

ChatGPT-4oのリリースに伴い、APIの方も「GPT-4o API」がリリースされています。表2は第9回で示したAPIの比較表にGPT-4o APIを追加したものです。これを見ると、目玉機能であるマルチモーダルやリアルタイム検索、多言語対応などはすでにTurboでも実装されており、今回のリリースでは、それがさらに強化されているという流れが理解できます。一方で、応答速度が2倍になっているのにコスト半額という嬉しい提供であることも分かります。

GPT-4o APIとGPT-4 Turboの比較

	GPT-4o API	GPT-4.0 Turbo	GPT-4.0 API
リリース	2024年5月	2023年11月	2023年7月
学習データ	2023年4月まで	2023年4月まで	2021年9月まで
入力できる文字数	128,000トークン	128,000トークン	32,768トークン
応答速度	Turboの2倍高速	高速	普通
マルチモーダル	テキスト画像入力・動画入力画像出力・動画出力音声出力音声入力 PDF	テキスト画像入力画像出力音声出力音声入力 PDF	テキスト
リアルタイム検索	可能	可能	なし
多言語対応	50以上の言語に拡張	多言語対応	多言語対応
料金	Turboの1/2 入力：0.005ドル/1,000トークン出力：0.015ドル/1,000トークン	入力：0.01ドル/1,000トークン出力：0.03ドル/1,000トークン	入力：0.03ドル/1,000トークン出力：0.06ドル/1,000トークン

マルチモーダルの実力

ChatGPT-4oのマルチモーダルの実力を試してみましょう。第5回と第6回でChatGPTプラグインを使ってPDFや画像、動画、音声、Webページなどマルチモーダルな入出力を行えることを解説しました。同様なことを、今度はプラグインを使わないで直接ChatGPT-4oに依頼してみます。

(1)PDFファイルを読取り、WORDファイルにまとめる

第5回ではPDFを読み取れるプラグイン「AskYour PDF」「Ai PDF」「Chatwith PDF」を使ってデジタル庁で公開されているPDF(図1)を読み取り、「要約」や「ブログ作成」「キーワード検索」「Q&Aサービス作成」などを行いました。

図1：デジタル庁のPDF
【出典】デジタルの活用で一人ひとりの幸せを実現するために

今回はプラグインを使わず直接ChatGPT-4oからPDFを読み取って、要約をWordファイルにまとめてもらいます。前と同じようにChatGPT-4oにURLを示して読んでもらうこともできますが、今回はPDFファイルをアップロードする方法にしました(図2)。

(依頼プロンプト)
「このファイルを読んで、その内容をもとに1000文字以内で国民に向けてデジタル庁が頑張っていることを知ってもらう趣旨の文章をWordファイルにしてください。」

・ChatGPT-4oに文章を表示
Wordファイルに書き出す前に、図2左のように内容をChatGPT-4o上に表示してくれます。

・Wordファイルを作成
続いてこの文章をWordファイルに書き込み、ダウンロードできるリンクが表示されます。そこからWordファイルをダウンロードします。

(結果)
図2の右側が作成されたWordファイルです。ChatGPT-4oに表示された文章とほぼ同じ内容が、良い感じでWordにまとめられていることが確認できます。

図2：PDFファイルを読み、Wordファイルを作成

(2)動画の読取り

第5回では動画を読み取れるプラグイン「VieoInsight.io」を使って、Youtubeに公開されているテニスの動画「打ち負けない力強い片手バック」を読み取り、「要約」と「メタデータ」を作成してもらいました。同じことをやってみたのが図3です。

(依頼プロンプト)
このビデオの概要とメタデータを教えてください。
https://www.youtube.com/watch?v=F5mjOfBQS_g

(結果)
直接動画を読み取ることはできず、代替として自分でやる方法を示すだけでした。念のため「あたなはYouTubeの動画を読み取ることはできませんか?」と尋ねたところ素直に認めました。この答えが本当だとすると、今のところChatGPT-4oは直接YouTubeの動画を読み取ることができないようです。

図3：YouTubeの動画の読取り(不可)

(3)Webページへのアクセス

第5回ではWebページにアクセスできるプラグイン「Link Reader」や「WebPilot」を使って、Webページの「要約」や「ウェビナー募集ページの作成」を行いました。

前と同じWebページ「OpenAI,LangChain & LlamaIndex for Easy Extraction」のURLを示して、50分のウェビナー募集ページを作成してみましょう。

(依頼プロンプト)
https://www.analyticsvidhya.com/blog/2023/06/revamp-data-analysis-openai-langchain-llamaindex-for-easy-extraction/
に書かれている内容をもとにした50分のウェビナーを開催します。対象は生成AIを使って社内データを活用したいと思っている企業ユーザーです。できるだけ多く集客できる募集ページを作成するために、読んだ人が参加したくなるような内容にしてください。

(結果)
図4がChatGPT-4oに作成してもらったウェビナー募集ページです。以前はウェビナーのタイトルと概要だけ作成してくれたのですが、今回はタイトルや概要の他に日時、メリット、内容、講師紹介、こんな方におすすめ、お申し込み方法、お問い合わせ先など、本物の募集ページに必要そうな項目も適当にダミー情報を入れて作成してくれています(むむ、成長したなって感じ)。

図4：Webページの内容をもとにしたウェビナー募集ページの作成

(4)PDFの作成

マルチモーダルの出力系の実力も見てみましょう。第6回ではPDFやWord、Excelなどのドキュメントを作成できるプラグイン「A+Doc Maker」を使ってA+Doc Maker自身の「提案書」を作成してもらいました。今回は、国産ERP「GRANDIT」の提案書をPDF形式で作成してもらうことにします(図5)。

(依頼プロンプト)
「GRANDITを製造業のお客様におすすめしたいので、その利点を上げた提案書をPDFで作成してください。」

(結果)
上記のプロンプトを投げたところ、内容自体はしょぼいながらも図5左のように作成してくれました。ただし、日本語フォントがうまく使えないようで、PDFファイルの作成は失敗してしまいました(図5右上)。

そこでNotoSansJPという日本語フォントをアップロードして、このフォントを使うことを指示したところ、今度はちゃんとPDFファイルを生成できました(図5右下)。この後も出てきますが、PDFや画像、グラフなどの生成に関して日本語フォントを上手く使えないことがあります。そのような場合は、このようにフォントを読み込ませてみてください。

図5：GRANDITの提案書をPDFで作成

(5)グラフの作成

第6回では、グラフや図形を作成できるプラグイン「diagr.am」を使って、総務省統計局が毎月PDFで公開している人口推計データをもとにしたグラフを作成してもらいました。

(依頼プロンプト)
「このPDFファイルのP1下部の表を使って、5月1日現在の年齢層別(5種類)の男女計のグラフを作成してください。」

(結果)
図6はChatGPT-4oが作成してくれたグラフです。日本語フォントの問題もなく、一発できれいなグラフを作ってくれました。グラフ生成では日本語フォントの問題がよく発生するので、上記で示した回避策もわざわざ示してくれています。

図6：統計局のPDFデータをもとにグラフを作成

(6)画像の作成

第10回ではDALL-Eを使った画像生成を試しました。ChatGPT-4oの画像生成はDALL-Eを使っているのでそんなに変わらないはずですが、同じプロンプトでもう1回作成してみましょう。

(依頼プロンプト)
「漫画のイラストを作成してください。
28歳の女性が暖かなベージュ色の服を着て高層マンションのリビングルームにあるソファでくつろいでいます。傍らには2歳になるコーイケルホンディエが寄り添って尻尾を振っています。窓の外は雪が降っています。」

(結果)
図7左の画像が最初に作ってくれた画像です。DALL-Eの得意な実写っぽい画像で、外の雪景色もリアルなイメージです。ただ、今回は漫画っぽいイラストが欲しいので「上記をもう少し漫画っぽいイラストにしてください。」と追加注文したところ、図7右のような画像にたどり着きました。

図7：ChatGPT-4oで漫画のイラストを作成

(7)図版の作成

最後に少し残念なケースも紹介しましょう。手書きで書いた図を良い感じで図版に起こしてくれるととても助かりますね。ということで図8左のような図を書いてスマホで撮影したファイルをアップし、図を作成してと依頼してみました。

(依頼プロンプト)
「この手書きイメージを手本に、できるだけ忠実な図を作成してください。フォントは、このフォントを使うこと。」

(結果)
図8右のような図が作成されてしまいました。う～ん、これでは使えないので、何回かやり取りして手直しさせたのですが、なかなか期待したものを作ってくれません。ChatGPT-4oによる図版起こしは、現時点ではまだ発展途上というところなのでしょう。

図8：手書きイメージをもとにした図版の作成

まとめ

今回は、ChatGPT-4oの特徴を紹介し、マルチモーダルな使い方をいくつか試してみました。

GPT-4oのoはオムニの意味でマルチモーダルの特徴を示す
GPT-4oは回数制限などがあるが、無料ユーザーでも利用可能
GPT-4oはマルチモーダルを売りとして、各プラグインのインターフェース機能を装備した
実はマルチモーダル、リアルタイム検索、リアルタイム会話、多言語対応などはGPT-4でも追加されていたが、GPT-4oでそれらが進化している
GPT-4oのマルチモーダルは発展途上であり、今後ますます充実する
画像やPDF、グラフの生成で日本語フォントの問題が生じたときはフォントファイルを食わせれば良い

生成AIを使いこなすのは、車の運転やスポーツと同じです。理論よりも実践を重視して、とにかく目的を持って使ってみることが上達の早道です。これからは生成AIが大きな役割を果たす社会になりますので、エンジニアのみなさんは、率先してリードしてあげてください。

AI / GPT / 大規模言語モデル / LMM / OpenAI / ChatGPT / GPT-4o

著者

梅田弘之（うめだひろゆき）

この著者の記事一覧この著者の
記事一覧

株式会社システムインテグレータ

東芝、SCSKを経て1995年に株式会社システムインテグレータを設立し、現在、代表取締役会長。2006年東証マザーズ、2014年東証第一部、2019年東証スタンダード上場。

前職で日本最初のERP「ProActive」を作った後に独立し、日本初のECパッケージ「SI Web Shopping」や開発支援ツール「SI Object Browser」を開発。日本初のWebベースのERP「GRANDIT」をコンソーシアム方式で開発し、統合型プロジェクト管理システム「SI Object Browser PM」など、独創的なアイデアの製品を次々とリリース。

主な著書に「Oracle8入門」シリーズや「SQL Server7.0徹底入門」、「実践SQL」などのRDBMS系、「グラス片手にデータベース設計入門」シリーズや「パッケージから学ぶ4大分野の業務知識」などの業務知識系、「実践！プロジェクト管理入門」シリーズ、「統合型プロジェクト管理のススメ」などのプロジェクト管理系、最近ではThink ITの連載をまとめた「これからのSIerの話をしよう」「エンジニアなら知っておきたいAIのキホン」「エンジニアなら知っておきたいシステム設計とドキュメント」「徹底攻略 JSTQB」を刊行。

「日本のITの近代化」と「日本のITを世界に」の2つのテーマをライフワークに掲げている。

連載バックナンバー

AI・人工知能技術解説

第15回