「OpenAI GPTs」と「画像生成AI」

2024年1月10日(水)
梅田 弘之(うめだ ひろゆき)
第10回は、ChatGPT PlusのMade by OpenAIの中にあるGPTsと、最近、急速に進化・発展しつつある画像生成AIについて、具体例をもとに解説します。

はじめに

前回は、「OpenAI DevDay」で発表された「GPT-4 Turbo」と、リニューアルされた「ChatGPT Plus」を解説しました。今回は「ChatGPT Plus」の「Made by OpenAI」の中にあるGPTsと、最近、急速に進化・発展しつつある画像生成AIについて解説します。

カスタム指示(Custom instructions)

最初に、ChatGPTのCustom instructionsという便利な機能を紹介します。ここに2つの情報を登録しておくと、毎回プロンプトに入れなくても、その情報を考慮してChatGPTが自分好みの回答をしてくれるようになります。以前はChatGPT Plus限定でしたが、2023年8月10日より無料版でも利用可能になりました。

情報登録はとても簡単です。ChatGPTの左下のユーザーアイコンから表示されるメニューの「カスタム指示」をクリックすると図1のようなカスタム指示画面が表示されます。

カスタム指示(Custom Instructions)

図1:カスタム指示(Custom Instructions)

上の「あなたについて何を知らせれば、より良い応答を提供できると思いますか?」は、ChatGPTが質問者であるあなたについて知るための情報です。ここで「ITに詳しくない」と言えば、ChatGPTはできるだけわかりやすい言葉でITについて教えてくれますし、このように「ITエンジニア」と伝えておけば専門用語を使って詳しい内容を返すことが期待できます。

下の「ChatGPTにどのように応答してほしいですか?」は、ChatGPTの出力形式のリクエストです。ここでは「日本語で」「応答は詳しく」「箇条書きや具体例を示して欲しい」とリクエストしています。

この2つを入力して保存すると、次回からはいちいちプロンプトに上記のような内容を含めなくても、この2つを反映して応答してくれるようになります。例えば、下の登録で「プログラミングの例を示す場合はJavaにする」と指定すると、黙っていても(プロンプトで指定し忘れても)PythonでなくJavaで例文を出してくれるようになります(100%ではないですが)。

GPT Builder

図2はChatGPT Plusの新しいデザインです。左ペインに最近使ったGPTsとプロンプトの履歴が表示されているのがなかなか便利です。これまで「Explorer」と表示されていたところが「検索する」に変更されており、ここをクリックするとMy GPTsやMade by OpenAIが表示されます。

ChatGPT PlusのExplorer(検索する)

図2:ChatGPT PlusのExplorer(検索する)

上部のMy GPTsにあるCreate aGPT(GPT Bulder)は、簡単にChatGPTを作れるChatGPT plusの新サービスです。試しに子ども食堂のIT化に関してアドバイスしてくれるGPTを作ってみましょう。ChatGPT Plusの上部にあるCreate a GPTをクリックすると新しいGPTを作成する画面が表示されます。「What would you like to make?」という問いかけに「子ども食堂のためのITアドバイザー」と回答するとMy GPTが作成されます。

Configure(構成)タブに切り替えて図3のような情報を入力します。上部の[+]ボタンを押すとDALL-Eが良い感じのアイコンを作ってくれました。右上の[保存]ボタンで「公開」を選んで確認すると、「子ども食堂ITアドバイザー」というGPTがパッと作成されます。

GPT BuilderでオリジナルGPTを作成

図3:GPT BuilderでオリジナルGPTを作成

これで完成です。と言われても、このままだとChatGPTにそれらしい名前とアイコンを付けただけで、子ども食堂について追加学習したわけでもありません。強いて言えば、Instructionsに記載した内容が、上記のカスタム指示(Custom Instructions)の役割を果たしてくれるだけです。

ちゃんと専門特化した機能を発揮するには、下記の設定を使って専門性に役立つコンテキスト情報を与える必要があります。例えばKnowledgeで読み込むファイルやActionsで取得する情報は、子ども食堂に関する白書やLINEの利用方法を解説したドキュメントなど、My GPTの専門性に役立つものになります。

つまりGPTsがオリジナルChatGPTと何が違うかというと、専門性に役立つ情報(ファイルや外部データ)が与えられ、コンテキスト学習に役立てているということなのです(コンテキスト学習については次回説明します。

  • Knowledge:外部ファイルの読み込み
  • Actions:外部の情報を取得するアクションを設定
  • Capabilities:外部の情報を取得する手段(プラグインの利用的な設定)

Made by OpenAI GPTs

Made by OpenAIのところには、OpenAIがGPT Builderで作成したさまざまなGPTが表示されます。執筆時点で提供されているGPTsを表1にまとめたので、この中からいくつか試しながら解説しましょう。

表1:Made by OpenAI GPTs

GPTs サービス内容 説明
DALL-E 画像生成 文章で指示された特徴をもとに画像を生成する
Data Analysis 分析・グラフ化 データファイルを読み込んでグラフ化や分析を行う
ChatGPT Classic ノーマルGPT-4 特定用途用のGPTsではない、ノーマルなGPT-4
Game Time ゲーム説明 ボードゲームやカードゲームの説明に特化
The Negotiator アイデア壁打ち 対話を行う中でヒントや気づき、提案を与えてくれる
Creative Writing coach 書き方コーチ 文章を入力すると、より良くするための指摘をする
Cosmic Dream 画像生成 文章で指示された特徴をもとに画像を生成する
Tech Support Adviser 技術サポート 機器の設定やトラブル対応などIT技術に特化
Coloring Book Hero 塗り絵作成 子ども向けの塗り絵を作成してくれる画像生成GPT
Laudry Buddy 洗濯・洗浄知識 汚れのこと、洗濯のことなどに特化
Sous Chef 料理レシピ提供 食材を入力するとレシピを紹介してくれる
Sticker Whiz ステッカー生成 ステッカーやシールをデザインして生成してくれる
Math Mentor 数学のメンター 親が子どもたちに数学を教えるのを手伝う
Hot Mods 画像編集 画像をアップロードして編集できる
Mocktail Mixologist モクテルレシピ 材料をもとにモクテル(ノンアル)のレシピを作成
genz 4 meme 第4世代ミーム ミーム(最新流行語)や専門用語を教えてくれる

DALL-E

DALL-Eについては前回も解説しましたが、「こんな感じの画像を作って」と指示すると、その通りに画像を描いてくれる画像生成AIです。DALL-Eにはテキストだけでなく画像も入力できます。前回は「サンタクロースがソリに乗ってやってくるイラストを森と海と岡と構想ビルの4つの場所に分けて作ってください」というテキストを入力して8枚のイラストを生成してもらいました。今回は画像を入力してみましょう。

図4は、DALL-Eに画像を入力して似たようなイラストを生成してもらったものです。雰囲気は似ていますが、元の画像とはだいぶ違いますね。今のところDALL-Eは画像の編集(Edit)はできないので、入力された画像をいったん画像認識(Image Recognition)により解析し、読み取ったテキストをもとに画像を生成しています。

DALL-Eに画像を入力して画像を生成

図4:DALL-Eに画像を入力して画像を生成

試しに「この画像はどのような光景ですか?」というプロンプトで尋ねてみると、AIがどのように画像を解析しているか知ることができます。「ビーチから見たオーロラ」「中央には満月」「光が界面に反射」「緑色の帯」「山々が背景に」というように読み取っており、この解釈に沿って忠実に画像が生成されていることがわかりますね。この関係は画像生成AIを使いこなすヒントになります。プロンプトの描写が具体的であればあるほど、画像生成AIは指示通りの画像を作成してくれるのです。

Data Analysis

Data AnalysisはExcelやGoogle Spreadsheetなどのデータファイルを読み込んでグラフを作成したり、データを分析したりするGPTです。データを読み取って概要を作成したり、統計分析したりもできますが、今回はシンプルなグラフを作成してもらうことにします。

総務省統計局のホームページに「各月1日現在人口」という人口統計表がPDFファイルで毎月公開されています。図5の左側は、令和5年11月報PDFのP1に書かれている「年齢(5歳階級)、男女別人口」の表です。右側は、このファイルをドラッグ入力して「このPDFのP1の表を用いて棒グラフを作成してください。X軸は総数、Y軸軸は2023年11月1日現在(概算値)の男女計の人口(単位 万人)です。」というプロントを投げて、Data Analysisにグラフを作成してもらったものです。

Data Analysisを使ってグラフを作成

図5:Data Analysisを使ってグラフを作成
【出典】人口推計2023年(令和5年) 総務省統計局

良い感じでPDFの中から適切なデータを抽出してグラフにしてくれていますね。ただし、グラフのタイトルや軸表記が文字化けしていますし、「言語は日本語で」と指定しないと英語のグラフや回答になったりと、日本語対応部分はまだ完全とは言えません。また、PDFをうまく読み取るときと失敗するときがあったりして、毎回、同じグラフを生成してくれるという安定性もありません。安定性がないのは生成AIに共通する課題ですが、人間にしても同じ質問をした場合に回答が微妙に変わるのが普通なので一緒かなと思えます。

ChatGPT Plusの学習データはいつまで?

ChatGPT PlusをChatGPT3.5モードにして「あなたはいつまでの情報を知っていますか」と聞くと「私の知識は2022年1月までのものです。」という回答が返ってきます。2021年9月までの学習データだと思っていたら、いつの間にか4ヶ月分増えていました。

続いてChatGPT-4モードに切り替えて同じ質問をしたところ、今度は「私のトレーニングデータは2023年4月までの情報に基づいています。」と回答するじゃないですか。こちらもいつの間にかGPT-4 Turboと同じ2023年4月までになっていたのです。

しかし、試しに2022年7月のエリザベス女王死去や2023年3月のWORLD BASEBALL CLASSICのことを聞いても「As of my last training update in April 2023, there was no record of 〜」という感じで知らぬ存ぜぬでした。「2023年4月までのデータで学習した」と本人は言いますが、今のところ額面通りに捉えないほうが良さそうです。

なお、ChatGPT Plusは最新情報に関しては自動的に裏でBing検索を利用するので、普通にエリザベス女王やWBCについて質問すると正解が返ってきます。そのため上記のプロンプトには「Bing検索しないで、学習データの中からお答えください。」という一文を加えています。

GameTime

GameTimeは、ボードゲームやカードゲームなどについて教えてくれるGPTです。ヒントとして「このボードゲームのセットアップ方法は?」「私たちは(ゲームの)ルールについて議論していますが、誰が正しいですか?」「このゲームの遊び方を教えて!」「(このゲームには)何かバリエーションがありますか?」などが例示されています。

画像も読めるようなので「カタンの開拓者」たちの画像をアップロードして遊び方を聞いてみたら、図6右側のように教えてくれました。この程度ならChatGPT Classicに聞いても教えてくれるので違いがよくわからないのですが、使い込んでみるとゲームに特化したという真価が見えてくるのでしょうか。

Game Timeに「カタン」の遊び方を聞く

図6:Game Timeに「カタン」の遊び方を聞く

ちなみに「夫婦2人で楽しめるボードゲームのおすすめを5つ教えて」とGame TimeとChatGPT Plusに聞いたところ、表2のように5つ目がハイブとカルカソンヌで違うだけでした(ネタ元はそんなに変わらない感じです)。余談ですが、興味が湧いたのでamazonでPatchworkをポチりました。今晩届いたらGame Timeにルールを教えてもらいながら遊んでみようと思います。

表2:夫婦2人で遊ぶボードゲームのおすすめ5つ

Game Time ChatGPT Plus
パッチワーク(Patchwork): パッチワーク(Patchwork):
ジャイプル(Jaipur): ジャイプル(Jaipur):
ロストシティ(Lost Cities): ロストシティ(Lost Cities):
セブンワンダーズ:デュエル(7 Wonders Duel): セブンワンダーズ:デュエル(7 Wonders Duel):
ハイブ(Hive): カルカソンヌ(Carcassonne):

The Negotiator

The Negotiatorは、意見やアイデアをまとめたりする際に壁打ち相手になってくれる仮想トレーナーです。ヒントとして「給与交渉のロールプレイをしてくれますか?」「私がBATNA(代替え案)を見つけ出すのに付き合って」「車を買う交渉の準備をさせて」「交渉の際はどのように感情をコントロールすれば良いですか?」などが例示されています。

株主総会の想定問答やプレゼンの質疑応答など幅広い用途で使えそうなGPTですが、ここではデートの予行練習をする初心な男性をペルソナにしてみました(図7)。相手役としての応答だけでなく、その後にどのような会話をするかアドバイスくれるところが専用GPTらしいところですね。一般にNegotiatorは交渉人と訳されますが、そんな堅苦しいイメージではなく、カーナビや家庭用ロボットに仕込んで話し相手になってもらうのも良いと思います。

The Negotiatorを相手にデートの予行練習

図7:The Negotiatorを相手にデートの予行練習

Creative Writing Coach

Creative Writing Coachは、あなたの書いた文章を読んでライティングスキルを向上させるためのフィードバックを返す書き方コーチです。私の文章で試してみましょう。図8は前回(第9回)の原稿(Wordファイル)をアップロードして「この文章を読んで書き方を日本語で指導してください」と依頼した際のコーチの回答です。

最初に良い点を挙げ、そのあとに改善点を示し、最後に総評を述べてくれています。私たちはともすると指摘だけをしてしまいがちなので、最初に褒めるところを見つける姿勢は見習いたいものです。ドキュメントを作成するたびにコーチしてもらうのを習慣にすると、みるみるライティングスキルが高まりそうですね。

前回の原稿をCreative Writing Coachに指導してもらう

図8:前回の原稿をCreative Writing Coachに指導してもらう

Cosmic Dream

Cosmic DreamはDALL-Eと同じOpenAIの画像生成AIで、サイケデリック(幻想的・空想的)なアートを得意としています。

画像生成AI

Cosmic Dreamが出たところで画像生成AIについてまとめてみましょう。画像生成(text to image AI)は次々と誕生しており、それぞれが進化し続けています。すでに非常に多くの画像生成AIがありますが、その中から上記の2つに加えて無料で利用できるものを6つほど表3にピックアップしました。

表3:主な画像生成AI

画像生成AI 提供 備考
DALL-E OpenAI
Cosmic Dream OpenAI
Bing Image Creator Microsoft DALL-E3利用
Adobe Firefly Adobe Adobe Stockの画像を活用
Canva Canva Pty
Dreamsutudio Stability AI Stable Diffusion利用、日本語非対応
SeaArt STAR CLUSTER PTE
Picsart Picsart

画像なので論より証拠、実際に生成してもらった画像を見比べてみましょう。図9は表3の画像生成AIに下記のプロンプトでイラストを作成してもらったものです。複数生成された場合は私が一番良さそうなものを選んでいます。

漫画のイラストを作成してください。
28歳のきれいな女性が暖かなベージュ色の服を着て高層マンションのリビングルームにあるソファでくつろいでいます。傍らには2歳になるコーイケルホンディエが寄り添って尻尾を振っています。窓の外は雪が降っています。

画像生成AIで生成した画像の比較

図9:画像生成AIで生成した画像の比較

DALL-E3とCosmic Dream

DALL-E3とCosmic DreamはどちらもOpenAIが提供するGPTsだけあって、よく似ています。今回はイラストなので若干ニュアンスが異なりますが、写真の場合はかなり似た画像だと感じます。ちなみにこの2つは「イラスト」と指定しても写真っぽいものが作成されるので、イラストが欲しい場合は「漫画イラスト」と指定するのがコツです。Cosmic DreamはDALL-Eに比べて幻想的な画像が得意と言われていますが、この例のようなノーマルな画像もいけますね。

Bing Image Creator

Bing Image Creatorは、マイクロソフトがEdgeのBingで提供する画像生成AIです。エンジンにDALL-E3を使っているので似たイメージになるのですが、今回はテキスト解釈部分で差が出ました。実は最初のプロンプトは「寄り添っています」でした。しかし、大谷翔平さんが飼っているコーイケルホンディエを知らないらしく、何度やっても2歳の子供になってしまうのです(図はプロンプトを「尻尾を振っています」に変えてようやく子犬になったものです)。

Adbe firefly

Adbe fireflyは、Photoshopやillustratorなどのサービスを提供するAdobeの画像生成AIです。業界トップクラスであるAdobe Stockから利用許可されている画像を使っているため、著作権トラブルの心配がないメリットがあります。このイラストの作風は、他の作品よりも漫画っぽい感じになっていて面白いです。

Canva

CanvaはオーストラリアのCanva Ptyが提供するデザインプラットフォームです。ビジュアルなビジネス文書を作成したり画像や動画を編集できる総合デザインツールで、ブラウザやアプリで利用できます。たくさんある機能の1つとして画像生成AIのMagic Media機能が搭載されました。こちらもコーイケルホンディエを知らないようでしたが、画像だけでなく短い動画を簡単に生成できる機能もあります。

なお、「きれいな女性」という文言が「当社のポリシーに沿わない可能性がある」ということで拒否されるので、実は“きれいな”という文言をカットしています。

出来不出来のばらつき

図7の画像には「犬がいない」「犬種が違う」「部屋の中に雪が降っている」「漫画イラストでなく実写っぽい」など、プロンプト通りでないものもあります。しかし、この画像だけを見て生成AIの出来不出来を判断するのは早計です。同じ生成AIに同じプロンプトを再発行しても、そのたびに生成される画像は毎回異なり、犬が子どもになったり、ちゃんと雪が外に降ったりとばらつきが生じます。

通常、デザイナーさんに依頼する場合、何枚か作成してくれた案に「ここをもう少しこうして」という感じで注文を付けます。必ずしも一発でイメージ通りのものが上がってくるわけではないですが、相手が人なので何度も依頼しにくい面もあります。AIならば遠慮なく繰り返し指示して自分のイメージに近づけられるのが便利だと感じます。この先、画像生成Aが進化を続けた結果、デザイナーの役割もプロンプトデザイナーに変わってゆくのでしょうか。

Dream Studio

Dream Studioは、今回紹介したサービスの中では唯一日本語プロンプトに対応していませんでした。そのため上記のプロンプトを英語に翻訳してから投げています。実は、画像生成AIは世界中で急速に増え続けており、日本語プロンプトに対応していないものも多くあります。しかし、入力したプロンプトを英語に翻訳してから投入するだけなので、早晩、各サービスともマルチ言語対応になってゆくでしょう。

SeaArt

SeaArtは、シンガポールにある創業2年半のスタートアップ、STAR CLUSTER PTEが提供する生成AIです。日本語対応しており、クオリティの高い画像を生成するということで人気があります。今回のプロンプトにおいては“漫画のイラスト”や“コーイケルホンディエが寄り添って”という指示がスルーされていますが、プロンプトを工夫すれば目指すゴールに近づけます。こちらも生成された画像をもとに動画を生成することもできます(ショートバージョンとロングバージョンを指定可能)。

Picsart

Picsartは2011年に米国フロリダで設立されたPicsartの画像編集ツールです。アプリですがブラウザからでも利用可能で、機能の1つとしてAI画像ジェネレータが搭載されました。SeaArtと同じく漫画のイラストっぽくなく、犬もいませんが窓の外の雪景色は良い感じですね。

おわりに

今回は、以下のような内容について学習しました。

  • カスタム指示を設定すると、ChatGPTが自分の立場を考慮して自分好みの出力をしてくれる
  • GPT Builderを使ってMy GPTsを作成できるが、専門情報を付与しているだけなのでそれほど差がない。
  • ChatGPT PlusのMade by OpenAI GPTsに多くの専用GPTが提供されている
  • ChatGPT Plusは学習データを2023年4月までに拡張したと言うが、その割には新しい知識に疎い
  • 画像生成AIには画像をimage to textでテキスト化し、それをtext to imageで画像にするタイプと画像を直接Editできるタイプがある
  • Made by OpenAI GPTsは◯◯に特化したGPTであるが、ChatGPT Classicでも実現できるケースが多い
  • DALL-E3やCosmic Dreamにイラストを作成してもらう場合は、イラストでなく漫画イラストと指定するのがコツ
  • 画像生成AIは画像生成能力とは別にプロンプトをきちんと解釈できるかもポイント
  • 画像生成AIは同じプロンプトを投げても生成される画像が毎回異なり、出来不出来もばらつく

次回からは、現在、もっとも注目されている「自社データを学習させる方法」について解説します。生成AIに特定業務を行わせるのにプロンプトエンジニアリングだけでは限界があるので、ファインチューニングやエンべディングなどの手法が用いられています。

著者
梅田 弘之(うめだ ひろゆき)
株式会社システムインテグレータ

東芝、SCSKを経て1995年に株式会社システムインテグレータを設立し、現在、代表取締役社長。2006年東証マザーズ、2014年東証第一部、2019年東証スタンダード上場。

前職で日本最初のERP「ProActive」を作った後に独立し、日本初のECパッケージ「SI Web Shopping」や開発支援ツール「SI Object Browser」を開発。日本初のWebベースのERP「GRANDIT」をコンソーシアム方式で開発し、統合型プロジェクト管理システム「SI Object Browser PM」など、独創的なアイデアの製品を次々とリリース。

主な著書に「Oracle8入門」シリーズや「SQL Server7.0徹底入門」、「実践SQL」などのRDBMS系、「グラス片手にデータベース設計入門」シリーズや「パッケージから学ぶ4大分野の業務知識」などの業務知識系、「実践!プロジェクト管理入門」シリーズ、「統合型プロジェクト管理のススメ」などのプロジェクト管理系、最近ではThink ITの連載をまとめた「これからのSIerの話をしよう」「エンジニアなら知っておきたいAIのキホン」「エンジニアなら知っておきたい システム設計とドキュメント」を刊行。

「日本のITの近代化」と「日本のITを世界に」の2つのテーマをライフワークに掲げている。

連載バックナンバー

AI・人工知能技術解説
第15回

新登場した「ChatGPT-4o」の特徴とマルチモーダルな使い方

2024/6/18
前回で最終回の本連載でしたが、「ChatGPT-4o」の新登場を受けて、急遽第15回としてChatGPT-4oの特徴とマルチモーダルな使い方を解説します。
AI・人工知能技術解説
第14回

エンジニアの業務を効率化する生成AIによる「プログラミング支援」

2024/5/14
第14回は、コードを書く、バグを修正する、テストコードを作成するといった、生成AIによる「プログラミング支援」について解説します。
AI・人工知能技術解説
第13回

ファインチューニングの課題を解決する「RAG」と「エンべディング」

2024/4/3
第13回は、企業データを追加学習する方法の1つであるファインチューニングについて、その課題を解決する「RAG」と「エンべディング」を解説します。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています