「OpenAI GPTs」と「画像生成AI」
はじめに
前回は、「OpenAI DevDay」で発表された「GPT-4 Turbo」と、リニューアルされた「ChatGPT Plus」を解説しました。今回は「ChatGPT Plus」の「Made by OpenAI」の中にあるGPTsと、最近、急速に進化・発展しつつある画像生成AIについて解説します。
カスタム指示(Custom instructions)
最初に、ChatGPTのCustom instructionsという便利な機能を紹介します。ここに2つの情報を登録しておくと、毎回プロンプトに入れなくても、その情報を考慮してChatGPTが自分好みの回答をしてくれるようになります。以前はChatGPT Plus限定でしたが、2023年8月10日より無料版でも利用可能になりました。
情報登録はとても簡単です。ChatGPTの左下のユーザーアイコンから表示されるメニューの「カスタム指示」をクリックすると図1のようなカスタム指示画面が表示されます。
上の「あなたについて何を知らせれば、より良い応答を提供できると思いますか?」は、ChatGPTが質問者であるあなたについて知るための情報です。ここで「ITに詳しくない」と言えば、ChatGPTはできるだけわかりやすい言葉でITについて教えてくれますし、このように「ITエンジニア」と伝えておけば専門用語を使って詳しい内容を返すことが期待できます。
下の「ChatGPTにどのように応答してほしいですか?」は、ChatGPTの出力形式のリクエストです。ここでは「日本語で」「応答は詳しく」「箇条書きや具体例を示して欲しい」とリクエストしています。
この2つを入力して保存すると、次回からはいちいちプロンプトに上記のような内容を含めなくても、この2つを反映して応答してくれるようになります。例えば、下の登録で「プログラミングの例を示す場合はJavaにする」と指定すると、黙っていても(プロンプトで指定し忘れても)PythonでなくJavaで例文を出してくれるようになります(100%ではないですが)。
GPT Builder
図2はChatGPT Plusの新しいデザインです。左ペインに最近使ったGPTsとプロンプトの履歴が表示されているのがなかなか便利です。これまで「Explorer」と表示されていたところが「検索する」に変更されており、ここをクリックするとMy GPTsやMade by OpenAIが表示されます。
上部のMy GPTsにあるCreate aGPT(GPT Bulder)は、簡単にChatGPTを作れるChatGPT plusの新サービスです。試しに子ども食堂のIT化に関してアドバイスしてくれるGPTを作ってみましょう。ChatGPT Plusの上部にあるCreate a GPTをクリックすると新しいGPTを作成する画面が表示されます。「What would you like to make?」という問いかけに「子ども食堂のためのITアドバイザー」と回答するとMy GPTが作成されます。
Configure(構成)タブに切り替えて図3のような情報を入力します。上部の[+]ボタンを押すとDALL-Eが良い感じのアイコンを作ってくれました。右上の[保存]ボタンで「公開」を選んで確認すると、「子ども食堂ITアドバイザー」というGPTがパッと作成されます。
これで完成です。と言われても、このままだとChatGPTにそれらしい名前とアイコンを付けただけで、子ども食堂について追加学習したわけでもありません。強いて言えば、Instructionsに記載した内容が、上記のカスタム指示(Custom Instructions)の役割を果たしてくれるだけです。
ちゃんと専門特化した機能を発揮するには、下記の設定を使って専門性に役立つコンテキスト情報を与える必要があります。例えばKnowledgeで読み込むファイルやActionsで取得する情報は、子ども食堂に関する白書やLINEの利用方法を解説したドキュメントなど、My GPTの専門性に役立つものになります。
つまりGPTsがオリジナルChatGPTと何が違うかというと、専門性に役立つ情報(ファイルや外部データ)が与えられ、コンテキスト学習に役立てているということなのです(コンテキスト学習については次回説明します。
- Knowledge:外部ファイルの読み込み
- Actions:外部の情報を取得するアクションを設定
- Capabilities:外部の情報を取得する手段(プラグインの利用的な設定)
Made by OpenAI GPTs
Made by OpenAIのところには、OpenAIがGPT Builderで作成したさまざまなGPTが表示されます。執筆時点で提供されているGPTsを表1にまとめたので、この中からいくつか試しながら解説しましょう。
GPTs | サービス内容 | 説明 |
---|---|---|
DALL-E | 画像生成 | 文章で指示された特徴をもとに画像を生成する |
Data Analysis | 分析・グラフ化 | データファイルを読み込んでグラフ化や分析を行う |
ChatGPT Classic | ノーマルGPT-4 | 特定用途用のGPTsではない、ノーマルなGPT-4 |
Game Time | ゲーム説明 | ボードゲームやカードゲームの説明に特化 |
The Negotiator | アイデア壁打ち | 対話を行う中でヒントや気づき、提案を与えてくれる |
Creative Writing coach | 書き方コーチ | 文章を入力すると、より良くするための指摘をする |
Cosmic Dream | 画像生成 | 文章で指示された特徴をもとに画像を生成する |
Tech Support Adviser | 技術サポート | 機器の設定やトラブル対応などIT技術に特化 |
Coloring Book Hero | 塗り絵作成 | 子ども向けの塗り絵を作成してくれる画像生成GPT |
Laudry Buddy | 洗濯・洗浄知識 | 汚れのこと、洗濯のことなどに特化 |
Sous Chef | 料理レシピ提供 | 食材を入力するとレシピを紹介してくれる |
Sticker Whiz | ステッカー生成 | ステッカーやシールをデザインして生成してくれる |
Math Mentor | 数学のメンター | 親が子どもたちに数学を教えるのを手伝う |
Hot Mods | 画像編集 | 画像をアップロードして編集できる |
Mocktail Mixologist | モクテルレシピ | 材料をもとにモクテル(ノンアル)のレシピを作成 |
genz 4 meme | 第4世代ミーム | ミーム(最新流行語)や専門用語を教えてくれる |
DALL-E
DALL-Eについては前回も解説しましたが、「こんな感じの画像を作って」と指示すると、その通りに画像を描いてくれる画像生成AIです。DALL-Eにはテキストだけでなく画像も入力できます。前回は「サンタクロースがソリに乗ってやってくるイラストを森と海と岡と構想ビルの4つの場所に分けて作ってください」というテキストを入力して8枚のイラストを生成してもらいました。今回は画像を入力してみましょう。
図4は、DALL-Eに画像を入力して似たようなイラストを生成してもらったものです。雰囲気は似ていますが、元の画像とはだいぶ違いますね。今のところDALL-Eは画像の編集(Edit)はできないので、入力された画像をいったん画像認識(Image Recognition)により解析し、読み取ったテキストをもとに画像を生成しています。
試しに「この画像はどのような光景ですか?」というプロンプトで尋ねてみると、AIがどのように画像を解析しているか知ることができます。「ビーチから見たオーロラ」「中央には満月」「光が界面に反射」「緑色の帯」「山々が背景に」というように読み取っており、この解釈に沿って忠実に画像が生成されていることがわかりますね。この関係は画像生成AIを使いこなすヒントになります。プロンプトの描写が具体的であればあるほど、画像生成AIは指示通りの画像を作成してくれるのです。
Data Analysis
Data AnalysisはExcelやGoogle Spreadsheetなどのデータファイルを読み込んでグラフを作成したり、データを分析したりするGPTです。データを読み取って概要を作成したり、統計分析したりもできますが、今回はシンプルなグラフを作成してもらうことにします。
総務省統計局のホームページに「各月1日現在人口」という人口統計表がPDFファイルで毎月公開されています。図5の左側は、令和5年11月報PDFのP1に書かれている「年齢(5歳階級)、男女別人口」の表です。右側は、このファイルをドラッグ入力して「このPDFのP1の表を用いて棒グラフを作成してください。X軸は総数、Y軸軸は2023年11月1日現在(概算値)の男女計の人口(単位 万人)です。」というプロントを投げて、Data Analysisにグラフを作成してもらったものです。
良い感じでPDFの中から適切なデータを抽出してグラフにしてくれていますね。ただし、グラフのタイトルや軸表記が文字化けしていますし、「言語は日本語で」と指定しないと英語のグラフや回答になったりと、日本語対応部分はまだ完全とは言えません。また、PDFをうまく読み取るときと失敗するときがあったりして、毎回、同じグラフを生成してくれるという安定性もありません。安定性がないのは生成AIに共通する課題ですが、人間にしても同じ質問をした場合に回答が微妙に変わるのが普通なので一緒かなと思えます。
ChatGPT PlusをChatGPT3.5モードにして「あなたはいつまでの情報を知っていますか」と聞くと「私の知識は2022年1月までのものです。」という回答が返ってきます。2021年9月までの学習データだと思っていたら、いつの間にか4ヶ月分増えていました。
続いてChatGPT-4モードに切り替えて同じ質問をしたところ、今度は「私のトレーニングデータは2023年4月までの情報に基づいています。」と回答するじゃないですか。こちらもいつの間にかGPT-4 Turboと同じ2023年4月までになっていたのです。
しかし、試しに2022年7月のエリザベス女王死去や2023年3月のWORLD BASEBALL CLASSICのことを聞いても「As of my last training update in April 2023, there was no record of 〜」という感じで知らぬ存ぜぬでした。「2023年4月までのデータで学習した」と本人は言いますが、今のところ額面通りに捉えないほうが良さそうです。
なお、ChatGPT Plusは最新情報に関しては自動的に裏でBing検索を利用するので、普通にエリザベス女王やWBCについて質問すると正解が返ってきます。そのため上記のプロンプトには「Bing検索しないで、学習データの中からお答えください。」という一文を加えています。
GameTime
GameTimeは、ボードゲームやカードゲームなどについて教えてくれるGPTです。ヒントとして「このボードゲームのセットアップ方法は?」「私たちは(ゲームの)ルールについて議論していますが、誰が正しいですか?」「このゲームの遊び方を教えて!」「(このゲームには)何かバリエーションがありますか?」などが例示されています。
画像も読めるようなので「カタンの開拓者」たちの画像をアップロードして遊び方を聞いてみたら、図6右側のように教えてくれました。この程度ならChatGPT Classicに聞いても教えてくれるので違いがよくわからないのですが、使い込んでみるとゲームに特化したという真価が見えてくるのでしょうか。
ちなみに「夫婦2人で楽しめるボードゲームのおすすめを5つ教えて」とGame TimeとChatGPT Plusに聞いたところ、表2のように5つ目がハイブとカルカソンヌで違うだけでした(ネタ元はそんなに変わらない感じです)。余談ですが、興味が湧いたのでamazonでPatchworkをポチりました。今晩届いたらGame Timeにルールを教えてもらいながら遊んでみようと思います。
Game Time | ChatGPT Plus |
---|---|
パッチワーク(Patchwork): | パッチワーク(Patchwork): |
ジャイプル(Jaipur): | ジャイプル(Jaipur): |
ロストシティ(Lost Cities): | ロストシティ(Lost Cities): |
セブンワンダーズ:デュエル(7 Wonders Duel): | セブンワンダーズ:デュエル(7 Wonders Duel): |
ハイブ(Hive): | カルカソンヌ(Carcassonne): |
The Negotiator
The Negotiatorは、意見やアイデアをまとめたりする際に壁打ち相手になってくれる仮想トレーナーです。ヒントとして「給与交渉のロールプレイをしてくれますか?」「私がBATNA(代替え案)を見つけ出すのに付き合って」「車を買う交渉の準備をさせて」「交渉の際はどのように感情をコントロールすれば良いですか?」などが例示されています。
株主総会の想定問答やプレゼンの質疑応答など幅広い用途で使えそうなGPTですが、ここではデートの予行練習をする初心な男性をペルソナにしてみました(図7)。相手役としての応答だけでなく、その後にどのような会話をするかアドバイスくれるところが専用GPTらしいところですね。一般にNegotiatorは交渉人と訳されますが、そんな堅苦しいイメージではなく、カーナビや家庭用ロボットに仕込んで話し相手になってもらうのも良いと思います。
Creative Writing Coach
Creative Writing Coachは、あなたの書いた文章を読んでライティングスキルを向上させるためのフィードバックを返す書き方コーチです。私の文章で試してみましょう。図8は前回(第9回)の原稿(Wordファイル)をアップロードして「この文章を読んで書き方を日本語で指導してください」と依頼した際のコーチの回答です。
最初に良い点を挙げ、そのあとに改善点を示し、最後に総評を述べてくれています。私たちはともすると指摘だけをしてしまいがちなので、最初に褒めるところを見つける姿勢は見習いたいものです。ドキュメントを作成するたびにコーチしてもらうのを習慣にすると、みるみるライティングスキルが高まりそうですね。
Cosmic Dream
Cosmic DreamはDALL-Eと同じOpenAIの画像生成AIで、サイケデリック(幻想的・空想的)なアートを得意としています。
画像生成AI
Cosmic Dreamが出たところで画像生成AIについてまとめてみましょう。画像生成(text to image AI)は次々と誕生しており、それぞれが進化し続けています。すでに非常に多くの画像生成AIがありますが、その中から上記の2つに加えて無料で利用できるものを6つほど表3にピックアップしました。
画像生成AI | 提供 | 備考 |
---|---|---|
DALL-E | OpenAI | |
Cosmic Dream | OpenAI | |
Bing Image Creator | Microsoft | DALL-E3利用 |
Adobe Firefly | Adobe | Adobe Stockの画像を活用 |
Canva | Canva Pty | |
Dreamsutudio | Stability AI | Stable Diffusion利用、日本語非対応 |
SeaArt | STAR CLUSTER PTE | |
Picsart | Picsart |
画像なので論より証拠、実際に生成してもらった画像を見比べてみましょう。図9は表3の画像生成AIに下記のプロンプトでイラストを作成してもらったものです。複数生成された場合は私が一番良さそうなものを選んでいます。
漫画のイラストを作成してください。
28歳のきれいな女性が暖かなベージュ色の服を着て高層マンションのリビングルームにあるソファでくつろいでいます。傍らには2歳になるコーイケルホンディエが寄り添って尻尾を振っています。窓の外は雪が降っています。
DALL-E3とCosmic Dream
DALL-E3とCosmic DreamはどちらもOpenAIが提供するGPTsだけあって、よく似ています。今回はイラストなので若干ニュアンスが異なりますが、写真の場合はかなり似た画像だと感じます。ちなみにこの2つは「イラスト」と指定しても写真っぽいものが作成されるので、イラストが欲しい場合は「漫画イラスト」と指定するのがコツです。Cosmic DreamはDALL-Eに比べて幻想的な画像が得意と言われていますが、この例のようなノーマルな画像もいけますね。
Bing Image Creator
Bing Image Creatorは、マイクロソフトがEdgeのBingで提供する画像生成AIです。エンジンにDALL-E3を使っているので似たイメージになるのですが、今回はテキスト解釈部分で差が出ました。実は最初のプロンプトは「寄り添っています」でした。しかし、大谷翔平さんが飼っているコーイケルホンディエを知らないらしく、何度やっても2歳の子供になってしまうのです(図はプロンプトを「尻尾を振っています」に変えてようやく子犬になったものです)。
Adbe firefly
Adbe fireflyは、Photoshopやillustratorなどのサービスを提供するAdobeの画像生成AIです。業界トップクラスであるAdobe Stockから利用許可されている画像を使っているため、著作権トラブルの心配がないメリットがあります。このイラストの作風は、他の作品よりも漫画っぽい感じになっていて面白いです。
Canva
CanvaはオーストラリアのCanva Ptyが提供するデザインプラットフォームです。ビジュアルなビジネス文書を作成したり画像や動画を編集できる総合デザインツールで、ブラウザやアプリで利用できます。たくさんある機能の1つとして画像生成AIのMagic Media機能が搭載されました。こちらもコーイケルホンディエを知らないようでしたが、画像だけでなく短い動画を簡単に生成できる機能もあります。
なお、「きれいな女性」という文言が「当社のポリシーに沿わない可能性がある」ということで拒否されるので、実は“きれいな”という文言をカットしています。
図7の画像には「犬がいない」「犬種が違う」「部屋の中に雪が降っている」「漫画イラストでなく実写っぽい」など、プロンプト通りでないものもあります。しかし、この画像だけを見て生成AIの出来不出来を判断するのは早計です。同じ生成AIに同じプロンプトを再発行しても、そのたびに生成される画像は毎回異なり、犬が子どもになったり、ちゃんと雪が外に降ったりとばらつきが生じます。
通常、デザイナーさんに依頼する場合、何枚か作成してくれた案に「ここをもう少しこうして」という感じで注文を付けます。必ずしも一発でイメージ通りのものが上がってくるわけではないですが、相手が人なので何度も依頼しにくい面もあります。AIならば遠慮なく繰り返し指示して自分のイメージに近づけられるのが便利だと感じます。この先、画像生成Aが進化を続けた結果、デザイナーの役割もプロンプトデザイナーに変わってゆくのでしょうか。
Dream Studio
Dream Studioは、今回紹介したサービスの中では唯一日本語プロンプトに対応していませんでした。そのため上記のプロンプトを英語に翻訳してから投げています。実は、画像生成AIは世界中で急速に増え続けており、日本語プロンプトに対応していないものも多くあります。しかし、入力したプロンプトを英語に翻訳してから投入するだけなので、早晩、各サービスともマルチ言語対応になってゆくでしょう。
SeaArt
SeaArtは、シンガポールにある創業2年半のスタートアップ、STAR CLUSTER PTEが提供する生成AIです。日本語対応しており、クオリティの高い画像を生成するということで人気があります。今回のプロンプトにおいては“漫画のイラスト”や“コーイケルホンディエが寄り添って”という指示がスルーされていますが、プロンプトを工夫すれば目指すゴールに近づけます。こちらも生成された画像をもとに動画を生成することもできます(ショートバージョンとロングバージョンを指定可能)。
Picsart
Picsartは2011年に米国フロリダで設立されたPicsartの画像編集ツールです。アプリですがブラウザからでも利用可能で、機能の1つとしてAI画像ジェネレータが搭載されました。SeaArtと同じく漫画のイラストっぽくなく、犬もいませんが窓の外の雪景色は良い感じですね。
おわりに
今回は、以下のような内容について学習しました。
- カスタム指示を設定すると、ChatGPTが自分の立場を考慮して自分好みの出力をしてくれる
- GPT Builderを使ってMy GPTsを作成できるが、専門情報を付与しているだけなのでそれほど差がない。
- ChatGPT PlusのMade by OpenAI GPTsに多くの専用GPTが提供されている
- ChatGPT Plusは学習データを2023年4月までに拡張したと言うが、その割には新しい知識に疎い
- 画像生成AIには画像をimage to textでテキスト化し、それをtext to imageで画像にするタイプと画像を直接Editできるタイプがある
- Made by OpenAI GPTsは◯◯に特化したGPTであるが、ChatGPT Classicでも実現できるケースが多い
- DALL-E3やCosmic Dreamにイラストを作成してもらう場合は、イラストでなく漫画イラストと指定するのがコツ
- 画像生成AIは画像生成能力とは別にプロンプトをきちんと解釈できるかもポイント
- 画像生成AIは同じプロンプトを投げても生成される画像が毎回異なり、出来不出来もばらつく
次回からは、現在、もっとも注目されている「自社データを学習させる方法」について解説します。生成AIに特定業務を行わせるのにプロンプトエンジニアリングだけでは限界があるので、ファインチューニングやエンべディングなどの手法が用いられています。