ChatGPTのプラグイン【前半】
はじめに
ChatGPTは優れた大規模言語モデルですが、現時点では単体でPDFやWebページ、動画などのコンテンツにアクセスできません。しかし、有料サービスChatGPT Plusにはこれを可能とする便利なプラグインが続々と登場しており、ChatGPTの利用方法が大きく広がっています。
今回はChatGPT Plugin storeにある16個の人気プラグインのうち、主にコンテンツへのアクセスをサポートするものを7つ紹介します。また、ChatGPTとプラグインがどのような関係にあるかも理解しましょう。
ChatGPTのWeb Browsing機能
OpenAIは、2023年3月23日にプラグイン、5月23日にWebブラウジングという2つの機能を有料サービス(ChatGPT Plus)ユーザーにベータ版をリリースしました。ChatGPT PlusのGPT-4タブを開くと、図1のようにDefault(通常モード)のほかに、Bing経由でWeb情報にアクセスできる「Browse with Bing」と「Plugins」という利用モードを選択できるようになったのです。
「Browse with Bing」は、チャット検索の際にBingを使ってWebページの最新情報にアクセスするものです。前回で解説したBingのプロメテウス(Prometheus)のように、ChatGPTが2021年9月以降の情報も使って回答してくれるモードです。しかし、ある問題が生じたためOpenAIは7月3日にこのサービスを停止し、現在(2023年8月末)は表示されていません。
ある問題とは、ChatGPTのブラウジング機能がpaywalled content(有料会員のみアクセスできる保護されたコンテンツ)の情報を表示してしまったことです。これに気づいたユーザーが6月末にTwitterで知らせてくれたことで発覚し、現在、OpenAIはこの問題を解決してブラウジング機能を復活させるべく取り組んでいます。ちなみにマイクロソフトのBingはこれを防ぐメカニズムがあるそうで、OpenAIの改善作業をサポートしているとのことです。
ChatGPTのPlugin機能
プラグインは、ChatGPTの機能を拡張させるためのサービスです。図2のようにサード−パーティが作成して提供し、ChatGPTの利用規約に準拠しているか、正常に動作するかなどが審査されたのちにプラグインストアに公開されます。
ユーザーがChatGPT Plusにログインしてプラグインストアを開くと、図3のようにさまざまなサードパーティが作成したプラグインが表示されています。この中から使いたいものを選んでインストールするとすぐに追加料金なしで使えます。2023年3月の公開時点は70個ほどでしたが、本稿執筆時点(2023年8月末)で800ほどになっており、早晩1000を超えそうです。
現在は「Popular」「New」「All」「Installed」という4つのタブとキーワード検索だけですが、もっと数が増えるとGoogle StoreやApple storeのようにさらに細かく分類されてゆくと思われます。
Popularタブのプラグイン
プラグインというものがどのようなものか理解するために、Popular(人気)タブにある16のプラグインを見てみましょう。図3のDescriptionは英語なので、Bingチャット君に「各プラグインの概要を日本語で説明し、それを罫線入りの表にまとめて」と依頼して作ってもらったものが下表です。今回は、この中からPDFや動画、Webページなど外部コンテンツへのアクセスを支援するプラグインを7つピックアップして説明します。
プラグイン名 | 概要 |
---|---|
AskYourPDF | PDFファイルから必要な情報を抽出し質問に答えられる |
Ai PDF | PDFファイルを編集できる |
ChatWithPDF | PDFファイルから必要な情報を抽出し質問に答えられる |
Link Reader | Webページのリンク先を自動的に開くことができる |
WebPilot | Webページの情報を自在に操作できるChatGPTのプラグイン |
ScholarAI | 学術論文を検索し分析できる |
Video Insights.io | YouTubeの動画に関する分析情報を提供する |
Expedia | 旅行に関する情報を提供するプラットフォーム |
Zapier | 異なるアプリケーションを自動的に連携できる |
Prompt Perfect | 英語の文章を自動的に修正できる |
Wolfram | 数学や科学に関する情報を提供するプラットフォーム |
KAYAK | 旅行に関する情報を提供するプラットフォーム |
VoxScript | 音声認識技術を利用してテキストに変換できる |
Noteable | メモやToDoリストなどの情報を管理できる |
KeyMate.AI Search | 検索エンジン |
Show Me Diagrams | 図表を作成できる |
外部コンテンツへのアクセス
図4は、表のプラグインの中で外部コンテンツへのアクセスを支援するものです。PDFやWebページ、Youtube動画などのコンテンツのURLを示してプロンプトを投げると、ChatGPTがプラグインの助けを借りてコンテンツの要約や内容検索を行ってくれます。また、PDFを読み取ってもらい、その内容をもとにブログを作成したり、Q&Aに答えてもらったりすることもできます。以下、これらのプラグインを使ったプロンプトを順番に紹介します。プラグインを使うとどのようなことが可能になるのかイメージできると思います。
PDF読み取りプラグイン
ChatGPTに特定のドキュメントを読ませて、それをもとに要約や翻訳をしてもらいたいときに便利なのがPDF読み取りプラグインです。ネットで公開されているPDFのURLを示すだけで、ChatGPTが内容を読み取ってくれます。ここでは表にある「AskYourPDF」「Ai PDF」「ChatwithPDF」の3つのプラグインに、デジタル庁が公開しているPDFを読んでもらいます。
AskYourPDFを使って要約してもらう
デジタル庁が2023年6月9日に公開した「デジタルの活用で一人ひとりの幸せを実現するために」という23ページにわたる資料を題材にしてみましょう。そこで、図5①のように、このURLを示して「500文字以内で要約して」と依頼してみます。
②は通常モード(プラグインを使わない)の回答です。このようにプラグインを使わないとChatGPTはPDFを読むことができません。一方、AskYourPDFをインストールして同じ質問を投げてみると、今度は③のようにPDFの内容を読んで良い感じに要約してくれます。
Ai PDFを使ってブログを作成してもらう
今度は、Ai PDFを使って上記PDFを読んでもらい、その内容をもとにして国民向けのブログを作成してもらいましょう。図6は実際に1000文字以内でブログを作成してもらったものです。
タイトルの「デジタル庁の新たな挑戦:デジタル化への道のり」はなかなかイケてますね。冒頭の「皆さんは、デジタル庁が我々の生活をどのように変えようとしているかご存知でしょうか?」という“つかみ”もうまいです。段落ごとの文章の展開も良いじゃないですか。実はChatGPTはブログ作成が上手なのです。みなさんもブログを書く機会があれば、ぜひ試してみてください。
Ai PDFを使ったキーワード検索
Ai PDFは要約を行う関数「Ai_PDF.summarize_pdf」のほかに、キーワード検索を行う関数「Ai_PDF.uploado_and_serch_pdf」があります。キーワード検索も試してみましょう。
図7は、上記のデジタル庁のPDFの中から“ITリテラシー”に関する記述を抽出したものです。ページ番号と記述内容をピックアップし、最後にそれに関するまとめも付けてくれています。
ChatWithPDFを使ったQ&Aシステム
ChatGPTは汎用的な大量データで学習されており、インターネット上に書かれているような一般的な内容に関してはめっぽう強い大規模言語モデルです。一方で、ある製品のマニュアルに書かれている内容など、特定のデータに関する質問にはもともと学習していないため回答できません。しかし、このようなマニュアルをPDFにしてプロンプトを使って読ませると、なかなか良い回答を返してくれるようになります。
ChatWithPDFを使って試してみましょう。図8はChatWithPDFを使ってデジタル庁のPDFを読ませ、「デジタル庁は我々の生活にどのような変革をもたらしてくれますか」と質問したときの回答です。PDFの内容をきちんと箇条書きで回答してくれていますし、最初に概要説明、最後にまとめの文がそれぞれ1行開けて書かれているなど、かなりの出来栄えになっています。
ユーザーからのQ&Aや接客、コンシェルジュ、FAQ作成などにChatGPTを活用するには、自社の特定データに関して追加学習させて、ChatGPT APIで自動対応させる必要があります。追加学習の方法はいろいろありますが、これはPDF化したドキュメントを読ませるだけなので最も簡単な方法と言えます。
動画にアクセスできるプラグイン
Youtubeなどに公開されている動画にアクセスできるプラグインもいろいろと出ています。PopularタブにVideoInsightがラインクインしていますので、その最新版であるVideoInsight.ioを試してみましょう。
VideoInsight.ioで動画の概要を要約
PDFやWebページではなく、Youtubeなどに公開されている動画を対象にしたものがVideoInsight.ioです。動画の音声からトランスクリプトを生成して要約を提供してくれるほか、動画のメタデータも取得します。メタデータとは、タイトルや作成者、長さ、フォーマット、解像度などの基本的な情報です。
図9はテニスの動画のURLを示して概要とメタデータを教えてもらった例です。「このビデオはテニスの片手バックハンドの打ち方について説明しています。力を入れすぎず…」という感じで、どのような動画なのかビデオを見なくてもイメージできるように要約してくれています。
動画や講演、会議、インタビューなどの音声を文字に起こしたものをトランスクリプトと呼びます。昔は人間が文字起こし(トランスクリプション)をしていましたが、最近はAIを利用した自動音声認識(ASR)によって行われることが多くなりました。最近は、ディープラーニングを使ったASRが主流となっており、再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)に続き、Transformerアーキテクチャも取り入れられてきています。
ASRは大量の音声データを高速に処理できるため、このテニス動画のように10分程度であれば数秒でできます。
多様なコンテンツにアクセスできるプラグイン
ASKyourPDFやChatwithPDF、Ai PDFはPDF、VideoInsight.ioは動画にアクセスできるプラグインです。一方で、PDFや動画、Webページなど、マルチコンテンツにアクセスできるプラグインもあります。ここでは表にあるLink ReaderとWebPilotを試してみましょう。
Link Readerを使ったWebページの要約
図10は、LangChainとLlamaIndexについて書かれている英語のWebページのURLを指定して「日本語で要約」したものです。Web記事が「OpenAIのAPIとLangChain、LlamaIndexを組み合わせて、複数のPDFドキュメントから価値ある情報を抽出する方法」について書かれていることなどが、きちんと要約されています。
Link ReaderはPDFの読み取りもできます。図5と同じPDFに今度はLink Readerを指名してプロンプトを投げたところ、AskYourPDFと同じ程度の要約を作ってくれました。
WebPilotを使ってウェビナーの募集ページを作成
ChatGPTは会議の開催案内やウェビナー募集概要などを作成するのが得意です。自社のホームページに書かれている製品説明を読ませて、ウェビナーのタイトルや概要説明を作ってもらうシーンを想定してみましょう。
図11は、図10と同じWebページのURLを指定してWebPilotに読ませて、ChatGPTにセミナーのテーマと概要を作成してもらったものです。箇条書きを太字にしたり、最後に参加を促す文章を入れてくれたり、結構、使えそうな案内文を提案してくれるので、自分でイチから考えるよりも楽ができそうですね。
コンテンツを検索してくれるプラグイン
上記で紹介したプラグインは、いずれもURLを指定して処理を依頼するものでしたが、Google検索のようにキーワードをもとにコンテンツを探し出すところからやってくれるプラグインもあります。通常、このような用途では旅行、不動産、レストランなど対象コンテンツが絞られます。ここでは表にあるScholar AIを紹介しましょう。
Scholar AIを使った論文の検索&要約
Scholar AIはアクセス対象を論文に絞り、探し出して要約や全文表示をしてくれます。図12は「ソフトウェア製品マニュアルをChatGPTに読ませて追加学習させ、ユーザーからの質問に回答するQ&Aシステムを作りたい。参考になりそうな論文を3つ要約してください」と依頼したときの回答です。ChatGPTはScholar AIを使って良さそうな論文PDFを探し出し、要約してくれます(3つ目の論文は省略しています)。
特に言わなくても、英語の論文を日本語に訳して提示してくれているところが心憎いですね。IT技術の勉強をしているとよく英語のPDFにぶち当たりますが、ファイルをアップロードする必要もなく翻訳&要約してくれるのでとても重宝します。
ChatGPTとプラグインの役割分担
最後に、これらのプラグインとChatGPTの役割分担について説明しましょう。図13はChatwithPDFを使ってPDFの要約を依頼した際の処理です。ChatwithPDFはPDFドキュメントからテキストを取り出し、その中からユーザーの要求に関連ある主要部分をChatGPTに送ります。ChatGPTはNLP(自然言語処理)の部分を担当します。すなわち、ユーザーからのプロンプトを解析してChatWithPDFに指示を渡し、ChatWithPDFから返される主要テキストをもとに要約してユーザーに回答します。
プラグインが要約やブログ作成など、依頼した内容を行っているわけではありません(それはChatGPTの役割です)。かと言って読み取ったテキストを丸ごとChatGPTに渡すだけでもなく、プラグインなりの価値(この例では主要テキストの抽出)を提供しているのです。
コンテンツにアクセスできるプラグインは他にもたくさんあります。同じ目的で使われるプラグインでもまったく原理が同じというわけではなく、技術的な手法がそれぞれ異なっており、いったい、どれを使ったら良いのか迷いますね。ただ、今の時点で細かく比較しなくても良いかと思っています。コンテンツはそれぞれ進化・改良されていきますし、今後も新しいプラグインが続々登場するでしょう。その中で自然に淘汰されていくので、生き残った便利なものを使えば良いと考えています。
まとめ
今回は、以下の内容について学習しました。
- ChatGPTのWeb BrowsingはBing検索できる機能であるが、現在は停止中
- ChatGPTの活用を広げるプラグインが続々登場してプラグインストアで公開
- プラグインを使うとPDFや動画、Webページにアクセスして、その内容を処理してもらえる
- コンテンツをURL指定するだけで要約、キーワード検索、ブログ作成、セミナー案内作成、Q&Aシステム作成などがぐっと楽に行える
- 論文や旅行、不動産、レストランなど特定のコンテンツに絞ったプラグインも続々登場
- プラグインは単純にテキスト読み取りだけでなく、それぞれが独自の価値を持たせている
今回、紹介したプラグインで便利なのはChatGPTの文字(トークン)制限に引っかからないことです。そのためマニュアルを読み込ませたり、プログラミングコードの解析を依頼したりと、ChatGPTの活用度がぐんと広がります。このようなコンテンツアクセス支援のプラグインのほかにも、いろいろ便利なプラグインがあります。次回も引き続き、その中からいくつかピックアップして紹介します。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- ChatGPTのプラグイン【後半】
- 新登場した「ChatGPT-4o」の特徴とマルチモーダルな使い方
- 「ChatGPT Enterprise」と「Microsoft 365 Copilot」
- マイクロソフトのAI搭載ツール「Bing」と「Copilot」
- 「Microsoft 365 Copilot」の3つのポイントと「Microsoft 365 Loop」を構成する3つの要素
- 「OpenAI GPTs」と「画像生成AI」
- GPTで始まる大規模言語モデル時代
- 【犬山市長 原欣伸氏×Givin' Back 田中悠介氏 対談】全国の自治体に先駆けて生成AIの活用に着手、本年4月からは文書業務への正式導入がスタート
- 自然とリンクが集まるWebサイトの作り方
- テンプレート選びのコツ!