ChatGPTのプラグイン【前半】

2023年8月30日(水)
梅田 弘之(うめだ ひろゆき)
第5回は、ChatGPTの活用を広げるさまざまなプラグインについて解説します。主にコンテンツへのアクセスをサポートするものを7つ紹介します。

はじめに

ChatGPTは優れた大規模言語モデルですが、現時点では単体でPDFやWebページ、動画などのコンテンツにアクセスできません。しかし、有料サービスChatGPT Plusにはこれを可能とする便利なプラグインが続々と登場しており、ChatGPTの利用方法が大きく広がっています。

今回はChatGPT Plugin storeにある16個の人気プラグインのうち、主にコンテンツへのアクセスをサポートするものを7つ紹介します。また、ChatGPTとプラグインがどのような関係にあるかも理解しましょう。

ChatGPTのWeb Browsing機能

OpenAIは、2023年3月23日にプラグイン、5月23日にWebブラウジングという2つの機能を有料サービス(ChatGPT Plus)ユーザーにベータ版をリリースしました。ChatGPT PlusのGPT-4タブを開くと、図1のようにDefault(通常モード)のほかに、Bing経由でWeb情報にアクセスできる「Browse with Bing」と「Plugins」という利用モードを選択できるようになったのです。

ChatGPT Plusの利用モード

図1:ChatGPT Plusの利用モード

「Browse with Bing」は、チャット検索の際にBingを使ってWebページの最新情報にアクセスするものです。前回で解説したBingのプロメテウス(Prometheus)のように、ChatGPTが2021年9月以降の情報も使って回答してくれるモードです。しかし、ある問題が生じたためOpenAIは7月3日にこのサービスを停止し、現在(2023年8月末)は表示されていません。

ある問題とは、ChatGPTのブラウジング機能がpaywalled content(有料会員のみアクセスできる保護されたコンテンツ)の情報を表示してしまったことです。これに気づいたユーザーが6月末にTwitterで知らせてくれたことで発覚し、現在、OpenAIはこの問題を解決してブラウジング機能を復活させるべく取り組んでいます。ちなみにマイクロソフトのBingはこれを防ぐメカニズムがあるそうで、OpenAIの改善作業をサポートしているとのことです。

ChatGPTのPlugin機能

プラグインは、ChatGPTの機能を拡張させるためのサービスです。図2のようにサード−パーティが作成して提供し、ChatGPTの利用規約に準拠しているか、正常に動作するかなどが審査されたのちにプラグインストアに公開されます。

ChatGPTのプラグイン

図2:ChatGPTのプラグイン

ユーザーがChatGPT Plusにログインしてプラグインストアを開くと、図3のようにさまざまなサードパーティが作成したプラグインが表示されています。この中から使いたいものを選んでインストールするとすぐに追加料金なしで使えます。2023年3月の公開時点は70個ほどでしたが、本稿執筆時点(2023年8月末)で800ほどになっており、早晩1000を超えそうです。

プラグインストア

図3:プラグインストア

現在は「Popular」「New」「All」「Installed」という4つのタブとキーワード検索だけですが、もっと数が増えるとGoogle StoreやApple storeのようにさらに細かく分類されてゆくと思われます。

Popularタブのプラグイン

プラグインというものがどのようなものか理解するために、Popular(人気)タブにある16のプラグインを見てみましょう。図3のDescriptionは英語なので、Bingチャット君に「各プラグインの概要を日本語で説明し、それを罫線入りの表にまとめて」と依頼して作ってもらったものが下表です。今回は、この中からPDFや動画、Webページなど外部コンテンツへのアクセスを支援するプラグインを7つピックアップして説明します。

表:Popularプラグイン一覧(Bing作成)

プラグイン名 概要
AskYourPDF PDFファイルから必要な情報を抽出し質問に答えられる
Ai PDF PDFファイルを編集できる
ChatWithPDF PDFファイルから必要な情報を抽出し質問に答えられる
Link Reader Webページのリンク先を自動的に開くことができる
WebPilot Webページの情報を自在に操作できるChatGPTのプラグイン
ScholarAI 学術論文を検索し分析できる
Video Insights.io YouTubeの動画に関する分析情報を提供する
Expedia 旅行に関する情報を提供するプラットフォーム
Zapier 異なるアプリケーションを自動的に連携できる
Prompt Perfect 英語の文章を自動的に修正できる
Wolfram 数学や科学に関する情報を提供するプラットフォーム
KAYAK 旅行に関する情報を提供するプラットフォーム
VoxScript 音声認識技術を利用してテキストに変換できる
Noteable メモやToDoリストなどの情報を管理できる
KeyMate.AI Search 検索エンジン
Show Me Diagrams 図表を作成できる

外部コンテンツへのアクセス

図4は、表のプラグインの中で外部コンテンツへのアクセスを支援するものです。PDFやWebページ、Youtube動画などのコンテンツのURLを示してプロンプトを投げると、ChatGPTがプラグインの助けを借りてコンテンツの要約や内容検索を行ってくれます。また、PDFを読み取ってもらい、その内容をもとにブログを作成したり、Q&Aに答えてもらったりすることもできます。以下、これらのプラグインを使ったプロンプトを順番に紹介します。プラグインを使うとどのようなことが可能になるのかイメージできると思います。

外部コンテンツへのアクセスを支援するプラグイン

図4:外部コンテンツへのアクセスを支援するプラグイン

PDF読み取りプラグイン

ChatGPTに特定のドキュメントを読ませて、それをもとに要約や翻訳をしてもらいたいときに便利なのがPDF読み取りプラグインです。ネットで公開されているPDFのURLを示すだけで、ChatGPTが内容を読み取ってくれます。ここでは表にある「AskYourPDF」「Ai PDF」「ChatwithPDF」の3つのプラグインに、デジタル庁が公開しているPDFを読んでもらいます。

AskYourPDFを使って要約してもらう

デジタル庁が2023年6月9日に公開した「デジタルの活用で一人ひとりの幸せを実現するために」という23ページにわたる資料を題材にしてみましょう。そこで、図5①のように、このURLを示して「500文字以内で要約して」と依頼してみます。

②は通常モード(プラグインを使わない)の回答です。このようにプラグインを使わないとChatGPTはPDFを読むことができません。一方、AskYourPDFをインストールして同じ質問を投げてみると、今度は③のようにPDFの内容を読んで良い感じに要約してくれます。

AskYourPDFを使ってPDFを要約

図5:AskYourPDFを使ってPDFを要約

Ai PDFを使ってブログを作成してもらう

今度は、Ai PDFを使って上記PDFを読んでもらい、その内容をもとにして国民向けのブログを作成してもらいましょう。図6は実際に1000文字以内でブログを作成してもらったものです。

Ai PDFを使ってブログを作成

図6:Ai PDFを使ってブログを作成

タイトルの「デジタル庁の新たな挑戦:デジタル化への道のり」はなかなかイケてますね。冒頭の「皆さんは、デジタル庁が我々の生活をどのように変えようとしているかご存知でしょうか?」という“つかみ”もうまいです。段落ごとの文章の展開も良いじゃないですか。実はChatGPTはブログ作成が上手なのです。みなさんもブログを書く機会があれば、ぜひ試してみてください。

Ai PDFを使ったキーワード検索

Ai PDFは要約を行う関数「Ai_PDF.summarize_pdf」のほかに、キーワード検索を行う関数「Ai_PDF.uploado_and_serch_pdf」があります。キーワード検索も試してみましょう。

図7は、上記のデジタル庁のPDFの中から“ITリテラシー”に関する記述を抽出したものです。ページ番号と記述内容をピックアップし、最後にそれに関するまとめも付けてくれています。

Ai PDFによるキーワード検索

図7:Ai PDFによるキーワード検索

ChatWithPDFを使ったQ&Aシステム

ChatGPTは汎用的な大量データで学習されており、インターネット上に書かれているような一般的な内容に関してはめっぽう強い大規模言語モデルです。一方で、ある製品のマニュアルに書かれている内容など、特定のデータに関する質問にはもともと学習していないため回答できません。しかし、このようなマニュアルをPDFにしてプロンプトを使って読ませると、なかなか良い回答を返してくれるようになります。

ChatWithPDFを使って試してみましょう。図8はChatWithPDFを使ってデジタル庁のPDFを読ませ、「デジタル庁は我々の生活にどのような変革をもたらしてくれますか」と質問したときの回答です。PDFの内容をきちんと箇条書きで回答してくれていますし、最初に概要説明、最後にまとめの文がそれぞれ1行開けて書かれているなど、かなりの出来栄えになっています。

ユーザーからのQ&Aや接客、コンシェルジュ、FAQ作成などにChatGPTを活用するには、自社の特定データに関して追加学習させて、ChatGPT APIで自動対応させる必要があります。追加学習の方法はいろいろありますが、これはPDF化したドキュメントを読ませるだけなので最も簡単な方法と言えます。

ChatwithPDFを使ってQ&Aシステムを作成

図8:ChatwithPDFを使ってQ&Aシステムを作成

動画にアクセスできるプラグイン

Youtubeなどに公開されている動画にアクセスできるプラグインもいろいろと出ています。PopularタブにVideoInsightがラインクインしていますので、その最新版であるVideoInsight.ioを試してみましょう。

VideoInsight.ioで動画の概要を要約

PDFやWebページではなく、Youtubeなどに公開されている動画を対象にしたものがVideoInsight.ioです。動画の音声からトランスクリプトを生成して要約を提供してくれるほか、動画のメタデータも取得します。メタデータとは、タイトルや作成者、長さ、フォーマット、解像度などの基本的な情報です。

図9はテニスの動画のURLを示して概要とメタデータを教えてもらった例です。「このビデオはテニスの片手バックハンドの打ち方について説明しています。力を入れすぎず…」という感じで、どのような動画なのかビデオを見なくてもイメージできるように要約してくれています。

ChatwithPDFを使ってQ&Aシステムを作成

図9:VideoInsight.ioでビデオの概要

トランスクリプト

動画や講演、会議、インタビューなどの音声を文字に起こしたものをトランスクリプトと呼びます。昔は人間が文字起こし(トランスクリプション)をしていましたが、最近はAIを利用した自動音声認識(ASR)によって行われることが多くなりました。最近は、ディープラーニングを使ったASRが主流となっており、再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)に続き、Transformerアーキテクチャも取り入れられてきています。

ASRは大量の音声データを高速に処理できるため、このテニス動画のように10分程度であれば数秒でできます。

多様なコンテンツにアクセスできるプラグイン

ASKyourPDFやChatwithPDF、Ai PDFはPDF、VideoInsight.ioは動画にアクセスできるプラグインです。一方で、PDFや動画、Webページなど、マルチコンテンツにアクセスできるプラグインもあります。ここでは表にあるLink ReaderとWebPilotを試してみましょう。

Link Readerを使ったWebページの要約

図10は、LangChainとLlamaIndexについて書かれている英語のWebページのURLを指定して「日本語で要約」したものです。Web記事が「OpenAIのAPIとLangChain、LlamaIndexを組み合わせて、複数のPDFドキュメントから価値ある情報を抽出する方法」について書かれていることなどが、きちんと要約されています。

ChatwithPDFを使ってQ&Aシステムを作成

図10:Link Readerの日本語要約

Link ReaderはPDFの読み取りもできます。図5と同じPDFに今度はLink Readerを指名してプロンプトを投げたところ、AskYourPDFと同じ程度の要約を作ってくれました。

WebPilotを使ってウェビナーの募集ページを作成

ChatGPTは会議の開催案内やウェビナー募集概要などを作成するのが得意です。自社のホームページに書かれている製品説明を読ませて、ウェビナーのタイトルや概要説明を作ってもらうシーンを想定してみましょう。

図11は、図10と同じWebページのURLを指定してWebPilotに読ませて、ChatGPTにセミナーのテーマと概要を作成してもらったものです。箇条書きを太字にしたり、最後に参加を促す文章を入れてくれたり、結構、使えそうな案内文を提案してくれるので、自分でイチから考えるよりも楽ができそうですね。

WebPilotでウェビナー募集

図11:WebPilotでウェビナー募集

コンテンツを検索してくれるプラグイン

上記で紹介したプラグインは、いずれもURLを指定して処理を依頼するものでしたが、Google検索のようにキーワードをもとにコンテンツを探し出すところからやってくれるプラグインもあります。通常、このような用途では旅行、不動産、レストランなど対象コンテンツが絞られます。ここでは表にあるScholar AIを紹介しましょう。

Scholar AIを使った論文の検索&要約

Scholar AIはアクセス対象を論文に絞り、探し出して要約や全文表示をしてくれます。図12は「ソフトウェア製品マニュアルをChatGPTに読ませて追加学習させ、ユーザーからの質問に回答するQ&Aシステムを作りたい。参考になりそうな論文を3つ要約してください」と依頼したときの回答です。ChatGPTはScholar AIを使って良さそうな論文PDFを探し出し、要約してくれます(3つ目の論文は省略しています)。

Scholar AIで論文検索&要約

図12:Scholar AIで論文検索&要約

特に言わなくても、英語の論文を日本語に訳して提示してくれているところが心憎いですね。IT技術の勉強をしているとよく英語のPDFにぶち当たりますが、ファイルをアップロードする必要もなく翻訳&要約してくれるのでとても重宝します。

ChatGPTとプラグインの役割分担

最後に、これらのプラグインとChatGPTの役割分担について説明しましょう。図13はChatwithPDFを使ってPDFの要約を依頼した際の処理です。ChatwithPDFはPDFドキュメントからテキストを取り出し、その中からユーザーの要求に関連ある主要部分をChatGPTに送ります。ChatGPTはNLP(自然言語処理)の部分を担当します。すなわち、ユーザーからのプロンプトを解析してChatWithPDFに指示を渡し、ChatWithPDFから返される主要テキストをもとに要約してユーザーに回答します。

プラグインとChatGPTの役割分担

図13:プラグインとChatGPTの役割分担

プラグインが要約やブログ作成など、依頼した内容を行っているわけではありません(それはChatGPTの役割です)。かと言って読み取ったテキストを丸ごとChatGPTに渡すだけでもなく、プラグインなりの価値(この例では主要テキストの抽出)を提供しているのです。

プラグインの機能比較

コンテンツにアクセスできるプラグインは他にもたくさんあります。同じ目的で使われるプラグインでもまったく原理が同じというわけではなく、技術的な手法がそれぞれ異なっており、いったい、どれを使ったら良いのか迷いますね。ただ、今の時点で細かく比較しなくても良いかと思っています。コンテンツはそれぞれ進化・改良されていきますし、今後も新しいプラグインが続々登場するでしょう。その中で自然に淘汰されていくので、生き残った便利なものを使えば良いと考えています。

まとめ

今回は、以下の内容について学習しました。

  • ChatGPTのWeb BrowsingはBing検索できる機能であるが、現在は停止中
  • ChatGPTの活用を広げるプラグインが続々登場してプラグインストアで公開
  • プラグインを使うとPDFや動画、Webページにアクセスして、その内容を処理してもらえる
  • コンテンツをURL指定するだけで要約、キーワード検索、ブログ作成、セミナー案内作成、Q&Aシステム作成などがぐっと楽に行える
  • 論文や旅行、不動産、レストランなど特定のコンテンツに絞ったプラグインも続々登場
  • プラグインは単純にテキスト読み取りだけでなく、それぞれが独自の価値を持たせている

今回、紹介したプラグインで便利なのはChatGPTの文字(トークン)制限に引っかからないことです。そのためマニュアルを読み込ませたり、プログラミングコードの解析を依頼したりと、ChatGPTの活用度がぐんと広がります。このようなコンテンツアクセス支援のプラグインのほかにも、いろいろ便利なプラグインがあります。次回も引き続き、その中からいくつかピックアップして紹介します。

著者
梅田 弘之(うめだ ひろゆき)
株式会社システムインテグレータ

東芝、SCSKを経て1995年に株式会社システムインテグレータを設立し、現在、代表取締役社長。2006年東証マザーズ、2014年東証第一部、2019年東証スタンダード上場。

前職で日本最初のERP「ProActive」を作った後に独立し、日本初のECパッケージ「SI Web Shopping」や開発支援ツール「SI Object Browser」を開発。日本初のWebベースのERP「GRANDIT」をコンソーシアム方式で開発し、統合型プロジェクト管理システム「SI Object Browser PM」など、独創的なアイデアの製品を次々とリリース。

主な著書に「Oracle8入門」シリーズや「SQL Server7.0徹底入門」、「実践SQL」などのRDBMS系、「グラス片手にデータベース設計入門」シリーズや「パッケージから学ぶ4大分野の業務知識」などの業務知識系、「実践!プロジェクト管理入門」シリーズ、「統合型プロジェクト管理のススメ」などのプロジェクト管理系、最近ではThink ITの連載をまとめた「これからのSIerの話をしよう」「エンジニアなら知っておきたいAIのキホン」「エンジニアなら知っておきたい システム設計とドキュメント」を刊行。

「日本のITの近代化」と「日本のITを世界に」の2つのテーマをライフワークに掲げている。

連載バックナンバー

AI・人工知能技術解説
第15回

新登場した「ChatGPT-4o」の特徴とマルチモーダルな使い方

2024/6/18
前回で最終回の本連載でしたが、「ChatGPT-4o」の新登場を受けて、急遽第15回としてChatGPT-4oの特徴とマルチモーダルな使い方を解説します。
AI・人工知能技術解説
第14回

エンジニアの業務を効率化する生成AIによる「プログラミング支援」

2024/5/14
第14回は、コードを書く、バグを修正する、テストコードを作成するといった、生成AIによる「プログラミング支援」について解説します。
AI・人工知能技術解説
第13回

ファインチューニングの課題を解決する「RAG」と「エンべディング」

2024/4/3
第13回は、企業データを追加学習する方法の1つであるファインチューニングについて、その課題を解決する「RAG」と「エンべディング」を解説します。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています