【Scraper】ChatGPT プラグイン使い方：ウェブサイトから情報を抽出！スクレイピングツール

2024年11月26日

ChatGPTのプラグインは便利な拡張機能でしたが、2024年4月9日に提供が終了しました。
本記事では、【Scraper】プラグインの使い方を解説していますが、今後の利用には、より進化したChatGPTのGPTs（カスタムGPT）をお勧めします。

ChatGPTのプラグインとは？

OpenAIが、ChatGPTの新機能として「プラグイン（Plugins）」のβ版を2023年5月12日から提供を開始しました。

「プラグイン（Plugins）」とは、あなたのChatGPTをより強力で多機能にカスタマイズするための追加ツールのことです。ChatGPT Plusユーザーであれば誰でも使用可能です。

なお、「プラグインってなに？」や「ChatGPTのプラグインとは？」など疑問に思っている方のために、「プラグインの基本」や「プラグインの一覧」についてはこちらの記事に詳しく解説しています。

プラグインを初歩から知りたいという方の参考になれば嬉しいです。

「Scraper」とは？開発元、開発目的は？

https://scraper.gafo.tech/ — （出典: Scraper AI公式サイト）

「Scraper」の開発元や開発目的について調べましたが、現在のところ、明確な情報を見つけることができていません。

公式サイトは存在しましたが、上の画面のように、「Scraper AI　Scrape text, links, and images from any given URL」と書かれているのみでした。

なお、OpenAIは、自社のAIツールの安全な開発と使用を保証するための製品安全基準を掲げています（参照：Safety standards OpenAI公式サイト）。これは、OpenAIがPlugin storeで提供している全てのプラグインにも適用されると考えられますので、その点は信頼しても大丈夫だと思います。

「Scraper」プラグインで何ができる？

ChatGPTの「Scraper」プラグインは、ウェブサイトから読み取れるテキスト、リンク、画像を取り出すためのツールです。

具体的には、あなたが指定したウェブサイトのURLを「Scraper」プラグインに入力すると、そのウェブサイトからテキスト、リンク、画像のいずれかを抽出して表示します。

これにより、ウェブサイトから情報を取得する作業を自動化することができます。

「Scraper」プラグインの具体的な主の機能をまとめると、以下のとおりです。

「Scraper」プラグインの主な機能

テキストの抽出：ウェブサイトから読み取れるテキストを取り出します。
リンクの抽出：ウェブサイトからリンクを取り出します。
画像の抽出：ウェブサイトから画像を取り出します。

ChatGPTのプラグイン「Scraper」の使い方

それでは、ChatGPT（GPT-4）で「Scraper」プラグインを使ってみます。

まずは、「Scraper」プラグインをインストールします。

「Scraper」プラグインをインストール

Plugin storeから「Scraper」を検索します。

［install］ボタンをクリックしてインストールします。

「Scraper」が選択されていることを確認します。

「Scraper」プラグインの使い方を聞いてみる

初めてプラグイン「Scraper」を使うので、まずはChatGPTにプラグイン「Scraper」の使い方を下記のように聞いてみました。

プロンプト：
プラグイン「Scraper」の使い方をステップ形式で、初心者にわかりやすく教えてください。

するとChatGPTから、下記の回答が返ってきました。

基本的な使い方として、次のステップが回答されました。ChatGPTの返答をそのまま紹介します。

STEP

URLの指定

まず、情報を抽出したいウェブページのURLを指定します。このURLは、ウェブブラウザのアドレスバーに表示されているものです。

STEP

抽出タイプの指定

次に、抽出したい情報のタイプを指定します。以下の3つのタイプから選ぶことができます。

“text”: ページ内の全てのテキスト情報を抽出します。
“links”: ページ内の全てのリンクを抽出します。
“images”: ページ内の全ての画像を抽出します。

STEP

抽出コマンドの実行

上記の情報を元に、以下のような形式で抽出コマンドを実行します。

web_scraper.scrape({
  url: "https://www.example.com",
  type: "text"
})

この例では、”https://www.example.com”というURLのページからテキスト情報を抽出するコマンドを実行しています。

STEP

結果の確認

コマンドを実行すると、指定したページから抽出した情報が表示されます。この情報を元に、必要な情報を取り出すことができます。

以上が、プラグイン「Scraper」の基本的な使い方です。

このプラグインを使うことで、ウェブページからの情報抽出を簡単に行うことができます。ただし、ウェブページの内容は著作権により保護されていることが多いので、抽出した情報の利用には注意が必要です。

↑ChatGPTの返答はここまで↑

15歳でも出来る「Scraper」の簡単な使い方（実例あり）

上記のChatGPTから教えてもらったステップでは、コードを書いて利用する方法でした。
僕を含め普段コードを使用しない人のために、簡単な使い方を知りたいと感じました。

そこで、下記のプロンプトを送信。

プロンプト：
ChatGPTの「Scraper」プラグインでコードを使わない簡単な一般的な使い方があれば、例文をあげて15歳でも理解できるように教えてください

ChatGPTから下記の回答が返ってきました。

とても簡単な使い方を、例文とともに教えてくれました！

15歳でもできる「Scraper」プラグインの簡単な使い方は以下のとおりです。
ChatGPTの回答をそのまま紹介します。

15歳でもできる「Scraper」プラグインの簡単な使い方

ウェブサイトを選ぶ: まずは情報を取得したいウェブサイトを選びます。例えば、あなたが最新のスポーツニュースを取得したいとします。その場合、あなたが信頼するスポーツニュースのウェブサイトを選びます。
情報の種類を選ぶ: 次に、そのウェブサイトから何の情報を取得したいのかを選びます。テキスト（記事や見出し）、リンク、または画像のいずれかです。この例では、最新のスポーツニュースのテキストを取得したいとしましょう。
ChatGPTに指示を出す: 以上の情報を元に、ChatGPTに指示を出します。例えば、「スポーツニュースのウェブサイト（ウェブサイトのURL）から最新のニュースのテキストを抽出してください」と言うように指示を出すことができます。
結果を確認する: ChatGPTはあなたの指示に従ってウェブサイトから情報を抽出し、その結果を表示します。この結果から、あなたが必要とする情報を見つけることができます。

つまり、「Scraper」プラグインには次のようにプロンプトを出せば良いということになります。

例：スポーツニュースのウェブサイトから最新のニュースのテキストを抽出したい

「Scraper」プラグインを選択
「スポーツニュースのウェブサイト（ウェブサイトのURL）から最新のニュースのテキストを抽出してください」
2のプロンプトをチャットに入力して送信

なんと、「プロンプト（命令文）」を書いて送信するだけ！簡単ですね！

「Scraper」プラグインを使ってみた！

それでは実際にChatGPTの「Scraper」プラグインを使ってみます。

「Scraper」プラグインで、ニュースサイトから最新ニュースのテキストを抽出してみた結果は？

先ほど、ChatGPTが「Scraper」プラグインの使い方の例に挙げた、「スポーツニュースのウェブサイトから最新のニュースのテキスト」を抽出してみます。

スポーツニュースのウェブサイトは、下の「Yahoo!ニュースのスポーツニュース」を用意しました。

Yahoo!ニューススポーツニュース — （出典: スポーツニュース – Yahoo!ニュース）

以下のプロンプト（命令文）を出してみました。

スポーツニュースのウェブサイト（https://news.yahoo.co.jp/categories/sports）から最新のニュースのテキストを抽出してください

ChatGPTの回答は以下のとおり。

以下は、Yahoo!ニュースのスポーツカテゴリから抽出した最新のニュースの一部です：

J1浦和会員特典で賞味期限切れ
藤浪晋太郎また無失点 6戦連続
吉田正尚が10号 7試合連続マルチ
東京V監督 J2町田のプレーに苦言
元サッカー代表夢見る農園経営
珍事ロッテ石川慎の安打取り消し
心は男性元なでしこ横山久美の今
元西武の競艇選手101戦目で初勝利

詳細なニュース内容については、Yahoo!ニュースのスポーツカテゴリをご覧ください。

このように、「Scraper」プラグインが、8つの「最新のニュースのテキスト」を抽出してくれました。

Yahoo!ニュースのウェブサイトを確認してみると、今回「Scraper」プラグインが抽出したテキストは、「最新ニュース」の場所に掲載されていた8つのすべてのニュースの見出しと全く同じでした。

きちんと最新ニュースだけを抽出するところは流石だという印象です！

【少し残念】抽出されるテキストは、ウェブサイトをそのまま反映

念のため、別のスポーツニュースのウェブサイトからも、最新のニュースのテキストを抽出してみます。

今回のスポーツニュースのウェブサイトは、下の「日刊スポーツのスポーツニュース」を用意しました。

以下のプロンプト（命令文）を出してみました。

スポーツニュースのウェブサイト（https://www.nikkansports.com/sports/）から最新のニュースのテキストを抽出してください

ChatGPTの回答は以下のとおり。

以下は、日刊スポーツのスポーツカテゴリから抽出した最新のニュースの一部です：

【バレー】日本男子、決勝Ｒ初戦の相手は世界８位スロベニアに決定　VNL予選Ｒは２位通過
【バレー】龍神NIPPON、世界１位…／ライブ詳細
【バレー】日本男子ポーランドに完敗　石川祐希「ト…
【陸上】200ｍ日本王者の鵜沢飛羽「アジア取りた…
【陸上】寺田明日香「前回は２番…今回は優勝を」1…
【卓球】伊藤美誠は準決勝敗退、陳夢にストレート負…
【バスケット】日本は台湾に連勝　ホーバス監督「9…
バイク耐久レースのピット作業　記者が見て体験した…
【陸上】秦澄美鈴、気負わずアジア選手権へ「全部の…
【ラグビー】元代表乾あゆみさん「いろいろな刺激を…

詳細なニュース内容については、日刊スポーツのスポーツカテゴリをご覧ください。

このように、「Scraper」プラグインが、10個の「最新のニュースのテキスト」を抽出してくれました。

日刊スポーツのウェブサイトを確認してみると、今回「Scraper」プラグインが抽出したテキストは、「最新ニュース」の場所に掲載されていた10個のすべてのニュースの見出しと全く同じでした。

ただ、少し残念に感じたのは、抽出したニュースの見出しの文末が「…」で終わっている点です。

実際のウェブサイトは、下の画面のとおりです。同じくニュースの見出しの文末が「…」になってます。

ウェブサイトに表示されているテキストを、そのまま抽出しているので間違いではありません。

しかし、もしここで「Scraper」プラグインが、実際の見出しを全文抽出してくれたら大絶賛なのに！と思ってしまいました…

「Scraper」プラグインを使って「ウェブサイトから抽出されるテキスト」は、ウェブサイトをそのまま反映する

「Scraper」プラグインで、ウェブサイトからリンクを抽出してみた結果は？

次に、「Scraper」プラグインで、特定のウェブサイトからリンクを抽出してみます。

ウェブサイトは、下の「OpenAIの公式Blog」を用意しました。

以下のプロンプト（命令文）を出してみました。

https://openai.com/blog から全てのリンクを抽出してください。

ChatGPTの回答は以下のとおり。

以下は、OpenAI Blogから抽出したリンクの一部です：

OpenAI
Research Overview
Research Index
Product Overview
ChatGPT
GPT-4
DALL·E 2
Customer Stories
Safety Standards
Pricing
Safety
About
Careers
Charter
Security
Terms & Policies
Privacy Policy
Brand Guidelines
Twitter
YouTube
GitHub
SoundCloud
LinkedIn

なお、各ブログ記事へのリンクも含まれています。詳細なリストをご覧になりたい場合は、直接ウェブサイトをご覧いただくか、特定のリンクについて質問してください。

回答のすべての項目のテキストに、リンクが張られていました。

また、下の画面は、OpenAI 公式Blogのフッター部分ですが、このフッターからもリンクを抽出していることが分かりました。

ウェブサイト全体から、リンクを抽出していることが確認できました。

【注意点】確認が必要だが、すべてのリンクは抽出される

なお、ChatGPTの回答には「各ブログ記事へのリンクも含まれています。」と記載してありましたが、その肝心な各ブログ記事へのリンクが項目に見当たりませんでした。

そこで、下のプロンプトを送信してみました。

各ブログ記事へのリンクも含まれています。ということですが、どこにありますか？

ChatGPTの回答は以下のとおり。

すみません、その部分を明確にするべきでした。以下に、OpenAI Blogから抽出した各ブログ記事へのリンクを示します：

GPT-4 API general availability and deprecation of older models in the Completions API
Introducing Superalignment
Insights from global conversations
Introducing OpenAI London
Function calling and other API updates
OpenAI cybersecurity grant program
Democratic inputs to AI
Governance of superintelligence
Introducing the ChatGPT app for iOS
New ways to manage your data in ChatGPT
Announcing OpenAI’s Bug Bounty Program
Our approach to AI safety
March 20 ChatGPT outage: Here’s what happened
ChatGPT plugins
Introducing ChatGPT and Whisper APIs
Planning for AGI and beyond
How should AI systems behave, and who should decide?
Introducing ChatGPT Plus
New AI classifier for indicating AI-written text
OpenAI and Microsoft extend partnership

これらのリンクは、各ブログ記事へ直接アクセスするためのものです。

お詫びとともに、各ブログ記事とリンクを20個抽出してくれました。

OpenAI 公式Blogのウェブサイトを確認したところ、ChatGPTの回答どおり20個の記事がありました。

今回のように、きちんとすべてのリンクが抽出されているかの確認が必要なようです。ただ、再度お願いすると、すべてのリンクを抽出することが分かりました。

「Scraper」プラグインを使って「ウェブサイトからリンクを抽出」したあとは、すべてのリンクが抽出されているか確認が必要！

「Scraper」プラグインで、ウェブサイトから画像を抽出してみた結果は？

次に、「Scraper」プラグインで、特定のウェブサイトから画像を抽出してみます。

ウェブサイトは、当ブログ「ChatGPTの学校」を使用します。

以下のプロンプト（命令文）を出してみました。

https://chat-gpt.school/ から全ての画像を抽出してください。

ChatGPTの回答は以下のとおり。

以下は、”https://chat-gpt.school/” から抽出した画像のURLリストです：

ヘッダーロゴ
壁紙
ロゴ
ChatGPTとは
ChatGPTプラグイン
Code Interpreter
Speechki
AI Agents
Mini Habits
There’s An AI For That
Now
Webpilot
Link Reader
SEO.app
VideoInsights
AskYourPDF
関達也の写真

これらのリンクをクリックすると、各画像を表示できます。ただし、ウェブサイトの設定により、一部の画像が表示されない場合があります。

画像がそのまま表示されるのかと思ってましたが、画像名に、画像のリンクが張られている形で回答されました。

ちなみに、この画像名を見て驚きました。実際の画像名は、もう少し複雑です。しかし、ChatGPTが回答した画像名は、とてもわかりやすくシンプルに付けられてました。

画像名をクリックすると、画像が表示されます。例えば、ロゴをクリックすると、下の画面にようにロゴ画像が表示されます。

【注意点】画像が取得できない場合がある

なお、「Scraper」プラグインが画像のリンクを抽出できたとしても、画像が表示されない（取得できない）場合がありました。

例えば、上でも使用した「OpenAIの公式Blog」ウェブサイトがそうでした。

先ほどと同様に、以下のプロンプト（命令文）を出してみました。

https://openai.com/blog から全ての画像を抽出してください。

ChatGPTの回答は以下のとおり。

以下は、”https://openai.com/blog” から抽出した画像のURLリストです：

https://openai.com/content/images/2023/07/ai-in-context.png
https://openai.com/content/images/2023/07/ai-safety.png
https://openai.com/content/images/2023/07/ai-policy.png
https://openai.com/content/images/2023/07/ai-ethics.png
https://openai.com/content/images/2023/07/ai-research.png
https://openai.com/content/images/2023/07/ai-education.png
https://openai.com/content/images/2023/07/ai-partnerships.png
https://openai.com/content/images/2023/07/ai-operations.png
https://openai.com/content/images/2023/07/ai-engineering.png
https://openai.com/content/images/2023/07/ai-communications.png
https://openai.com/content/images/2023/07/ai-people.png
https://openai.com/content/images/2023/07/ai-product.png
https://openai.com/content/images/2023/07/ai-legal.png
https://openai.com/content/images/2023/07/ai-finance.png
https://openai.com/content/images/2023/07/ai-design.png
https://openai.com/content/images/2023/07/ai-data.png
https://openai.com/content/images/2023/07/ai-business.png
https://openai.com/content/images/2023/07/ai-applications.png
https://openai.com/content/images/2023/07/ai-admin.png
https://openai.com/content/images/2023/07/openai-logo.png

これらのリンクをクリックすると、各画像を表示できます。

OpenAI 公式Blogから、画像のリンク（URL）を抽出して回答されました。

そして、画像のリンクをクリックしてみたら、下の画面のように404Errorのページが表示されました。

念のため、URLをコピペしてみましたが、同じく404Errorでした。

「Scraper」プラグインのエラーの可能性もあるので、ChatGPTに以下のプロンプトを送信してみました。

すべて404Errorで表示されません。再度お願いします

ChatGPTの回答は以下のとおり。

申し訳ありませんが、現在OpenAIのブログから画像を取得することはできません。ただし、テキスト情報を取得することは可能です。テキスト情報を取得することで、最新のブログ記事のタイトルや要約を提供できます。それでよろしければ、そのように進めさせていただきます。

「Scraper」プラグインは作動しているのですが、結局「OpenAIのブログから画像を取得することはできません。」という回答でしたので、ChatGPTに理由を聞いてみました。

なぜ、画像の取得ができないのですか？

ChatGPTの回答は以下のとおり。

画像の取得ができない理由は、主に以下の2つが考えられます：

ウェブサイトの設定：ウェブサイトの所有者が、自分のサイトから直接画像をダウンロードすることを防ぐために、特定の設定を施している場合があります。これは、著作権の保護やサーバーの帯域幅の節約など、さまざまな理由によるものです。
技術的な制限：画像のURLが相対パスで提供されている場合、そのURLはそのウェブサイト内でのみ有効で、外部から直接アクセスすることはできません。このような場合、画像のURLを絶対パスに変換するための追加の処理が必要となります。

このような理由から、特定のウェブサイトから画像を取得することが難しい場合があります。ただし、これは一般的な説明であり、具体的な理由はウェブサイトの設定や構造によるものです。

ChatGPTの回答のように、画像が取得できないのは「ウェブサイトの設定」や「技術的な制限」などによる理由ということでした。

「Scraper」プラグインのエラーではないので、こういう場合は仕方ないですね…

「Scraper」プラグインを使って「ウェブサイトから画像のリンクを抽出」できても、「ウェブサイトの設定」や「技術的な制限」で画像が取得できない場合がある

「Scraper」プラグインでできる10の活用例

「Scraper」プラグインは多岐にわたる業界や業種で活用できます。

以下に、さらに具体的な使用例を10個挙げます。

旅行業界：旅行サイトからホテルの価格やレビュー、観光地の情報を抽出し、旅行プランを作成したり、価格比較を行ったりすることができます。
教育業界：教育関連のウェブサイトから学習資料や教育コンテンツを抽出し、教材の作成や授業の準備に役立てることができます。
ニュースメディア：特定の業界に関連するウェブサイトからリンクを抽出し、その業界の最新のトレンドやニュースを追跡することができます。
アート・デザイン業界：アートやデザインのウェブサイトから画像を抽出し、インスピレーションを得るためや、特定のスタイルやトレンドを調査するために使用できます。
料理・飲食業界：料理のウェブサイトからレシピのテキストを抽出し、新しい料理のアイデアを得ることができます。
人事・採用：求人ウェブサイトから求人情報を抽出し、特定の職種や地域の求人情報を調査することができます。
不動産業界：不動産ウェブサイトから物件情報を抽出し、市場の動向を把握したり、特定の地域や価格帯の物件を探したりすることができます。
金融業界：金融関連のウェブサイトから株価や為替レートなどの情報を抽出し、市場の動向を分析することができます。
ヘルスケア業界：医療関連のウェブサイトから病気の情報や治療法を抽出し、患者の教育や医療研究に役立てることができます。
エンターテイメント業界：映画や音楽のウェブサイトから新作情報やレビューを抽出し、エンターテイメントの最新トレンドを追跡することができます。

これらの使用例は一部ですが、「Scraper」プラグインは、ウェブサイトから情報を抽出する必要がある様々なシナリオで活用できます。

まとめ

「Scraper」プラグインは、いかがでしたでしょうか？

この記事では、ChatGPTの「Scraper」プラグインの使い方と活用例を詳しく解説しました。

「Scraper」プラグインは、ウェブサイトからテキスト、リンク、画像を抽出する強力なツールです。これは一種の「スクレイピング」、つまりウェブサイトから自動的に情報を取り出す技術を利用しています。

特別な技術知識がなくても、初心者でも簡単に使いこなすことができます。そして、さまざまな業界や業種で活用できます。

最後に、「Scraper」プラグインの重要なポイントをまとめます。

「Scraper」プラグインの重要なポイント

「Scraper」プラグインは、ウェブサイトからテキスト、リンク、画像を抽出するツールです。
プラグインの使い方は簡単で、ウェブサイトのURLを入力するだけで情報を抽出できます。
全てのリンクや画像が抽出できるわけではないため、注意が必要です。
「Scraper」プラグインは、旅行業界から教育業界、金融業界まで、さまざまな業界で活用できます。

これらを踏まえて、「Scraper」プラグインを活用して、情報収集の効率を上げてみてください。

そして、これからも「Scraper」プラグインの可能性を追求し続けて、あなたの情報収集がより効率的で有益なものになることを願っています！

面倒なことはＣｈａｔＧＰＴにやらせよう (ＫＳ情報科学専門書)

著:カレーちゃん, 著:からあげ

Amazonで探す

楽天市場で探す

Yahooショッピングで探す

メルカリで探す

ポチップ

これまでに紹介したChatGPT プラグインの一覧

ChatGPTのプラグインの数は、すでに1074種類（2023年12月12日時点）。
海外のサービスが多く、日本人に馴染みのあるサービスはかなり少ないという印象です。

しかし、僕はただ知らないというだけで使わないのはもったいと思っています。

そこで、ChatGPTのプラグインの使い方の紹介をシリーズ化しています。今後も楽しみにして頂けると嬉しいです。

これまでに紹介したプラグインは、定期的に更新される「ChatGPT プラグインの一覧（カテゴリページ）」にて詳しく解説しています。

なお、ChatGPTのプラグインは、最大3つまで同時に活用することが可能です。つまり、異なるプラグインの力を組み合わせることにより、超パワフルなChatGPTを生み出すことができます。

ぜひ、他のプラグインもチャレンジされてみてくださいね！

【Scraper】ChatGPT プラグイン使い方：ウェブサイトから情報を抽出！スクレイピングツール

ChatGPTのプラグインとは？