【先着500名様プレゼント!】ChatGPTを使って副業で稼ぐ22の方法

【SceneXplain】ChatGPT プラグイン 使い方:画像解析や画像生成AI用のプロンプト作成!

SceneXplain_ChatGPTプラグイン_使い方

ChatGPTのプラグインは便利な拡張機能でしたが、2024年4月9日に提供が終了しました。
本記事では、【SceneXplain】プラグインの使い方を解説していますが、今後の利用には、より進化したChatGPTのGPTs(カスタムGPT)をお勧めします。

ChatGPTの発展を理解し、【SceneXplain】プラグインの詳細を知りたい方は、ぜひ最後までご覧ください。

画像の中に隠された物語や感情、色彩や構成を知りたくありませんか?

画像には、言葉では表現しきれない美しさや感動があります。しかし、その中に隠された意味や構造を深く理解するのは難しいもの。

そんなあなたの願いを叶えるツールが、おすすめのChatGPTの「SceneXplain」プラグインです。

「SceneXplain」プラグインとは、一言でいうと画像の内容をテキストで詳細に解析する機能を追加するツールです。


この記事では、ChatGPTの「SceneXplain」プラグインの使い方から、具体的な解析結果まで、初心者でも簡単に理解できる内容でご紹介します。

この記事を読むことで、以下のメリットがあります。

  • 「SceneXplain」プラグインの基本的な使い方や活用方法を理解できる
  • 画像解析の新しい世界が開かれることで、深い理解と新しい価値観の発見が可能になる
  • 「SceneXplain」プラグインの魅力を、具体的な例を通して深く理解する

画像の中の未知の世界を探求し、新しい発見を楽しんでみませんか?

この記事が、あなたの画像解析の第一歩となることでしょう!

目次

ChatGPTのプラグインとは?

OpenAIが、ChatGPTの新機能としてプラグイン(Plugins)のβ版を2023年5月12日から提供を開始しました。

プラグイン(Plugins)」とは、あなたのChatGPTをより強力で多機能にカスタマイズするための追加ツールのことです。ChatGPT Plusユーザーであれば誰でも使用可能です。

なお、「プラグインってなに?」や「ChatGPTのプラグインとは?」など疑問に思っている方のために、「プラグインの基本」や「プラグインの一覧」についてはこちらの記事に詳しく解説しています。

プラグインを初歩から知りたいという方の参考になれば嬉しいです。

「SceneXplain」とは?開発元、開発目的は?

Jina AI 公式サイト
(出典:Jina AI 公式サイト

「SceneXplain」は、Jina AIによって開発されました。Jina AIは、2020年に設立され、ベルリンに本社を構える企業です。

Jina AIは、マルチモーダルAI技術の先駆者として急速に成長しています。Jina AIは、GitHubでオープンソースとして提供しており、全世界の40,000人以上の開発者が、複雑なマルチモーダルAIアプリケーションの構築と展開に成功しています。


「SceneXplain」の開発目的は、AIの未来を切り開くことにあります。

Jina AIは、既存の機械学習とソフトウェアエコシステムがマルチモーダルAIの取り扱いにおいて課題を抱えていると認識しており、これに対応するために先進的なツールとプラットフォームの開発に取り組んでいます。そのビジョンは、マルチモーダルAIの広範な潜在能力を活用し、情報の解釈と対話の方法を真に革新することに重点を置いています。

「SceneXplain」は、このビジョンの一環として開発され、画像の内容をテキストで詳細に解析する能力を提供することで、マルチモーダルAIの未来への橋渡しを果たしています。

「SceneXplain」プラグインで何ができる?

ChatGPTの「SceneXplain」プラグインは、画像の内容をテキストで詳細に解析するツールです。

ChatGPTの「SceneXplain」プラグインを使用すると、画像の中の物体、色、形、構成などを詳細に解析することができます。

例えば、風景画像を解析すると、その画像に描かれている山や川、植物などの詳細な説明を得ることができます。
初めて使う一般人でも、画像のURLを入力するだけで、その画像の内容を深く理解することができるようになります。


「SceneXplain」プラグインの具体的な主の機能をまとめると、以下のとおりです。

「SceneXplain」プラグインの主な機能

  • 物体認識: 画像内の物体や人物を特定し、その特徴を説明します。
  • 色彩解析: 画像の色彩構成を分析し、色の使用や配合について説明します。
  • 形状解析: 画像内の形状や構造を解析し、その形や配置について説明します。
  • 感情解析: 画像が表現する感情やテーマ性を解析し、その意味や背景について説明します。

ChatGPTのプラグイン「SceneXplain」の使い方

それでは、ChatGPT(GPT-4)で「SceneXplain」プラグインを使ってみます。

まずは、「SceneXplain」プラグインをインストールします。

「SceneXplain」プラグインをインストール

SceneXplain_ChatGPTプラグイン_使い方

Plugin storeから「SceneXplain」を検索します。

SceneXplain_ChatGPTプラグイン_使い方

[install]ボタンをクリックしてインストールします。

SceneXplain_ChatGPTプラグイン_使い方

SceneXplainが選択されていることを確認します。

「SceneXplain」プラグインの使い方を聞いてみる

初めてプラグイン「SceneXplain」を使うので、まずはChatGPTにプラグイン「SceneXplain」の使い方を下記のように聞いてみました。

プロンプト
ChatGPT プラグイン「SceneXplain」の使い方をステップ形式で、初心者にわかりやすく教えてください。

するとChatGPTから、下記の回答が返ってきました。

SceneXplain_ChatGPTプラグイン_使い方

基本的な使い方として、次のステップが回答されました。ChatGPTの返答をそのまま紹介します。


↓ChatGPTの返答はここから↓

ChatGPTのプラグイン「SceneXplain」は、画像の内容を解析して詳細な説明を生成する強力なツールです。初心者の方でも簡単に使えるように、以下のステップ形式でわかりやすく説明します。

STEP

ステップ1: SceneXplainの準備

まずは、SceneXplainを使用するための環境を整える必要があります。ChatGPTと連携しているプラットフォームであれば、SceneXplainの機能を利用することができます。

STEP

ステップ2: 画像の選択

解析したい画像を選びます。画像はURLかbase64エンコードされた形式である必要があります。

STEP

ステップ3: 言語と特徴の設定

解析結果の言語や特別な特徴を設定することができます。例えば、日本語での解説を希望する場合、languagesパラメータに'ja'を設定します。

STEP

ステップ4: 解析の実行

以下のようなコマンドを使って、画像の解析を実行します。

SceneXplain.explainImage({
  image: '画像のURLまたはbase64エンコードされた画像',
  languages: ['ja'],
});
STEP

ステップ5: 結果の確認

解析が完了すると、画像の内容に関する詳細な説明が返されます。この説明を利用して、画像の内容を理解したり、他の人に共有したりすることができます。

まとめ

まとめ

SceneXplainは、画像の内容を深く理解するための素晴らしいツールです。上記のステップを順に実行することで、誰でも簡単にこの機能を利用することができます。画像解析の世界が広がるこのプラグインを、ぜひお楽しみください!

↑ChatGPTの返答はここまで↑

15歳でも出来る「SceneXplain」の簡単な使い方(実例あり)

上記のChatGPTから教えてもらったステップでは、コードを書いて利用する方法でした
僕を含め普段コードを使用しない人のために、簡単な使い方を知りたいと感じました。

そこで、下記のプロンプトを送信。

プロンプト
ChatGPTの「SceneXplain」プラグインでコードを使わない簡単な一般的な使い方があれば、例文をあげて15歳でも理解できるように教えてください

ChatGPTから下記の回答が返ってきました。

SceneXplain_ChatGPTプラグイン_使い方

とても簡単な使い方を、例文とともに教えてくれました!

15歳でもできる「SceneXplain」プラグインの簡単な使い方は以下のとおりです。
ChatGPTの回答をそのまま紹介します。

15歳でもできる「SceneXplain」プラグインの簡単な使い方

  1. 画像のURLを用意する: 解析したい画像のURLを用意します。ウェブ上の画像であれば、右クリックからURLをコピーすることができます。
  2. ChatGPTに指示する: ChatGPTに対して、以下のように指示を出します。「この画像を解析してください。[画像のURLをここに貼り付け]」

つまり、「SceneXplain」プラグインには次のようにプロンプトを出せば良いということになります。

例:画像の内容を解析したい

  1. 「SceneXplain」プラグインを選択
  2. 「この画像を解析してください。[画像のURLをここに貼り付け]」
  3. 2のプロンプトをチャットに入力して送信

なんと、解析したい内容の画像のURLを「プロンプト(命令文)」に書いて送信するだけ!簡単ですね!

「SceneXplain」プラグインを使ってみた!

それでは実際にChatGPTの「SceneXplain」プラグインを使ってみます。

「SceneXplain」プラグインで、「サム・アルトマン」の画像を解析してみた結果は?

先ほど、ChatGPTが「SceneXplain」プラグインの使い方の例に挙げた、OpenAIのウェブサイトにある画像の解析をしてみます。

下の画像で、OpenAIのCEOサム・アルトマンが慶応大学で意見交換を行った様子です。

Insights from global conversations
(出典:Insights from global conversations OpenAI公式サイト

ちなみに、このサム・アルトマンの慶大生との意見交換についてはこちらの記事に詳しく解説しています。

「SceneXplain」プラグインでこの画像を解析すると、どのような内容が回答されるのでしょうか。楽しみですね!

では、以下のプロンプト(命令文)を出してみましょう。

この画像を解析してください。https://images.openai.com/blob/b38aaf7d-ec65-4194-a4c0-db5131f30dae/3J2A3934_3200.jpg

ChatGPTの回答は以下のとおり。

SceneXplain_ChatGPTプラグイン_使い方

ChatGPTの回答をそのまま紹介します。

この画像の解析結果をお伝えします。

画像には、講堂で座っている人々のグループが描かれています。彼らは大きなスクリーンに向かって座っており、2つのセクションに分かれています。

左側には、赤と白の旗の前の木製の演壇で座っている人々がいます。スーツを着た男性が椅子に座っており、彼はおそらくスピーカーやプレゼンターでしょう。

右側には、さらに多くの人々が座っており、教室や講義ホールの設定のように見えます。

画像全体には、いくつかのテキストがあります。これには「OpenAI」、「OpenAl」、「慶應義塾大学(Keio University)」などが含まれます。また、「X」や「13:21」といったテキストもいくつかの場所で見ることができます。

全体として、この画像は講堂で行われている会議やプレゼンテーションを表しており、異なるセクションで座っている個人がいます。テキストの存在は、さまざまな組織や機関がイベントに関連していることを示しています。

この解析を通して、画像の背後に隠された意味やシーンの詳細を理解することができました。何か他に質問やわからないことがあれば、どうぞお気軽に聞いてください。一緒に楽しく学びましょう!

さすがに、人物がサム・アルトマンと解析するのは無理とは思っていましたが、「スーツを着た男性が椅子に座っており、彼はおそらくスピーカーやプレゼンターでしょう。」と、サム・アルトマンの方に注目している点が優秀ですね!

そして、講堂で行われている会議やプレゼンテーションという全体像から、かなり細かい部分まで解析していることに驚きました!

もう一度、画像を見てみましょう。

Insights from global conversations
(出典:Insights from global conversations OpenAI公式サイト

スクリーンに写っている「OpenAI」、「慶應義塾大学(Keio University)」のテキストを正確に読み取っていることや、画像左上にある時刻「13:21」まで読み取っていることにも感動しました。

「SceneXplain」プラグインは、かなりの分析精度だという印象です。

「SceneXplain」プラグインで、画像生成AIで作成した「富士山」の画像を解析してみた結果は?

次は、ChatGPT プラグイン「Photorealistic」と画像生成AI「Midjourney(ミッドジャーニー)」で作成した「富士山」の画像解析をしてみます。

ChatGPT のプラグイン「Photorealistic」や、画像生成AI「Midjourney(ミッドジャーニー)」をご存知ない方のために簡単に説明します。

ChatGPT の「Photorealistic」プラグインとは?

「Photorealistic」プラグインとは、ユーザーが提供したテキストプロンプトに基づいて、画像生成AIの「Midjourney」用のプロンプト作成を生成するツールです。

画像生成AI「Midjourney(ミッドジャーニー)とは?

「Midjourney(ミッドジャーニー)」とは、AI(人工知能)を用いて、ユーザーが入力したテキストやキーワードの組み合わせに基づいて画像を生成するツールのことです。画像生成AIとも呼ばれます。

ChatGPT プラグイン「Photorealistic」と画像生成AI「Midjourney」についてはこちらの記事に詳しく解説しています。

それでは、まずは「富士山」の画像を「Midjourney」で生成するために、ChatGPT プラグイン「Photorealistic」を使って「Midjourney」用のプロンプトを生成します。

SceneXplain_ChatGPTプラグイン_「Photorealistic」「Midjourney」使い方

生成された「Midjourney」用の富士山のプロンプトが以下のとおり。(文末の –ar 16:9 –v 5.1 –style raw –s 750 – は付け加えました)

Create an image of Mount Fuji, Japan’s iconic and highest mountain. The image should capture the majestic presence of the mountain, possibly with a serene lake in the foreground reflecting the peak, and cherry blossoms or other seasonal elements to add to the beauty of the scene. The sky can be clear with soft clouds, allowing the mountain to stand out. The overall composition should be balanced and aesthetically pleasing, capturing the essence of this famous landmark. –ar 16:9 –v 5.1 –style raw –s 750 –

日本語訳は以下のとおり

日本の象徴であり最高峰である富士山をイメージしてください。富士山の雄大な存在感を表現し、山頂を映す静かな湖を前景に、桜やその他の季節の要素でシーンの美しさを加える。空は晴れ渡り、柔らかな雲が山を際立たせる。全体的な構図は、この有名なランドマークの本質をとらえるような、バランスの取れた美的感覚のあるものでなければならない。

このプロンプトを「Midjourney」に入力して、「Midjourney」が生成した画像が下の画像です。

ChatGPT プラグイン「Photorealistic」と画像生成AI「Midjourney」で作成した「富士山」の画像

素晴らしい画像ですね!


さて、この「Midjourney」が生成した富士山の画像を、「SceneXplain」プラグインがどのように解析して回答するのでしょうか。楽しみですね!

では、以下のプロンプト(命令文)を出してみましょう。

この画像を解析してください。https://chat-gpt.school/wp-content/uploads/2023/08/Create_an_image_of_Mount_Fuji_Japans.jpg

ChatGPTの回答は以下のとおり。

SceneXplain_ChatGPTプラグイン_使い方

ChatGPTの回答をそのまま紹介します。

この画像の解析結果をお伝えします。

この美しい風景画像は、視聴者の目の前に広がります。静かな湖のきらめく水面が前景に広がり、満開の桜の木の鮮やかな色彩を反映しています。遠くには、その威厳を桜の繊細なピンクの花で強調した富士山の雄大なシルエットが現れます。

この田園地帯の中心には、湖があります。桜の木が岸辺に並び、その枝が花で重たく、下の静かな水面に幻想的な光を投げかけています。湖の表面を優雅に滑る小舟があり、その存在が静けさの感覚を増しています。

平和な水面の上には、途切れることなく広がる澄んだ青い空があり、ふわふわとした白い雲が点在しています。桜の木が、自然の儚い美しさの証であるピンクの花で支配しており、画像の左上隅を占めています。彼らは天に向かって伸びているようで、その繊細な花びらが鮮やかな青い背景に対して優しい天蓋を形作っています。

この魅力的な画像は、視聴者を調和と静けさの場所へと運びます。自然界が色と質感の鮮やかなタペストリーを描くところです。満開の桜の木、雄大な山、そして静かな湖の組み合わせは、驚異と畏敬の念を呼び起こし、忙しい世界での一時の休息を提供しています。

この解析を通じて、画像の背後に隠された美しい意味やシーンの詳細を理解することができました。何か他に質問やわからないことがあれば、どうぞお気軽に聞いてください。一緒に楽しく学びましょう!

「富士山の雄大なシルエット」とありますね!「SceneXplain」プラグインは、この画像を富士山と認識することができました。また、満開の桜や小舟、白い雲など細かいところも表現しています。

なお、今回もっとも驚いたのは、目を閉じても、情景が絵に浮かぶほどの描写があることです。

ぜひ、「SceneXplain」プラグインの回答を読んだあと、もう一度、画像をご覧ください。

ChatGPT プラグイン「Photorealistic」と画像生成AI「Midjourney」で作成した「富士山」の画像

【結論】想像を超えた「SceneXplain」プラグインの画像解析力

「SceneXplain」プラグインは、想像を超える解析力を持つ素晴らしいツールでした!「SceneXplain」プラグインは、画像解析の新しい時代を切り開いていますね。

全体像から細かい描写まで、画像の中に隠された美しい意味や感情を深く探求することができます。

「SceneXplain」プラグインを使用すると、画像の中の物語や情感、さらには色彩や構成まで、非常に詳細に解析することができます。
その解析の深みは、目を閉じても、情景が絵に浮かぶほど鮮明です。


初心者でも簡単に使えるこのツールは、教育、芸術、ビジネスなど、多岐にわたる分野での応用が可能です。

教育の場では、学生が視覚的な要素を深く理解する手助けとなります。芸術家やデザイナーは、作品の中の細部を探求し、新しいインスピレーションを見つけることができるでしょう。ビジネスの世界では、マーケティングや広告の素材を最適化するための洞察を提供します。

【応用編1】「SceneXplain」プラグインと画像生成AI「Midjourney」の相互応用

このように「SceneXplain」プラグインは、画像解析の新しい時代を切り開く素晴らしいツールです。

物体認識から感情解析まで、画像の中に隠された美しい意味や感情を深く探求することができます。この解析力は、目を閉じても情景が絵に浮かぶほど鮮明です。

一方で、画像生成AI「Midjourney(ミッドジャーニー)」などのツールは、特定のプロンプトに基づいて画像を生成する能力を持っています。この生成された画像は、様々な目的やテーマ性を持つことがあります。


ここで興味深いのは、「SceneXplain」プラグインで解析された文章を「Midjourney」などの画像生成AIのプロンプトとして使用することができる点です。

つまり、「SceneXplain」で解析した画像の背後にある意図や感情を、新しい画像生成のインプットとして活用することができるのです。

「SceneXplain」プラグインで解析された文章から、「Midjourney」で画像生成してみた結果

ということで、実際に「SceneXplain」プラグインで解析された文章から、「Midjourney(ミッドジャーニー)」で画像生成してみたいと思います。

先ほど、「SceneXplain」プラグインを使って、下の「サム・アルトマンの慶応大学での意見交換会」の画像を解析しましたね。

Insights from global conversations
(出典:Insights from global conversations OpenAI公式サイト

この「SceneXplain」プラグインの画像解析結果の回答を、画像生成AI用に以下のように少し修正しました。

講堂で座っている人々のグループが描かれています。彼らは大きなスクリーンに向かって座っており、2つのセクションに分かれています。

左側には、赤と白の旗の前の木製の演壇で座っている人々がいます。スーツを着た男性が椅子に座っており、彼はおそらくスピーカーやプレゼンターでしょう。

右側には、さらに多くの人々が座っており、教室や講義ホールの設定のように見えます。

画像全体には、いくつかのテキストがあります。これには「OpenAI」、「慶應義塾大学(Keio University)」などが含まれます。また、「X」や「13:21」といったテキストもいくつかの場所で見ることができます。

全体として、この画像は講堂で行われている会議やプレゼンテーションを表しており、異なるセクションで座っている個人がいます。テキストの存在は、さまざまな組織や機関がイベントに関連していることを示しています。

これを英語にして「Midjourney」用にプロンプト化すると、以下のようになります。

It shows a group of people sitting in an auditorium. They are seated facing a large screen, which is divided into two sections.On the left are people sitting at a wooden podium in front of a red and white flag. A man in a suit is sitting in a chair; he is probably the speaker or presenter.To the right, more people are seated, in what appears to be a classroom or lecture hall setting.There is some text throughout the image. These include “OpenAI” and “Keio University (Keio University)”. Texts such as “X” and “13:21” can also be seen in several places.Overall, the image represents a meeting or presentation taking place in an auditorium, with individuals sitting in different sections. The presence of text indicates that different organizations and institutions are associated with the event. –ar 16:9 –v 5.1 –style raw –s 750 –

それでは、このプロンプトを「Midjourney」に入力して、「Midjourney」が生成した画像が次の4枚です。ご覧ください。

「Midjourney」は、ロゴやテキストをそのまま表現しないため、「OpenAI」や「慶應義塾大学(Keio University)」などの文字は画像内に見当たりません。

しかし、「サム・アルトマンの慶応大学での意見交換会」の画像を解析した文章から生成された画像は、なかなかの雰囲気のある会場が描かれており、驚きの一言でした。

このような技術の進展は、今後のビジュアルコミュニケーションの新しい可能性を開くに間違いありません。

【応用編2】「SceneXplain」プラグインと「Argil AI」プラグインの相互応用

次の応用編として、「SceneXplain」プラグインで解析された文章を、「Argil AI」プラグインで画像生成してみます。

ChatGPT の「Argil AI」プラグインをご存知ない方のために簡単に説明します。

ChatGPT の「Argil AI」プラグインとは?

「Argil AI」プラグインとは、あなたが入力したテキストに基づいて画像を自動生成するツールです。

ChatGPT プラグイン「Argil AI」についてはこちらの記事に詳しく解説しています。

「SceneXplain」プラグインで解析された文章から、「Argil AI」プラグインで画像生成してみた結果

「応用編1」と同じく、下の「サム・アルトマンの慶応大学での意見交換会」の解析画像の文章を使用します。

Insights from global conversations
(出典:Insights from global conversations OpenAI公式サイト

この「SceneXplain」プラグインの画像解析結果の回答を英語にして、「Argil AI」プラグイン用に少し修正し、以下のようにプロンプト化しました。

前半に、「The following image I would like to request the following. Could you please refer to the following points? (下記の画像をお願いしたいと思います。以下のポイントをご参考にしていただけますでしょうか。)」のプロンプトを加えました。

「Argil AI」プラグインに、以下のプロンプトを出してみましょう。

The following image I would like to request the following. Could you please refer to the following points?
It shows a group of people sitting in an auditorium. They are seated facing a large screen, which is divided into two sections.On the left are people sitting at a wooden podium in front of a red and white flag. A man in a suit is sitting in a chair; he is probably the speaker or presenter.To the right, more people are seated, in what appears to be a classroom or lecture hall setting.There is some text throughout the image. These include “OpenAI” and “Keio University (Keio University)”. Texts such as “X” and “13:21” can also be seen in several places.Overall, the image represents a meeting or presentation taking place in an auditorium, with individuals sitting in different sections. The presence of text indicates that different organizations and institutions are associated with the event.

ChatGPTの回答は以下のとおり。

SceneXplain_Argil AI_ChatGPTプラグイン_使い方

ChatGPTの回答をそのまま紹介します。

ご指定いただいた内容に基づいて、講堂での会議やプレゼンテーションを描いた画像をご用意いたしました。

画像は、大きなスクリーンに向かって座っている人々のグループを示しています。スクリーンは2つのセクションに分かれており、左側には赤と白の旗の前に木製の演壇で座っている人々がいます。スーツを着た男性が椅子に座っており、おそらくスピーカーまたはプレゼンターでしょう。右側には、教室や講義ホールの設定で座っている他の人々がいます。

画像全体にはいくつかのテキストがあり、これには「OpenAI」と「慶應義塾大学(Keio University)」などが含まれています。また、「X」と「13:21」などのテキストもいくつかの場所で見ることができます。全体として、この画像は講堂で行われる会議やプレゼンテーションを表し、テキストの存在は、さまざまな組織と機関との関連を示しています。

当然といえば当然ですが、もともと「SceneXplain」プラグインが画像解析した文章が詳細まで書いてあるので、「Argil AI」プラグインもそのとおりに忠実に画像を生成してくれているようです。

早速、「講堂での会議やプレゼンテーション」の画像のリンクをクリックすると、下の画像が表示されました。

「SceneXplain」プラグインで解析された文章から、「Argil AI」プラグインで画像生成した画像
「SceneXplain」プラグインで解析された文章から、「Argil AI」プラグインで画像生成した画像

「Argil AI」プラグインによる画像生成のクオリティーは、残念ながら「Midjourney」には及びません。

しかし、「サム・アルトマンの慶応大学での意見交換会」の画像を解析した文章から生成された画像には、その雰囲気が表現されていると感じました。

なお、「Argil AI」プラグインも「Midjourney」と同様に、ロゴやテキストをそのまま表現しないため、「OpenAI」や「慶應義塾大学(Keio University)」などの文字は画像内には見当たりません。

もちろん、この技術の進展はまだ始まったばかりで、今後の発展が非常に期待されます。

【11/24追記:応用編3】「SceneXplain」プラグインと画像生成機能「DALL-E 3」の相互応用

次の応用編として、「SceneXplain」プラグインで解析された文章を、ChatGPTの新機能「DALL-E 3」で画像生成してみます。

「DALL-E 3」とは、ChatGPTの開発会社OpenAIが2023年9月21日(現地時間)に発表したChatGPTの新機能です。

「DALL-E 3」は、ChatGPTにユーザーが入力したテキストに基づいて、高解像度の画像をリアルタイムで生成する能力を持つ画像生成AIです。

ChatGPTの新機能「DALL-E 3」についてはこちらの記事に詳しく解説しています。

「SceneXplain」プラグインで解析された文章から、「DALL-E 3」で画像生成してみた結果

「応用編1」と同じく、下の「サム・アルトマンの慶応大学での意見交換会」の解析画像の文章を使用します。

Insights from global conversations
(出典:Insights from global conversations OpenAI公式サイト

「SceneXplain」プラグインの画像解析結果の回答は、以下のとおりでした。

講堂で座っている人々のグループが描かれています。彼らは大きなスクリーンに向かって座っており、2つのセクションに分かれています。

左側には、赤と白の旗の前の木製の演壇で座っている人々がいます。スーツを着た男性が椅子に座っており、彼はおそらくスピーカーやプレゼンターでしょう。

右側には、さらに多くの人々が座っており、教室や講義ホールの設定のように見えます。

画像全体には、いくつかのテキストがあります。これには「OpenAI」、「慶應義塾大学(Keio University)」などが含まれます。また、「X」や「13:21」といったテキストもいくつかの場所で見ることができます。

全体として、この画像は講堂で行われている会議やプレゼンテーションを表しており、異なるセクションで座っている個人がいます。テキストの存在は、さまざまな組織や機関がイベントに関連していることを示しています。

「DALL-E 3」は日本語が使えますので、この画像解析結果の回答に「以下の内容を横長の写真で作成してください。」の指示を加えて、プロンプトを出してみした。

ChatGPTの回答は以下のとおり。

「SceneXplain」プラグインで解析された文章から、「DALL-E 3」で画像生成してみた結果

以下が、「SceneXplain」プラグインで解析された文章から、「DALL-E 3」で画像生成した画像です。

「SceneXplain」プラグインで解析された文章から、画像生成機能「DALL-E 3」で生成した画像
「SceneXplain」プラグインで解析された文章から、画像生成機能「DALL-E 3」で生成した画像

現時点での「DALL-E 3」は、「Midjourney」には若干劣りますが、「SceneXplain」プラグインで解析された文章を忠実に再現していることが分かります。

そして、「DALL-E 3」が、「Midjourney」や「Argil AI」より優れていたのは、「OpenAI」や「X」、「13:21」のテキストを表現していることです。

日本語の「慶應義塾大学」はまだ実現できてませんが、テキストを描くことができる点は好印象です。これらの進化が楽しみです。

画像生成AI「Midjourney」や「DALL-E 3」、「Argil AI」プラグインなどとの連携によって、ビジュアルコミュニケーションの新しい次元が開かれることでしょう。

ロゴやテキストを直接表現しないという制約がある中で、それでも感じ取れる雰囲気や意図の表現は、今後のクリエイティブな作品作りやビジネスの現場での活用が楽しみです。この先の技術の進化に目が離せませんね!

まとめ

SceneXplain_ChatGPTプラグイン_使い方

SceneXplain」プラグインは、いかがでしたでしょうか?

「SceneXplain」プラグインは、画像の中の未知の世界への扉を開く魅力的なツールです。

画像一枚から、物体の特定、色彩の分析、形状の解析、さらには感情までを読み取ることができるのですから、その可能性は無限大です。

さらに、画像生成AI「Midjourney」や「DALL-E 3」、「Argil AI」プラグインなどとの連携によって、応用も期待できます。このような相互作用は、教育、芸術、ビジネスなど、多岐にわたる分野での新しい可能性を開くものです。


最後に、「SceneXplain」プラグインの重要なポイントをまとめます。

「SceneXplain」プラグインの重要なポイント

  • 物体認識: 画像内の物体や人物を特定し、その特徴を説明します。
  • 色彩解析: 画像の色彩構成を分析し、色の使用や配合について説明します。
  • 形状解析: 画像内の形状や構造を解析し、その形や配置について説明します。
  • 感情解析: 画像が表現する感情やテーマ性を解析し、その意味や背景について説明します。
  • 画像生成AIとの相互応用: 「SceneXplain」で解析された文章を画像生成AIのプロンプトとして使用することができ、新しい画像生成のインプットとして活用することが可能です。

さらに、全体像から細かい描写まで、画像の中に隠された美しい意味や感情を深く探求することができます。目を閉じても、情景が絵に浮かぶほど鮮明な解析が可能です。

これからの時代、画像解析は教育からビジネスまで多岐にわたって活用されるでしょう。

あなたも「SceneXplain」プラグインを使って、画像の奥深い世界を探求してみませんか?
新しい発見と感動が、きっとあなたを待っています!

これまでに紹介したChatGPT プラグインの一覧

ChatGPTのプラグインの数は、すでに1074種類(2023年12月12日時点)。
海外のサービスが多く、日本人に馴染みのあるサービスはかなり少ないという印象です。

しかし、僕はただ知らないというだけで使わないのはもったいと思っています。

そこで、ChatGPTのプラグインの使い方の紹介をシリーズ化しています。今後も楽しみにして頂けると嬉しいです。

これまでに紹介したプラグインは、定期的に更新される「ChatGPT プラグインの一覧(カテゴリページ)」にて詳しく解説しています。


なお、ChatGPTのプラグインは、最大3つまで同時に活用することが可能です。つまり、異なるプラグインの力を組み合わせることにより、超パワフルなChatGPTを生み出すことができます。

ぜひ、他のプラグインもチャレンジされてみてくださいね!

最後までお読みいただきありがとうございました!

よかったらシェアしてね!
  • URLをコピーしました!

コメント

コメントする

目次