ChatGPT が見えるようになりました!

ChatGPT が見えるようになりました!

ビデオトランスクリプトです。(注:このトランスクリプトは、ビデオを視聴できない方や視聴したくない方向けです。テキストが画像トラックの全ての情報を反映しているわけではありません。)

見てください。私はただChatGPTやBing Chatに食事の皿の写真を送り、レシピを尋ねます。ほら、レシピがわかりました、それはニンジンソースのパスタです。または、壊れたカーテンレールの写真を見せ、「これはどうやって修理するの?」と尋ねます。かなり具体的な答えが返ってきます。あるいは、何か分からない奇妙な物体をどこかで見つけたか?ChatGPTに尋ねてみてください。または、代数の宿題の簡単な写真を撮って、これがグラフを含む結果です。そして今、最も驚くべきことです。私は紙にウェブサイトのスケッチをして、ChatGPTに「これを構築してください」と頼みます。そして、HTMLとJavaScriptのコードを得られます。そしてそれは動作します。見た目もいいです!

このビデオではその使用方法を紹介します。また、まだ問題が残っている点もあります。なぜなら、上記の例を詳しく見てみると、かなり明らかな間違いが見つかるからです。お楽しみに。

親愛なるハッカー、親愛なるインターネットサーファーの皆様、ようこそ…

はい、OpenAIが今年3月に大規模言語モデルGPT-4を導入した際、いわゆる「マルチモーダル機能」が約束されたことを覚えているかもしれません。それはかなり壮大に聞こえますが、この場合、GPT-4がテキストだけでなく画像でも訓練されたことを意味します。つまり、画像を理解できるわけです。この「GPT-4V」機能(Vは「ビジョン」の意)は最初から有効にはなっていませんでした。しかし、今は有効になっており、この機能はたとえばChatGPTの有料Plusバージョンに含まれています。少なくとも私のアカウントと3つのアカウントではそうです。他の人に尋ねましたが、残念ながらChatGPTの新機能の展開は非常に不透明なため、残念ながら100%確信することはできません。たとえば、ChatGPTは私の同僚のLukasのスマートフォンアプリで使用可能です。音声出力は反応しますが、反応しません。私たちは同じオペレーティングシステムとバージョンを使用しています。

しかし、画像認識の話題に戻りましょう。たとえば、Windows Copilotに含まれるAIシステムであるMicrosoftのBing ChatはGPT-4と連携し、画像をキャプチャすることができます。ChatGPT Plusとは対照的に、Bing Chatは、少なくとも現時点では無料です。ただし、画像認識機能は大幅に向上しており、ChatGPTよりもBing Chatの方がはるかに

実用的なことその2: 未知の物体を特定する

たまに、手に持っているが何であるかわからない物体に出会うことがあります。GPT-4はこのような場合に非常に役立ちます。例えば、こちらは毛糸の玉です。そして、ChatGPTはその美しいターコイズブルーの模様にも注意を引きます。または、これは再利用可能なコーヒーカップの蓋です。耳栓を取り除くために購入したこの製品を試すと、より興味深い結果になりました。ChatGPTは何度も結果を提供することを拒否しました。常にエラーメッセージが表示されるだけでした。最初は理由がわかりませんでしたが、ある時点でChatGPTが「これは浣腸ボールのようです。浣腸用です」と述べたとき、理解しました。しかし、「浣腸は具体的にどのように行われるか」と尋ねると、「間違いです」としか返ってきませんでした。

政治的に不適切な領域に踏み込んでいると疑われる場合も同様です。Ru Paulの写真をアップロードしてその人物の性別を尋ねると、エラーメッセージが表示されます。しかし、自分の写真をアップロードして同じ質問をすると、「男性」と答えられます。しかし、自分の写真を撮って、写っている人物の年齢を尋ねると、エラーメッセージが表示されます。ChatGPTは、コンチータ・ヴルストの写真を事実に基づいて説明することを望んでいません。「写真について説明してください」と尋ねると、直ちにエラーメッセージが表示されます。したがって、OpenAIがGPT-4が問題と見なされる可能性のあるものを出力しないように非常に慎重に努力していることが明らかです。これは画像機能のリリースに時間がかかった理由の一つかもしれません。ChatGPTは明らかに、性差別的、人種差別的、またはどのような形でも非人間的な発言をされたくないためです。しかし、一方で、完全に無害なやり取りでさえもフィルターが作動することがあります。なぜ口紅をつけたひげを生やした人物の写真を説明できないのでしょうか。そして、なぜGPT-4は私の耳洗浄装置に問題があると判断したのでしょうか?2023年ですよ!まだ解決中です。

実用的なことその2: 未知の物体を特定する

実用的なことその3: ユーモアを理解する

ユーモアはコンピュータがまだ完全にマスターしていないものです。なぜなら、ユーモアは非常に複雑だからです。しかし、GPT-4は驚くほど頻繁にユーモアを理解します。例えば、ニューヨーカー誌の有名なキャプションコンテストです。何十年もの間、言葉のない漫画に面白いキャプションを読者に求めてきました。たとえば、これは最近の、会

実践的なこと4:食べ物の調理

レストランで料理の写真を撮るだけで、GPT-4がレシピを生成するのでしょうか? はい、これは少なくとも大まかには機能しますが、このような単純な例であるアメリカンブレックファストの場合に限ります。 しかし、実際には詳細が欠けることがよくあります。たとえば、この料理を見てください。これらはニンジンソースのパスタですが、正確に識別され、フジリですが、グラナパダーノのスライスも非常に重要です。しかし、それは ChatGPT に認識されませんでした。または、ここにルーカスのフランケン風ソーセージサラダがあります。 おおよそ正しいですが、ルーカスによると、ここでは白いソーセージが緊急に必要であり、ChatGPTは肉ソーセージまたはリオナーについて話しています。 または、これがチェリーケーキです。ChatGPTでは中に「ベリー」が入っていると言っていますが、それがチェリーであることが明らかです。 そして彼はチョコレートも認識しませんでした。

実践的なことその5: 学校の勉強

以前、友人の教師に、学校の課題の写真を撮ってほしいと頼んだことがあります。 はい、ChatGPT に写真を提供しました。 たとえばラテン語の場合、答えは非常に優れており、質問に対して非常に具体的です。Bing Chatの場合を比較すると、答えは完全に間違っているだけでなく、写真に関連していません。 「この本の目的は何ですか?」とは? これはどこにも言及されておらず、信者に対する教えや戒めとは何の関係もありません。 したがって、Bing Chatは6、トピックが外れました。

さて、再び ChatGPT と代数、11年生、積分微積分について。 「標準 GPT-4」は式を生成するだけですが、このタスクではグラフを描く必要がありました。 それも可能ですが、ここで「デフォルト」から「高度なデータ分析」に切り替える必要があります。 このモードでは、ChatGPT は画像の内容を理解できませんが、他のモードからテキストをコピーして貼り付けるだけで、グラフを描くことができます。 そして、はい、ChatGPT は Matplotlib ライブラリを使用して Python でプロットし、それをグラフィカルに表示します。

以前、工学数学の教授で元 c’t 編集者のヨルン・ロビスカッハ氏に、結果は大丈夫かどうか尋ねたところ、「はい、標準 GPT-4 の答えは正しいですが、高度なデータ分析モードではグラフに誤差が含まれます」と言われました。 しかし、それはおそらく私が単に雑にコピー&ペーストしたことが主な原因です。 そして質問の公式が正しくありませんでした。 ちなみに、Jörn Loviscach 自身も、電子回路など、ChatGPT 画像入力を使ったいくつかのことをブログで試しており、非常に興味深いものでした。 リンクは説明文にあります。

もちろん、今では全体を完全に否定的な方向に見て、「いや、ChatGPT は学校教育を破壊している!コンピューターに任せられるなら、宿題はもう役に立たない!」と言うかもしれません。 しかし、私が気づいたところによると、多くの学生が ChatGPT を使用して学習しています。 そこで彼らは、「あれもこれも理解できなかったので、もう一度簡単な言葉で説明してもらえますか」と言います。 そして彼らはこう言います、「わかりました。理解できたかどうか知りたいのですが、課題を与えてください。」 そのため、実際には ChatGPT を単に退屈な結果マシンとしてだけでなく、無限の忍耐力を備えた家庭教師としても使用できます。 しかし、それは今話題から外れています。

実践的なことその6: 修理支援

実践的なことその6: 修理支援

何かが壊れているのですが、直し方がわかりませんか? 写真を撮って ChatGPT に尋ねるだけで、問題なく動作します。 たとえば、ここに引き裂かれたカーテンロッドがあります。カーテンホルダーを取り外し、穴をフィラーで埋め、新

しいダボを使用して、再度取り付けます。

実用的なことその7: 写真の再作成

Midjouney、Stable Diffusion、または Dall-E3 を使用して画像を再作成したいのですが、それを正しく記述する方法がわかりませんか? ChatGPT に画像を投げてプロンプトを尋ねることもできますか? たとえば、ここでは、カスパー・ダーヴィッド・フリードリッヒによる霧の海の上の有名なハイカーについて、非常に詩的な描写が出てきます。「空は曇っていますが、雲を突き破る光線があり、景色を幻想的な雰囲気に包み込みます」柔らかく拡散する光。」 はい、たとえば、これを Dall-E3 に投げると、ChatGPT で直接実行できるようになり、元の画像とほぼ同じ方向の画像が表示されます。 もちろん、たとえば「man」の代わりに「sea Cow」を使用するなど、それらをリミックスすることもできます。 はい、素晴らしいです。これで本物のアートを制作できましたね?

結論

そのため、GPT-4の画像機能は非常に優れていると考えます。 私は最近まで、今日のコンピューターがユーモア、文脈、世界知識を含む画像を本当に理解できるとは信じていませんでした。 コンピューターはただ見るだけでなく、実際に見ることができるのです。 このようなものがいつかクラウドなしでリアルタイムで動作するようになると想像すると、たとえば、これまではSFの世界の話としてしか知らなかった人型ロボットへの道は、今では確実に短くなりました。 そしてこのテクノロジーは、視覚障害者など障害のある人々の生活を改善する可能性もあります。 私たちがそれをどうするかを見るのがとても楽しみです。良いことだけが起こることを願っています。 さようなら。

このページを評価する

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。