試してみました:ChatGPTがあなたに話しかけた際の体験

試してみました:ChatGPTがあなたに話しかけた際の体験

これは未来の姿でしょうか? 少なくとも、OpenAI の ChatGPT アプリに追加された新しい音声出力機能は非常に未来的であり、音声アシスタントに恋をするSF映画「Her」を思い起こさせます。

Siri、Alexa、Google アシスタントなどの従来の音声支援システムと比較して格段に高品質で、チャットボットと直接言語対話を行うことが初めて可能になりました。 ChatGPT アプリでは以前から音声入力が可能でしたが、現在は必要に応じて 5 種類の音声の中から選んで応答することができます。 これは iOS と Android で利用可能です。 第三の機能である写真分析もブラウザで使用できます。

iPhone の新機能を試す機会がありました。 数週間内に、ChatGPT+ サブスクリプション(以前と同様に月額 20 ユーロ)を契約しているすべての有料ユーザーが段階的に利用できるようになります。

この機能は、数週間内にすべての有料顧客に提供される予定です。

音声出力を有効にするには、まず ChatGPT アプリの設定へ移動する必要があります。 機能がアクティブになっていれば、「新機能」としてリストアップされています。 最初はメニュー項目が見えなかったため、戸惑いました。 VPN を使用して米国の IP アドレスを利用すると、音声出力を有効にするオプションが表示されました。 その後、ドイツの IP でこの機能を利用できるようになったため、VPN を再度オフにしました。

大規模言語モデルとの対話を始めるには、チャットに新しく追加された右上のヘッドフォンアイコンをクリックします。 ユニークでミニマルな UI が表示されます。 システムが OpenAI サーバーに接続すると、黒背景にアニメーション化された圧縮された円が表示されます。 現在、これには数秒かかるため、即座には行われません。 立っている円が表示されたら、システムは音声入力の準備が整っています。 システムが受信レベルを象徴する 4 つの小さな円で聞いていることがわかります。 ChatGPT は入力の終了を検出し、「考え中」の間にアニメーションの吹き出しを表示します。 これには数秒かかり、場合によってはもう少し時間がかかることもあります。 最終的に、出力が言語形式で提供されます。 また、テキストチャットビューに切り替えることで、出力をテキスト形式で利用することもできます。

ドイツ語も可能です

ドイツ語も可能です

ChatGPT アプリはデフォルトでアメリカ英語を話しますが、外国語でも話すことができます。たとえば、驚くほど流暢なドイツ語のほか、フランス語、ポーランド語、日本語、スペイン語も利用でき

ます。 選択した声にもよりますが、多少のアメリカ訛りが含まれています。 音声出力が機械的またはロボットのように聞こえることはほとんどありません。 出力テキストには表示されない「えー」という言葉も含まれます。 使用の流れを阻害する唯一の要素は、入力処理の一時停止です。 通常、回答は数秒以内に提供されますが、処理中は「処理中」のアニメーションを見つめ続けることになります。 さらに、ChatGPT は、純粋なテキストバージョンで以前から知られているように、「さらに質問があれば、お気軽にどうぞ」というような(明らかに)エンゲージメントを促すフレーズを追加する傾向があります。 これは、回答が長い場合に特に頻繁に発生し、たとえ明示的に要求しても、システムの実行を停止することはできません。

接続が一時的に悪化すると、音声出力にアーティファクトが生じ、まるで GSM 音声接続がアンテナの範囲外にあるかのように聞こえます。 音声出力はまた、環境の音量に適応します。背景ノイズが存在する場合、ChatGPT の音量が増加します。 iPhone のマイクは、音声出力中であっても常にアクティブな状態を維持します。

ChatGPTに対する注目

音声出力以上に興奮するかもしれないもう一つの新機能は、ChatGPTに画像を提示して分析や助言を得る機能です。iPhoneでは3つのオプションがあります:直接カメラを起動して写真を撮る、写真ライブラリにアクセスする、またはファイルブラウザを使用します。現在のiOSデバイスでは、写真ライブラリがプライベートモードで動作しており、全ての写真を閲覧できますが、ChatGPTアプリは選択した写真にのみアクセス可能です。必要に応じて、ユーザーは特に関心のある画像内のエリアにマーキングすることができます。画像がアップロードされると、ChatGPTは直ちにテキストの説明を返します。音声出力で応答を聞きたい場合は、再度ヘッドフォンのボタンを押す必要があります。

ベルリンのアーティストスタジオからのドアベルをシステムに提示しました。その後、ChatGPTは可視化されるものを説明し、「興味深い」とコメントされた名前のリストについても言及しました。ベルボードが取り付けられた壁についても説明しました。リストされているアーティストの一人についてさらに詳細を知ることができました。画像のアップロードと分析は、ChatGPTのWeb版でも可能ですが、OpenAIはブラウザでの音声出力が利用可能かどうかはまだ発表していません。

このページを評価する

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。