マルチモーダルAI
重要なポイント
- 文章と画像など複数の情報を扱う
- 見て読んで答えられるAI
- 言葉だけのAIより使い道が広い
なぜ大切か
できることの幅が広がる考え方です。基本のChatGPTはChatGPTの用語で説明しています。
身近な例
画像を見て内容を説明する、といった使い方が例です。使い方の基本は日本語での使い方を参考にしてください。
よくある誤解
マルチモーダルAIについて、よくあるかんちがいを整理します。
- すべての種類の情報を完璧に扱えるわけではありません。対応する種類はAIごとにちがいます。
- 画像を「見る」といっても、人と同じように理解しているわけではなく、まちがえることもあります。
- 文章だけのAIが古いという意味ではありません。用途に合えば言葉だけのAIで十分なこともあります。
- 画像や音声を扱える分、入力の量が増え、扱える上限や料金に影響することがあります。
似た言葉とのちがい
マルチモーダルAIと近い言葉のちがいを、わかりやすく並べます。
- 大規模言語モデル(LLM): 主に言葉を扱います。マルチモーダルAIは画像など他の情報も扱える点がちがいます。
- GPT: 文章を作る仕組みです。これに画像なども扱う力を加えたものがマルチモーダルAIにあたります。
- トークン: 文章を細かく分ける単位です。マルチモーダルでは画像なども内部で同じように細かく扱われます。
扱える情報
文字だけではない
文章に加えて画像や音声など、いろいろな種類の情報を受け取って理解することができるAIです。
情報を組み合わせる
写真を見せて中身の説明を頼むなど、複数の情報を組み合わせて使えるところがこのAIの大きな特徴です。
よくある質問
マルチモーダルAIで何ができますか。
写真の内容を説明したり、画像と文章をまとめて理解して答えたりと、扱える情報の幅が広がります。
言葉だけのAIとどちらがよいですか。
用途しだいです。文章だけで足りるなら言葉のAIで十分で、画像も扱いたいときに役立ちます。
参考にした情報源
- OpenAI ヘルプセンター 使い方やトラブルの公式案内です。