マルチモーダルAI

著者ChatGPTJP編集部レビュー編集部レビュー班最終更新2026-07-01 読了時間約3分

重要なポイント

文章と画像など複数の情報を扱う
見て読んで答えられるAI
言葉だけのAIより使い道が広い

なぜ大切か

できることの幅が広がる考え方です。基本のChatGPTはChatGPTの用語で説明しています。

身近な例

画像を見て内容を説明する、といった使い方が例です。使い方の基本は日本語での使い方を参考にしてください。

よくある誤解

マルチモーダルAIについて、よくあるかんちがいを整理します。

すべての種類の情報を完璧に扱えるわけではありません。対応する種類はAIごとにちがいます。
画像を「見る」といっても、人と同じように理解しているわけではなく、まちがえることもあります。
文章だけのAIが古いという意味ではありません。用途に合えば言葉だけのAIで十分なこともあります。
画像や音声を扱える分、入力の量が増え、扱える上限や料金に影響することがあります。

似た言葉とのちがい

マルチモーダルAIと近い言葉のちがいを、わかりやすく並べます。

大規模言語モデル（LLM）: 主に言葉を扱います。マルチモーダルAIは画像など他の情報も扱える点がちがいます。
GPT: 文章を作る仕組みです。これに画像なども扱う力を加えたものがマルチモーダルAIにあたります。
トークン: 文章を細かく分ける単位です。マルチモーダルでは画像なども内部で同じように細かく扱われます。

扱える情報

文字だけではない

文章に加えて画像や音声など、いろいろな種類の情報を受け取って理解することができるAIです。

情報を組み合わせる

写真を見せて中身の説明を頼むなど、複数の情報を組み合わせて使えるところがこのAIの大きな特徴です。

よくある質問

マルチモーダルAIで何ができますか。

写真の内容を説明したり、画像と文章をまとめて理解して答えたりと、扱える情報の幅が広がります。

言葉だけのAIとどちらがよいですか。

用途しだいです。文章だけで足りるなら言葉のAIで十分で、画像も扱いたいときに役立ちます。

参考にした情報源

OpenAI ヘルプセンター使い方やトラブルの公式案内です。