非公式・AI自動要約ニュースサイト(Anthropic公式とは無関係)
CClaude News JP / www.claude-news.online
基礎

マルチモーダル

テキストだけでなく画像・音声・動画も入出力できる AI モデルのこと。

詳しい解説

従来の LLM はテキストのみを扱ったが、近年のフロンティアモデル(GPT-4o / Claude 3.5+ / Gemini 等)は画像入力、音声入出力、動画解析など複数モダリティに対応する。OCR、図表理解、UI 操作、画像からのコード生成などのユースケースを開く。

別表記

マルチモーダルmultimodal

関連用語

← 用語集一覧へ