19:22 · 2025年11月2日 · 周日 × × × × × × × × × × 每天拆解一个AI知识点:多模态模型(MLLM)什么是多模态大语言模型(MLLM)多模态大语言模型是一类能够同时理解和生成文本、图像、音频、视频等多种模态信息的人工智能模型。相比只能处理文本的传统大语言模型(LLM),MLLM通过引入模态编码器和跨模态对齐机制,打通了不同信息模态之间的语义壁垒,使模型能够:“看懂”图像、音频或视频“用语言”描述非文本内容“结合”多模态信息进行复杂推理与生成某些 MLLM 还支持反向生成,即根据文字描述生成图像、语音或视频,实现从理解到创造的闭环能力。 ❤️ 4