多模态 – 风君子博客

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

感谢网友 HH_KK 的线索投递！ 10 月 21 日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模 … Continue reading 智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力

快科技10月13日消息，近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数 … Continue reading 苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力

Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小

感谢网友 Diixx 的线索投递！ 9 月 12 日消息，科技媒体 TechCrunch 昨日（9 月 11 日）报道，法国 AI 初创公司 Mistral 发布 Pixtral 12B，是该公司首款 … Continue reading Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小