智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

感谢网友 HH_KK 的线索投递! 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模 … Continue reading 智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

苹果推出300亿参数多模态AI大模型MM1.5:拥有图像识别、自然语言推理能力

快科技10月13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。 该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数 … Continue reading 苹果推出300亿参数多模态AI大模型MM1.5:拥有图像识别、自然语言推理能力

Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小

感谢网友 Diixx 的线索投递! 9 月 12 日消息,科技媒体 TechCrunch 昨日(9 月 11 日)报道,法国 AI 初创公司 Mistral 发布 Pixtral 12B,是该公司首款 … Continue reading Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小