零一万物发布千亿参数模型Yi-Large，多数评测指标超越 GPT4、Claude3、Gemini 1.5

风君子博客5月13日消息，继上周推出2C 产品一站式 AI 工作站“万知”后，今天，在零一万物成立一周年之际，零一万物 CEO 李开复博士携带千亿参数 Yi-Large 闭源模型正式亮相，除此之外，零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列。

李开复表示，“万知”正是零一万物基于闭源模型 Yi-Large 所做出的 “模应一体” 2C 生产力应用。（万知更多内容，可关注TechWeb此前报道：实测AI特助「万知」）

李开复介绍：“目前零一万物以优异的闭源模型能力，正在积极探索与世界 500 强企业的大型战略合作。”

同时，零一万物赋能 2B 生态的 “API 开放平台” 今日全球上线。首批面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口。

此外，李开复还透露，零一万物已启动下一代 Yi-XLarge MoE 模型训练，将冲击 GPT-5 的性能与创新性。

Yi-Large 中文能力位列国产大模型之首

零一万物正式发布千亿参数规模的 Yi-Large，在第三方权威评测中，零一万物 Yi 模型在全球头部大模型的中英文双语 PK 上表现出色。

最新出炉的斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上，Yi-Large 模型的英语能力主要指标 LC Win Rate（控制回复的长度）排到了世界第二，仅次于 GPT-4 Turbo，Win Rate 更排到了世界第一，此前国内模型中仅有 Yi 和 Qwen 曾经登上此榜单的前 20。

斯坦福 AlpacaEval 2.0 Verified 认证模型类别，英语能力评测（2024年5月12日）

在中文能力方面，SuperCLUE 更新的四月基准表现中，Yi-Large 也位列国产大模型之首，Yi-Large 的综合中英双语能力皆展现了卓越的性能，可谓正式晋升全球大模型的“极品”。

在更全面的大模型综合能力评测中，Yi-Large 多数指标超越 GPT4、Claude3、Google Gemini 1.5 等同级模型，达到首位。在通用能力、代码生成、数学推理、指令遵循方面都取得了优于全球领跑者的成绩，稳稳跻身世界范围内的第一梯队。

随着各家大模型能力进入到力求对标GPT4的新阶段，大模型评测的重点也开始由简单的通用能力转向数学、代码等复杂推理能力。在针对代码生成能力的 HumanEval、针对数学推理能力的 GSM-8K和 MATH、以及针对领域专家能力的GPQA等评测集上，Yi-Large也取得了具有绝对优势的成绩。

国际中英文评测数据集（2024年5月12日）

值得注意的是，上述评测均是在零样本（0-shot）或少样本（4-shot/5-shot/8-shot）的前提下进行。在零样本或少样本的情况下，模型必须依赖于其在大量数据上训练时获得的知识和推理能力，而不是简单地记忆训练数据。这最大程度上避免了刷分的可能性，能更加客观真实地考验模型的深层次理解和推理能力。

此外，从行业落地的角度来看，理解人类指令、对齐人类偏好已经成为大模型不可或缺的能力，指令遵循（Instruction Following）相关评测也越发受到全球大模型企业重视。斯坦福开源评测项目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是两组英文指令遵循评测集，AlignBench 则是由清华大学的团队推出的中文对齐评测基准。在中外权威指令遵循评测集中，Yi-Large 的表现均优于国际前五大模型。

发布会上，李开复还宣布，零一万物已启动下一代 Yi-XLarge MoE 模型训练，将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中，仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负，训练完成后的性能令人期待。

Yi-XLarge 初期训练中评测（2024年5月12日）

Yi-1.5 开源全面升级

同时，零一万物Yi系列开源模型也迎来全面升级，Yi-1.5 分为 34B、9B、6B 三个版本，且提供了 Yi-1.5-Chat 微调模型可供开发者选择。从评测数据来看，Yi-1.5 系列延续了 Yi 系列开源模型的出色表现，数学逻辑、代码能力全面增强的同时，语言能力方面也保持了原先的高水准。开源地址：Hugginf Face https://huggingface.co/01-ai 及魔搭社区 https://www.modelscope.cn/organization/01ai。

经过微调后的 Yi-1.5-6B/9B/34B-Chat 在数学推理、代码能力、指令遵循等方面更上一层楼。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等数学能力评测集、HumanEval 和 MBPP 等代码能力评测集上的表现远同参数量级模型，也优于近期发布的 Llama-3-8B-Instruct；在 MT-Bench、AlignBench、AlpacaEval 上的得分在同参数量级模型中也处于领先位置。

Yi-1.5-34B-Chat 在数学能力同样保持着大幅领先，代码能力与超大参数量级的 Mixtral-8x22B-Instruct-v0.1 持平，指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多个权威评测集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一万物选择以开源首发 Yi 系列模型，其优异的性能受到国际开发者的高度认可。Yi 开源版本2023年11月上线首月，便占据开源社区近5成热门模型排行，发布一个月后 Yi-34B 被 Nvidia 大模型 Playground 收录，成为国内唯一获选模型，也建立了 Yi 模型面向国际的科技品牌信任度。

以开源模型构建生态，以闭源模型展开 AI-First 探索，开源闭源双轨模型策略使得零一万物构建起了生态体系。开源模型服务于全球的科研院校、学生、开发者、创业者人群，推动百花齐放的应用滋长；API 开放平台提供企业商用，协助企业实践 AI 2.0 的智能化转型。同时，零一万物以优异的闭源模型能力，正在积极探索与世界 500 强企业的大型战略合作。

Yi 大模型 API 开放平台全球首发

全球开发者们对开源模型的品牌认可，成为零一万物 API 服务的强有力支撑。今天，零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口，保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案，Yi API Platform 英文站同步对全球开发者开放试用申请。

其中，千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能，适用于复杂推理、预测，深度内容创作等场景；Yi-Large-Turbo API 则根据性能和推理速度、成本，进行了平衡性高精度调优，适用于全场景、高品质的推理及文本生成等场景。

Yi-Medium API 优势在于指令遵循能力，适用于常规场景下的聊天、对话、翻译等场景；如果需要超长内容文档相关应用，也可以选用 Yi-Medium-200K API，一次性解读20万字不在话下；Yi-Vision API 具备高性能图片理解、分析能力，可服务基于图片的聊天、分析等场景；Yi-Spark API 则聚焦轻量化极速响应，适用于轻量化数学分析、代码生成、文本聊天等场景。

李开复强调，在中国大模型进入第二年之际，国内大模型赛道的竞跑从狂奔到长跑，终局发展将取决于各个选手如何有效达到 “TC-PMF”（Product-Market-Technology-Cost Fit，技术成本 X 产品市场契合度）。大模型从训练到服务都很昂贵，算力紧缺是赛道的集体挑战，行业应当共同避免陷入不理性的 ofo 式流血烧钱打法，让大模型能够用健康良性的 ROI 蓄能长跑，奔赴属于中国的 AI 2.0 变革。

零一万物发布千亿参数模型Yi-Large，多数评测指标超越 GPT4、Claude3、Gemini 1.5

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复