凝聚燧原科技两代芯片研发与多个大规模人工智能算力中心工程实践,面向大规模、集约化、绿色低碳数据中心建设,云燧智算机(CloudBlazer POD)正式发布。
2022年9月3日,中国上海——燧原科技在2022世界人工智能大会“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上正式发布云燧智算机(CloudBlazer POD)。云燧智算机是针对大规模、集约化人工智能算力应用场景推出的高性能人工智能加速集群产品,通过一站式预集成人工智能加速硬件、一体化开发与管理平台及配套人工智能应用软件与服务,可广泛应用于数字政府、科研院所、科创平台等企事业单位。
基于燧原科技过往多个大规模AI算力中心工程实践
作为国内已落地超千卡规模液冷AI集群的人工智能算力企业,燧原科技的第一代和第二代“邃思”芯片均已实际应用于大规模AI集群工程中,支撑融媒体生成、城市智能感知等多样化场景。根据过往落地实践,燧原科技发现,人工智能数据中心因其软件运维复杂,普遍具有方案选型难、各厂商产品兼容未知等痛点,而且数据中心部署交付周期长、沟通成本高、项目管理周期长。
开箱即用,实现智算中心优异TCO
云燧智算机采用一体化设计,是专为人工智能场景下计算、存储、网络、软硬协同设计的标准化产品,提供高可用的整体安全设计,确保集群架构扩展性能符合预期,提供包括采购、安装、运维一体的交钥匙方案。对数据中心的环境和IT计算资源提供全面的监控和管理,提高集群部署、测试的质量和效率,辅助用户提升运营效益和降低运行成本,帮助用户提升运维价值,为用户实现AI算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。
全局优化,提供卓越AI性能保障
云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在强大的“邃思”芯片与CPU的异构算力支撑下,云燧智算机能够提供卓越的AI性能。
云燧智算机整体设计
PUE=<1.1,满足新型数据中心要求
基于双碳目标以及绿色环保的总体趋势,无论是新型数据中心的规划建设,以及东数西算的政策性要求,都对数据中心整体能效(Power Usage Effectiveness,PUE)有明确的优化指标性要求。云燧智算机采用一体化冷板式液冷技术,实现单节点8颗高性能人工智能芯片液冷散热,通过液冷板等高效热传导部件将被冷却对象的热量传递到自然冷媒中,采用先进流量控制系统,大幅提高流量变化范围、降低能耗,拥有架构简约、系统可靠、智能监控等特性,PUE可降至1.1及以下。
搭载经业务实证的AI芯片,软硬协同算尽其用
突破E级算力,最高可支持超千卡规模集群
依托于“邃思”芯片核心能力,在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破E级算力,打造业界领先的超级算力集群。
软件协同,充分释放集群的生产力价值
目前算力构成复杂,多CPU架构,多异构计算单元,并且考虑到集群本身一般服务于多用户、多场景的特性,如何能够对上层用户屏蔽底层算力异构性、赋能用户高效开发与部署上线AI应用,真正释放集群作为生产力工具的价值——软件是关键要素。
燧池智算平台(CloudBlazer Station)是全栈式人工智能开发服务平台和通用的大规模算力管理平台,结合强大的云燧AI算力集群和先进的大规模算力资源调度,为用户提供人工智能模型生产及应用发布的全流程服务能够一站式满足复杂的人工智能业务场景对人工智能服务的需求。
燧池智算平台(CloudBlazer Station)
可支持超千亿参数巨量模型的高效、并行训练
大规模数据训练超大参数量的巨量模型是人工智能的发展方向,“预训练大模型+下游任务微调”的模型开发方式将极大提升企业的AI应用开发效率,开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的AI模型。
而训练出一个大模型,除了算法和数据,还需要超大规模的算力支撑。基于云燧智算机所构成的大规模集群解决方案采用高带宽、全互联拓扑架构,计算、存储、管理网络全分离,计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s,可实现千卡级大规模集群高速互联,具备优异的线性加速比以支撑超千亿参数巨量模型的高效、并行训练。
燧原科技创始人兼COO张亚林表示:“云燧智算机是结合了云燧训练和推理产品在行业落地的实践经验,以全方位降低AI算力中心部署和应用成本为目标所推出的全新系统一体化产品,面向大规模、集约化、绿色低碳数据中心建设。我们始终专注于客户的价值和体验,致力于为客户提供完备且易用的人工智能系统软硬件产品,同时积极响应国家绿色低碳高质量发展的战略目标。”