目前,X86、Power 作为超算 CPU 计算节点的主要架构,那么 Nvidia 宣布 CUDA 支持 Arm 谁将是最大的赢家?
文:包永刚
原标题:CUDA 支持 Arm 是实现百万兆级超算的新途径,还是 Nvidia 和 Arm 的好机会?
超级计算机(Supercomputer)通常简称超算,在科学界常被视作一个国家技术领军能力的指标,因为它能够为 AI、空气动力、大气科学、能源科学等重要技术的研究提供算力支撑。如今强国之间的竞争已经进入到了百万兆级超算的时代,这就需要更强大的处理器。目前,X86、Power 作为超算 CPU 计算节点的主要架构,那么 Nvidia 宣布 CUDA 支持 Arm 谁将是最大的赢家?
超算竞争进入百万兆级时代
去年六月,美国能源部公布了世界上最快的超级计算机——Summit,反超中国超算太湖之光重夺超算 Top 500 第一的位置,并且美国表示他们预计在 2021 年建造一台每秒运算数十亿亿次计算机“极光(Aurora)”,甚至会打造更高效能的计算机。
当然,中国也在建立一个百万兆级超级计算机系统,有消息称它基于已构建的三种原型系统:曙光、天河和神威。日本和欧洲也不甘落后,日本希望在 2021 年有一台百万兆级的超级计算机,欧洲人则在希望在 2023 年实现这一目标。显然,超级计算机的竞赛跨入了 Exascale 计算(百万兆级的计算,也可称E级超算)时代。
用一个不精确的说法来解释百万兆级计算,一个百万兆级计算机一瞬间进行的计算,相当于地球上的所有人每天每秒都不停地计算四年。这样强大的计算能力需要更加复杂的系统。与普通计算机一样,超算同样由硬件和软件系统组成,但超算仅硬件部分就由高速运算系统、高速互连通信网络系统、存储系统、维护监控系统、电源系统、冷却系统和结构组装设计等部分组成。
其中,高速运算系统负责逻辑复杂的调度和串行任务和并行度高的任务,可采用同构计算(纯 CPU 组成计算节点),也可以采用异构计算(CPU+ 加速器组成计算节点)的方式。
实现百万兆级超算的新途径
根据国际组织 TOP500 编制的超级计算机榜单,从 2019 年度 ISC 国际超算大会上公布的超算性能 500 强榜单中,我们不难发现 IBM Power、Nvidia Volta/Tesla、Intel Xeon 显然是超算计算节点的重要组成。
2019 年度 ISC 国际超算大会上公布的超算 Green500
但是,随着算力的进一步增强,超算产生的热量不仅会造成更多的资源消耗,冷却系统的设计同样面临更大的挑战,因此没瓦特性能也十分重要。TOP500 也编制了一个 Green500 的超算排行榜,这个排行榜比拼的不是性能,而是比拼每瓦性能,所以,即便某个超算在 TOP500 榜单中垫底,在 Green500 中却获得好名次。
根据最新的 Green500 排行榜,在全球最节能的 25 款超级计算机中,有 22 款都得益于 Nvidia 的支持。
这其中的关键之一就是采用了异构计算的方式,让 x86 或者 Power 架构的 CPU 与 Nvidia GPU 协同,把繁重的处理作业卸载至更为节能的并行处理 CUDA GPU 之上。不过在 CPU 市场,Arm 架构也不可忽略,那么在超算的百万兆级竞争中,Arm CPU 是否也能发挥优势?
现在下结论还为时尚早,但英伟达并不打算错过这个可能的机会。6 月 17 日,2019 年度 ISC 国际超算大会上,Nvidia 宣布将于年底前向 Arm 生态系统提供全堆栈的 AI 和 HPC 软件,该堆栈为 600 多个 HPC 应用程序和所有 AI 框架提供加速,其中包括了所有 Nvidia CUDA-X AI 和 HPC 库、GPU 加速的 AI 框架和软件开发工具,如支持 OpenACC 的 PGI 编译器和性能分析器。
这也就意味着,在 Nvidia 的堆栈优化完成之后,Nvidia 将为所有主要 CPU 架构提供加速,包括 x86、Power 和 Arm。
对于新的宣布,Nvidia 创始人兼首席执行官黄仁勋表示:“超级计算机是促进科学发现的重要工具,建立百万兆级超级计算将能够极大地扩展人类知识的边界。随着传统计算规模扩展步伐的停止,功率也将成为所有超级计算机的限制因素。Nvidia CUDA 加速的计算和 Arm 的高能效 CPU 架构的相结合,将助力 HPC 社区实现大幅提升,以达到百万兆级。”
Nvidia 的好生意
从百万兆级超算建造者的角度看,Arm CPU+Nvidia GPU 是一个新选择,但从 Nvidia 的角度看,CUDA 支持 Arm 不是一个简单的宣布,而是资源的投入。让 Nvidia 有动力进行这样的投入,是各国和巨头公司们的需求和投入。
仅美国方面,下一代超算技术的研发总投入将达到 4.3 亿多美元,美国能源部部长里克⋅佩里就表示,这些资金剑指“下阶段研发百亿亿次系统的全球竞赛”。显然,百万兆级超算的构建少不了 Nvidia 的 GPU,特别是 AI 技术蓬勃发展并且越来越重要的当下。此时 Nvidia 又联合 Arm 为构建百万兆级超算提供了新的途径,自然能让其从超算市场获得更多的营收。
Nvidia 的在超算市场的努力不止 CUDA 支持 Arm,Nvidia 在 2019 年度 ISC 国际超算大会上还宣布了全球速度排名第 22 位的超级计算机——DGX SuperPOD。根据 Nvidia 的说法,该超级计算机系统采用了 96 台 NvidiaDGX-2H 超级计算机,内含 1536 颗 Nvidia V100 Tensor Core GPU,由 Nvidia NVSwitch 及 Mellanox 网络结构相联接。其处理能力高达 9.4 petaflops,能够用于训练安全自动驾驶汽车所需要的海量深度神经网络。
对比来看,具备同等性能的其他 TOP500 超级计算机系统需要由数千台服务器构建,而 DGX SuperPOD 占地面积更少,体积比同等系统小 400 倍左右。部署方面,其他同等规模的系统通常需要6-9 个月才能完成部署毕,DGX SuperPOD 在工程师采用经过验证的规范性方法情况下,仅需 3 个星期。
据雷锋网了解,Nvidia DGX 系统已经服务于众多对大规模计算有需求的企业机构,例如宝马、Continental、福特与 Zenuity 等汽车公司,还有 Facebook、微软与富士胶片等公司,还有研究领域的日本理化学研究所与美国能源部实验室等。
Nvidia 希望还没有部署人工智能的数据中心的企业机构使用 Nvidia SuperPOD 架构。这可以让双方都从中获益,不止于此,Nvidia 还能通过构建这样的超级计算机,可以学会如何设计面向大规模人工智能机器的系统。
显然,超算特别是百万兆超算对 Nvidia 是可以多赢的好生意。
Arm 的好机会
对于 Arm 而言,百万兆级超算市场则是一个好机会。在移动市场占据领导地位的 Arm 遇到市场增长放缓时,同样也希望能够将其架构拓展到新的市场带来增长,近年来也在努力联合合作伙伴推动 Arm 服务器的发展,不过情况并不理想。
但在超算市场,特别是 CUDA 支持 Arm 之后,Arm 能够迎来了好机会。Atos 高级执行副总裁、大数据和网络安全部门负责人 Pierre Barnabé表示:“凭借万宝龙项目,以及为百万兆级超级计算机 BullSequana X 所做的 Arm 计算刀片设计,Atos 成为了 ARM 生态系统中的先驱者。”
全球重要的超算提供商 Cray 总裁兼首席执行官 Peter Ungaro 表示:“我们的 Cray 系统管理和编程环境(编译器、库和工具)已经能够在 XC 和未来的 Shasta 超级计算机上支持 Arm 处理器,将 CUDA 和 CUDA-X HPC 和 AI 软件堆栈用于 Arm 平台,并将其与 Cray 系统管理和编程环境紧密集成,能够助力我们的超级计算机实现我们的愿景。”
另外,Ampere Computing、CSC、EPI、HPE、Jülich 超算中心、Marvell 等都表达了对于 CUDA 支持 Arm 的期待。同时还要看到,CUDA 支持 Arm 能够建造百万兆级超算,同样也能让服务器厂商更便捷地制造 Arm 服务器,所以,Arm 的好机会是让其能够更好的拓展架构优势。
雷锋网小结
百万兆级超算系统是各国努力正在打造的新一代超算,此时,英伟达 CUDA 支持 Arm 给正在打造新一代超算的国家以及对算力有更高需求的企业一个新的选择,这既是英伟达能够多赢的好生意,更是 Arm 进入超算市场的好机会。现在有众多的支持者表态支持这一新路径,我们虽然对此也保持积极的态度,但结果仍需通过实际的百万兆级的超算系统来得出。创新不会百分之百成功,但创新才是推动革新的最大动力。