12 月 7 日消息,据中国联通官方,近日,中国联通研究院与浙江联通、联通服装制造军团协同攻关,针对 AI 敏感数据的本地存储异地训练需求提出了创新的业务模式,并成功在杭州与金华两地间实施了业界首次 30TB 样本数据的跨 200 公里存算分离拉远训练,经过实际测算,训练效率高达 97% 以上。
从官方介绍获悉,通过本次测试充分验证了存算分离技术的安全性、可行性和高效性,为未来 AI 技术的发展提供了新的思路和方向。
存算分离技术是指将存储数据的仓库和对数据进行计算的加工厂独立开来,在训练时直接将数据从远端存储设备中拉过来进行计算,而不需要先存储到本地的磁盘再进行处理,可以有效保证用户数据的安全性和一致性。
中国联通称,海量样本数据处理过程中存在两大挑战:一是数据多存储于企业端,部分安全性要求较高的数据不便外迁;二是样本数据量激增,AI 智算中心在具备强大算力的同时,还需额外配备存储资源,显著提升了建设成本。在此背景下,业内对实现“存算分离拉远、样本随训随拉”需求迫切。
本次存算拉远测试验证的主要特色包括:
第一,以跨地市 AI 大模型训练能力创新重构智算训练模式。传统的智算集中训练模式,需要用户将样本上传到智算中心进行落盘训练,但是部分用户对隐私样本落盘存在安全顾虑。浙江联通通过 IP 广域无损方案,实现了杭州存、金华训的“数据不落盘”拉远训练,以算网协同的能力,为企业用户隐私样本训练探索出了一条新路。
第二,样本数据总量达 30TB,传输距离超 200 公里,计算拉远效率大于 97%。通过联通服装制造军团“衣瞳行业模型”的 AI 训练存算分离现网测试。充分验证了针对 AI 训练业务存算拉远的技术可行性,未来有相关数据敏感业务需求的用户可通过运营商算力服务,完成隐私样本不出园区的拉远训练,实现成本与安全的最佳平衡。