俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具:大幅提升 GPU 利用率,对 Llama 3 可实现 26% 加速

6 月 11 日消息,俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP,号称与现有工具相比速度最高可提升 26%。

据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。

例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。附官方数据一览:

模型 gpu-count seq-len num-ckpt-layers speedup
Llama 2 7B 64 2048 0 9.92%
Llama 2 7B 64 4096 0 3.43%
Llama 2 7B 64 8192 0 2.68%
Llama 2 7B 128 2048 0 9.57%
Llama 2 7B 128 4096 0 2.42%
Llama 2 7B 128 8192 0 2.32%
Llama 2 13B 128 2048 0 12.10%
Llama 2 13B 128 4096 0 3.49%
Llama 2 34B 128 2048 0 20.70%
Llama 2 34B 256 2048 0 21.99%
Llama 2 34B 256 4096 5 8.35%
Llama 2 70B 256 2048 10 21.48%
Llama 2 70B 256 4096 50 7.17%
Llama 3 8B 64 2048 0 11.91%
Llama 3 8B 64 4096 0 7.86%
Llama 3 70B 256 2048 20 26.60%

Yandex 表示,通过优化 GPU 使用率,YaFSDP 可以为开发者和公司节省大量资金 —— 每月可能节省数十万美元。

Yandex 的资深开发人员、YaFSDP 团队成员之一 Mikhail Khruschev 还提到,“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的通用性” 。

参考资料:

  • 《Яндекс открывает YaFSDP — инструмент для ускорения обучения больших языковых моделей и сокращения расходов на GPU / Хабр》

  • 《GitHub – yandex/YaFSDP: YaFSDP: Yet another Fully Sharded Data Parallel》

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注