微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本

35小吃技术网 推荐阅读 2023年09月25日23时12分09秒 175 0

IT之家6月27日消息,微软研究人员近日推出了一项名为ZeRO++的新技术,用于优化训练大型AI模型时容易遇到的数据传输成本和带宽限制问题,可大幅减少训练次数。大型模型。 培训时间和费用。

据悉,ZeRO++建立在现有ZeRO传输技术的基础上,提供了增强的通信策略,可以提高训练效率,同时减少训练时间和成本。

微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本-第1张图片

▲ 图片来源微软

为了减少参数通信量,ZeRO++可以对权重进行量化,它使用基于块的量化方法来保持训练精度。 这种优化的量化过程比原始的零传输技术更快、更准确。 为了最大限度地减少通信开销,ZeRO++ 通过在每台机器上维护模型的完整副本,以 GPU 内存换取通信带宽。 在梯度通信方面,ZeRO++引入了一种新的量化梯度通信网方法,称为qgZ,可以减少跨节点流量和延迟。

▲ 图片来源微软

微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本-第2张图片

这些改进的通信技术大大减少了通信量,微软研究人员表示,与 ZeRO 相比,ZeRO++ 减少了多达 4 倍的通信量,提高了训练吞吐量和效率。 当每个 GPU 使用小批量大小时,ZeRO++ 在高带宽集群中的吞吐量比 ZeRO-3 提高了 28% 到 36%。 在低带宽集群中,与 ZeRO-3 相比,ZeRO++ 平均实现了 2 倍的加速,使得大型模型训练在更广泛的集群上更加网可行。

IT之家注:IT之家注意到-NLG、GPT-网4等大型模型的训练需要跨多个GPU设备的大量显存和计算资源,ZeRO++引入了通信优化策略来克服带宽方面的问题在低带宽集群上进行训练时,传统 ZeRO 传输技术的局限性。 目前微软已经发布了相关技术文档,研究人员可以使用ZeRO++更有效地训练模型,探索AI领域的新可能性。