11 分钟训完 GPT-3

35小吃技术网 推荐阅读 2023年09月25日22时41分53秒 130 0

11分钟训练完GPT-3, H100横扫8项基准测试,下一代显卡将在25年后发布

2023/6/30 13:21:04 主编:孟泽

感谢IT之家网友三粗的线索投递!

黄老板又赢了! 在最新的基准测试中,H100创造了8项测试记录。 据外媒报道,下一代消费级显卡可能会在 2025 年发布。

在最新的训练基准中,H100 GPU 在所有八项测试中都创下了新记录!

如今,H100 几乎在所有类别中都占据主导地位,并且是新的 LLM 基准测试中唯一使用的 GPU。

由 3,584 个 H100 GPU 组成的集群仅用了 11 分钟就完成了基于 GPT-3 的大规模基准测试。

LLM 基准基于具有 1750 亿个参数的 GPT-3 模型。

实验室估计训练如此大的模型需要大约 3.14E23 FLOPS 的计算量。

11分钟训练出GPT-3的怪物怎么样

LLM 和 BERT 自然语言处理(NLP)基准上排名最高的系统是与 AI 联合开发的。

由专门从事企业级 GPU 加速工作负载的云服务提供商托管。

该系统结网合了 3584 个 H100 加速器和 896 个 Intel Xeon 8462Y+ 处理器。

因为在H100中引入了新引擎,旨在加速模型训练和推理,将训练速度提高了6倍。

云提供的性能非常接近 从本地数据中心运行的 AI 超级计算机提供的性能。

这是因为所使用的 -2 网络具有低延迟网络。

使用 H100 GPU 参与训练,规模从数百个扩展到 3000 多个。

经过良好优化,整个技术堆栈在要求严格的 LLM 测试中实现了近线性的性能扩展。

11 分钟训完 GPT-3-第1张图片

如果 GPU 数量减少一半,训练同一模型的时间将增加到 24 分钟。

表明随着 GPU 的增加,整个系统的效率潜力是超线性的。

主要原因是从GPU设计之初就考虑到了这个问题,利用技术高效地实现GPU之间的通信。

在测试的 90 个系统中,有 82 个系统使用 的 GPU 进行加速。

单卡训练效率

系统集群训练时间对比

英特尔的审查系统使用了 64 至 96 个英特尔至强 8380 处理器和 256 至 389 个英特尔加速器。

然而Intel提交的GPT-3,训练时间为311分钟。

和相比,成绩就有点惨了。

分析师:英伟达优势太大

11 分钟训完 GPT-3-第2张图片

业内分析人士认为,在GPU方面的技术优势非常明显。

作为AI基础设施提供商,其在行业中的主导地位还体现在英伟达多年来建立的生态系统的粘性上。

AI社区也非常依赖的软件。

几乎所有的AI框架都是基于提供的底层CUDA库和工具。

它还提供全栈人工智能工具和解决方案。

除了支持人工智能开发人员之外, 还继续投资用于管理工作负载和模型的企业级工具。

在可预见的未来,在行业中的领先地位将非常稳定。

分析师走得更远。

测试结果显示,系统在云端进行AI训练的强大功能和效率,是英伟达“未来之战”的最大资本。

下一代 Ada GPU 将于 2025 年发布

Tom的自由撰稿人刘志业最近也发表了一篇文章,介绍了下一代 Ada显卡的计划。

H100训练大型模型的能力是毋庸置疑的。

只需 3584 个 H100,只需 11 分钟即可训练出 GPT-3 模型。

在最近的新闻发布会上, 分享了一份新的路线图,详细介绍了下一代产品,包括 RTX 40 系列 Ada GPU 的后继产品,这是当今最好的游戏显卡。

根据路线图,计划在2025年推出“Ada-Next”显卡。

如果继续目前的命名方案,下一代应该被列为RTX 50系列。

根据南美黑客组织LAPSU$获得的信息,Next很可能被命名。

在消费级显卡上,英伟达保持着两年更新的节奏。

他们于 2016 年推出,于 2018 年推出,于 2020 年推出,于 2022 年推出 Ada。

如果这次 Ada 的继任者将于 2025 年推出,那么 无疑将打破一贯的节奏。

最近的人工智能爆发对 GPU 产生了巨大的需求,无论是最新的 H100 还是上一代的 A100。

据报道,一家主要制造商今年订购了价值 10 亿美元的 GPU。

尽管存在出口限制,我国仍然是英伟达全球最大的市场之一。

(据说在深圳华强北电子市场网,你可以以每台 2 万美元的价格买到少量的 A网100,是平时价格的两倍。)

对此,英伟达对部分AI产品进行了微调,发布了H100或A800等特定SKU,以满足出口要求。

刘志业对此进行了分析。 从另一个角度来看,出口法规实际上对有利,因为这意味着芯片制造商客户必须购买更多原始GPU的变体才能获得相同的性能。

这也可以理解为什么会优先生产计算GPU而不是游戏GPU。

最近的报告表明, 已经提高了计算级 GPU 的产量。

没有面临AMD RDNA 3产品堆栈的严重竞争,英特尔也没有对GPU双寡头构成严重威胁,因此可以在消费端停滞不前。

最近,它通过 RTX 4060 和 RTX 4060 Ti 扩展了 RTX 40 系列产品堆栈。

RTX 4050 以及上面的 RTX 4080 Ti 或 RTX 4090 Ti 等都具有潜力。

如果迫不得已,还可以从旧版本中拿出一款产品,更新Ada,给予其“超级”待遇,进一步扩大Ada阵容。

最后,刘志业表示,至少今年或者明年,架构不会真正更新。

参考: