Transformer 后继有模!
微软大模型新架构正式发起挑战! 论文的标题写得很鲜明:
( ):大模型领域的后继者。
该论文提出了一种新的机制。 微软亚洲研究院和清华大学的研究人员并没有否认他们的“野心”,并大胆表示:
实现了良好的扩展结果、并行训练、低成本部署和高效推理。
这些属性使该基础设施成为更大语言模型的强大继承者。
实验数据还表明,在语言建模任务上:
并且当模型尺寸大于一定规模时,性能会更好。
真的有“接班人模式”吗? 详情我们一起来看看吧。
解决“不可能网三角”
大型语言模型的重要性是毋庸置疑的。 无论是GPT系列、的PaLM,还是Meta的LLaMA,都是基于构建的。
但它并不完美:它的并行处理机制是以推理效率低下为代价的,每一步的复杂度都是O(N); 它是一个内存密集型模型,序列越长,占用的内存就越多。
在此之前,大家也不是网没有想过继续提升。 然而,主要的研究方向却有些被忽视:
换句话说,这些神经网络架构面前存在着一个“不可能三角”。 三个角代表:并行训练、低成本推理、良好的可扩展性。
研究人员想要做的就是让不可能成为可能。
具体来说,在 的基础上,将标准的自注意力机制替换为多尺度保存( )机制。
与标准的self-机制相比,机制有几个特点:
此外,保存机制使用多尺度衰减率,增加了模型的表达能力,并利用的尺度不变性来提高层的数值精度。
▲ 双重表示
每个块包含两个模块:多尺度保留(MSR)模块和前馈网络(FFN)模块。
保持机制支持以三种形式表示序列:
其中,并行表示使得有效利用GPU进行并行训练成为可能。
递归表示实现了 O(1) 推理复杂性,减少了内存占用和延迟。
分块递归可以更有效地处理长序列。
这样,“不可能三角”就变得可能了。 以下是与其他基础设施的对比结果:
语言建模任务上的实验结果进一步证明了.
结果表明可以达到类似的困惑度(PPL,评价语言模型质量的指标,越小越好)。
同时,当模型参数为70亿、输入序列长度为8k时,推理速度可达8.4倍,内存占用降低70%。
它在训练过程中的内存节省和加速方面也比 + 表现更好,分别达到 25-50% 和 7 倍。
值得一提的是,推理成本与序列长度无关,并且推理延迟对批量大小不敏感,从而允许高吞吐量。
另外,当模型参数规模大于20亿时, 的性能优于 。
研究团队
研究团队来自微软亚洲研究院和清华大学。 孙玉涛和董丽一起饰演。
孙玉涛,清华大学计算机系本科生,目前在微软亚洲研究院实习。
李东,微软亚洲研究院研究员。 他也是引起广泛关注的论文《可以记住10亿个代币》的作者之一。
论文通讯作者为魏福如网。 他是微软亚洲研究院全球研究合伙人,这10亿枚代币也来自他的研究团队。
论文地址:
广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。