Transformer 后继有模！

35小吃技术网推荐阅读 2023年09月25日21时22分03秒 217 0

微软大模型新架构正式发起挑战！论文的标题写得很鲜明：

( )：大模型领域的后继者。

该论文提出了一种新的机制。微软亚洲研究院和清华大学的研究人员并没有否认他们的“野心”，并大胆表示：

实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些属性使该基础设施成为更大语言模型的强大继承者。

实验数据还表明，在语言建模任务上：

并且当模型尺寸大于一定规模时，性能会更好。

真的有“接班人模式”吗？详情我们一起来看看吧。

解决“不可能网三角”

大型语言模型的重要性是毋庸置疑的。无论是GPT系列、的PaLM，还是Meta的LLaMA，都是基于构建的。

但它并不完美：它的并行处理机制是以推理效率低下为代价的，每一步的复杂度都是O(N)；它是一个内存密集型模型，序列越长，占用的内存就越多。

在此之前，大家也不是网没有想过继续提升。然而，主要的研究方向却有些被忽视：

换句话说，这些神经网络架构面前存在着一个“不可能三角”。三个角代表：并行训练、低成本推理、良好的可扩展性。

研究人员想要做的就是让不可能成为可能。

具体来说，在的基础上，将标准的自注意力机制替换为多尺度保存（）机制。

与标准的self-机制相比，机制有几个特点：

此外，保存机制使用多尺度衰减率，增加了模型的表达能力，并利用的尺度不变性来提高层的数值精度。

▲ 双重表示

每个块包含两个模块：多尺度保留（MSR）模块和前馈网络（FFN）模块。

Transformer 后继有模！-第1张图片

保持机制支持以三种形式表示序列：

其中，并行表示使得有效利用GPU进行并行训练成为可能。

递归表示实现了 O(1) 推理复杂性，减少了内存占用和延迟。

分块递归可以更有效地处理长序列。

这样，“不可能三角”就变得可能了。以下是与其他基础设施的对比结果：

语言建模任务上的实验结果进一步证明了.

结果表明可以达到类似的困惑度（PPL，评价语言模型质量的指标，越小越好）。

同时，当模型参数为70亿、输入序列长度为8k时，推理速度可达8.4倍，内存占用降低70%。

它在训练过程中的内存节省和加速方面也比 + 表现更好，分别达到 25-50% 和 7 倍。

值得一提的是，推理成本与序列长度无关，并且推理延迟对批量大小不敏感，从而允许高吞吐量。

另外，当模型参数规模大于20亿时，的性能优于。

研究团队

研究团队来自微软亚洲研究院和清华大学。孙玉涛和董丽一起饰演。

孙玉涛，清华大学计算机系本科生，目前在微软亚洲研究院实习。

李东，微软亚洲研究院研究员。他也是引起广泛关注的论文《可以记住10亿个代币》的作者之一。

论文通讯作者为魏福如网。他是微软亚洲研究院全球研究合伙人，这10亿枚代币也来自他的研究团队。

论文地址：

Transformer 后继有模！-第2张图片

广告声明：文章中包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息，节省选择时间。结果仅供参考。 IT之家的所有文章均包含此声明。

Transformer 后继有模！

随机文章

最近发表

标签列表

文章归档

Transformer 后继有模！

相关文章

随机文章

最近发表

标签列表

文章归档