清华第二代 60 亿参数 ChatGLM2 开源，中文榜居首，碾压 GPT-4

35小吃技术网推荐阅读 2023年09月25日22时45分34秒 220 0

清华二代60亿参数开源，中文排名第一，碾压GPT-4，推理加速42%

2023/6/30 11:57:01 主编：孟泽

清华六号B型又开始绕圈了！新版本推理能力提升42%，最多支持32k上下文。

-6B 自 3 月份发布以来，在 AI 社区中爆发，并在上获得了 29,800 颗星。

现在，第二代来了！

清华KEG与数据挖掘研究组（THUDM）发布中英双语对话模型-6B。

项目地址：THUDM/-6B

最新版本-6B增加了许多功能：

- 基础模型升级，性能更强大网

- 支持8K-32k上下文

- 推理性能提高 42%

- 对学术研究完全开放，允许申请商业授权

值得一提的是，在中国C-Eval榜单中，它以71.1的成绩排名第一，碾压GPT-4。最新版本-6B以51.7分排名第六。

-6B升级亮点

运-6B二代版本在保留第一代机型对话流畅、部署门槛低等诸多优良特性的基础上，增加了诸多新功能：

1、性能更强大

运-6B基础型在第一代型号的研制经验基础上进行了全面升级。

-6B采用GLM的混合目标函数，经过1.4T中英文标识符预训练和人类偏好对齐训练。

评测结果显示，与第一代模型相比，-6B在MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的表现取得了显着的进步。在同规模的开源机型中具有较强的竞争力。

2. 更长的背景

基于该技术，研究人员将基座模型的上下文长度从-6B的2K扩展到32K，并在对话阶段用8K的上下文长度进行训练，允许更多轮次的对话。

但目前版本的-6B对单轮超长文档的理解能力有限，后续迭代升级中将重点优化。

3. 更高效的推理

基于Multi-Query技术，-6B具有更高效的推理速度和更低的内存占用。

在官方模型的实现下，推理速度较第一代提升了42%。 INT4量化下，6G显存支持的对话长度从1K提升至8K。

4. 更开放的协议

-6B权重完全开放给学术研究，在获得官方书面许可后也允许商业使用。

影响

与原型号相比，运-6B在多维度能力上实现了巨大提升。

数理逻辑

知识推理

长文档理解

评价结果

研究团队选取了一些典型的中英文数据集进行评估。以下是-6B模型在MMLU（英文）、C-Eval（中文）、GSM8K（数学）、BBH（英文）上的评估结果。

MMLU

C-评估

GSM8K

BBH

推理表现

-6B 使用多查询来提高生成速度。生成2000个字符的平均速度对比如下：

Multi-Query还减少了生成过程中KV Cache的显存占用。

另外，-6B使用Mask进行对话训练，连续对话时可以复用前几轮的KV Cache，进一步优化了内存使用。

因此，使用6GB显存的显卡进行INT4量化推理时，第一代-6B模型最多可以生成1119个字符，并且会提示显存耗尽，而-6B至少可以生成8192个字符人物。

研究团队还测试了量化对模型性能的影响。结果表明量化对模型性能具有可接受的影响。

网

指示

环境安装

清华第二代 60 亿参数 ChatGLM2 开源，中文榜居首，碾压 GPT-4-第1张图片

首先你需要下载这个存储库：

gitclonehttps://github.com/THUDM/ChatGLM2-6BcdChatGLM2-6B

然后使用pip安装依赖：pip -r .txt，其中推荐的库版本为4.30.2，torch建议使用2.0以上的版本以获得最佳的推理性能。

代码调用

-6B模型可以通过以下代码调用来生成对话框：

清华第二代 60 亿参数 ChatGLM2 开源，中文榜居首，碾压 GPT-4-第2张图片

>fromtransformersimportAutoTokenizer,AutoModel
>
1.制定规律的睡眠时间表保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯使你更容易入睡。尽量在每天的相同时间上床并在同一时间起床。
2.创造一个舒适的睡眠环境确保睡眠环境舒适安静黑暗且温度适宜。可以使用舒适的床上用品并保持房间通风。
3.放松身心在睡前做些放松的活动例如泡个热水澡听些轻柔的音乐阅读一些有趣的书籍等有助于缓解紧张和焦虑使你更容易入睡。
4.避免饮用含有咖啡因的饮料咖啡因是一种刺激性物质会影响你网的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料例如咖啡茶和可乐。
5.避免在床上做与睡眠无关的事情在床上做些与睡眠无关的事情例如看电影玩游戏或工作等可能会干扰你的睡眠。
6.尝试呼吸技巧深呼吸是一种放松技巧可以帮助你缓解紧张和焦虑使你更容易入睡。试着慢慢吸气保持几秒钟然后缓慢呼气。
如果这些方法无法帮助你入睡你可以考虑咨询医生或睡眠专家寻求进一步的建议。
本地加载模型
在从 Face Hub 下载模型之前，需要先安装 Git LFS，然后运行：
gitclonehttps://huggingface.co/THUDM/chatglm2-6b
如果下载速度慢，只能下载模型实现：
GIT_LFS_SKIP_SMUDGE=1gitclonehttps://huggingface.co/THUDM/chatglm2-6b
然后，手动下载模型参数文件并将该文件替换到本地-6b目录中。
地址：d//
模型下载到本地后，将上述代码中的THUDM / -6b替换为本地-6b文件夹的路径，即可将模型加载到本地。
参考：