大模型搅拌机来了,把 11 个 AI 的结果融合输出,艾伦研究所团队出品

35小吃技术网 推荐阅读 2023年09月25日23时12分04秒 207 0

大型号那么多,该用哪一款呢? 而且生成的结果有好有坏,如何破解。

现在有办法一举整合各个LLM的强项,表现值满分! 让你在不做选择的情况下做出选择。

现在通过LLM-大模型集成框架,您输入问题,自动为您排序LLM结果,然后“融合生成”最佳答案。

就像水果榨汁机一样,每个开源LLM代表不同的水果,放在一个篮子里,根据不同水果的特性进行比例混合,就可以榨出美味的果汁。

该方法不仅可以有效减少单个LLM中的偏差误差和不确定性信息,而且输出结果远高于“单独最好的LLM”的结果。

网友纷纷惊呼:太神奇了!

学网习别人的大模型搅拌机

现在开源的大型模型非常多,性能差异很大。 通常我们会直接选择最好的模型来得到结果。

然而,这种方法有一些局限性。 例如,我们无法考虑所有可能的模型输出,新的数据可能会导致我们选择不同的最优结果。

目前的方法要么通过评分比较直接输出答案,要么融合不同的LLM答案,但整个过程仍然会保留有害或不正确的信息,输出结果也会相应大大降低。

因此,为了解决这一问题,提高LLM的鲁棒性、泛化性和准确性,艾伦AI实验室联合发表了南加州和浙江大学的最新研究论文。

论文提出了一种集成框架“LLM-”,该框架集成了多个开源大型模型(LLM)的优点,通过排序和融合生成两种方法,比较不同LLM生成的结果,然后融合并选择最佳输出。

LLM-主要包含“”和“”两个模块。

该模块是一个BERT结构的编码器,通过双向注意力机制捕获输出结果之间的细微差异,然后对候选输出进行排序。

操作过程是这样的。

首先,它收集每个输入的 N 个模型的输出,并创建所有可能的输出对。

然后,使用特殊的编码器来比较这些输出对,以确定哪个候选输出更好,捕获微小的差异。

大模型搅拌机来了,把 11 个 AI 的结果融合输出,艾伦研究所团队出品-第1张图片

在推理阶段,计算一个矩阵,其中包含所有输出对的比较结果。 然后根据矩阵确定给定输入的所有输出的排序顺序。

最后,选择每网个输入中排名最高的候选输出作为最终结果。

该模块基于编码器-解码器结构,使用单个编码器对输入文本和一些候选进行编码,然后使用单个解码器对融合输出进行解码。

值得注意的是,它只将排名靠前的输出结果放入编码器中,这不仅避免了“噪声”感染,还提高了输出结果的质量。

总结一下,LLM的操作流程-:

比较 N 个 LLM 的输出,然后通过融合它们从前 N 个输出中生成最佳结果。

根据论文的解释,通过这个操作过程,可以有效筛选和组装高质量的答案。

那么效果如何,以下是团队的评价过程。

整体法学硕士优于单一法学硕士

为了保证能够对大量数据进行评估,团队专门引入了基准数据集,用于对指令跟踪任务中的LLM集成模型进行基准测试。

该团队对数据集中的 100,000 个样本进行了训练,其中 5,000 个用于验证,5,000 个用于测试。 然后,在这11万个例子上测试11个流行的开源大型模型,例如,,,,MPT等。

根据多个LLM模型在数据集上的表现可以看出,不同模型的表现存在显着差异,各有优缺点。 其中,Open、和是表现最好的三个模型,而MPT、Flan-T5排名较低。

其次,实验还表明,一些优秀模型的性能并不稳定,许多其他模型的性能比它们更好。

例如,Koala 的平均 GPT-Rank 为 6.76,但大约 40% 的测试结果表明 Koala 产生的结果优于或同等优于 Open 和 Open。

还可以看出,在排名工具部分,与GPT-Rank的最佳模型(Open)相比,表现出了更好的性能。

而团队表示,用从中选出的前三名,让他们成为最佳人选。 在此基础上,LLM-展网现出了预期的优异表现。 尤其是在GPT-Rank方面,达到了3.01,大幅超越了最佳模型Open(3.90)。

(79.09)、(-3.02)、(-0.17)三个排名的成绩也都不错。

实验表明,通过对LLM框架进行排序和融合,LLM最终输出的质量得到显着提高。

大模型搅拌机来了,把 11 个 AI 的结果融合输出,艾伦研究所团队出品-第2张图片

团队提出了LLM——创新的整合框架,通过排名的方式减少单个LLM的弱点,通过融合生成整合优势,提高LLM的能力,可以说是非常新颖的。

不过该方法还是有一些可以优化的地方,比如引入更多的语言模型、使用不同的相似度计算方法等。

研究团队

该论文由艾伦人工智能实验室与南加州大学和浙江大学联合发表。 三位作者均来自中国,均与南加州大学 (USC) 有关。

蒋东福(Jiang)是浙江大学计算机工程专业的一名大四学生。 他即将前往加拿大滑铁卢大学攻读博士学位。 他此前曾在南加州大学(USC)担任研究实习生,当时他的导师恰好是另外两位作者。

任翔(Xiang Ren)是南加州大学计算机科学系副教授、INK 实验室主任。 他在艾伦人工智能研究所研究机器常识,也是谷歌学者。

林宇辰(Bill Lin)目前是艾伦人工智能研究所的年轻研究员。 本科毕业于上海交通大学计算机科学专业,博士也是南加州大学计算机相关专业。

此外,来自南加州NK实验室和艾伦人工智能研究所的学者也参与了该项目。

论文门户:

参考链接: