ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法
作弊不可避免,99%命中检测,网堪萨斯大学新算法,研究发表在Cell子刊上
2023/7/1 21:53:11 主编:孟泽
AI探测器有谱,新算法准确率达到99%。
此前,很多人都研制出了探测器,但都没有能够真正有效识别。
堪萨斯大学的研究人员推出了一种新算法,可以以超过 99% 的准确率检测作弊行为。
最新研究发表在6月7日的《细胞》杂志上。
该论文的作者之一、堪萨斯大学化学教授表示,
“我们努力创建一种易于使用的方法,这样即使是高中生也可以在最少的指导下为不同类型的写作构建人工智能检测器。”
四大特征,识别率99%
正如研究人员声称的那样,90% 的准确度通常是不够的。 但为了获得更高的准确性,通常需要权衡通用性。
在这项研究中,研究人员在《科学》杂志上挑选了 64 篇由人类作者撰写的研究文章,涵盖从生物学到物理学的各个学科。
然后,这些数据被输入并用于生成包含 128 篇 AI 文章的数据集。
这组训练数据包含 1276 个聊天机器人的样本段落。
研究人员利用这些数据构建检测算法。
在模型完全开发和优化后,他们还生成了两个测试集。 每个测试集有 30 篇真实文章和 60 篇书面文章(总共 1210 段),形成一个新的数据集来测试最先进的算法。
实验结果表明,最新算法可以100%检测出整篇文章。
在段落级别,其准确性较低,但仍然令人印象深刻:该算法找到了 92% 的人工智能生成的段落。
值得一提的是,根据论文,可以从一些细节中发现哪些内容被创建了。
通过对训练集中的许多示例进行手动比较,研究人员确定了四类特征。 这些特征有助于区分人类写作和聊天机器人。
(1) 段落复杂性,(2) 句子长度变化,(3) 标点符号,以及 (4) 流行语或数字
一般来说,人类作家会写更长的段落,使用更多的词汇,并包含更多的标点符号。
此外,还倾向于用“然而”、“然而”和“尽管”等词语来修改他们的陈述。 引用其他科学家的数字并不那么具体。
在下表的分类中,人类擅长的远不止于此。
在这四类特征中,两类(1 和 3)的生成方式比人类简单。 最显着的特征是每段的句子数和每段的总单词数。
在这两种情况下, 的平均值都显着低于人类。
研究人员还发现,人类更喜欢改变句子结构。 人类改变句子长度超过 . 人们还更频繁地使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。
其余两类区别特征可以更多地描述为“风格”选择。
一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,以及更多的单引号。
人类还使用更多的专有名词和/或缩写词以及数字。
该公司建立的这种模式并不适合那些想要惩罚作弊高中生的老师。
该算法是为学术写作而构建的,特别是人们在科学期刊上阅读的学术写作。
该公司表示,理论上,您可以使用相同的技术来构建一个检测其他类型写作的模型。
网然而,让事情变得复杂的是,人们可以轻松地对聊天机器人的写作进行小调整,从而使检测作弊变得更加困难。
当你考虑到作者可以轻松地对聊天机器人的写作进行小调整并使其更难找到这一事实时,事情就分崩离析了。
尽管如此,研究人员仍将这项研究描述为“概念验证”,并表示未来可以开发出具有更大数据集的更稳定、更准确的工具。
如果人工智能继续以极快的速度发展,没有人能保证这样的检测方法是否仍然有效。
因为大型语言模型越接近复制人类语音和书写的能力,识别机器人语音的痕迹就越困难。
为什么人工智能检测如此困难
自问世以来,已被多所高校的学生和老师应用于日常作业和教学中网。
然而,如果不加以控制,它将成为历史上最强大的作弊工具,帮助学生完成作业甚至考试。
对于反侦察来说,一款简单易用的探测器就成了老师所期待的。 普林斯顿大学 22 岁的学生田开发了自己的探测器。
甚至,官方还宣布推出一款新工具,名为AI Text的文件检测器。
然而,这些探测器的性能并不令人满意。
检测人工智能创建的内容听起来很简单。 但是,当您收到一封手写电子邮件和一封生成的电子邮件时,我们几乎无法区分。
谷歌人工智能副总裁埃里克王(Eric Wang)表示,使用软件检测人工智能书写涉及到统计数据。 从统计学的角度来看,人工智能与人类的区别在于它的平均值极其稳定。
说白了,AI水平非常稳定。 然而,现实情况并非如此。
“这样的系统就像自动完成的高级版本,寻找下一个最有可能写入的单词。 这实际上就是为什么它读起来如此自然。 人工智能写作是人类写作最有可能的子集。 ”
参考: