人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的
IT之家7月16日消息,近日,有网友发现,如果将美国最重要的法网律文件——美国宪法输入到一些专门用于检测人工智能书写的工具中,会得到一个令人惊讶的结果:美国宪法几乎可以肯定是由人工智能撰写的。 除非詹姆斯麦迪逊(美国第四任总统、“美国宪法之父”)是时间旅行者,否则这显然是不可能的。 那么为什么这些AI检测工具会犯这样的错误呢? 外媒采访了多位专家以及人工智能检测工具的开发人员,以揭开其中的原因。
在教育领域,人工智能写作引起了不少争议。 长期以来,教师一直依赖传统的教学方法,使用论文作为衡量学生对某个主题的掌握程度的工具。 许多教师试图依靠人工智能工具来检测人工智能生成的写作,但迄今为止的证据表明它们不可靠。 由于误报,诸如 、 、 、 、 等文本分类器等 AI 检测工具不可靠,无法用于确定文章是否由大型语言模型 (LLM) 生成。
当进入美国宪法的一部分时,它说文本“可能完全由人工智能编写”。 过去六个月中,显示其他人工智能检测工具类似结果的屏幕截图多次在社交媒体上疯传。 事实上,如果您输入圣经中的内容,也会发生同样的情况。 为了解释为什么这些工具会犯如此明显的错误,我们首先需要了解它们是如何工作的。
据IT之家介绍,不同的人工智能书写检测器使用的检测方法略有不同,但基本原理是相似的:通过人工智能模型,在大量文本(包括数百万个书写示例)和一组假设规则(使用以确定书写是否更有可能由人类或人工智能生成)。
例如,其核心是一个神经网络,该网络接受“大型、多样化的人类写作和人工智能生成文本的语料库,重点是英语散文”的训练。 接下来,系统使用“困惑度”和“突发性”等属性来评估文本并对其进行分类。网
在机器学习中,困惑度是衡量一段文本与人工智能模型在训练过程中学到的内容的偏差程度的指标。 测量困惑度的想法是,当人工智能模型编写时,它们会自然地从训练数据中选择他们最熟悉的内容。 输出越接近训练数据,困惑度越低。 人类是更困惑的作家,人类也可以低困惑地写作,特别是在模仿法律或某些类型的学术写作中使用的正式风格时。 此外,我们使用的许多短语都非常常见。
比如说,我们必须猜测短语中的下一个单词:“我想要一杯 _____”。 大多数人会用“水”、“咖啡”或“茶”来填补空白。 在大量英语文本上训练的语言模型也会做同样的事情,并且由于这些短语在英语写作中频繁出现,因此任何这些结果都具有较低的困惑度。
测量的文本的另一个属性是“突发性”,它指的是文本中某些单词或短语快速连续地出现,或“突发”。 本质上,突发性评估整个文本中句子长度和结构的可变性。 人类作家经常表现出动态的写作风格,导致文本具有可变的句子长度和结构,而人工智能生成的文本往往更加一致和统一。 然而,突发性并不是检测人工智能生成内容的万无一失的指标。 与困惑一样,也有例外。 人类作家很可能以高度结构化、一致的风格写作,从而导致较低的突发分数网。 相反,人工智能模型可以经过训练,在句子长度和结构上模仿更多类似人类的变化,从而提高其突发性分数。 事实上,随着人工智能语言模型的改进,研究表明它们的写作看起来越来越像人类的写作。
广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。