如果将美国宪法输入某些AI写作检测工具,它会说这很可能是AI生成的。但这不可能是事实。为什么AI写作检测工具会产生错误的结果?

在新闻报道中,过于热心的教授因为怀疑学生使用AI写作工具而让整个班级不及格,以及孩子们被误认为使用了ChatGPT,这让教育界感到震惊。一些人认为这代表了一种生存危机。尽管可以依赖AI工具来检测AI生成的文本,但目前的证据表明它们不可靠。由于错误的警报,AI写作检测器如GPTZero、ZeroGPT和OpenAI的文本分类器不能被信任来检测由大型语言模型(LLM)如ChatGPT编写的文本。

为了解释为什么这些工具会犯这样明显的错误,我们需要理解AI检测背后的概念

不同的 AI 写作检测器使用略有不同的检测方法,但基本原理是相同的:有一个 AI 模型,它已经在一个大型文本库(包含数百万个写作示例)上进行训练,并有一组推测规则来确定写作是更有可能由人类或 AI 生成的。

例如,GPTZero 的核心是一个神经网络,它在“一个大型、多样化的人类写作和 AI 生成文本语料库上进行训练,重点是英语散文”,根据该服务的常见问题解答。接下来,系统使用属性如“困惑度”和“爆发性”来评估文本并进行分类

在机器学习中,困惑度是衡量一段文本与 AI 模型在训练期间学到的程度相差多少的度量。因此,测量困惑度的思路是,当 AI 模型(如 ChatGPT)写文本时,它们会自然而然地求助于它们最了解的东西,这来自它们的训练数据。输出越接近训练数据,困惑度评分就越低。人类是更加混沌的写作者,但人类也可以用低困惑度写作,尤其是在模仿法律或某些类型的学术写作中使用的正式风格。此外,我们使用的许多短语都出乎意料地常见。

例如,假设我们正在猜测短语“我想要一杯 _____”的下一个词。大多数人会填写“水”、“咖啡”或“茶”。一个在大量英语文本上进行训练的语言模型也会这样做,因为这些短语在英语写作中很常见。任何这三种结果的困惑度都将非常低,因为预测是相当可靠的。

现在考虑一个不那么常见的补充:“我想要一杯蜘蛛。” 人类和训练有素的语言模型都会对这句话感到非常惊讶(或“困惑”),所以它的困惑度会很高。

如果一段文本中的语言根据模型的训练没有令人惊讶,那么困惑度就会很低,因此 AI 检测器会更有可能将该文本分类为 AI 生成的。这将我们引出美国宪法这个有趣的案例。本质上,宪法语言在这些模型中根深蒂固,以至于它们将其归类为 AI 生成,从而产生了假阳性。

GPTZero 的创建者 Edward Tian说:“美国宪法是一篇被反复输入到许多大型语言模型的训练数据中。因此,许多这些大型语言模型都被训练生成类似于宪法和其他常用训练文本的文本。GPTZero 预测可能由大型语言模型生成的文本,因此发生了这种奇妙的现象。”

问题在于,人类作者也可能创建低困惑度的内容,这极大地损害了 AI 写作检测器的可靠性。

GPTZero 还测量文本的另一个属性是“爆发性”,它指的是某些词或短语在一段文本中以快速的序列或“爆发”出现的现象。本质上,爆发性评估了一段文本中句子长度和结构的变化程度。

人类作者通常会采用动态的写作风格,导致文本具有可变的句子长度和结构。例如,我们可能会写一个长而复杂的句子,然后是一个短而简单的句子,或者我们可能会在一个句子中使用一连串的形容词,而在另一个句子中没有任何形容词。这种可变性是人类创造力和即兴发挥的自然结果。

鉴于 AI 写作检测器的错误报警率很高,并且可能会不公平地惩罚非母语英语使用者,很明显,检测 AI 生成文本的技术还远非万无一失——而且可能永远不会是。人类可以像机器一样写作,机器也可以像人类一样写作。一个更有帮助的问题可能是:使用机器辅助写作的人类是否理解他们在说什么?如果有人在使用 AI 工具来填写他们不理解的事实内容,那么一个有能力的读者或老师应该很容易就发现了。

如果老师也是该学科的专家,他们可以对学生的写作进行测试,以了解他们是否真正理解其中的内容。写作不仅仅是知识的展示,也是一个人声誉的体现。如果作者不能为写作中包含的所有事实负责,那么 AI 辅助就没有被正确使用。

像任何工具一样,语言模型可以被使用得好或使用得不好。而这种技能也取决于上下文:你可以用画笔画满一整面墙,也可以画出蒙娜丽莎。这两种场景都是合适的工具使用方法,但每一种都需要不同水平的人类注意力和创造力。同样,一些重复性的写作任务(例如生成标准化的天气预报)可以通过 AI 适当地加速,而更复杂的任务则需要更多的人力和关注。没有简单的黑白答案。

本文译自 Ars Technica,由 BALI 编辑发布。

[ 广告 ]
赞一个 (8)

PREV :
NEXT :