自从 ChatGPT 等人工智能工具推出以来,“人工智能”一词已成为从教育到内容创作等各个行业的流行词。作家和学生现在面临着捍卫自己作品的新挑战,无论是人工智能内容还是人类内容。

根据 Stastia 去年的统计,2023 年 7 月,“AI”一词的搜索量超过 3040 万次,是前一个月的三倍。随着人工智能变得越来越普遍,教师和编辑不得不找到另一种方法来确定呈现给他们的文本是否是人工智能的。这导致了人工智能检测器的兴起。然而,许多作家和教育工作者对人工智能的真实性提出了质疑。其中一位是 TrustInsights.ai 的联合创始人 Christoper Pen,他在 LinkedIn 帖子中表示“AI 检测器”是一个笑话。Pen 并不是唯一一个认为 AI 检测器不可靠的人。SEO 内容专家 Dianna Mason 在一篇文章中表示,“AI 内容检测器不起作用。”

根据 Reddit 上的另一篇帖子,一位用户表示:“是的,AI 探测器是一个骗局。从来没有一篇学术论文证明 AI 探测器可以可靠地工作。对于可靠的 AI 探测器如何工作,也没有一个有希望的理论框架。”

几个广为人知的例子显示了人工智能检测器的低效性。例如,一个检测器将《美国独立宣言》的 97.75% 内容误认为是人工智能编写的。

另一个案例是,《圣经》中的文本被发现是由人工智能撰写的。印度教经典《薄伽梵歌》也被人工智能误认为是抄袭。此类事件引发了人们对人工智能检测仪可信度的严重质疑。

为了进一步研究人工智能检测器的有效性,我们用四种不同的检测器测试了一段圣经摘录。结果大不相同

  • Quilbott- 根据该网站,所使用的摘录很可能是 0%,而不是 AI 生成的。

  • Grammaly——Grammaly 还将该文本认定为 100% 人类书写。

  • Gpt Zero——该网站认为该文本有 96% 的可能性是由人类撰写的。

  • Zero Gpt-这是我测试的最后一个网站,结果令人震惊,据该网站称,96%的文本都是由 AI 编写的。

AI 探测器的工作原理

AI 检测器或 GPT 检测器是用于识别 AI 生成内容的系统。这些检测器根据模式和单词排列比较文本,就像 LLM 对文本进行比较一样。LLM 使用从数据推断出的概率,并完全基于单词序列检测进行预测。AI 检测器根据这些概率来检测 AI 内容。

AI 检测主要使用两个指标,即困惑度和突发性。困惑度衡量下一个单词正确的概率,突发性衡量单词和短语数量的多变性。虽然人类的写作往往表现出更多的多样性,但 AI 生成的文本往往更加统一。尽管如此,随着 GPT-4 等 AI 模型的进步,它们可以更熟练地复制人类的写作,从而使检测变得更加困难。

Coachvox 创始人 Jodie Cook 表示:“现在我们嘲笑人工智能生成的 LinkedIn 评论……但随着技术的进步,我们将无法分辨哪些是真实的,哪些不是真实的。没有人会知道。”

对于作家、学生和企业来说,风险很高。这引出了一个问题:人工智能检测仪值得信赖吗?