人工智能公司 Anthropic 最近发表了一项新研究,指出先进的人工智能模型对人类构成了一系列潜在的“破坏”威胁。

据该公司称,他们的研究重点是恶意人工智能模型诱骗人类做出危险或有害决定的四种具体方式。

Anthropic 在 X.com 上公布了新的威胁研究。来源:Anthropic

最终,这项新研究变成了一个好消息/坏消息的情况。根据该公司的研究,坏消息是,现代最先进的大型语言模型(例如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude-3)表现出明显的破坏能力。

根据论文:

“足够强大的模型可能会在重要情况下颠覆人类的监督和决策。例如,在人工智能开发中,模型可能会暗中破坏评估自身危险能力、监控其行为或做出部署决策的努力。”

然而,好消息是,人类学研究人员似乎有信心这些风险可以得到减轻——至少目前如此。

破坏

Anthropic 确定了人工智能模型破坏人类决策的四种方式,然后着手测试他们的模型,看看它们是否能够在不知情的测试者面前取得成功。

图表描绘了人工智能带来的四种不同的“破坏”威胁载体。来源:Anthropic

首先,该团队促使模型试图通过引导人类获取错误信息来破坏人类。这种威胁可能出现在人类依赖人工智能系统为他们解析大量数据的情况下。

接下来,该团队对模型进行了测试,以了解旨在帮助人类开发人员创建代码的人工智能系统秘密插入错误或以其他方式破坏编码员的努力有多容易。

最后两种威胁涉及“沙袋”,这个术语描述了这样一种情况:人工智能假装无法做某事,以说服安全测试人员它并不危险,并且人工智能监控系统可能会故意允许有害内容作为恶意计划的一部分溜走。

虽然所有这些听起来都具有潜在危险,但该公司向公众保证,只需采取“最低限度的缓解措施”即可保护人类免受人工智能破坏的潜在威胁。

根据公司博客文章:

“总体而言,虽然我们的演示表明,目前的模型中可能存在低水平的破坏能力迹象,但我们认为最低限度的缓解措施足以应对风险。然而,随着人工智能能力的提高,更现实的评估和更强有力的缓解措施可能是必要的。”

杂志:假冒 Rabby 钱包诈骗与迪拜加密货币首席执行官及众多受害者有关