随着对用于 AI 模型的精确数据的需求不断增长,互联网上正在展开一场不断升级的战斗。各公司正在采取措施保护其数据免受 AI 网络爬虫的攻击,OpenAI 的 GPTBot 和 Common Crawl 的 CCBot 面临越来越大的反对。最近的数据显示,目前有超过 250 个领先网站屏蔽了 GPTBot,而近 14% 的最受欢迎的网站也禁止了 CCBot,影响了 AI 训练重要信息的可用性。

针对人工智能网络爬虫的斗争愈演愈烈

在数据驱动决策和人工智能主导的时代,网络爬虫机器人既是必备工具,也是争议的焦点。上个月,OpenAI 推出了 GPTBot,其设计遵循了数十年历史的 robots.txt 协议,允许网站表达其不被爬取的愿望。最初,前 1,000 个网站中约有 70 个实施了针对 GPTBot 的拦截,其中包括亚马逊和 Tumblr 等互联网巨头。

Originality.ai 的最新发现揭示了形势的重大转变。在短短三周的时间内,屏蔽 GPTBot 的知名网站数量已激增至 250 多个。这份综合名单包括 Pinterest、Vimeo、GrubHub、Indeed、Apartments.com、The Guardian、Live Science、USA Today、NPR、CBS News、NBC News、CNBC、The New Yorker、People 等知名平台,以及赫斯特和康泰纳仕出版的所有刊物。甚至连 weather.com 也加入了保护其内容免受 AI 爬虫攻击的行列。

数据可访问性的挑战

这波网络爬虫封锁浪潮背后的推动力在于,准确的数据在训练强大的生成式人工智能模型(如 OpenAI 的 GPT-4)方面发挥着关键作用。这些模型严重依赖大量文本数据,其中大部分来自互联网,尽管其中大部分受版权保护或归特定实体所有。近年来,人们对这种做法的认识激增,导致了大量法律纠纷和政府出台新法规的可能性。

与此同时,许多公司正在采取措施保护其用户生成内容和在线活动。通过更新服务条款和用户政策,科技公司正在主张他们有权访问和使用用户数据用于人工智能项目和培训目的。这种方法的转变代表了数据保护和主权的更广泛趋势,公司越来越多地寻求控制其数据的使用方式,尤其是人工智能驱动的实体。

CCBot 是另一个被封锁的目标

虽然 GPTBot 因与 OpenAI 和 GPT-4 模型的关联而备受关注,但 Common Crawl 使用的另一个网络爬虫 CCBot 也面临着阻力。总部位于欧洲的组织 Common Crawl 多年来一直在收集大量网络数据,包括受版权保护的内容,并将其组织起来用作 Meta 的 Llama 等大型语言模型的训练数据。

截至 9 月底,Originality.ai 的数据显示,在 1,000 个最受欢迎的网站中,近 14% 已实施针对 CCBot 的屏蔽。其中包括亚马逊、Vimeo、Masterclass、凯利蓝皮书、纽约时报、纽约客和大西洋月刊等。值得注意的是,许多屏蔽 CCBot 的网站也将限制范围扩大到 GPTBot,这表明保护数据免受 AI 网络爬虫攻击的趋势日益增长,无论其隶属关系如何。

寻求保护数据的公司与寻求培训材料的 AI 网络爬虫之间的斗争持续加剧。越来越多的网站屏蔽 GPTBot 和 CCBot,这凸显了在 AI 驱动的世界中数据可访问性和控制性日益重要。随着法律和监管审查的不断加强,数据利用和数据保护之间的平衡仍然是企业和 AI 开发人员面临的关键挑战。