Claude是人工智能开发商Anthropic开发的人工智能应用程序,和大多数人工智能开发商一样,Anthropic派出的爬虫每天会在互联网上检索并抓取海量内容用来训练人工智能模型。iFixit是业界知名的拆解维修网站,该网站有诸多文字和图片类的拆解文章,于是Anthropic派出的爬虫也对iFixit发起了疯狂的抓取。

该网站管理员在X/Twitter上抱怨称:我知道你渴望数据,Claude真的很聪明,但你真的需要在24小时内对我们的服务器进行一百万次攻击吗?你不仅不付费就窃取了我们的内容,还占用了我们的开发运营资源,这太不酷了。

网站日志显示ClaudeBot每分钟对iFixit发起数以千计的访问,这会iFixit服务器产生的负面影响,因为这种抓取不仅会消耗服务器CPU资源还会消耗网络带宽,任何一个网站都不愿意看到这种情况。

iFixit在接受404media采访时称:

我们是世界上最大的维修信息数据库,如果他们未经允许就把所有信息都拿走、导致我们服务器瘫痪。iFixit目前拥有数百万个链接,包括各种维修指南、维修修订历史、博客、新闻帖子、研究、论坛、社区贡献的维修指南以及问答等。

对于抱怨Anthropic的支持团队并未道歉并且给出了如下回应:

按照行业标准Anthropic使用各种数据源进行模型开发,例如通过网络爬虫收集的互联网上的公开数据。我们的抓取不应该具有侵扰性和破坏性,我们的目标是适当的情况下尊重抓取延迟将干扰降到最低。

对网站来说最简单的方式就是直接屏蔽Claude爬虫,蓝点网也同样面临Claude爬虫的DDoS攻击,该爬虫确实会以每分钟几千次的频率进行抓取,这对蓝点网服务器产生了影响所以我们早早就屏蔽了Claude爬虫。

要屏蔽的话可以在robots.txt里添加以下内容:

User-agent: ClaudeBotDisallow: /

当然为了保险起见我们还在Nginx上使用了正则表达式匹配ClaudeBot爬虫,如果ClaudeBot爬虫未遵守robots.txt协议继续抓取,那可以直接拦截。

为了避免爬虫无法抓取robots.txt文件建议站长先更新robots.txt,几天后如果在网站日志里仍然能看到ClaudeBot抓取非robots.txt文件的记录,那就代表未遵守协议,可以直接通过Nginx返回HTTP444丢弃连接降低服务器负载。