工具的原理
Miasma 的思路属于「以毒攻毒」:识别出无视 robots.txt 的 AI 爬虫后,不是简单拒绝(拒绝了它们会换 IP 再来),而是把它们引向动态生成的无限链接迷宫,页面看起来像真内容,实际是廉价生成的文字垃圾,爬虫越抓越深,带宽和算力白白燃烧,运气好还能让这些垃圾混进对方的训练数据。类似思路的工具(如 Nepenthes、Iocaine)已成一个小门派,Miasma 是新成员。
网站方的愤怒从哪来
这类工具的流行是一份情绪报告:AI 公司的爬虫给中小网站带来的流量成本是真金白银,有站长晒出账单,爬虫流量占到总量的大半,而 robots.txt 的君子协定被普遍无视。法律救济遥远,技术反制就成了出口。当然,毒坑策略也有争议:生成垃圾页面同样消耗自己的资源,且故意污染训练数据的伦理和法律边界没人说得清。但博弈的方向已经很清楚:爬虫与反爬的军备竞赛进入了 AI 版本,买单的是整个开放网络的信任存量。
via: Hacker News