Featured image of post IT 巨头正在杀死他们的客户

IT 巨头正在杀死他们的客户

IT巨头通过无视爬虫规则大规模抓取个人网站数据,影响用户体验,导致互联网多样性减少。

 

近期,Dennis Schubert发布了一则帖子,称 “diaspora*” 项目的网络基础设施因为访问流量过大而陷入了性能瓶颈。令人震惊的是,他发现70% 的请求来自 IT 巨头公司的 LLM(大语言模型)爬虫。这些爬虫无视 robots.txt 文件,贪婪地抓取网站的所有可用数据,甚至是一些无关紧要的内容。

Dennis 感到无比愤怒,因为 ChatGPTAmazon 的爬虫竟然爬取了 Wiki 的全部编辑历史,每一页的每次编辑都被记录下来。他质问:

“他们到底要做什么?是想研究文本如何随时间变化吗?”

这种对数据的无底线掠夺,导致服务器负载极高,用户访问体验显著下降。Dennis 尝试了一些反制措施:

  1. 更新 robots.txt:无效,爬虫无视规则。
  2. 限制访问速率:失败,爬虫会快速更换 IP。
  3. 屏蔽 User Agent:没用,爬虫伪装成普通用户。

最终 Dennis 感慨,这种行为已经接近于对整个互联网的DDoS 攻击

为什么 IT 巨头需要爬我们的数据?

答案是:AI 数据饥荒
随着大模型的普及,用于训练 AI 的高质量语料已经见底。正如 OpenAI 工程师 James Betker 所言:

“模型优劣的关键在于数据集的质量。它们正在以惊人的精度复刻数据集。”

为了在 AI 竞赛中领先,巨头们不惜一切代价获取更多数据。个人网站、自建 Wiki,这些原本属于小众的内容,正成为巨头们争相攫取的目标。

我们能够应对吗?

IT 巨头拥有顶尖的爬虫和反爬虫技术团队,能够在抓取与用户体验之间找到平衡。但对于个人网站和小型项目来说,这无疑是一场不对等的战争。

Dennis 提出了以下两种反制策略:

  1. Tarpit 技术:生成无意义的随机文本,诱导爬虫抓取无关内容。
  2. JavaScript 陷阱:让 AI 爬虫加载 JavaScript 才能获得数据,而这些脚本可能暗含挖矿代码。

尽管这些方法可能有效,但实现起来成本不菲。

没有链接的互联网

巨头公司的终极目标是什么?
是将用户牢牢锁定在他们的生态系统中。通过 AI 提供“最优内容”,用户无需访问其他网站,甚至看不到其他链接。一切内容直接呈现,广告作为附加品,而创作者只能沦为巨头的数据供应商。

这种趋势正在瓦解互联网的开放性。
无论你如何优化 SEO 或产出优质内容,巨头的 AI 会优先抓取并整合,用户永远不会直接访问你的网站。最终,个人创作者将失去流量与收入,整个互联网变成巨头的“金矿”。

总结

IT 巨头正在用技术手段,掠夺数据,榨取价值,逐步摧毁互联网的多样性与开放性。对于个人网站而言,我们几乎无力抗争,而这场改变已经不可逆。

引用资源:


  • 本文长期连接
  • 如果您觉得我的博客对你有帮助,请通过 RSS订阅我。
  • 或者在X上关注我。
  • 如果您有Medium账号,能给我个关注嘛?我的文章第一时间都会发布在Medium。
Licensed under CC BY-NC-SA 4.0
最后更新于 Jan 09, 2025 15:57 CST
使用 Hugo 构建
主题 StackJimmy 设计