前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Cloudflare AI 识别网络机器人,网站更安全

洞察2024年10月7日· 5 分钟阅读9 阅读

AI 爬虫横行?Cloudflare 推出 AI Audit 工具,为网站主提供新武器 随着大型语言模型等现代 […]

AI 爬虫横行?Cloudflare 推出 AI Audit 工具,为网站主提供新武器

an-illustration-of-a-white-human-shaped-

随着大型语言模型等现代生成式 AI 模型的兴起,它们对海量数据的需求也与日俱增。这些数据大多来自网络,由 AI 爬虫自动抓取。作为全球最大的内容分发网络 (CDN) 之一,Cloudflare 推出了 AI Audit 工具,旨在对抗这些肆虐的 AI 爬虫。

AI Audit 于 9 月 23 日进入公测阶段,现已向 Cloudflare 用户开放。该工具为网站主提供了前所未有的洞察力,让他们可以了解哪些 AI 模型提供商正在访问他们的内容,并决定是否允许或阻止它们。未来,Cloudflare 计划帮助内容所有者设定一个公平的价格,让 AI 爬虫在抓取网站内容时付费。

“Cloudflare 的目标是帮助构建一个更好的互联网,一个充满优质内容和活跃社区的互联网,”Cloudflare 新兴技术副总裁 Sam Rhea 表示。“但我们也担心,某些 AI 应用可能会对互联网构成威胁。”

抵御不受欢迎的 AI 爬虫

许多网站试图通过 robots.txt 文件来管理不受欢迎的爬虫,该文件指示爬虫在抓取网站时应如何行为。但这种方法并非万无一失,因为爬虫可以轻松地忽略这些指令。

Cloudflare 的 AI Audit 不依赖于 robots.txt,而是利用公司的 Web 应用防火墙,该服务可以自动识别网络流量的来源。虽然 Web 应用防火墙最广为人知的是抵御分布式拒绝服务 (DDoS) 攻击,但它也可以识别 OpenAI 等主要 AI 公司使用的爬虫。

为 AI 爬虫提供网页服务通常不会对资金雄厚的网站造成太大影响。SourceForge 和 SlashDot 的总裁 Logan Abbott 表示,这两个网站“每月都会收到数千万次 AI 爬虫访问”,但他们拥有处理这些负载的基础设施。

然而,对于小型公司和个人拥有的网站来说,爬虫可能是一个问题。BingeClock 是一款帮助电视迷追踪他们观看的节目(以及观看时长)的网站,它被迫增加了服务器资源来处理爬虫带来的负载。

A screenshot of the Cloudflare interface. The interface is a table of traffic sources. It includes a summary that identifies bots visiting the website.
Cloudflare 的 AI Audit 提供数据分析功能,用于追踪和阻止 AI 爬虫。
Cloudflare

“整个夏天,我都在为我的 API 添加额外的 [Amazon Web Services] 实例,因为我发现网站对实际用户变得不可用,”独立开发者和作家 Billy Gardner McIntyre 说,他独自运营着 BingeClock。大型网站可能会使用动态负载均衡来解决这个问题,该技术可以根据需要自动启动新的实例。但这种方法会导致服务成本出现不可预测的峰值,这对运营小型网站和企业的个人来说风险很大。

Cloudflare 的 AI Audit 为 McIntyre 带来了解脱,他在 BingeClock 的工程博客上写下了他的经历。他注意到不受欢迎的 AI 流量大幅减少。“如果我查看 Cloudflare 上的 AI Audit 仪表板,自该工具推出以来,就没有看到任何 AI 流量,”McIntyre 说。

Abbott 也对 AI Audit 持积极态度。“很高兴能对所有这些情况有一个清晰的了解,”他说。

在 AI Audit 发布之前,BingeClock 需要多达 6 个 AWS 实例来处理流量。现在已经减少到 5 个,如果爬虫流量持续减少,McIntyre 相信他可以将数量减少到 2 个。

Cloudflare 会让 AI 爬虫付费吗?

阻止爬虫是 AI Audit 最直接的影响,但 Cloudflare 想要更进一步:该公司希望 AI Audit 可以帮助网站主在他们的内容被抓取时获得补偿。

包括 News Corp、Vox 和 Conde Nast 在内的多家出版商已经与 OpenAI 达成协议,允许这家 AI 公司访问他们的内容。Rhea 表示,AI Audit 可以帮助促进和监管此类协议。“Cloudflare 希望为出版商提供透明度、可审计性和控制权,”Rhea 说。

与此同时,对于小型网站,Cloudflare 希望引入一个无缝的价格设定和交易流程。理论上,这将允许小型网站所有者与想要抓取其内容进行 AI 训练的公司达成协议。然而,目前还没有关于此货币化工具的发布日期。

McIntyre 虽然对 AI Audit 阻止爬虫的能力感到高兴,但他对 AI Audit 将为小型网站带来的货币价值持怀疑态度。“无论支付计划是什么,我猜想不会有很多钱。我不明白他们如何将其货币化。我很乐意被证明是错的,”McIntyre 说。

像 AI Audit 这样的工具也可能引发人们对开放互联网被侵蚀的担忧。Cloudflare 在展示 AI Audit 的博客文章中列出了 Common Crawl 和 The Internet Archive 使用的爬虫,这两个都是非营利组织。设计一个向 AI 爬虫收费的工具可能会导致网站主质疑谁还能付费。

Rhea 表示,Cloudflare 无意将 AI Audit 作为一种通用工具来更广泛地控制或阻止流量。“这是一个有趣的问题,但我们根本没有考虑过……我们非常专注于扫描和抓取来自爬虫的流量。”

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI 交互的范式转变:从"回合制"到"实时协作"
TOP1

AI 交互的范式转变:从"回合制"到"实时协作"

Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
TOP2

Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工

3

XGBoost预测急诊量:数据驱动的排班决策

17分钟前
XGBoost预测急诊量:数据驱动的排班决策
4

回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉

1小时前
回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉
5

再也不用盯着几十个终端窗口!Claude Code推出Agent视图,一屏管所有

1小时前
再也不用盯着几十个终端窗口!Claude Code推出Agent视图,一屏管所有
6

到底是谁会相信RAG已死啊?

1小时前
到底是谁会相信RAG已死啊?
7

对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了

1小时前
对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了
8

Agent Skills 开放标准及其最佳实践

1小时前
Agent Skills 开放标准及其最佳实践
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款