前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

Cloudflare AI 识别恶意机器人,保护网站安全

NEXTECH
Last updated: 2024年10月8日 下午3:01
By NEXTECH
Share
18 Min Read
SHARE

AI 爬虫横行?Cloudflare 推出 AI Audit 工具,为网站主提供新武器

an-illustration-of-a-white-human-shaped-
随着大型语言模型等现代生成式 AI 模型的兴起,它们对海量数据的需求也与日俱增。这些数据大多来自网络,由 AI 爬虫自动抓取。作为全球最大的内容分发网络 (CDN) 之一,Cloudflare 推出了 AI Audit 工具,旨在对抗这些无处不在的 AI 爬虫。

AI Audit 于 9 月 23 日进入公测阶段,现已向 Cloudflare 用户开放。该工具为网站主提供了前所未有的洞察力,让他们能够了解哪些 AI 模型提供商正在访问他们的内容,并决定是否允许或阻止它们。未来,Cloudflare 计划帮助内容所有者设定一个合理的收费标准,让 AI 爬虫在抓取网站内容时付费。

Cloudflare 负责新兴技术的副总裁 Sam Rhea 表示:“我们希望帮助构建一个更美好的互联网,一个充满优质内容和活跃社区的互联网。但我们也担心,一些 AI 应用可能会对互联网造成潜在风险。”

抵御不受欢迎的 AI 爬虫

许多网站试图通过 robots.txt 文件来管理不受欢迎的爬虫,该文件指示爬虫在抓取网站时应如何行为。但这种方法并非万无一失,因为爬虫可以轻松地忽略这些指令。

Cloudflare 的 AI Audit 不依赖于 robots.txt,而是利用其 Web 应用防火墙 (WAF) 来识别网络流量的来源。WAF 最初以防御分布式拒绝服务 (DDoS) 攻击而闻名,DDoS 攻击利用僵尸网络向受害者发送大量请求。但 WAF 也可以识别 OpenAI 等主要 AI 公司使用的爬虫。

对于资金雄厚的网站来说,为 AI 爬虫提供网页服务通常不会造成太大影响。SourceForge 和 SlashDot 的总裁 Logan Abbott 表示,这两个网站“每月都会收到数千万次 AI 爬虫访问”,但他们拥有足够的资源来处理这些流量。

然而,对于小型公司和个人网站来说,爬虫却是一个棘手的问题。BingeClock 是一款帮助电视迷追踪他们观看的节目(以及观看时间)的网站,它不得不增加服务器资源来处理爬虫带来的负载。

A screenshot of the Cloudflare interface. The interface is a table of traffic sources. It includes a summary that identifies bots visiting the website.
Cloudflare 的 AI Audit 提供数据分析功能,用于追踪和阻止 AI 爬虫。
Cloudflare

独立开发者兼作家 Billy Gardner McIntyre 单枪匹马运营着 BingeClock,他曾在 BingeClock 的工程博客上分享了自己的经历。他发现,由于爬虫的肆虐,网站变得难以使用,不得不不断增加 Amazon Web Services (AWS) 实例来应对。大型网站可以通过动态负载均衡来解决这个问题,但这种方法会导致服务成本不可预测地飙升,对于运营小型网站和企业的个人来说,这是一种风险。

Cloudflare 的 AI Audit 为 McIntyre 带来了福音。他注意到,不受欢迎的 AI 流量大幅减少。McIntyre 表示:“自从 AI Audit 推出以来,Cloudflare 的 AI Audit 仪表盘上就再也没有出现任何 AI 流量。”

Abbott 对 AI Audit 也持积极态度。他说:“能够清晰地了解所有这些情况真是太好了。”

在 AI Audit 发布之前,BingeClock 需要多达 6 个 AWS 实例来处理流量。现在已经减少到 5 个,如果爬虫流量持续减少,McIntyre 相信他可以将实例数量减少到 2 个。

Cloudflare 会让 AI 爬虫付费吗?

阻止爬虫是 AI Audit 最直接的影响,但 Cloudflare 想要更进一步:他们希望 AI Audit 能够帮助网站主在他们的内容被抓取时获得补偿。

包括 News Corp、Vox 和 Conde Nast 在内的多家出版商已经与 OpenAI 达成协议,允许 OpenAI 访问他们的内容。Rhea 表示,AI Audit 可以帮助促进和监管此类协议。Rhea 说:“Cloudflare 希望为出版商提供透明度、可审计性和控制权。”

对于小型网站来说,Cloudflare 希望引入一个无缝的定价和交易流程。理论上,这将允许小型网站所有者与想要抓取其内容进行 AI 训练的公司达成协议。然而,目前还没有关于此货币化工具的发布日期。

虽然对 AI Audit 阻止爬虫的能力感到高兴,但 McIntyre 对 AI Audit 能否为小型网站带来经济价值持怀疑态度。McIntyre 说:“无论支付计划是什么,我猜想不会有太多钱。我不明白他们如何将其货币化。我希望自己能被证明是错的。”

像 AI Audit 这样的工具也可能引发人们对开放互联网被侵蚀的担忧。Cloudflare 的博客文章展示了 AI Audit,其中列出了 Common Crawl 和互联网档案这两个非营利组织使用的爬虫。创建一个向 AI 爬虫收费的工具可能会导致网站主质疑谁还能付费。

Rhea 表示,Cloudflare 并不打算将 AI Audit 作为一种通用工具来更广泛地控制或阻止流量。Rhea 说:“这是一个有趣的问题,但我们根本没有考虑过……我们非常专注于扫描和抓取来自爬虫的流量。”

Share This Article
Email Copy Link Print
Previous Article AI平台联盟携手系统与芯片厂商
Next Article a-photo-of-a-smiling-man-in-a-chair-outs 科技创业元老:AI颠覆一切
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
中汽协会:2025年4月我国汽车整车出口情况简析
报告
杰富瑞:预计2025年NVIDIA毛利率或突破80%
报告
20250609055410130.png
小米汽车:2025年1-4月小米汽车杭州销量8171辆居首
报告
沃兹情报:2025年5月美国轻型汽车销量1565万辆 迎五年最大跌幅
报告

相关内容

AI

沃特隆数据携手埃森哲解决人工智能难题

2025年5月29日
一位身穿安全背心的女性正在亚马逊操作包装机器
AI

机器人与包装的未来

2024年11月21日
AI

AI 竞争新策略:个性化风格

2024年11月28日
AI

AI 硬件定制化:扩展基础设施的明智策略

2025年3月29日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?