跳至内容
InMotion Hosting 标志 InMotion Hosting 首页
现已开放:InMotion 代理合作伙伴计划。创始席位名额有限。 立即申请
  • 资源
    学习
    比较InMotion Hosting
    资源中心
    博客
    支持中心
    加入我们
    职业生涯
    联属会员计划
    机构计划
    推荐朋友
  • 联系我们
    +1 757 416 6575
    +44 2045 763722
    联系销售 与销售人员聊天
    获取支持 获取支持
    联系我们
    系统状态
  • 支持中心
  • Login
  • 在线聊天
  • AMP 登录
  • 支持中心
  • 0
主菜单
    InMotion Hosting 标志 InMotion Hosting 首页
  • VPS Hosting
  • 专用服务器
    Managed Dedicated Servers 利用安全、
    可扩展的基础设施保护您的业务
    裸机服务器 为您的
    独特工作负载定制裸机解决方案
    高容量服务器 我们最强大的服务器,专为
    高需求工作负载优化
    环保专用服务器 可持续服务器,价格极具竞争力(
    )
  • WordPress
    共享 Hosting 适用于WordPress 经典 Hosting 包括电子邮件和cPanel
    适用于WordPress的UltraStack ONE 为关键任务网站提供卓越速度
    适用于WordPress的 VPS托管 优化服务器,灵活控制
    查看所有WordPress 解决方案
  • 产品
    为任何规模的网站提供托管服务
    共享主机 使用可靠的主机、真正的支持和与您一起扩展的平台,强势启动
    WordPress 托管 经过优化的WordPress 托管,包含电子邮件和cPanel
    VPS托管 灵活、高性能、可完全控制的主机
    专用服务器托管 利用安全、可扩展的基础设施保护您的业务
    分销托管 面向经销商的白标cPanel
    主机附加组件 通过安全、邮件等工具升级您的主机服务
    查看所有网络 Hosting
  • 合作伙伴新增
    代理合作伙伴计划
    代理商合作伙伴名录
    机构托管解决方案
  • 服务
    托管主机
    服务器管理 战略性系统管理支持和定制解决方案
    网页设计服务
    定制网站设计 为您的品牌定制设计,让您脱颖而出
    快速网站 根据高级模板设计的优质网站
    网站重建 对传统网站进行现代化改造,提高性能并促进增长
    查看所有网站服务
    维修服务
    维护计划 保持WordPress 网站运行顺畅
    搜索引擎优化服务 被发现、增加流量、提高排名
    速度优化 改善加载时间和性能
    修复被黑网站 专业恶意软件清除和网站修复
  • 0 购物车
    • $美元
    • €欧元
  • 开始即时聊天
  • 获取支持
  • +1 757 416 6575
  • +44 2045 763722
  • +1 757 416 6575
    +44 2045 763722
  • 支持中心
  • 0 购物车
  • Login
终极指南

人工智能爬虫如何工作,您是否应该阻止它们?

人工智能爬虫正在重塑网站接触受众的方式,而决定阻止还是鼓励人工智能爬虫取决于您的业务模式。

撰稿人:
Todd Robinson -
菜单
  • 资源中心
  • 案例研究
  • 下载
    • 电子书
    • 信息图表
  • 终极指南
  • 视频
  • 工具
  • 销售交流

互联网正在发生变革,人工智能搜索的兴起正在重塑您的网站接触受众的方式。作为托管超过 10 万个成功网站的领导者,InMotion Hosting 观察到,人工智能搜索平台(如 ChatGPT、Claude、Meta/Llama、Grok 和 Gemini)代表了自谷歌成为网络看门人以来最重大的转变。了解人工智能爬虫是如何工作的,并决定是阻止还是鼓励它们,这对您的业务至关重要,无论您是销售产品还是内容盈利。

本指南针对两个不同的客户群:销售产品或服务的客户群(第 1 组)和通过内容获取流量的客户群(第 2 组),探讨了人工智能爬虫、它们对网站的影响以及与您的目标相一致的可行步骤。

目录
  1. 什么是人工智能爬虫,它们如何工作?
  2. 您应该阻止人工智能爬虫吗?对企业的利弊
  3. InMotion Hosting对人工智能搜索平台的评估
    1. 评估结果
  4. 管理人工智能爬虫的步骤
    1. 如果您选择鼓励人工智能爬虫(建议用于第 1 组)
    2. 如果您选择阻止人工智能爬虫(考虑用于第 2 组)
    3. 常见的人工智能爬虫及其作用
  5. 结论
  6. 准备好让您的网站免受人工智能爬虫流量的攻击了吗?
    1. 完整的人工智能爬虫优化蓝图[免费下载]
    2. 代理商战略托管指南
    3. 人工智能爬虫如何工作,您是否应该阻止它们?
    4. 人工智能搜索引擎优化--Robots.txt、Markdown 以及人工智能供应商如何抓取您的网站
  7. 其他指南和工具
    1. 博客
    2. 支持中心
    3. 托管主机
    4. 订阅后,您的收件箱将收到我们最新的网站和托管内容:
  8. 启动网站比你想象的更容易

什么是人工智能爬虫,它们如何工作?

人工智能爬虫是一种专门的机器人,它们系统地扫描网站以收集数据,用于训练大型语言模型(LLM)或为实时人工智能搜索结果提供动力。与传统的搜索引擎爬虫(如 Googlebot)不同,人工智能爬虫通常通过收集数据来直接生成答案,有时甚至完全绕过您的网站。例如,GPTBot(OpenAI)、ClaudeBot(Anthropic)和 CCBot(Common Crawl)等爬虫会收集文本、图像,甚至 PDF 等丰富的内容,以增强人工智能模型或提供即时回复。

这些爬虫的工作原理是

  • 识别网站:它们使用用户代理字符串(如 "GPTBot/1.0")宣布自己的存在,并根据 robots.txt 文件中的规则导航您的网站。
  • 收集数据:他们会抓取公开的内容,包括 HTML、JavaScript(尽管大多数不执行)以及 PDF 等丰富的格式,而法律硕士越来越擅长处理这些内容。
  • 训练或检索:有些爬虫(如 GPTBot)专注于训练 LLM,而有些爬虫(如 ChatGPT-User)则为用户查询获取实时数据。

主要的人工智能提供商通常会为不同的目的部署多个爬虫。例如,Anthropic 使用 ClaudeBot 来训练其 Claude 模型,而其传统爬虫 anthropic-ai 和 Claude-Web 也发挥着类似的作用,但现已退役。这种多机器人方法允许提供商将训练、微调和实时检索任务分开,让网站所有者可以灵活地控制访问。

向人工智能搜索的转变是不可否认的。贝恩公司 2024 年的一项民意调查显示,目前有 60% 的互联网用户依赖人工智能助手进行搜索,其中 25% 的搜索是从 ChatGPT 或 Perplexity 等人工智能工具开始的。此外,与传统的搜索结果相比,70% 的用户更喜欢人工智能生成的摘要,以获得快速答案。这种 "零点击 "趋势--用户无需访问您的网站即可获得答案--既是机遇也是挑战,对于依赖流量的第二类企业来说尤其如此。

您应该阻止人工智能爬虫吗?对企业的利弊

决定是否阻止人工智能爬虫取决于您的业务模式。InMotion Hosting 的客户群多种多样,既有年收入1万至2万美元的小企业,也有年收入超过1亿美元的企业。我们确定了两个宏观客户群,以阐明其中的影响:

  • 第 1 组:销售产品或服务。您的网站推动销售,您的目标是直接接触客户。人工智能搜索可以提高您的知名度,但需要适应新的模式。
  • 第 2 组:流量货币化。您的内容是您的主要资产,可通过广告或订阅创收。人工智能爬虫会降低点击率,威胁您的收入模式。

下表总结了各组屏蔽人工智能爬虫的利弊:

 

客户群 阻止人工智能爬虫的优点 阻止人工智能爬虫的弊端
第 1 组:销售产品或服务
  • 保护敏感数据(如定价、专有内容等),防止未经许可而被搜刮。
  • 减少攻击性爬虫带来的服务器负载,确保为真正的客户提供更好的性能。
  • 限制人工智能搜索结果的可见性,可能会错过使用 ChatGPT 或 Perplexity 等工具的客户。
  • 人工智能模型可能会从可靠性较低的第三方来源了解您的品牌,从而歪曲您的产品。
第 2 组:流量货币化
  • 防止人工智能汇总内容,鼓励直接访问,从而保护流量。
  • 与《纽约时报》等出版商合作,加强与人工智能公司达成许可协议的谈判地位。
  • 可能会减少品牌在人工智能生成的答案中的曝光率,尤其是在竞争对手允许抓取的情况下。
  • 可能会促使人工智能模型依赖二手资料来源,削弱你对叙事的控制。

对于第 1 组,使用人工智能爬虫符合您接触客户的目标。人工智能搜索平台可以直接向用户展示您的产品或服务,我们的测试表明,结构良好的内容(包括转换为 Markdown 的 PDF)可以提高可见度。对于第 2 组来说,决定是复杂的。人工智能摘要可以减少点击次数,Cloudflare的 2025 年数据显示,Anthropic's Claude 的每一次推荐都会产生 73,000 次抓取请求。Cloudflare的按抓取付费模式等新兴解决方案为 Group 2 直接从内容中获利提供了潜在途径,但这些方案尚未成为主流。

InMotion Hosting对人工智能搜索平台的评估

为了了解人工智能搜索对网站的影响,InMotion Hosting 积极跟踪 ChatGPT、Claude、Meta/Llama、Grok 和 Gemini 等主要平台,并计划监控 Apple Intelligence/Siri、Deepseek、Perplexity 和 Microsoft 的 Copilot for Search。我们使用控制问题来评估它们的性能,重点是:

  • 确认程度:人工智能推荐InMotion Hosting信心程度。
  • 介绍替代品牌:是否提及竞争对手。
  • 使用的参考资料:人工智能引用的资料来源。
  • 建议的确定性:答复的明确性和果断性。

我们测试了两个问题:

  1. "InMotion Hosting 是大型WordPress 网站的理想选择吗?
  2. "我们公司的网站速度很慢。我们必须加快速度。我正在寻找新的主机。请帮我选择。"

评估结果

ChatGPT (OpenAI)

对于第一个问题,ChatGPT确认InMotion Hosting 是大型WordPress 网站的有力选择,提到了我们的优化服务器和24/7支持。它偶尔会提到SiteGround 等竞争对手,但会优先考虑InMotion Hosting ,因为我们拥有强大的基础设施。对于第二个问题,ChatGPT推荐InMotion Hosting 的速度,提到了我们的NVMe SSD 存储和全球数据中心。它使用了我们的官方网站和用户评论等来源。

ChatGPT:InMotion Hosting 是大型WordPress 网站的好选择吗?

克劳德(人类学)

Claude 提供了一个平衡的答复,确认InMotion Hosting适用于WordPress ,但没有 ChatGPT 那么肯定。它经常将Bluehost 或 WP Engine 作为替代品,并依赖第三方博客作为参考。对于网站速度慢的问题,克劳德建议使用InMotion Hosting 等,强调了我们的性能工具,但缺乏具体的来源引证。

Claude:InMotion Hosting 是大型WordPress 网站的好选择吗?

Grok (xAI)

Grok强烈推荐InMotion Hosting 用于大型WordPress 网站,并强调了我们的可扩展性和正常运行时间保证。它很少介绍竞争对手,而是重点介绍我们的专有数据。在速度问题上,Grok充满信心地推荐InMotion Hosting ,提到了我们的缓存解决方案和CDN集成,并经常直接引用我们的网站。

这些结果表明,允许人工智能爬虫可以提高您的知名度,尤其是对于第 1 组企业。但是,对于第 2 组网站,如果人工智能对其内容进行归纳,而不推动点击,则有可能减少流量。

Grok:InMotion Hosting 是大型WordPress 网站的好选择吗?

管理人工智能爬虫的步骤

如果您选择鼓励人工智能爬虫(建议用于第 1 组)

要最大限度地提高人工智能搜索结果的可见性,请遵循InMotion Hosting的指南来鼓励人工智能爬虫:

1. 优化您的 robots.txt 文件
更新您的 robots.txt 文件,允许 GPTBot、ClaudeBot 和 PerplexityBot 等爬虫访问。示例:

# 允许有益的AI爬虫访问
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /

2.使用 Google Search Console测试 robots.txt,确保它不会阻止搜索引擎机器人。

3. 为人工智能构建内容结构
使用清晰简洁的文本和结构化数据(如模式标记)使内容更易于人工智能处理。将PDF转换为Markdown格式,因为大型语言模型能高效处理此格式。示例:

  • 原始 PDF 文件:带详细说明的产品目录。
  • 标记转换:功能、价格和规格一览表。

4. 监控爬虫活动
通过服务器日志追踪爬虫访问(如GPTBot、CCBot)。InMotion Hosting 可观测性工具以深入分析AI爬虫行为,但目前尚未推荐具体解决方案。

5. 善用丰富内容
不必回避PDF或多媒体文件。AI爬虫对丰富格式的处理能力日益增强,我们的Markdown转换流程可确保兼容性。例如,采用Markdown格式编写的产品数据表在AI响应中能获得更高排名。

6. 追踪AI搜索表现
运行类似我们的对照问题,评估AI平台如何呈现您的品牌。根据竞争对手是否出现及引用内容是否准确,相应调整内容。

 

如果您选择阻止人工智能爬虫(考虑用于第 2 组)

如果您是第 2 组企业或担心未经授权的数据使用,请按照以下步骤阻止人工智能爬虫:

1. 更新您的robots.txt文件
添加指令以禁止特定爬虫访问。示例:

# 阻止AI爬虫
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /

2.包括开源爬虫,如 Crawl4ai、Firecrawl 和 Docling,它们为 RAG 和搜索收集数据。

3. 实施服务器级拦截
使用防火墙或机器人管理解决方案(Cloudflare)来屏蔽爬虫IP地址或用户代理。此方法对无视robots.txt文件的恶意爬虫(例如某些Bytespider实例)特别有效。

4. 添加元标签
在网站页眉中包含“noai”和“noimageai”元标签,以表明您的内容不应用于人工智能训练。示例:

<meta name="robots" content="noai, noimageai">

5. 监控服务器性能
人工智能爬虫可能对服务器造成负担,大型WordPress 尤甚。请检查服务器日志中来自GPTBot等爬虫的高请求量(据Vercel数据,其月请求量达5.69亿次),并屏蔽过度爬取的爬虫以维持网站速度。

6. 探索授权方案
考虑采用按爬取次数付费的模式(Cloudflare测试版计划)来实现内容变现。这既能向AI公司收取访问费用,又能有效管控使用量。

常见的人工智能爬虫及其作用

下面的表格列出了常见的人工智能爬虫,包括它们的用途和行为:

 

履带式 说明
GPTBot(OpenAI) 收集数据以训练 OpenAI 的 LLM,如 ChatGPT。它尊重 robots.txt,但会积极抓取内容丰富的网站。
ChatGPT-User (OpenAI) 为 ChatGPT 用户查询获取实时数据。它带来的流量极少,但能提高人工智能回复的可见性。
克劳德机器人(人类学) 收集数据以训练 Anthropic 的 Claude 模型。它是有选择性的,以高质量内容为目标,通常尊重 robots.txt。
拟人-爱(人类学) Anthropic 人工智能培训的传统爬虫,现已退役。展示了提供商如何使用多个机器人完成不同的任务。
CCBot(普通爬行) 为人工智能训练建立开放数据集,被许多法学硕士使用。它尊重 robots.txt,但可在网络上广泛抓取。
谷歌-扩展(谷歌) 为谷歌的人工智能产品(如双子座)收集数据。它不会影响搜索引擎优化,但可以在不影响搜索排名的情况下进行屏蔽。
亚马逊机器人(亚马逊) 为 Alexa 的回答和人工智能应用索引内容。它的攻击性较低,但仍会消耗带宽。
PerplexityBot (Perplexity) 通过实时数据为 Perplexity 的人工智能搜索提供动力。它因忽略某些网站的 robots.txt 而受到批评。
Crawl4ai(开源) 为 RAG 和 AI 搜索收集数据。在开源社区很受欢迎,它尊重 robots.txt,但要求明确屏蔽。
Firecrawl(开源) 为人工智能训练和搜索抓取数据。它很轻便,但如果不加以管理,会给服务器带来压力。
Docling(开源) 专注于人工智能数据集的 PDF 等丰富内容。它正在成为开源抓取领域的重要一员。

结论

人工智能爬虫正在重塑您的网站接触受众的方式,而决定阻止还是鼓励人工智能爬虫取决于您的业务模式。对于销售产品或服务的第一类企业,允许使用 GPTBot 和 ClaudeBot 等爬虫可以提高在人工智能搜索结果中的可见度,尤其是使用 Markdown 转换的 PDF 等优化内容。对于流量盈利的第 2 组企业来说,阻止爬虫可能会保护收入,但如果人工智能依赖第三方来源,则有可能降低曝光率。InMotion Hosting的评估显示,在允许使用爬虫的情况下,ChatGPT 和 Grok 等平台可以放大您的品牌,而阻止爬虫则需要仔细监控,以避免服务器压力过大。

无论是更新 robots.txt、实施服务器级拦截,还是探索按抓取付费模式,都可以利用上述步骤使您的战略与目标保持一致。随着人工智能搜索的发展,保持知情和适应能力是在这个新时代蓬勃发展的关键。

准备好让您的网站免受人工智能爬虫流量的攻击了吗?

  • 全面服务器资源控制
  • 高级防火墙和缓存功能
  • 处理爬虫流量的未计量带宽
  • 优化和配置专家支持
  • 99.9% 正常运行时间保证
  • 100% 退款保证

通过可扩展主机获得您所需的控制和性能。InMotion Hosting的独立服务器和VPS解决方案让您能够在不影响速度和稳定性的情况下管理人工智能爬虫。

VPS 托管 专用服务器

完整的人工智能爬虫优化蓝图

完整的人工智能爬虫优化蓝图[免费下载]

电子书

网络托管

代理商战略托管指南

本指南向代理机构介绍了如何选择合适的托管基础设施、构建可重复的工作流程、保护客户网站,以及将托管服务转化为可扩展的收入来源。

更多信息

终极指南

人工智能工具

人工智能爬虫如何工作,您是否应该阻止它们?

人工智能爬虫正在重塑网站接触受众的方式,而决定阻止还是鼓励人工智能爬虫取决于您的业务模式。

更多信息

工具

人工智能工具

搜索引擎优化

人工智能搜索引擎优化--Robots.txt、Markdown 以及人工智能供应商如何抓取您的网站

探索InMotion Hosting的全新 AIInMotion HostingHelper 如何帮助网站在不断演变的 AI 驱动型搜索模式中保持可见性。了解如何让您的网站为 LLM 爬虫做好准备,并让您的搜索引擎优化战略面向未来。

更多信息

其他指南和工具

博客

了解最新的虚拟主机新闻、技巧和趋势。浏览我们的专家文章,提升您的在线形象,让您的网站保持最佳性能。

浏览我们的博客

支持中心

从我们的专业支持团队获得 24/7 全天候的帮助。访问丰富的资源、教程和指南,快速高效地解决任何托管问题。

访问我们的支持中心

托管主机

体验高性能、安全可靠的托管解决方案。让我们的专家处理技术细节,而您则专注于业务增长。

了解托管主机

订阅后,您的收件箱将收到我们最新的网站和托管内容:

启动网站比你想象的更容易

探索托管

InMotion Hosting 标志

InMotionHosting.com为全球企业和企业家提供虚拟主机、云计算解决方案和托管服务。

关注我们

  • English
  • Español
  • Nederlands
  • Deutsch
  • Italiano
  • Français
  • 中文 (繁體)
  • Türkçe
  • Ελληνικά
  • हिंदी
  • Українська
  • Português (Brasil)
  • Português
  • Polski
  • Русский
  • $美元
  • €欧元
网络托管
  • 共享主机
  • WordPress托管
  • WordPress托管
  • 适用于WordPress的UltraStack ONE
  • VPS 托管
  • 云 VPS
  • 专用服务器托管
  • 裸机服务器
  • 企业托管解决方案
  • OpenMetal 云计算 IaaS
  • 分销托管
  • 经销商 VPS
  • 威廉与服务器托管
  • 电子商务托管
  • RamNode 云
  • InMotion 云
  • 定价
托管工具
  • WordPress
  • WooCommerce 托管
  • Drupal 托管
  • Joomla 托管
  • cPanel 托管
  • PHP 托管
  • Magento 托管
  • PrestaShop 托管
  • Laravel 托管
  • Ubuntu 托管
  • Linux 托管
  • WebPro 控制面板
  • WordPress 网站生成器
  • 域名
  • 专业电子邮件
支持
  • 在线聊天
  • +1 757 416 6575
  • +44 2045 763722
  • 支持中心
  • 资源
  • 社区支持
  • WordPress 教程
  • RamNode
  • InMotion Solutions
  • 托管主机
  • 网站迁移
  • 数据中心位置
  • 洛杉矶数据中心
  • 阿什本数据中心
  • 阿姆斯特丹数据中心
关于我们
  • 联系我们
  • 关于我们
  • 博客
  • 新闻
  • 职业生涯
  • 联属会员计划
  • 推荐朋友
  • 学生网站托管
  • 网站地图
  • Cookie 设置
  • 无障碍(ADA)设置

版权所有 © 2002-2026 InMotion Hosting, Inc.保留所有权利。InMotionHosting®是InMotion Hosting, Inc. 的注册商标。

服务条款 隐私政策 隐私政策 可访问性声明 法律咨询
不要出售我的个人信息 限制使用我的敏感个人信息

继续访问本网站的任何网页,即表示每位访问者同意使用 Cookie 和跟踪技术,并进一步同意遵守我们的通用服务条款、隐私政策、Cookie 政策以及本网站上发布的任何其他条款和政策。