互联网正在发生变革,人工智能搜索的兴起正在重塑您的网站接触受众的方式。作为托管超过 10 万个成功网站的领导者,InMotion Hosting 观察到,人工智能搜索平台(如 ChatGPT、Claude、Meta/Llama、Grok 和 Gemini)代表了自谷歌成为网络看门人以来最重大的转变。了解人工智能爬虫是如何工作的,并决定是阻止还是鼓励它们,这对您的业务至关重要,无论您是销售产品还是内容盈利。本指南针对两个不同的客户群:销售产品或服务的客户群(第 1 组)和通过内容获取流量的客户群(第 2 组),探讨了人工智能爬虫、它们对网站的影响以及与您的目标相一致的可行步骤。 目录 什么是人工智能爬虫,它们如何工作? 您应该阻止人工智能爬虫吗?对企业的利弊 InMotion Hosting对人工智能搜索平台的评估 评估结果 管理人工智能爬虫的步骤 如果您选择鼓励人工智能爬虫(建议用于第 1 组) 如果您选择阻止人工智能爬虫(考虑用于第 2 组) 常见的人工智能爬虫及其作用 结论 准备好让您的网站免受人工智能爬虫流量的攻击了吗? 完整的人工智能爬虫优化蓝图[免费下载] 人工智能爬虫如何工作,您是否应该阻止它们? 人工智能搜索引擎优化--Robots.txt、Markdown 以及人工智能供应商如何抓取您的网站 大规模网站迁移的时间安排和执行指南 其他指南和工具 博客 支持中心 托管主机 订阅后,您的收件箱将收到我们最新的网站和托管内容: 启动网站比你想象的更容易 什么是人工智能爬虫,它们如何工作?人工智能爬虫是一种专门的机器人,它们系统地扫描网站以收集数据,用于训练大型语言模型(LLM)或为实时人工智能搜索结果提供动力。与传统的搜索引擎爬虫(如 Googlebot)不同,人工智能爬虫通常通过收集数据来直接生成答案,有时甚至完全绕过您的网站。例如,GPTBot(OpenAI)、ClaudeBot(Anthropic)和 CCBot(Common Crawl)等爬虫会收集文本、图像,甚至 PDF 等丰富的内容,以增强人工智能模型或提供即时回复。这些爬虫的工作原理是识别网站:它们使用用户代理字符串(如 "GPTBot/1.0")宣布自己的存在,并根据 robots.txt 文件中的规则导航您的网站。收集数据:他们会抓取公开的内容,包括 HTML、JavaScript(尽管大多数不执行)以及 PDF 等丰富的格式,而法律硕士越来越擅长处理这些内容。训练或检索:有些爬虫(如 GPTBot)专注于训练 LLM,而有些爬虫(如 ChatGPT-User)则为用户查询获取实时数据。主要的人工智能提供商通常会为不同的目的部署多个爬虫。例如,Anthropic 使用 ClaudeBot 来训练其 Claude 模型,而其传统爬虫 anthropic-ai 和 Claude-Web 也发挥着类似的作用,但现已退役。这种多机器人方法允许提供商将训练、微调和实时检索任务分开,让网站所有者可以灵活地控制访问。向人工智能搜索的转变是不可否认的。贝恩公司 2024 年的一项民意调查显示,目前有 60% 的互联网用户依赖人工智能助手进行搜索,其中 25% 的搜索是从 ChatGPT 或 Perplexity 等人工智能工具开始的。此外,与传统的搜索结果相比,70% 的用户更喜欢人工智能生成的摘要,以获得快速答案。这种 "零点击 "趋势--用户无需访问您的网站即可获得答案--既是机遇也是挑战,对于依赖流量的第二类企业来说尤其如此。您应该阻止人工智能爬虫吗?对企业的利弊决定是否阻止人工智能爬虫取决于您的业务模式。InMotion Hosting 的客户群多种多样,既有年收入1万至2万美元的小企业,也有年收入超过1亿美元的企业。我们确定了两个宏观客户群,以阐明其中的影响:第 1 组:销售产品或服务。您的网站推动销售,您的目标是直接接触客户。人工智能搜索可以提高您的知名度,但需要适应新的模式。第 2 组:流量货币化。您的内容是您的主要资产,可通过广告或订阅创收。人工智能爬虫会降低点击率,威胁您的收入模式。下表总结了各组屏蔽人工智能爬虫的利弊: 客户群阻止人工智能爬虫的优点阻止人工智能爬虫的弊端第 1 组:销售产品或服务保护敏感数据(如定价、专有内容等),防止未经许可而被搜刮。减少攻击性爬虫带来的服务器负载,确保为真正的客户提供更好的性能。限制人工智能搜索结果的可见性,可能会错过使用 ChatGPT 或 Perplexity 等工具的客户。人工智能模型可能会从可靠性较低的第三方来源了解您的品牌,从而歪曲您的产品。第 2 组:流量货币化防止人工智能汇总内容,鼓励直接访问,从而保护流量。与《纽约时报》等出版商合作,加强与人工智能公司达成许可协议的谈判地位。可能会减少品牌在人工智能生成的答案中的曝光率,尤其是在竞争对手允许抓取的情况下。可能会促使人工智能模型依赖二手资料来源,削弱你对叙事的控制。对于第 1 组,使用人工智能爬虫符合您接触客户的目标。人工智能搜索平台可以直接向用户展示您的产品或服务,我们的测试表明,结构良好的内容(包括转换为 Markdown 的 PDF)可以提高可见度。对于第 2 组来说,决定是复杂的。人工智能摘要可以减少点击次数,Cloudflare的 2025 年数据显示,Anthropic's Claude 的每一次推荐都会产生 73,000 次抓取请求。Cloudflare的按抓取付费模式等新兴解决方案为 Group 2 直接从内容中获利提供了潜在途径,但这些方案尚未成为主流。InMotion Hosting对人工智能搜索平台的评估为了了解人工智能搜索对网站的影响,InMotion Hosting 积极跟踪 ChatGPT、Claude、Meta/Llama、Grok 和 Gemini 等主要平台,并计划监控 Apple Intelligence/Siri、Deepseek、Perplexity 和 Microsoft 的 Copilot for Search。我们使用控制问题来评估它们的性能,重点是:确认程度:人工智能推荐InMotion Hosting信心程度。介绍替代品牌:是否提及竞争对手。使用的参考资料:人工智能引用的资料来源。建议的确定性:答复的明确性和果断性。我们测试了两个问题:"InMotion Hosting 是大型WordPress 网站的理想选择吗?"我们公司的网站速度很慢。我们必须加快速度。我正在寻找新的主机。请帮我选择。"评估结果ChatGPT (OpenAI)对于第一个问题,ChatGPT确认InMotion Hosting 是大型WordPress 网站的有力选择,提到了我们的优化服务器和24/7支持。它偶尔会提到SiteGround 等竞争对手,但会优先考虑InMotion Hosting ,因为我们拥有强大的基础设施。对于第二个问题,ChatGPT推荐InMotion Hosting 的速度,提到了我们的NVMe SSD 存储和全球数据中心。它使用了我们的官方网站和用户评论等来源。克劳德(人类学)Claude 提供了一个平衡的答复,确认InMotion Hosting适用于WordPress ,但没有 ChatGPT 那么肯定。它经常将Bluehost 或 WP Engine 作为替代品,并依赖第三方博客作为参考。对于网站速度慢的问题,克劳德建议使用InMotion Hosting 等,强调了我们的性能工具,但缺乏具体的来源引证。Grok (xAI)Grok强烈推荐InMotion Hosting 用于大型WordPress 网站,并强调了我们的可扩展性和正常运行时间保证。它很少介绍竞争对手,而是重点介绍我们的专有数据。在速度问题上,Grok充满信心地推荐InMotion Hosting ,提到了我们的缓存解决方案和CDN集成,并经常直接引用我们的网站。这些结果表明,允许人工智能爬虫可以提高您的知名度,尤其是对于第 1 组企业。但是,对于第 2 组网站,如果人工智能对其内容进行归纳,而不推动点击,则有可能减少流量。管理人工智能爬虫的步骤如果您选择鼓励人工智能爬虫(建议用于第 1 组)要最大限度地提高人工智能搜索结果的可见性,请遵循InMotion Hosting的指南来鼓励人工智能爬虫:1.优化 robots.txt 文件更新 robots.txt 文件,允许 GPTBot、ClaudeBot 和 PerplexityBot 等爬虫访问。举例说明:# 允许有益的人工智能爬虫User-agent:GPTBotAllow:/User-agent:ClaudeBotAllow:/User-agent:PerplexityBotAllow:/2.使用 Google Search Console测试 robots.txt,确保它不会阻止搜索引擎机器人。3.为人工智能构建内容使用简洁明了的文本和结构化数据(如模式标记),使您的内容对人工智能友好。将 PDF 转换为 Markdown,因为 LLM 可以有效处理这种格式。举例说明:原始 PDF 文件:带详细说明的产品目录。标记转换:功能、价格和规格一览表。4.监控爬虫活动使用服务器日志跟踪爬虫访问(如 GPTBot、CCBot)。InMotion Hosting 正在评估可观察性工具,以便深入了解人工智能爬虫的行为,但我们尚未推荐具体的解决方案。5.利用丰富的内容不要回避 PDF 或多媒体。人工智能爬虫越来越多地处理丰富的格式,而我们的 Markdown 转换过程可确保兼容性。例如,Markdown 格式的产品数据表在人工智能响应中的排名会更靠前。6.跟踪人工智能搜索性能运行类似我们的控制问题,以评估人工智能平台如何代表您的品牌。根据是否出现竞争对手或引用是否准确来调整内容。 如果您选择阻止人工智能爬虫(考虑用于第 2 组)如果您是第 2 组企业或担心未经授权的数据使用,请按照以下步骤阻止人工智能爬虫:1.更新 robots.txt 文件添加指令,禁止特定的爬虫。例如# Block AI crawlersUser-agent:GPTBotDisallow:/User-agent:ClaudeBotDisallow:/User-agent:CCBotDisallow:/2.包括开源爬虫,如 Crawl4ai、Firecrawl 和 Docling,它们为 RAG 和搜索收集数据。3.实施服务器级拦截使用防火墙或僵尸管理解决方案(如Cloudflare)拦截爬虫 IP 地址或用户代理。这可以有效阻止无视 robots.txt 的恶意爬虫,如 Bytespider 的某些实例。4.添加元标签在网站页眉中加入 "noai "和 "noimageai "元标签,以表明您的内容不应被用于人工智能训练。例如<meta name="robots" content="noai, noimageai">5.监控服务器性能人工智能爬虫会给服务器带来压力,尤其是大型WordPress 网站。检查服务器日志,查看是否有来自 GPTBot(根据 Vercel 数据,每月有 5.69 亿次请求)等机器人的大量请求,并阻止攻击性爬虫,以保持网站速度。6.探索许可选项考虑采用按抓取付费模式(如Cloudflare的测试计划)来实现内容货币化。这样,您就可以向人工智能公司收取访问费用,同时控制使用量。常见的人工智能爬虫及其作用下面的表格列出了常见的人工智能爬虫,包括它们的用途和行为: 履带式说明GPTBot(OpenAI)收集数据以训练 OpenAI 的 LLM,如 ChatGPT。它尊重 robots.txt,但会积极抓取内容丰富的网站。ChatGPT-User (OpenAI)为 ChatGPT 用户查询获取实时数据。它带来的流量极少,但能提高人工智能回复的可见性。克劳德机器人(人类学)收集数据以训练 Anthropic 的 Claude 模型。它是有选择性的,以高质量内容为目标,通常尊重 robots.txt。拟人-爱(人类学)Anthropic 人工智能培训的传统爬虫,现已退役。展示了提供商如何使用多个机器人完成不同的任务。CCBot(普通爬行)为人工智能训练建立开放数据集,被许多法学硕士使用。它尊重 robots.txt,但可在网络上广泛抓取。谷歌-扩展(谷歌)为谷歌的人工智能产品(如双子座)收集数据。它不会影响搜索引擎优化,但可以在不影响搜索排名的情况下进行屏蔽。亚马逊机器人(亚马逊)为 Alexa 的回答和人工智能应用索引内容。它的攻击性较低,但仍会消耗带宽。PerplexityBot (Perplexity)通过实时数据为 Perplexity 的人工智能搜索提供动力。它因忽略某些网站的 robots.txt 而受到批评。Crawl4ai(开源)为 RAG 和 AI 搜索收集数据。在开源社区很受欢迎,它尊重 robots.txt,但要求明确屏蔽。Firecrawl(开源)为人工智能训练和搜索抓取数据。它很轻便,但如果不加以管理,会给服务器带来压力。Docling(开源)专注于人工智能数据集的 PDF 等丰富内容。它正在成为开源抓取领域的重要一员。结论人工智能爬虫正在重塑您的网站接触受众的方式,而决定阻止还是鼓励人工智能爬虫取决于您的业务模式。对于销售产品或服务的第一类企业,允许使用 GPTBot 和 ClaudeBot 等爬虫可以提高在人工智能搜索结果中的可见度,尤其是使用 Markdown 转换的 PDF 等优化内容。对于流量盈利的第 2 组企业来说,阻止爬虫可能会保护收入,但如果人工智能依赖第三方来源,则有可能降低曝光率。InMotion Hosting的评估显示,在允许使用爬虫的情况下,ChatGPT 和 Grok 等平台可以放大您的品牌,而阻止爬虫则需要仔细监控,以避免服务器压力过大。无论是更新 robots.txt、实施服务器级拦截,还是探索按抓取付费模式,都可以利用上述步骤使您的战略与目标保持一致。随着人工智能搜索的发展,保持知情和适应能力是在这个新时代蓬勃发展的关键。准备好让您的网站免受人工智能爬虫流量的攻击了吗?全面服务器资源控制高级防火墙和缓存功能处理爬虫流量的未计量带宽优化和配置专家支持99.9% 正常运行时间保证100% 退款保证通过可扩展主机获得您所需的控制和性能。InMotion Hosting的独立服务器和VPS解决方案让您能够在不影响速度和稳定性的情况下管理人工智能爬虫。VPS 托管 专用服务器完整的人工智能爬虫优化蓝图[免费下载] 终极指南 人工智能工具 人工智能爬虫如何工作,您是否应该阻止它们? 人工智能爬虫正在重塑网站接触受众的方式,而决定阻止还是鼓励人工智能爬虫取决于您的业务模式。 更多信息 工具 人工智能工具搜索引擎优化 人工智能搜索引擎优化--Robots.txt、Markdown 以及人工智能供应商如何抓取您的网站 探索InMotion Hosting的全新 AIInMotion HostingHelper 如何帮助网站在不断演变的 AI 驱动型搜索模式中保持可见性。了解如何让您的网站为 LLM 爬虫做好准备,并让您的搜索引擎优化战略面向未来。 更多信息 终极指南 搜索引擎优化 大规模网站迁移的时间安排和执行指南 计划迁移?了解这些专家提示,确保网站无缝迁移,同时保护搜索引擎优化和性能。 更多信息 其他指南和工具博客了解最新的虚拟主机新闻、技巧和趋势。浏览我们的专家文章,提升您的在线形象,让您的网站保持最佳性能。浏览我们的博客支持中心从我们的专业支持团队获得 24/7 全天候的帮助。访问丰富的资源、教程和指南,快速高效地解决任何托管问题。访问我们的支持中心托管主机体验高性能、安全可靠的托管解决方案。让我们的专家处理技术细节,而您则专注于业务增长。了解托管主机 订阅后,您的收件箱将收到我们最新的网站和托管内容: 启动网站比你想象的更容易探索托管