请注意:本文记录的是我们对市场上出现的产品和标准的愿景。它旨在帮助客户和我们自己了解如何应对和利用新的人工智能系统和不断演变的搜索模式的力量。这是一项正在进行中的工作!就这样,我们宣布。我们正在推出一项新服务,帮助我们的客户和其他专业网站管理者应对人工智能提供商越来越多地处理搜索查询所带来的变化。我们希望分享我们自己使用的流程,以帮助确保您的网站已为人工智能做好准备。目前,我们称之为InMotion AI SEO 助手。在本篇文章中,我将同时提及我们的网站和一组匿名网站。作为一家托管公司,我们可以看到许多网站的总体模式,这些模式与inmotionhosting.com网站上发生的情况非常吻合。您可以在我们的网站inmotionhosting.com/services/ai-seo-helper 上使用部分版本的 AI SEO 助手,了解其工作原理。如果您的需求超出了所提供的范围,则需要免费注册使用完整版 AI SEO 助手。请注意,在资源紧张时,我们的客户在系统中享有优先权。该工具将检查您的网站,并在(目前的计划)第 2 版中执行以下操作。当然,第 1 版将有一个子集:确保网站有 robots.txt 文件,并找出缺少的内容确保网站有 sitemap.xml 并确定缺少什么检查是否存在 .md 文件检查网站是否包含 llms.txt 文件*(参见下文关于此处注意事项的说明)验证网站是否无意中阻止了 LLM 爬虫如上所述,该工具可确定可能缺失的内容。目前还不能完全确定需要做哪些工作,因为这是一个不断发展的标准。我们对 "应采取哪些措施 "来帮助爬虫使用人工智能工具的看法是基于我们不断积累的经验。我们将在辅助资源发布后为其提供链接,因此请原谅我们暂时没有提供链接。 爬行、培训、搜索 - 再加上新的销售额首先:这些新的搜索模式已经带来了销售额。人们正在访问他们最喜欢的人工智能聊天机器人,进行有购买意向的研究,然后来到我们的网站完成购买。这是我亲眼所见的事实。目前还不完全清楚这种模式,也不清楚有多少购买流会从谷歌搜索转移到 ChatGPT 和类似产品。下面的信息概述了我们所看到的情况。我并不是在谈论网站、论文、书籍等是否应该被用来培训法律硕士,而法律硕士却不说明培训的内容。我对此有自己的看法,我会在下次发表,因为这是一个合理的问题。在本次讨论中,我讨论的是那些已经明确接受谷歌及其同行将抓取和摄取其信息,以便向其网站发送访客以获取金钱利益的网站。现在,许多 "人工智能公司 "都在对网站进行抓取。包括 OpenAI 和 Anthropic 在内的几家主要公司都提供了指导,说明它们如何尊重用户的隐私。 robots.txt 及其 User-Agent 将显示为您的网络服务器。我们在服务器日志中观察到了这种活动。目前尚不清楚的是,为纳入培训数据集而进行的抓取与因 "当前 "信息需求而进行的抓取之间是否会有不同的模式。当下 "信息需求的定义如下并行页面抓取--当 Anthropic 或 ChatGPT 用户要求上述服务(如深度研究)执行搜索时,该过程包括并行访问许多页面,然后由 LLM 进行评估。需要最新数据--当用户寻求的信息不可能是 LLM 工作数据集中的最新信息时,LLM 将临时检查网站以收集最新信息。特定请求--当用户特别要求将某些信息(如网页或视频)输入本地语言管理器并汇总以供使用时。其他原因"此时此刻 "的抓取具有一定的紧迫性,表现为对网站的快速并行页面请求。我们可能希望这些服务能更精确地计算其请求,但实际上它们是在努力实现用户体验目标,而加快数据收集过程是帮助实现这一目标的简单方法。无论采用哪种方式,抓取页面的主要目的都是摄取该页面并将其转换为机器可使用的格式。最简单的方法是转换成 Markdown 格式。Markdown 是一种基于文本的页面内容表示法,包括表格和图片的文本表示法。有几种流行的系统可以做到这一点,但每种抓取工具的做法都有些不同。我们可以对开源系统进行评估。幕后服务的工具则不太明显,但我们预计它们会使用其中一种流行的库。除了单页抓取外,我们还看到爬虫的设计目的是读取 sitemap.xml 文件。然后,它就可以抓取每个 URL 并生成与之匹配的 Markdown 文件。这通常只是一个 .md 文件。例如,我们来看看一个名为 "关于我们 "的页面。这可能是一个静态页面,也可能是一个由网络应用程序或服务器端(如WordPress创建的页面。但它已在浏览器中呈现。该页面包含丰富的图形、颜色、布局、图片等,可供用户阅读和吸收。对于最常见的使用案例,LLM 需要将这些丰富的内容翻译成 Markdown,以便于吸收。对于我们的系统来说,它将以面向公众的 URL 生成其中一些内容,文件结构可能如下:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.md正如您所看到的,有几种爬虫很受欢迎。我们将在今后的技术评估视频和文章中介绍其中的几种。但重点是,我们的计划是使用各个爬虫生成一个 .md 的特定内容。然后,爬虫就可以简单地读取 .md 文件。这将大大提高速度,并使每家使用该爬虫的公司都不再需要将相同的页面处理到 .md 锉刀在我们这边,我们会关注爬虫的主要更新,并可以触发更新到 .md 文件。我们正在考虑这样做的频率,或者我们是否可以让爬虫自己触发对文件的全新更新。 .md 使用一些简单的 API 调用到我们的服务。值得注意的是,我们还将与爬虫提供商合作,看看有什么可以帮助他们。 LLMs.txt 与 Robots.txt关于将专门针对法律硕士的指导载入新的 llms.txt 文件类似于 robots.txt 文件。现在的争论是,特定文件是否是正确的选择。爬虫也是机器人,写得好的爬虫已经尊重 robots.txt。使用 llms.txt 我第一次读到这个问题时觉得很有道理,但仔细思考后,我觉得这个问题要么已经通过 robots.txt 解决了,要么应该通过对 robots.txt.以下是我们的一些例子 llms.txt 在 inmotionhosting.com 网站上。我暂时不参与争论,让使用模式来帮助我们。目前,与网站流量和 robots.txt 请求相比,该文件的访问量还无法衡量。因此,目前我们称之为 "不存在",但我们会继续关注。不过我们的想法是对的,希望爬虫开始尊重其中一个。 故意或意外阻塞爬行器了解网站是否可抓取非常重要。如果您想阻止爬虫,这篇文章并不适合您。您可以查看本页了解可行的方法,但最终还是无法真正切断对公开内容的访问。在这篇文章中,我们将重点关注了解您的页面是否可抓取,因为您希望您的内容在培训和 "立即 "查找期间出现在主要的 LLM 中。对我来说,只需进入我的前四个人工智能聊天机器人,让它访问我们网站上的一个页面,就可以进行快速抽查。如果它无法访问,我们就有问题了。Cloudflare 也在尝试一些我担心的事情。我将发布更多有关这方面的信息以及测试可抓取性的方法。 下一步工作和未决问题这个空间正在迅速发展,我们将采取互动的方式。以下是我们仍在研究的几个问题:我们应该支持哪些 Markdown 输出?大型人工智能机器人已经做了多少?它们很可能已经在为热门网站缓存 Markdown。当然,这些工具目前正在按需进行网站抓取,所以目前这很重要。我们是否应该考虑一下,这些内容是否只应由我们托管? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - 我们正在跟踪这个问题,并将暂时纳入其中。稍后,如果爬虫坚持使用 robots.txt当客户在其网站上发布新页面时,我们应该多久审核一次并更新一次 .md 和 .xml 文件?我们是否应该与基于 Git 的工作流程整合,以简化工作?我们如何为WordPress 用户提供最佳支持?是否应该与我们的Total Cache 插件整合?我们还有很多工作要做,但我们希望分享我们的方向,并提高人们的认识:这些工具已经带来了销售额。它们已经非常重要,而且在未来几年会越来越重要。 工具 人工智能工具搜索引擎优化 人工智能搜索引擎优化--Robots.txt、Markdown 以及人工智能供应商如何抓取您的网站 探索InMotion Hosting的全新 AIInMotion HostingHelper 如何帮助网站在不断演变的 AI 驱动型搜索模式中保持可见性。了解如何让您的网站为 LLM 爬虫做好准备,并让您的搜索引擎优化战略面向未来。 更多信息 终极指南 搜索引擎优化 大规模网站迁移的时间安排和执行指南 计划迁移?了解这些专家提示,确保网站无缝迁移,同时保护搜索引擎优化和性能。 更多信息 终极指南 搜索引擎优化 如何为搜索引擎优化优先考虑网站性能 了解如何有效迁移网站以提高排名。了解可提高搜索引擎优化性能的托管选项。 更多信息 其他指南和工具博客了解最新的虚拟主机新闻、技巧和趋势。浏览我们的专家文章,提升您的在线形象,让您的网站保持最佳性能。浏览我们的博客支持中心从我们的专业支持团队获得 24/7 全天候的帮助。访问丰富的资源、教程和指南,快速高效地解决任何托管问题。访问我们的支持中心托管主机体验高性能、安全可靠的托管解决方案。让我们的专家处理技术细节,而您则专注于业务增长。了解托管主机 订阅后,您的收件箱将收到我们最新的网站和托管内容: 启动网站比你想象的更容易探索托管