跳到內容
InMotion Hosting 商標 InMotion Hosting 家
現已開放報名:InMotion 代理合作夥伴計畫。創始名額現正開放申請。 立即申請
  • 資源
    學習
    比較InMotion Hosting
    資源中心
    博客
    支援中心
    加入我們
    職業
    聯盟計劃
    代理專案
    推薦朋友
  • 聯繫我們
    +1 757 416 6575
    +44 2045 763722
    與業務人員聊天 與銷售人員聊天
    取得支援 取得支援
    聯繫我們
    系統狀態
  • 支援中心
  • Login
  • 在線聊天
  • AMP 登錄
  • 支援中心
  • 0
主功能表
    InMotion Hosting 商標 InMotion Hosting 家
  • VPS虛擬專用伺服器 Hosting
  • 專用伺服器
    Managed Dedicated Servers 使用安全、
    可擴充的基礎架構保護您的企業
    裸機伺服器 為您的
    獨特工作負載量身打造的裸機解決方案
    高容量伺服器 我們最強大的伺服器,專為
    高需求工作負載進行優化
    環保專用伺服器 以具競爭力的
    價格提供永續伺服器
  • WordPress
    共用 Hosting 適用於WordPress 經典的 Hosting 與電子郵件和cPanel 包括
    適用於WordPress的UltraStack ONE 關鍵任務網站的優異速度
    適用於WordPress的 VPS主機 優化的伺服器與彈性的控制
    檢視所有WordPress 解決方案
  • 產品
    任何規模網站的主機
    共享主機 以可靠主機、真實支援及隨您成長的平台,強勢啟航
    WordPress 託管服務 WordPress 專為WordPress 優化的主機方案cPanel WordPress cPanel
    虛擬專用伺服器託管 靈活高效能主機服務,全面掌控
    專用伺服器託管服務 以安全、可擴展的基礎架構保護您的業務
    經銷商託管服務 經銷商專用白標版cPanel
    主機附加功能 透過安全防護、電子郵件等工具升級您的主機服務
    檢視所有網頁 Hosting
  • 合作夥伴最新消息
    代理商合作夥伴計劃
    代理商合作夥伴名錄
    代理託管解決方案
  • 服務業
    託管主機
    伺服器管理 策略性系統管理支援與客製化解決方案
    網頁設計服務
    客製化網站設計 為您的品牌量身訂做,讓您脫穎而出
    快速網站 根據優質範本設計的優質網站
    網站重建 將舊網站現代化,以提升效能並促進成長
    檢視所有網站服務
    維修服務
    維護計劃 讓您的WordPress 網站運作順暢
    SEO 服務 搜尋、增加流量、提升排名
    速度最佳化 改善載入時間與效能
    黑客入侵網站修復 專業的惡意軟體移除與網站復原
  • 0 購物車
    • $美元
    • €歐元
  • 開始即時聊天
  • 取得支援
  • +1 757 416 6575
  • +44 2045 763722
  • +1 757 416 6575
    +44 2045 763722
  • 支援中心
  • 0 購物車
  • Login
工具

AI SEO - Robots.txt、Markdown 以及 AI 供應商如何抓取您的網站

探索InMotion Hosting全新的 AIInMotion HostingHelper 如何協助網站在不斷演進的 AI 驅動搜尋模式中保持可見度。瞭解如何讓您的網站為 LLM 爬蟲做好準備,並讓您的 SEO 策略面向未來。

撰寫人:
Todd Robinson -
功能表
  • 資源中心
  • 個案研究
  • 下載
    • 電子書
    • 資訊圖表
  • 終極指南
  • 影片
  • 工具
  • 銷售聊天

請注意:這篇文章記錄了我們看到市場上出現的產品和標準的願景。其目的在於幫助客戶和我們瞭解如何因應並利用新的 AI 系統和不斷演進的搜尋模式的力量。這是一項正在進行中的工作!就這樣,我們宣布。

我們正在推出一項新服務,以協助我們的客戶和其他專業網站管理人員掌握 AI 供應商日益處理搜尋查詢所帶來的變化。我們自己也使用一套流程,我們希望與大家分享,以協助確保您的網站已為 AI 做好準備。目前,我們稱之為InMotion AI SEO Helper。

在這篇文章中,我將同時提及我們的網站和一組匿名網站。作為一家託管公司,我們可以看到許多網站的總體模式,而這些模式與inmotionhosting.com 網站上發生的情況非常吻合。

您可以在我們的網站inmotionhosting.com/services/ai-seo-helper 上使用部分版本的 AI SEO 幫手來瞭解它是如何運作的。如果您的需求超出了這個版本,您需要註冊免費使用完整的 AI SEO 幫手。請注意,在資源爭用時,我們的客戶在系統中擁有第一優先權。

該工具會檢查您的網站,並會(目前的計劃)在第 2 版時執行下列工作。當然,版本 1 會有一個子集:

  • 確保網站有 robots.txt 檔案,並找出遺漏的內容
  • 確保網站有 sitemap.xml 並找出缺失之處
  • 檢查是否有 .md 檔案
  • 檢查網站是否包含 llms.txt 檔案* (請參閱下文有關注意事項的說明)
  • 驗證網站是否在無意間封鎖 LLM 爬蟲

如上所述,該工具可識別可能遺漏的內容。目前,由於這是一個不斷演進的標準,因此還不能百分之百知道需要做什麼。

我們對於「應該做什麼」來協助爬蟲使用 AI 工具的看法,是基於我們一直以來的經驗。我們會在支援性資源發表時連結到這些資源,所以請原諒我們暫時沒有連結。

 

爬行、訓練、搜尋 - 加上新的銷售額

讓我們從這一點開始:這些新的搜尋模式已經帶來了銷售額。人們前往他們喜愛的 AI 聊天機器人,進行有購買意圖的研究,然後來到我們的網站完成購買。這是我親眼所見的事實。目前還不完全瞭解這種模式,也不清楚有多少購買流量會從 Google 搜尋轉移到 ChatGPT 及類似產品。

下面的資訊概述了我們看到的情況。我不是在討論網站、論文、書籍等應否用來訓練 LLM,而不讓 LLM 瞭解訓練的內容。我對此有自己的看法,我會在下次發表,因為這是一個合理的關注。在這次討論中,我所談論的是那些已經明確接受 Google 及其同業會抓取和擷取他們的資訊,以便將訪客傳送到他們的網站以獲取金錢利益的網站。

許多「AI 公司」現正進行網站抓取。包括 OpenAI 和 Anthropic 在內的幾家主要廠商已提供指引,說明他們如何尊重網站的隱私權。 robots.txt 及其 User-Agent 將顯示為您的 Web 伺服器。我們已在伺服器日誌中觀察到此活動。

目前尚不清楚的是,為了納入訓練資料集而進行的擷取與因 「當下 」資訊需求而進行的擷取是否會有不同的模式。即時」資訊需求的定義為:

  • Parallel Page Crawls- 當 Anthropic 或 ChatGPT 的使用者要求上述服務(例如 Deep Research)執行搜尋時,過程包括平行造訪許多頁面,然後由 LLM 進行評估。
  • 需要最新資料- 當使用者尋找的資訊不可能是 LLM 工作資料集中的最新資訊時,LLM 會即時檢查網站以收集最新資訊。
  • 特定要求- 當使用者特別要求 LLM 擷取某些資訊(如網頁或視訊)並加以總結以供使用。
  • 其他原因

"此時此刻」的爬取是以某種程度的緊迫感來進行的,這種緊迫感表現在對您網站的快速平行頁面請求上。我們也許會希望這些服務能夠更精準地處理他們的要求,但實際上他們是在努力達成使用者體驗的目標,而加快資料蒐集程序是協助達成目標的簡單方法。

無論哪種方式,當一個頁面被抓取時,主要目的是攝取該頁面,並將其轉換為機器就緒的格式。最簡單的做法是轉換成 Markdown 格式。Markdown 是網頁內容的文字表達,包括表格和圖片的文字表達。有幾種流行的系統可以做到這一點,但每個抓取工具的做法都有點不同。開放原始碼的工具可供我們評估。幕後的服務則不那麼明顯,但我們預期它們會使用其中一種流行的函式庫。

除了單一頁面的抓取之外,我們看到爬蟲的設計是為了讀取 sitemap.xml 檔案。由此,它可以抓取每個 URL 並產生其 Markdown 檔案以進行匹配。這通常只是一個 .md 檔案。

例如,讓我們以一個名為「關於我們」的頁面為例。這可能是一個靜態頁面,也可能是網頁應用程式所建立的頁面,或是在伺服器端建立的頁面,例如WordPress。但它已在瀏覽器中呈現。這個頁面有豐富的圖形、顏色、排版、圖片等,供人閱讀和吸收。對於最常見的使用個案,LLMs 需要將這些豐富的內容翻譯成 Markdown,才能讓人輕鬆吸收。

對於我們的系統而言,它將以下列可能的檔案結構,製作下列其中一些公開的 URL:

  • /inmotion-ai-helper/openai/directory/about-us.md
  • /inmotion-ai-helper/claude/directory/about-us.md
  • /inmotion-ai-helper/gemini/directory/about-us.md
  • /inmotion-ai-helper/opencrawl/directory/about-us.md
  • /inmotion-ai-helper/crawl4ai/directory/about-us.md
  • /inmotion-ai-helper/docling/directory/about-us.md

如您所見,有幾種爬蟲很受歡迎。我們將在未來的技術評估視訊中涵蓋其中幾種,並在評估過程中發佈相關文章。但重點是,我們的計劃是使用個別爬蟲來製作一個 .md 特定於它。那麼該爬蟲就可以簡單地讀取 .md 檔案。這樣會快很多,而且使用這個爬蟲的每家公司都不會再把相同的網頁處理到 .md 檔案。

在我們這邊,我們會觀察爬蟲的主要更新,並可以觸發更新到 .md 檔案。我們正在思考這個頻率可以有多頻繁,甚至我們是否可以讓爬蟲本身觸發一個新的更新來更新 .md 使用一些簡單的 API 來呼叫我們的服務。

值得注意的是,我們也會與爬蟲供應商本身合作,看看有什麼可以幫助他們。

 

LLMs.txt vs Robots.txt

稍後,將針對 LLM 的指引載入新的 llms.txt 檔案類似於 robots.txt 檔案。現在的爭論點在於特定檔案是否是正確的選擇。爬蟲就是機器人,寫得好的機器人已經很尊重 robots.txt。的想法。 llms.txt 我第一次讀到這個問題時覺得很有道理,但在思考過這個問題後,我覺得這個問題要不是已經被 robots.txt 解決了,就是應該可以透過在 robots.txt.

以下是我們的一些範例 llms.txt 在 inmotionhosting.com 網站上。目前我不參與爭論,讓使用模式幫助我們。目前,與網站流量和 robots.txt 請求相比,該檔案的存取量其實是無法衡量的。因此,目前我們稱之為 「不存在」,但我們會繼續觀察。不過我們的想法是對的,希望爬蟲開始尊重其中一個。

InMotion Hosting 的 LLMs.txt 檔案範例

 

故意或意外阻擋爬蟲

了解您的網站是否可被抓取是很重要的。如果您想封鎖爬蟲者,這篇文章不適合。您可以查看此頁面了解可能的方法,但最終其實不可能切斷對公開內容的存取。

在這篇文章中,我們將專注於了解您的網頁是否可抓取,因為您希望您的內容在訓練期間和 「立即 」查詢期間出現在主要的 LLM 中。對我來說,只要進入我的四大 AI 聊天機器人,要求它存取我們網站上的一個頁面,就可以快速檢查。如果它不能,我們就有問題了。

Cloudflare 也在嘗試一些我擔心的事情。我會張貼更多關於這方面的資訊,以及測試可抓取性的方法。

 

接下來的步驟和公開問題

這個空間發展迅速,我們採取互動的方式。以下是我們仍在研究的幾個問題:

  • 我們應該支援哪些 Markdown 輸出?
  • 大型 AI 殭屍已經做了多少?它們很可能已經在為熱門網站快取 Markdown。肯定的是,這些工具目前是依需求進行網站抓取,所以目前來說這很重要。
  • 我們是否應該考慮這些內容是否只應由我們託管? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
  • llms.txt - 我們正在追蹤這個問題,目前會將其納入。之後,如果爬蟲堅持使用 robots.txt
  • 當客戶在網站上發佈新網頁時,我們應該多久稽核一次,並更新 .md 和 .xml 檔案?
  • 我們是否應該整合基於 Git 的工作流程,讓這件事變得更容易?
  • 我們如何才能為WordPress 使用者提供最佳支援?這應該與我們的Total Cache 外掛程式整合嗎?

我們還有很多工作要做,但我們希望分享我們的方向,並提高大家的意識:這些工具的銷售已經開始了。它們已經很重要了,未來幾年的重要性也會增加。

工具

AI 工具

搜尋引擎優化

AI SEO - Robots.txt、Markdown 以及 AI 供應商如何抓取您的網站

探索InMotion Hosting全新的 AIInMotion HostingHelper 如何協助網站在不斷演進的 AI 驅動搜尋模式中保持可見度。瞭解如何讓您的網站為 LLM 爬蟲做好準備,並讓您的 SEO 策略面向未來。

閱讀更多

終極指南

搜尋引擎優化

大型網站遷移的時間與執行指南

計劃遷移?了解這些專家建議,以確保網站順暢遷移,同時保護您的 SEO 和效能。

閱讀更多

終極指南

搜尋引擎優化

如何為 SEO 優先考量網站效能

學習如何有效遷移您的網站以獲得更好的排名。探索可提升 SEO 效能的主機選項。

閱讀更多

其他指南與工具

博客

隨時掌握最新的網頁寄存新聞、秘訣和趨勢。探索我們的專家文章,提升您的線上形象,讓您的網站保持最佳效能。

探索我們的部落格

支援中心

從我們專屬的支援團隊獲得 24/7 全天候的協助。存取豐富的資源、教學和指南,快速有效地解決任何主機問題。

訪問我們的支援中心

託管主機

體驗高效能、安全可靠的管理式主機解決方案。讓我們的專家處理技術細節,而您則專注於發展您的業務。

瞭解託管式主機

訂閱即可在您的收件匣中收到我們最新的網站與寄存內容:

推出您的網站比您想像中容易

探索主機

InMotion Hosting 商標

InMotionHosting.com為全球各地的企業和創業者提供網頁寄存、雲端解決方案和管理服務。

關注我們

  • English
  • Español
  • Nederlands
  • Deutsch
  • Italiano
  • Français
  • 中文 (简体)
  • Türkçe
  • Ελληνικά
  • हिंदी
  • Українська
  • Português (Brasil)
  • Português
  • Polski
  • Русский
  • $美元
  • €歐元
虛擬主機
  • 共用主機
  • WordPress的主機
  • WordPress的託管服務
  • 適用於WordPress的UltraStack ONE
  • VPS主機
  • 雲VPS
  • 專用伺服器託管
  • 裸機伺服器
  • 企業託管解決方案
  • OpenMetal 雲 IaaS
  • 轉銷商託管
  • 轉銷商VPS
  • Minecraft伺服器託管
  • 電子商務託管
  • RamNode
  • InMotion Cloud
  • 定價
託管工具
  • WordPress
  • WooCommerce託管
  • Drupal 好客
  • Joomla 好客
  • cPanel 好客
  • PHP主機
  • Magento 好客
  • PrestaShop 好客
  • Laravel 好客
  • Ubuntu 主機
  • Linux 主機
  • WebPro 儀錶板
  • WordPress 網站建設者
  • 功能變數名稱
  • 專業郵箱
支援
  • 在線聊天
  • +1 757 416 6575
  • +44 2045 763722
  • 支援中心
  • 資源
  • 社區支援
  • WordPress 教程
  • RamNode
  • InMotion 解決方案
  • 託管主機
  • 網站遷移
  • 數據中心位置
  • 洛杉磯數據中心
  • 阿什本數據中心
  • 阿姆斯特丹數據中心
關於我們
  • 聯繫我們
  • 關於我們
  • 博客
  • 新聞
  • 職業
  • 聯盟計劃
  • 推薦朋友
  • 學生虛擬主機
  • 網站地圖
  • Cookies 設定
  • 無障礙 (ADA) 設定

版權所有 © 2002-2026 InMotion Hosting, Inc.保留所有權利。InMotionHosting®為InMotion Hosting, Inc. 之註冊商標。

服務條款| 隱私權政策| 資料處理協議| 無障礙聲明| 法律諮詢
請勿出售我的個人資料| 限制使用我的敏感個人資料

繼續瀏覽本網站內的任何網頁,即表示每位訪客同意使用 Cookie 和追蹤技術,並進一步同意遵守我們的通用服務條款、隱私政策、Cookie 政策以及本網站上張貼的任何其他條款和政策。