請注意:這篇文章記錄了我們看到市場上出現的產品和標準的願景。其目的在於幫助客戶和我們瞭解如何因應並利用新的 AI 系統和不斷演進的搜尋模式的力量。這是一項正在進行中的工作!就這樣,我們宣布。我們正在推出一項新服務,以協助我們的客戶和其他專業網站管理人員掌握 AI 供應商日益處理搜尋查詢所帶來的變化。我們自己也使用一套流程,我們希望與大家分享,以協助確保您的網站已為 AI 做好準備。目前,我們稱之為InMotion AI SEO Helper。在這篇文章中,我將同時提及我們的網站和一組匿名網站。作為一家託管公司,我們可以看到許多網站的總體模式,而這些模式與inmotionhosting.com 網站上發生的情況非常吻合。您可以在我們的網站inmotionhosting.com/services/ai-seo-helper 上使用部分版本的 AI SEO 幫手來瞭解它是如何運作的。如果您的需求超出了這個版本,您需要註冊免費使用完整的 AI SEO 幫手。請注意,在資源爭用時,我們的客戶在系統中擁有第一優先權。該工具會檢查您的網站,並會(目前的計劃)在第 2 版時執行下列工作。當然,版本 1 會有一個子集:確保網站有 robots.txt 檔案,並找出遺漏的內容確保網站有 sitemap.xml 並找出缺失之處檢查是否有 .md 檔案檢查網站是否包含 llms.txt 檔案* (請參閱下文有關注意事項的說明)驗證網站是否在無意間封鎖 LLM 爬蟲如上所述,該工具可識別可能遺漏的內容。目前,由於這是一個不斷演進的標準,因此還不能百分之百知道需要做什麼。我們對於「應該做什麼」來協助爬蟲使用 AI 工具的看法,是基於我們一直以來的經驗。我們會在支援性資源發表時連結到這些資源,所以請原諒我們暫時沒有連結。 爬行、訓練、搜尋 - 加上新的銷售額讓我們從這一點開始:這些新的搜尋模式已經帶來了銷售額。人們前往他們喜愛的 AI 聊天機器人,進行有購買意圖的研究,然後來到我們的網站完成購買。這是我親眼所見的事實。目前還不完全瞭解這種模式,也不清楚有多少購買流量會從 Google 搜尋轉移到 ChatGPT 及類似產品。下面的資訊概述了我們看到的情況。我不是在討論網站、論文、書籍等應否用來訓練 LLM,而不讓 LLM 瞭解訓練的內容。我對此有自己的看法,我會在下次發表,因為這是一個合理的關注。在這次討論中,我所談論的是那些已經明確接受 Google 及其同業會抓取和擷取他們的資訊,以便將訪客傳送到他們的網站以獲取金錢利益的網站。許多「AI 公司」現正進行網站抓取。包括 OpenAI 和 Anthropic 在內的幾家主要廠商已提供指引,說明他們如何尊重網站的隱私權。 robots.txt 及其 User-Agent 將顯示為您的 Web 伺服器。我們已在伺服器日誌中觀察到此活動。目前尚不清楚的是,為了納入訓練資料集而進行的擷取與因 「當下 」資訊需求而進行的擷取是否會有不同的模式。即時」資訊需求的定義為:Parallel Page Crawls- 當 Anthropic 或 ChatGPT 的使用者要求上述服務(例如 Deep Research)執行搜尋時,過程包括平行造訪許多頁面,然後由 LLM 進行評估。需要最新資料- 當使用者尋找的資訊不可能是 LLM 工作資料集中的最新資訊時,LLM 會即時檢查網站以收集最新資訊。特定要求- 當使用者特別要求 LLM 擷取某些資訊(如網頁或視訊)並加以總結以供使用。其他原因"此時此刻」的爬取是以某種程度的緊迫感來進行的,這種緊迫感表現在對您網站的快速平行頁面請求上。我們也許會希望這些服務能夠更精準地處理他們的要求,但實際上他們是在努力達成使用者體驗的目標,而加快資料蒐集程序是協助達成目標的簡單方法。無論哪種方式,當一個頁面被抓取時,主要目的是攝取該頁面,並將其轉換為機器就緒的格式。最簡單的做法是轉換成 Markdown 格式。Markdown 是網頁內容的文字表達,包括表格和圖片的文字表達。有幾種流行的系統可以做到這一點,但每個抓取工具的做法都有點不同。開放原始碼的工具可供我們評估。幕後的服務則不那麼明顯,但我們預期它們會使用其中一種流行的函式庫。除了單一頁面的抓取之外,我們看到爬蟲的設計是為了讀取 sitemap.xml 檔案。由此,它可以抓取每個 URL 並產生其 Markdown 檔案以進行匹配。這通常只是一個 .md 檔案。例如,讓我們以一個名為「關於我們」的頁面為例。這可能是一個靜態頁面,也可能是網頁應用程式所建立的頁面,或是在伺服器端建立的頁面,例如WordPress。但它已在瀏覽器中呈現。這個頁面有豐富的圖形、顏色、排版、圖片等,供人閱讀和吸收。對於最常見的使用個案,LLMs 需要將這些豐富的內容翻譯成 Markdown,才能讓人輕鬆吸收。對於我們的系統而言,它將以下列可能的檔案結構,製作下列其中一些公開的 URL:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.md如您所見,有幾種爬蟲很受歡迎。我們將在未來的技術評估視訊中涵蓋其中幾種,並在評估過程中發佈相關文章。但重點是,我們的計劃是使用個別爬蟲來製作一個 .md 特定於它。那麼該爬蟲就可以簡單地讀取 .md 檔案。這樣會快很多,而且使用這個爬蟲的每家公司都不會再把相同的網頁處理到 .md 檔案。在我們這邊,我們會觀察爬蟲的主要更新,並可以觸發更新到 .md 檔案。我們正在思考這個頻率可以有多頻繁,甚至我們是否可以讓爬蟲本身觸發一個新的更新來更新 .md 使用一些簡單的 API 來呼叫我們的服務。值得注意的是,我們也會與爬蟲供應商本身合作,看看有什麼可以幫助他們。 LLMs.txt vs Robots.txt稍後,將針對 LLM 的指引載入新的 llms.txt 檔案類似於 robots.txt 檔案。現在的爭論點在於特定檔案是否是正確的選擇。爬蟲就是機器人,寫得好的機器人已經很尊重 robots.txt。的想法。 llms.txt 我第一次讀到這個問題時覺得很有道理,但在思考過這個問題後,我覺得這個問題要不是已經被 robots.txt 解決了,就是應該可以透過在 robots.txt.以下是我們的一些範例 llms.txt 在 inmotionhosting.com 網站上。目前我不參與爭論,讓使用模式幫助我們。目前,與網站流量和 robots.txt 請求相比,該檔案的存取量其實是無法衡量的。因此,目前我們稱之為 「不存在」,但我們會繼續觀察。不過我們的想法是對的,希望爬蟲開始尊重其中一個。 故意或意外阻擋爬蟲了解您的網站是否可被抓取是很重要的。如果您想封鎖爬蟲者,這篇文章不適合。您可以查看此頁面了解可能的方法,但最終其實不可能切斷對公開內容的存取。在這篇文章中,我們將專注於了解您的網頁是否可抓取,因為您希望您的內容在訓練期間和 「立即 」查詢期間出現在主要的 LLM 中。對我來說,只要進入我的四大 AI 聊天機器人,要求它存取我們網站上的一個頁面,就可以快速檢查。如果它不能,我們就有問題了。Cloudflare 也在嘗試一些我擔心的事情。我會張貼更多關於這方面的資訊,以及測試可抓取性的方法。 接下來的步驟和公開問題這個空間發展迅速,我們採取互動的方式。以下是我們仍在研究的幾個問題:我們應該支援哪些 Markdown 輸出?大型 AI 殭屍已經做了多少?它們很可能已經在為熱門網站快取 Markdown。肯定的是,這些工具目前是依需求進行網站抓取,所以目前來說這很重要。我們是否應該考慮這些內容是否只應由我們託管? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - 我們正在追蹤這個問題,目前會將其納入。之後,如果爬蟲堅持使用 robots.txt當客戶在網站上發佈新網頁時,我們應該多久稽核一次,並更新 .md 和 .xml 檔案?我們是否應該整合基於 Git 的工作流程,讓這件事變得更容易?我們如何才能為WordPress 使用者提供最佳支援?這應該與我們的Total Cache 外掛程式整合嗎?我們還有很多工作要做,但我們希望分享我們的方向,並提高大家的意識:這些工具的銷售已經開始了。它們已經很重要了,未來幾年的重要性也會增加。 工具 AI 工具搜尋引擎優化 AI SEO - Robots.txt、Markdown 以及 AI 供應商如何抓取您的網站 探索InMotion Hosting全新的 AIInMotion HostingHelper 如何協助網站在不斷演進的 AI 驅動搜尋模式中保持可見度。瞭解如何讓您的網站為 LLM 爬蟲做好準備,並讓您的 SEO 策略面向未來。 閱讀更多 終極指南 搜尋引擎優化 大型網站遷移的時間與執行指南 計劃遷移?了解這些專家建議,以確保網站順暢遷移,同時保護您的 SEO 和效能。 閱讀更多 終極指南 搜尋引擎優化 如何為 SEO 優先考量網站效能 學習如何有效遷移您的網站以獲得更好的排名。探索可提升 SEO 效能的主機選項。 閱讀更多 其他指南與工具博客隨時掌握最新的網頁寄存新聞、秘訣和趨勢。探索我們的專家文章,提升您的線上形象,讓您的網站保持最佳效能。探索我們的部落格支援中心從我們專屬的支援團隊獲得 24/7 全天候的協助。存取豐富的資源、教學和指南,快速有效地解決任何主機問題。訪問我們的支援中心託管主機體驗高效能、安全可靠的管理式主機解決方案。讓我們的專家處理技術細節,而您則專注於發展您的業務。瞭解託管式主機 訂閱即可在您的收件匣中收到我們最新的網站與寄存內容: 推出您的網站比您想像中容易探索主機