AI SEO Crawler - Robots.txt, Markdown und AI-Anbieter

Bitte beachte: Dieser Artikel dokumentiert eine Vision eines Produkts und eines Standards, die wir auf dem Markt sehen. Er soll sowohl unseren Kunden als auch uns helfen zu verstehen, wie wir auf neue KI-Systeme und sich verändernde Suchmuster reagieren und sie nutzen können. Es ist eine laufende Arbeit! Das ist unsere Ankündigung.

Wir bieten einen neuen Service an, der unseren Kunden und anderen professionellen Website-Betreibern helfen soll, die Veränderungen zu bewältigen, die durch die zunehmende Übernahme von Suchanfragen durch KI-Anbieter entstehen. Wir verwenden selbst einen Prozess, den wir mit dir teilen möchten, um sicherzustellen, dass deine Website KI-fähig ist. Vorerst nennen wir ihn den InMotion AI SEO Helper.

In diesem Beitrag beziehe ich mich sowohl auf unsere Website als auch auf eine Reihe von anonymisierten Websites. Als Hosting-Unternehmen können wir aggregierte Muster über viele Websites hinweg erkennen, und diese Muster entsprechen weitgehend dem, was auf der Website inmotionhosting.com passiert.

Du kannst eine Teilversion des AI SEO Helper direkt auf unserer Website unter inmotionhosting.com/services/ai-seo-helper nutzen, um einen Eindruck davon zu bekommen, wie er funktioniert. Wenn du mehr als das benötigst, musst du dich kostenlos anmelden, um den AI SEO Helper in vollem Umfang zu nutzen. Bitte beachte, dass in Zeiten von Ressourcenkonflikten unsere Kunden im System erste Priorität haben.

Das Tool überprüft deine Website und wird (nach derzeitigem Plan) in Version 2 Folgendes tun. Version 1 wird natürlich eine Untermenge haben:

Stellen Sie sicher, dass der Standort über eine robots.txt Datei und finde heraus, was fehlt
Stellen Sie sicher, dass der Standort über eine sitemap.xml und festzustellen, was fehlt
Prüfen Sie auf das Vorhandensein von .md Dateien
Prüfe, ob die Website eine llms.txt Datei* (siehe Hinweis unten)
Überprüfe, ob die Website nicht ungewollt LLM-Crawler blockiert

Wie bereits erwähnt, zeigt das Tool auf, was noch fehlen könnte. Zum jetzigen Zeitpunkt ist noch nicht zu 100 % klar, was getan werden muss, da es sich um einen sich entwickelnden Standard handelt.

Unsere Meinung darüber, was getan werden sollte, um den Crawlern für die KI-Tools zu helfen, basiert auf unseren laufenden Erfahrungen. Wir werden auf unterstützende Ressourcen verlinken, sobald sie veröffentlicht werden, also entschuldige den Mangel an Links im Moment.

Krabbeln, trainieren, suchen - und neue Verkäufe

Fangen wir mal damit an: Diese neuen Suchmuster führen bereits zu Verkäufen. Die Menschen gehen zu ihrem bevorzugten KI-Chatbot, recherchieren mit der Absicht, etwas zu kaufen, und kommen auf unsere Websites, um den Kauf abzuschließen. Das ist eine Tatsache, die ich selbst erlebt habe. Das Muster ist noch nicht genau bekannt und es ist auch noch nicht klar, wie viel des Kaufflusses sich von der Google-Suche zu ChatGPT und Co. verlagern wird.

Die folgenden Informationen beschreiben, was wir sehen. Ich spreche nicht darüber, ob Websites, Papiere, Bücher usw. für die Ausbildung der LLMs verwendet werden sollten, ohne dass die LLMs angeben, worauf sie ausgebildet wurden. Ich habe meine eigene Meinung dazu, die ich ein anderes Mal veröffentlichen werde, denn das ist ein berechtigtes Anliegen. In dieser Diskussion spreche ich über Websites, die bereits ausdrücklich akzeptiert haben, dass Google und seine Kollegen ihre Informationen crawlen und aufnehmen, um Besucher auf ihre Website zu schicken und damit Geld zu verdienen.

Das Crawlen von Websites wird jetzt von vielen "KI-Unternehmen" durchgeführt. Mehrere große Anbieter, darunter OpenAI und Anthropic, haben Hinweise gegeben, wie sie die robots.txt und was ihre User-Agent als auf deinem Webserver. Wir haben diese Aktivität in den Server-Logs beobachtet.

Es ist nicht klar, ob es ein unterschiedliches Muster zwischen Crawls zur Aufnahme in Trainingsdatensätze und Crawls aufgrund von "sofortigem" Informationsbedarf geben wird. Der "sofortige" Informationsbedarf ist definiert als:

Parallele Page Crawls - wenn ein Nutzer von Anthropic oder ChatGPT den besagten Dienst wie Deep Research um eine Suche bittet, umfasst der Prozess den parallelen Besuch vieler Seiten, die der LLM dann auswerten kann.
Benötigte aktuelle Daten - Wenn ein Nutzer Informationen sucht, die wahrscheinlich nicht im Arbeitsdatensatz des LLMs vorhanden sind, überprüft der LLM spontan Websites, um aktuelle Informationen zu sammeln.
Spezifische Anfrage - wenn eine Nutzerin oder ein Nutzer ausdrücklich darum bittet, dass bestimmte Informationen wie eine Webseite oder ein Video vom LLM aufgenommen und für die Nutzung zusammengefasst werden.
Andere Gründe

"Die Crawls werden mit einer gewissen Dringlichkeit durchgeführt, die sich in schnellen, parallelen Seitenaufrufen auf deiner Website äußert. Wir würden uns vielleicht wünschen, dass diese Dienste ihre Anfragen besser dosieren, aber realistisch betrachtet versuchen sie, das Ziel der Nutzererfahrung zu erreichen, und die Beschleunigung der Datenerfassung ist eine einfache Möglichkeit, dieses Ziel zu erreichen.

Wie auch immer, wenn eine Seite gecrawlt wird, besteht der Hauptzweck darin, die Seite aufzunehmen und in ein maschinenfähiges Format zu konvertieren. Im einfachsten Fall wird sie in Markdown umgewandelt. Markdown ist eine textbasierte Darstellung des Inhalts der Seite, einschließlich einer Textdarstellung von Tabellen und Bildern. Es gibt mehrere populäre Systeme, die dies tun, aber jedes Crawling-Tool macht es ein bisschen anders. Die Open-Source-Tools stehen uns zur Verfügung, damit wir sie testen können. Diejenigen, die hinter den Kulissen der Dienste arbeiten, sind weniger offensichtlich, aber wir gehen davon aus, dass sie eine der gängigen Bibliotheken verwenden.

Neben dem Crawlen einzelner Seiten sind die Crawler darauf ausgelegt, die sitemap.xml Datei. Von dort aus kann es dann jede URL crawlen und die passende Markdown-Datei erstellen. Das ist normalerweise nur eine .md Datei für jede der gecrawlten Seiten.

Nehmen wir zum Beispiel eine Seite namens "Über uns". Das kann eine statische Seite sein oder eine Seite, die von einer Web-App oder serverseitig wie WordPress erstellt wurde. Sie wurde jedoch im Browser gerendert. Diese Seite ist reich an Grafiken, Farben, Layout, Bildern usw., die eine Person lesen und aufnehmen kann. Für die meisten Anwendungsfälle müssen die LLMs diese umfangreichen Inhalte in Markdown übersetzen, damit sie leicht aufgenommen werden können.

Für unser System werden einige dieser URLs als öffentliche URLs mit der folgenden wahrscheinlichen Dateistruktur erstellt:

/inmotion-ai-helper/openai/directory/about-us.md
/inmotion-ai-helper/claude/directory/about-us.md
/inmotion-ai-helper/gemini/directory/about-us.md
/inmotion-ai-helper/opencrawl/directory/about-us.md
/inmotion-ai-helper/crawl4ai/directory/about-us.md
/inmotion-ai-helper/docling/directory/about-us.md

Wie du sehen kannst, gibt es mehrere beliebte Crawler. Wir werden einige von ihnen in zukünftigen Videos und Beiträgen zur technischen Bewertung vorstellen. Das Wichtigste ist jedoch, dass wir die einzelnen Crawler nutzen, um eine .md spezifisch für ihn. Dann kann der Crawler einfach lesen, dass .md Datei. Das macht es viel, viel schneller und verhindert, dass jedes Unternehmen, das diesen Crawler benutzt, dieselbe Seite zum .md Datei.

Auf unserer Seite werden wir nach größeren Updates der Crawler Ausschau halten und können Updates für die .md Dateien gelegentlich. Wir überlegen, wie oft dies der Fall sein könnte oder ob wir den Crawler selbst ein frisches Update der Dateien auslösen lassen können. .md Dateien mit einem einfachen API-Aufruf an unseren Dienst.

Wir werden auch mit den Crawler-Anbietern selbst zusammenarbeiten, um herauszufinden, was ihnen helfen könnte.

LLMs.txt vs Robots.txt

Vor einiger Zeit wurde das Konzept, spezifische Leitlinien für LLMs in eine neue llms.txt Datei ähnlich wie die robots.txt Datei. Die Debatte ist nun, ob eine bestimmte Datei die richtige Wahl ist. Crawler sind Robots und die gut geschriebenen respektieren bereits die robots.txt. Die Idee einer llms.txt als ich das erste Mal davon las, aber nachdem ich darüber nachgedacht habe, habe ich das Gefühl, dass das Problem entweder bereits durch die robots.txt gelöst ist oder mit einigen kleinen Ergänzungen in der robots.txt gelöst werden sollte. robots.txt.

Hier sind einige Beispiele aus unserem llms.txt auf der Website inmotionhosting.com. Ich werde mich im Moment aus der Diskussion heraushalten und das Nutzungsmuster zu Rate ziehen. Derzeit ist der Zugriff auf diese Datei im Vergleich zum Website-Traffic und den robots.txt-Anfragen nicht wirklich messbar. Nennen wir es also vorerst "kein Ding", aber wir werden es weiter beobachten. Die Idee ist gut und wir hoffen, dass die Crawler anfangen, das eine oder andere zu respektieren.

Beispiel für die LLMs.txt-Datei von InMotion Hosting

Beabsichtigtes oder versehentliches Blockieren von Crawlern

Es ist wichtig zu wissen, ob deine Website crawlbar ist oder nicht. Wenn du Crawler blockieren willst, ist dies nicht der richtige Beitrag dafür. Du kannst dir auf dieser Seite mögliche Methoden ansehen, aber es ist letztendlich nicht möglich, den Zugang zu öffentlichen Inhalten zu sperren.

In diesem Beitrag konzentrieren wir uns darauf, ob deine Seiten crawlbar sind, denn du willst, dass deine Inhalte in den wichtigsten LLMs während des Trainings und bei "Right Now"-Aufrufen angezeigt werden. Ich überprüfe das stichprobenartig, indem ich einfach meine vier KI-Chatbots aufrufe und sie bitte, eine Seite auf unserer Website aufzurufen. Wenn er das nicht kann, haben wir ein Problem.

Cloudflare probiert auch ein paar Dinge aus, die mir Sorgen machen. Ich werde mehr darüber schreiben und wie man die Crawlability testen kann.

Nächste Schritte und offene Fragen

Dieser Bereich entwickelt sich schnell weiter und wir verfolgen einen interaktiven Ansatz. Hier sind ein paar Fragen, an denen wir noch arbeiten:

Welche Markdown-Ausgaben sollten wir unterstützen?
Wie viel davon wird bereits von den großen KI-Bots erledigt? Wahrscheinlich zwischenspeichern sie die Markdown-Daten für beliebte Websites bereits. Auf jeden Fall führen die Tools derzeit Crawls auf Anfrage durch, also ist es im Moment wichtig.
Sollten wir darüber nachdenken, ob diese Inhalte nur bei uns gehostet werden sollten? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - wir verfolgen dies und werden es vorerst einbeziehen. Später können wir es entweder verdoppeln oder verwerfen, wenn die Crawler bei der robots.txt
Wenn ein Kunde neue Seiten auf seiner Website veröffentlicht, wie oft sollten wir das prüfen und die .md und .xml Dateien?
Sollten wir einen Git-basierten Workflow integrieren, um dies zu vereinfachen?
Wie können wir WordPress am besten unterstützen? Sollte dies mit unserem Total Cache Plugin integriert werden?

Wir haben noch viel zu tun, aber wir wollten unsere Richtung mitteilen und das Bewusstsein dafür schärfen: Mit diesen Tools werden bereits Umsätze erzielt. Sie sind schon jetzt wichtig und werden in den nächsten Jahren noch wichtiger werden.

Werkzeuge

KI-Tools

SEO

AI SEO - Robots.txt, Markdown und wie AI-Anbieter deine Seiten crawlen

Erfahre, wie der neue KI-SEO-Helfer von InMotion HostingWebsites hilft, in den sich entwickelnden KI-gesteuerten Suchmustern sichtbar zu bleiben. Erfahre, wie du deine Website für LLM-Crawler vorbereitest und deine SEO-Strategie zukunftssicher machst.

Ultimative Leitfäden

SEO

Leitfaden für die zeitliche Planung und Durchführung einer groß angelegten Standortmigration

Du planst eine Migration? Entdecke diese Expertentipps, um einen nahtlosen Umzug der Website zu gewährleisten und gleichzeitig deine SEO und Leistung zu schützen.

Ultimative Leitfäden

SEO

Wie du die Leistung einer Website für SEO priorisierst

Lerne, wie du deine Website für ein besseres Ranking effektiv migrierst. Entdecke Hosting-Optionen, die deine SEO-Leistung verbessern.

Zusätzliche Leitfäden & Tools

Blog

Bleib auf dem Laufenden mit den neuesten Webhosting-Nachrichten, Tipps und Trends. Entdecke unsere Expertenartikel, um deine Online-Präsenz zu verbessern und deine Website optimal zu gestalten.

Entdecke unseren Blog

Support Center

Erhalte 24/7 Unterstützung von unserem engagierten Support-Team. Du hast Zugriff auf eine Fülle von Ressourcen, Tutorials und Anleitungen, um alle Hosting-Probleme schnell und effizient zu lösen.

Besuche unser Support Center

Managed Hosting Lösungen

Erlebe leistungsstarke, sichere und zuverlässige Managed Hosting-Lösungen. Unsere Experten kümmern sich um die technischen Details, während du dich auf das Wachstum deines Unternehmens konzentrierst.

Erfahren Sie mehr über Managed Hosting

Melde dich an, um unsere neuesten Website- und Hosting-Inhalte direkt in deinem Posteingang zu erhalten:

Der Start deiner Website ist einfacher, als du denkst

Hosting erforschen