AI SEO Crawlers - Robots.txt, Markdown en AI-aanbieders

Let op: dit artikel documenteert een visie op een product en een standaard die we in de markt zien opkomen. Het is bedoeld om zowel klanten als onszelf te helpen begrijpen hoe te reageren op en gebruik te maken van de kracht van nieuwe AI-systemen en veranderende zoekpatronen. Het is werk in uitvoering! Tot zover onze aankondiging.

We lanceren een nieuwe service om onze klanten en andere professionele websitebeheerders te helpen navigeren door de veranderingen die ontstaan doordat AI-providers steeds vaker zoekopdrachten afhandelen. We gebruiken zelf een proces dat we willen delen om ervoor te zorgen dat je site klaar is voor AI. Voor nu noemen we het de InMotion AI SEO Helper.

In dit bericht verwijs ik zowel naar onze website als naar een aantal geanonimiseerde websites. Als hostingbedrijf kunnen we geaggregeerde patronen zien op veel websites en die patronen komen sterk overeen met wat er gebeurt op de website inmotionhosting.com.

Je kunt een gedeeltelijke versie van de AI SEO Helper gebruiken vanaf onze website op inmotionhosting.com/services/ai-seo-helper om een idee te krijgen hoe het werkt. Als je meer nodig hebt dan dat, moet je je gratis aanmelden om de volledige AI SEO Helper te gebruiken. Houd er rekening mee dat in tijden van resource conflicten, onze klanten de eerste prioriteit hebben in het systeem.

De tool controleert je website en zal (volgens de huidige planning) het volgende doen bij versie 2. Versie 1 zal natuurlijk een subset hebben:

Zorg ervoor dat de site een robots.txt bestand en stel vast wat er ontbreekt
Zorg ervoor dat de site een sitemap.xml en vaststellen wat er ontbreekt
Controleer op de aanwezigheid van .md bestanden
Controleer of de site een llms.txt bestand* (zie opmerking hieronder over het voorbehoud hier)
Controleer of de site niet onbedoeld LLM-crawlers blokkeert

Zoals hierboven vermeld, identificeert de tool wat er mogelijk ontbreekt. Op dit moment is nog niet 100% bekend wat er moet gebeuren, omdat het een standaard in ontwikkeling is.

Onze mening over "wat er moet gebeuren" om crawlers te helpen voor de AI-tools is gebaseerd op onze voortdurende ervaring. We zullen linken naar ondersteunende bronnen zodra deze worden gepubliceerd, dus vergeef ons het gebrek aan links op dit moment.

Kruipen, Trainen, Zoeken - Plus Nieuwe Verkoop

Laten we hiermee beginnen: er komen al verkopen binnen uit deze nieuwe zoekpatronen. Mensen gaan naar hun favoriete AI-chatbot, doen onderzoek met de intentie om iets te kopen en komen naar onze sites om de aankoop af te ronden. Dit is een feit dat ik persoonlijk zelf heb gezien. Het patroon wordt nog niet precies begrepen en het is ook niet duidelijk hoeveel van die aankoopstroom zal verschuiven van Google-zoekopdrachten naar ChatGPT en dergelijke.

De informatie hieronder schetst wat we zien. Ik heb het er niet over of websites, papers, boeken, etc. gebruikt moeten worden om de LLM's te trainen zonder dat de LLM's vermelden waar ze op getraind zijn. Ik heb daar mijn mening over die ik een andere keer zal publiceren, want dat is een legitiem punt van zorg. Voor deze discussie heb ik het over websites die al specifiek hebben geaccepteerd dat Google en zijn collega's hun informatie crawlen en opnemen om bezoekers naar hun site te sturen voor geldelijk gewin.

Het crawlen van sites gebeurt nu door veel "AI-bedrijven". Verschillende grote spelers, waaronder OpenAI en Anthropic, hebben richtlijnen gegeven over hoe ze respecteren robots.txt en wat hun User-Agent zal presenteren als aan je server. We hebben deze activiteit waargenomen in server .

Wat niet duidelijk is, is of er een verschillend patroon zal zijn tussen crawls voor opname in Trainingsdatasets versus crawls vanwege "nu meteen" informatiebehoeften. De "op dit moment" informatiebehoeften zijn gedefinieerd als:

Parallel pagina's doorzoeken - wanneer een gebruiker van Anthropic of ChatGPT vraagt om die dienst, zoals Deep Research, om zoekopdrachten uit te voeren, omvat het proces het parallel bezoeken van vele pagina's die de LLM vervolgens evalueert.
Recente gegevens nodig - wanneer een gebruiker informatie zoekt die waarschijnlijk niet actueel is in de werkgegevensset van de LLM, zal de LLM websites on the fly controleren om recente informatie te verzamelen.
Specifiek verzoek - wanneer een gebruiker specifiek vraagt om bepaalde informatie, zoals een webpagina of video, die wordt opgenomen door LLM en samengevat voor gebruik.
Andere redenen

"Op dit moment" crawls gebeuren met een bepaalde mate van urgentie die zich uit in snelle parallelle pagina-aanvragen voor je website. We zouden misschien willen dat deze diensten hun verzoeken meer zouden doseren, maar realistisch gezien proberen ze een doel voor de gebruikerservaring te bereiken en is het versnellen van het gegevensverzamelingsproces een gemakkelijke manier om dit te bereiken.

Hoe dan ook, wanneer een pagina wordt gecrawld, is het belangrijkste doel om die pagina op te nemen en om te zetten naar een formaat dat klaar is voor de machine. Op zijn eenvoudigst wordt hij geconverteerd naar Markdown. Markdown is een op tekst gebaseerde weergave van de inhoud van de pagina, inclusief een tekstweergave van tabellen en afbeeldingen. Er zijn verschillende populaire systemen die dit doen, maar elk crawlingprogramma doet het een beetje anders. De open source systemen zijn beschikbaar voor ons om te evalueren. Die achter de schermen bij services zijn minder voor de hand liggend, maar we verwachten dat ze een van de populaire bibliotheken gebruiken.

Naast crawls van afzonderlijke pagina's zien we dat crawlers zijn ontworpen om de sitemap.xml bestand. Op basis daarvan kan het dan elke URL crawlen en het Markdown-bestand produceren dat daarbij past. Dat is meestal gewoon een .md bestand voor elk van de gecrawlde pagina's.

Laten we bijvoorbeeld een pagina "over ons" nemen. Dit kan een statische pagina zijn of een pagina gemaakt door een webapp of gemaakt server , zoals WordPress. Hij is echter gerenderd in de browser. Deze pagina is rijk aan grafische elementen, kleuren, lay-out, afbeeldingen, enz. die een persoon kan lezen en opnemen. Voor de meest voorkomende gebruikssituaties hebben LLM's deze rijke inhoud vertaald nodig naar Markdown, zodat het gemakkelijk kan worden opgenomen.

Voor ons systeem zal het een aantal van deze onderstaande URL's produceren als publieke URL's met waarschijnlijk de volgende bestandsstructuur:

/inmotion-ai-helper/openai/directory/about-us.md
/inmotion-ai-helper/claude/directory/about-us.md
/inmotion-ai-helper/gemini/directory/about-us.md
/inmotion-ai-helper/opencrawl/directory/about-us.md
/inmotion-ai-helper/crawl4ai/directory/about-us.md
/inmotion-ai-helper/docling/directory/about-us.md

Zoals je kunt zien, zijn er verschillende crawlers die populair zijn. We zullen er een paar behandelen in toekomstige technische evaluatievideo's en posts naarmate we verder gaan onze evaluaties. Het belangrijkste is echter dat we van plan zijn om de individuele crawlers te gebruiken om een .md die er specifiek voor is. Dan kan die crawler dat gewoon lezen .md bestand. Dat maakt het veel, veel sneller en zorgt ervoor dat niet elk bedrijf dat deze crawler gebruikt dezelfde pagina naar de .md bestand.

Aan onze kant letten we op grote updates van de crawlers en kunnen we updates triggeren voor de .md bestanden af en toe. We denken na over hoe vaak dit zou kunnen zijn of zelfs of we de crawler zelf een nieuwe update van de .md bestanden met behulp van een eenvoudige API-aanroep naar onze service.

We zullen ook samenwerken met de crawlerproviders zelf om te zien wat hen zou kunnen helpen.

LLMs.txt vs Robots.txt

Een beetje terug was het concept om begeleiding specifiek voor LLM's te laden in een nieuwe llms.txt bestand vergelijkbaar met het robots.txt bestand. Het debat is nu of een specifiek bestand de juiste keuze is. Crawlers zijn robots en de goed geschreven robots respecteren de robots.txt al. Het idee van een llms.txt Toen ik er voor het eerst over las, leek het me logisch, maar nu ik erover nadenk, heb ik het gevoel dat het ofwel al opgelost is door de robots.txt of opgelost zou moeten worden met wat kleine toevoegingen aan de robots.txt.

Hier zijn enkele voorbeelden van onze llms.txt op de site inmotionhosting.com. Ik houd me op dit moment buiten de discussie en laat het gebruikspatroon ons helpen. Op dit moment is de hoeveelheid toegang tot dat bestand niet echt meetbaar vergeleken met siteverkeer en robots.txt-verzoeken. Dus laten we het op dit moment "niets" noemen, maar we zullen het in de gaten blijven houden. Het idee is echter goed, dus hopelijk beginnen crawlers het een of het ander te respecteren.

Voorbeeld van het LLMs.txt bestand van InMotion Hosting

Opzettelijk of per ongeluk blokkeren van crawlers

Het is belangrijk om te weten of je website crawlablebaar is of niet. Als je crawlers wilt blokkeren, is dit niet de post daarvoor. Je kunt deze pagina bekijken voor mogelijke methoden, maar het is uiteindelijk niet echt mogelijk om de toegang tot openbare inhoud af te sluiten.

Voor deze post richten we ons op de vraag of je pagina's crawlable zijn, omdat je wilt dat je content in de belangrijkste LLM's staat tijdens Training en tijdens "Right Now" lookups. Voor mij is een snelle steekproef dit door gewoon naar mijn top vier AI chatbots te gaan en het te vragen om een pagina op onze site te openen. Als dat niet lukt, hebben we een probleem.

Cloudflare probeert ook een paar dingen waar ik me zorgen over maak. Ik zal hier meer over posten en manieren om de crawlability te testen.

Volgende stappen en open vragen

Deze ruimte ontwikkelt zich snel en we kiezen voor een interactieve aanpak. Hier zijn een paar vragen waar we nog mee bezig zijn:

Welke Markdown uitvoer moeten we ondersteunen?
Hoeveel van dit alles wordt al gedaan door de grote AI-bots? Waarschijnlijk cachen ze de Markdown al voor populaire sites. De tools doen op dit moment zeker site crawls op aanvraag, dus voor nu is het belangrijk.
Moeten we erover nadenken of deze content niet gewoon door ons gehost moet worden? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - we volgen dit en zullen het voorlopig opnemen. Later kunnen we het verdubbelen of depreciëren als de crawlers vasthouden aan de robots.txt
Als een klant nieuwe pagina's op zijn site publiceert, hoe vaak moeten we dat dan controleren en de .md en .xml bestanden?
Moeten we integreren met een Git-gebaseerde workflow om dit gemakkelijker te maken?
Hoe kunnen we WordPress gebruikers het beste ondersteunen? Moet dit integreren met onze Total Cache plugin?

We hebben nog veel werk te doen, maar we wilden onze richting delen en het bewustzijn vergroten: er komen nu al verkopen binnen van deze tools. Ze zijn nu al belangrijk en dat zal de komende jaren alleen maar toenemen.

Gereedschap

AI-tools

SEO

AI SEO - Robots.txt, Markdown en hoe AI-aanbieders je websites crawlen

Ontdek hoe de nieuwe AI SEO Helper van InMotion Hostingwebsites helpt zichtbaar te blijven in evoluerende AI-gedreven zoekpatronen. Leer hoe je je site kunt voorbereiden op LLM-crawlers en je SEO-strategie toekomstbestendig kunt maken.

Meer lezen

Ultieme gidsen

SEO

Gids voor het plannen en uitvoeren van een grootschalige websitemigratie

Plan je een migratie? Ontdek deze tips van experts voor een naadloze verhuizing van je site, terwijl je SEO en prestaties worden beschermd.

Meer lezen

Ultieme gidsen

SEO

Hoe je prioriteit kunt geven aan websiteprestaties voor SEO

Leer hoe je je website effectief kunt migreren voor een betere ranking. Ontdek hostingopties die je SEO-prestaties verbeteren.

Meer lezen

Extra handleidingen en hulpmiddelen

Blog

Blijf op de hoogte van het laatste nieuws over webhosting, tips en trends. Verken onze artikelen van experts om je online aanwezigheid te verbeteren en je website optimaal te laten presteren.

Verken onze blog

Ondersteuningscentrum

Krijg 24/7 hulp van ons toegewijde supportteam. Krijg toegang tot een schat aan bronnen, handleidingen en gidsen om eventuele hostingproblemen snel en efficiënt op te lossen.

Bezoek ons ondersteuningscentrum

Beheerde hosting

Ervaar hoogwaardige, veilige en betrouwbare managed hosting oplossingen. Laat onze experts de technische details afhandelen terwijl jij je concentreert op de groei van je bedrijf.

Meer informatie over Managed Hosting

Abonneer je en ontvang onze nieuwste website & hosting content direct in je inbox:

Je website lanceren is makkelijker dan je denkt

Hosting verkennen