AI SEO Crawlers - Robots.txt, Markdown, et AI Providers

Remarque : cet article documente une vision d'un produit et d'une norme que nous voyons émerger sur le marché. Il a pour but d'aider les clients et nous-mêmes à comprendre comment répondre et tirer parti de la puissance des nouveaux systèmes d'IA et de l'évolution des modèles de recherche. C'est un travail en cours ! Sur ce, notre annonce.

Nous lançons un nouveau service pour aider nos clients et d'autres gestionnaires de sites Web professionnels à naviguer dans les changements apportés par les fournisseurs d'IA qui traitent de plus en plus les requêtes de recherche. Nous utilisons nous-mêmes un processus que nous voulons partager pour nous assurer que ton site est prêt pour l'IA. Pour l'instant, nous l'appelons l'InMotion AI SEO Helper.

Dans ce billet, je ferai référence à la fois à notre site Web et à un ensemble de sites Web anonymes. En tant que société d'hébergement, nous pouvons observer des tendances globales sur de nombreux sites et ces tendances correspondent étroitement à ce qui se passe sur le site inmotionhosting.com.

Tu pourras utiliser une version partielle de l'AI SEO Helper directement sur notre site Web à l'adresse inmotionhosting.com/services/ai-seo-helper pour te faire une idée de son fonctionnement. Si tu as besoin de plus que ce qui est fourni, tu devras t'inscrire, gratuitement, pour utiliser la version complète de AI SEO Helper. Tu dois savoir qu'en cas de conflit de ressources, nos clients ont la priorité dans le système.

L'outil vérifiera ton site web et fera (plan actuel) ce qui suit à la version 2. La version 1 aura un sous-ensemble, bien sûr :

Assure-toi que le site dispose d'un robots.txt et identifie ce qui manque
Assure-toi que le site dispose d'un sitemap.xml et identifie ce qui manque
Vérifie la présence de .md fichiers
Vérifie si le site comprend un llms.txt fichier* (voir la note ci-dessous concernant la mise en garde)
Vérifie que le site ne bloque pas involontairement les robots d'exploration LLM.

Comme nous l'avons mentionné plus haut, l'outil identifie ce qui peut manquer. À ce stade, on ne sait pas à 100 % ce qu'il faut faire, car il s'agit d'une norme en évolution.

Notre point de vue sur "ce qui devrait être fait" pour aider les robots d'indexation à utiliser les outils d'intelligence artificielle est basé sur notre expérience. Nous établirons des liens vers des ressources complémentaires au fur et à mesure de leur publication, alors pardonnez l'absence de liens pour l'instant.

Ramper, s'entraîner, chercher - plus de nouvelles ventes

Commençons par ceci : les ventes sont déjà en train d'arriver grâce à ces nouveaux modèles de recherche. Les gens vont sur leur chatbot IA préféré, font des recherches avec l'intention d'acheter, et viennent sur nos sites pour finaliser l'achat. C'est un fait que j'ai personnellement constaté. Le modèle n'est pas encore exactement compris et on ne sait pas non plus quelle part de ce flux d'achat passera des recherches Google à ChatGPT et similaires.

Les informations ci-dessous décrivent ce que nous constatons. Je ne parle pas de savoir si les sites Web, les documents, les livres, etc. devraient être utilisés pour former les MFR sans que les MFR ne donnent leur avis sur ce qui a servi de base à la formation. J'ai mon opinion à ce sujet que je publierai une autre fois, car c'est une préoccupation légitime. Pour cette discussion, je parle des sites Web qui ont déjà spécifiquement accepté que Google et ses pairs explorent et ingèrent leurs informations dans le but d'envoyer des visiteurs sur leur site à des fins lucratives.

Le crawling des sites se produit actuellement par de nombreuses "entreprises d'IA". Plusieurs acteurs majeurs, dont OpenAI et Anthropic, ont donné des indications sur la façon dont ils respectent les règles de l'art. robots.txt et ce que leur User-Agent se présentera comme à ton serveur web. Nous avons observé cette activité dans les journaux du serveur.

Ce qui n'est pas clair, c'est s'il y aura une différence entre les recherches pour l'inclusion dans les ensembles de données de formation et les recherches pour des besoins d'information "immédiats". Les besoins d'information "immédiats" sont définis comme suit :

Visites parallèles de pages - lorsqu'un utilisateur d'Anthropic ou de ChatGPT demande à ce service, comme Deep Research, d'effectuer des recherches, le processus comprend la visite parallèle de nombreuses pages que le LLM doit ensuite évaluer.
Données récentes nécessaires - lorsqu'un utilisateur recherche des informations qui ne sont probablement pas à jour dans l'ensemble des données de travail du LLM, le LLM consultera des sites Web à la volée pour collecter des informations récentes.
Demande spécifique - lorsqu'un utilisateur demande spécifiquement que certaines informations, comme une page Web ou une vidéo, soient ingérées par le LLM et résumées en vue de leur utilisation.
Autres raisons

Les crawls "Right now" se produisent avec un certain niveau d'urgence qui se manifeste par des demandes de pages parallèles rapides sur ton site Web. Nous pourrions souhaiter que ces services dosent davantage leurs demandes, mais en réalité, ils essaient d'atteindre un objectif d'expérience utilisateur et accélérer le processus de collecte des données est un moyen facile d'y parvenir.

Quoi qu'il en soit, lorsqu'une page est explorée, l'objectif principal est d'ingérer cette page et de la convertir dans un format prêt pour la machine. Dans sa forme la plus simple, elle est convertie en Markdown. Markdown est une représentation textuelle du contenu de la page, y compris une représentation textuelle des tableaux et des images. Il existe plusieurs systèmes populaires qui font cela, mais chaque outil d'exploration le fait un peu différemment. Nous pouvons évaluer les outils open source. Ceux qui se trouvent dans les coulisses des services sont moins évidents, mais nous nous attendons à ce qu'ils utilisent l'une des bibliothèques les plus populaires.

En plus des recherches sur une seule page, nous voyons que les robots d'indexation sont conçus pour lire le site Web de l'entreprise. sitemap.xml fichier. À partir de là, il peut ensuite explorer chaque URL et produire son fichier Markdown correspondant. Il s'agit généralement d'un .md pour chacune des pages explorées.

Prenons par exemple une page appelée "à propos de nous". Il peut s'agir d'une page statique ou d'une page créée par une application web ou créée côté serveur comme WordPress. Elle a cependant été rendue dans le navigateur. Cette page est riche en graphiques, couleurs, mise en page, images, etc. pour qu'une personne puisse la lire et l'absorber. Pour les cas d'utilisation les plus courants, les LLM ont besoin que ce contenu riche soit traduit en Markdown pour qu'il puisse être absorbé facilement.

Pour notre système, il produira certains de ces fichiers sous forme d'URL publics avec la structure de fichier probable suivante :

/inmotion-ai-helper/openai/directory/about-us.md
/inmotion-ai-helper/claude/directory/about-us.md
/inmotion-ai-helper/gemini/directory/about-us.md
/inmotion-ai-helper/opencrawl/directory/about-us.md
/inmotion-ai-helper/crawl4ai/directory/about-us.md
/inmotion-ai-helper/docling/directory/about-us.md

Comme tu peux le constater, il existe plusieurs crawlers populaires. Nous en aborderons quelques-uns dans de futures vidéos d'évaluation technique et dans des articles au fur et à mesure que nous progresserons dans nos évaluations. L'essentiel, cependant, c'est que notre plan consiste à utiliser les différents crawlers pour produire un .md qui lui est propre. Le robot d'indexation peut alors simplement lire ce .md fichier. Cela le rendra beaucoup plus rapide et évitera à chaque entreprise utilisant ce crawler d'avoir à traiter la même page à l'adresse .md fichier.

De notre côté, nous surveillerons les principales mises à jour des robots d'indexation et nous pourrons déclencher des mises à jour de l'. .md de temps en temps. Nous réfléchissons à la fréquence à laquelle cela pourrait se produire ou même si nous pouvons laisser le crawler lui-même déclencher une nouvelle mise à jour de la base de données. .md à l'aide d'un simple appel d'API à notre service.

Il est à noter que nous travaillerons également avec les fournisseurs de crawlers eux-mêmes pour voir ce qui pourrait les aider.

LLMs.txt vs Robots.txt

Il y a quelques temps, l'idée de charger les conseils spécifiques aux LLM dans un nouveau logiciel de gestion des droits d'auteur a été évoquée. llms.txt similaire au fichier robots.txt fichier. Le débat est maintenant de savoir si un fichier spécifique est le bon choix. Les crawlers sont des robots et ceux qui sont bien écrits respectent déjà le fichier robots.txt. L'idée d'un llms.txt m'a semblé logique la première fois que je l'ai lu, mais après avoir réfléchi à la question, j'ai l'impression qu'elle est déjà résolue par le fichier robots.txt ou qu'elle devrait l'être avec quelques ajouts mineurs au fichier robots.txt. robots.txt.

Voici quelques exemples de notre llms.txt sur le site inmotionhosting.com. Je vais rester en dehors de l'argument pour le moment et laisser le modèle d'utilisation nous aider. Actuellement, la quantité d'accès à ce fichier n'est pas vraiment mesurable par rapport au trafic du site et aux requêtes robots.txt. Donc, pour l'instant, disons que ce n'est pas quelque chose, mais nous continuerons à le surveiller. L'idée est bonne, alors espérons que les robots d'indexation commenceront à respecter l'un ou l'autre.

Exemple de fichier LLMs.txt de InMotion Hosting

Blocage intentionnel ou accidentel des chenilles

Il est important de savoir si ton site web est crawlable ou non. Si tu veux bloquer les robots d'indexation, ce n'est pas le billet qu'il te faut. Tu peux consulter cette page pour connaître les méthodes possibles, mais il n'est pas vraiment possible au final de couper l'accès au contenu public.

Pour ce billet, nous nous concentrons sur le fait de savoir si tes pages sont crawlables parce que tu veux que ton contenu figure dans les principaux LLM pendant la formation et pendant les recherches "Tout de suite". Pour moi, une vérification rapide consiste à aller dans mes quatre principaux chatbots d'IA et à leur demander d'accéder à une page de notre site. S'il n'y arrive pas, c'est qu'il y a un problème.

Cloudflare essaie aussi quelques trucs qui me préoccupent. J'en dirai plus à ce sujet et sur les moyens de tester la crawlabilité.

Prochaines étapes et questions ouvertes

Cet espace évolue rapidement et nous adoptons une approche interactive. Voici quelques questions sur lesquelles nous travaillons encore :

Quelles sorties Markdown devons-nous prendre en charge ?
Dans quelle mesure cette tâche est-elle déjà effectuée par les grands robots d'intelligence artificielle ? Il est probable qu'ils mettent déjà en cache le Markdown pour les sites populaires. Il est certain que les outils font actuellement des crawls de sites à la demande, donc pour l'instant c'est important.
Devrions-nous réfléchir à la question de savoir si ce contenu devrait simplement être hébergé par nous ? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - Nous suivons cette question et nous l'inclurons pour l'instant. Plus tard, nous pourrons soit le doubler, soit le déprécier si les robots d'indexation s'en tiennent à la norme robots.txt
Lorsqu'un client publie de nouvelles pages sur son site, à quelle fréquence devons-nous procéder à un audit et mettre à jour la page d'accueil ? .md et .xml des fichiers ?
Devrions-nous intégrer un flux de travail basé sur Git pour faciliter les choses ?
Comment pouvons-nous aider au mieux les utilisateurs de WordPress ? Doit-il s'intégrer à notre plugin Total Cache?

Nous avons beaucoup de choses à régler, mais nous voulions partager notre orientation et sensibiliser les gens : ces outils génèrent déjà des ventes. Ils sont déjà importants et il y aura une importance accrue pour les années à venir.

Outils

Outils d'IA

SEO

AI SEO - Robots.txt, Markdown, et comment les fournisseurs d'IA crawlent tes sites

Explore comment le nouveau AI SEO Helper d'InMotion Hostingaide les sites web à rester visibles dans les modèles de recherche évolutifs pilotés par l'IA. Apprends à préparer ton site pour les robots d'exploration LLM et à pérenniser ta stratégie de référencement.

Guides ultimes

SEO

Guide pour planifier et exécuter une migration de site à grande échelle

Tu prévois une migration ? Découvre ces conseils d'experts pour assurer un transfert de site en douceur tout en protégeant ton référencement et tes performances.

Guides ultimes

SEO

Comment donner la priorité à la performance du site Web pour le référencement

Apprends à migrer efficacement ton site web pour un meilleur classement. Découvre les options d'hébergement qui améliorent tes performances en matière de référencement.

Guides et outils supplémentaires

Blog

Restez informé des dernières actualités, astuces et tendances en matière d'hébergement Web. Découvrez nos articles d'experts pour améliorer votre présence en ligne et optimiser les performances de votre site Web.

Découvrez notre blog

Centre d'assistance

Bénéficiez d'une assistance 24h/24 et 7j/7 de la part de notre équipe d'assistance dédiée. Accédez à une multitude de ressources, de tutoriels et de guides pour résoudre rapidement et efficacement tout problème d'hébergement.

Visite notre centre d'assistance

Hébergement géré

Bénéficiez de solutions d'hébergement gérées performantes, sécurisées et fiables. Laissez nos experts gérer les détails techniques pendant que vous vous concentrez sur la croissance de votre entreprise.

En savoir plus sur l'hébergement géré

Abonnez-vous pour recevoir notre dernier contenu de site Web et d'hébergement directement dans votre boîte de réception :

Lancer ton site Web est plus facile que tu ne le penses

Explorer l'hébergement