Skip to content
InMotion Hosting Logo InMotion Hosting Accueil
Ouverture du programme de partenariat InMotion Agency. Places de lancement disponibles. Postule dès aujourd'hui
  • Ressources
    Apprends
    Comparer l'InMotion Hosting
    Centre de ressources
    Blog
    Centre d'assistance
    Rejoins-nous
    Carrières
    Programme d'affiliation
    Programme de l'Agence
    Parrainer des amis
  • Nous contacter
    +1 757 416 6575
    +44 2045 763722
    Discute avec le service commercial Discute avec le service commercial
    Obtenir de l'aide Obtenir de l'aide
    Nous contacter
    État du système
  • Centre d'assistance
  • Login
  • Chat en direct
  • Connexion AMP
  • Centre d'assistance
  • 0
Menu principal
    InMotion Hosting Logo InMotion Hosting Accueil
  • VPS Hosting
  • Serveurs dédiés
    Managed Dedicated Servers Protège ton entreprise avec une infrastructure sécurisée et évolutive
    Serveurs de métal nu Solutions Bare Metal personnalisées pour tes charges de travail uniques
    Serveurs à haute capacité Nos serveurs les plus puissants, super optimisés pour les charges de travail qui demandent beaucoup d'
    Serveurs dédiés écologiques Des serveurs durables à des prix compétitifs
  • WordPress
    Partagés Hosting pour WordPress Classique Hosting avec courriel et cPanel inclus
    UltraStack ONE pour WordPress Vitesse supérieure pour les sites critiques
    Hébergement VPS pour WordPress Serveurs optimisés avec contrôle flexible
    Voir toutes les solutions WordPress
  • Produits
    Hébergement pour les sites Web de toute taille
    Hébergementpartagé Commence fort avec un hébergement fiable, un vrai support et une plateforme qui évolue avec toi.
    Hébergement pour WordPress Hébergement optimisé pour WordPress avec courriel et cPanel inclus
    HébergementVPS Hébergement flexible et performant avec contrôle total
    Hébergement deserveurs dédiés Protège ton entreprise avec une infrastructure sécurisée et évolutive
    Hébergementpour revendeurs cPanel en marque blanche pour les revendeurs
    Options d'hébergement Améliore ton hébergement avec des outils pour la sécurité, les e-mails et plus encore
    Voir tous les sites Web Hosting
  • Partenaires NOUVEAU
    Programme de partenariat pour les agences
    Annuaire des agences partenaires
    Solutions d'hébergement pour les agences
  • Services
    Hébergement géré
    Gestion du serveur Soutien stratégique aux administrateurs système et solutions personnalisées
    Services de conception Web
    Conception de sites Web personnalisés Démarque-toi avec un design personnalisé pour ta marque
    QuickSite Sites Web de qualité conçus à partir de modèles de première qualité
    Reconstruction du site Web Modernise ton ancien site pour plus de performance et de croissance
    Voir tous les services de sites Web
    Services de maintenance
    Plans d'entretien Maintiens le bon fonctionnement de ton site WordPress
    Services de référencement Trouver, augmenter le trafic, mieux se classer
    Optimisation de la vitesse Améliorer le temps de chargement et les performances
    Réparation d'un site piraté Suppression des logiciels malveillants et restauration des sites Web par des experts
  • 0 Chariot
    • $ USD
    • € EUR
  • Démarrer une discussion en ligne
  • Obtenir de l'aide
  • +1 757 416 6575
  • +44 2045 763722
  • +1 757 416 6575
    +44 2045 763722
  • Centre d'assistance
  • 0 Chariot
  • Login
Outils

AI SEO - Robots.txt, Markdown, et comment les fournisseurs d'IA crawlent tes sites

Explore comment le nouveau AI SEO Helper d'InMotion Hostingaide les sites web à rester visibles dans les modèles de recherche évolutifs pilotés par l'IA. Apprends à préparer ton site pour les robots d'exploration LLM et à pérenniser ta stratégie de référencement.

Écrit par :
Todd Robinson -
Menu
  • Centre de ressources
  • Études de cas
  • Téléchargements
    • Livres électroniques
    • Infographie
  • Guides ultimes
  • Vidéos
  • Outils
  • Chat de vente

Remarque : cet article documente une vision d'un produit et d'une norme que nous voyons émerger sur le marché. Il a pour but d'aider les clients et nous-mêmes à comprendre comment répondre et tirer parti de la puissance des nouveaux systèmes d'IA et de l'évolution des modèles de recherche. C'est un travail en cours ! Sur ce, notre annonce.

Nous lançons un nouveau service pour aider nos clients et d'autres gestionnaires de sites Web professionnels à naviguer dans les changements apportés par les fournisseurs d'IA qui traitent de plus en plus les requêtes de recherche. Nous utilisons nous-mêmes un processus que nous voulons partager pour nous assurer que ton site est prêt pour l'IA. Pour l'instant, nous l'appelons l'InMotion AI SEO Helper.

Dans ce billet, je ferai référence à la fois à notre site Web et à un ensemble de sites Web anonymes. En tant que société d'hébergement, nous pouvons observer des tendances globales sur de nombreux sites et ces tendances correspondent étroitement à ce qui se passe sur le site inmotionhosting.com.

Tu pourras utiliser une version partielle de l'AI SEO Helper directement sur notre site Web à l'adresse inmotionhosting.com/services/ai-seo-helper pour te faire une idée de son fonctionnement. Si tu as besoin de plus que ce qui est fourni, tu devras t'inscrire, gratuitement, pour utiliser la version complète de AI SEO Helper. Tu dois savoir qu'en cas de conflit de ressources, nos clients ont la priorité dans le système.

L'outil vérifiera ton site web et fera (plan actuel) ce qui suit à la version 2. La version 1 aura un sous-ensemble, bien sûr :

  • Assure-toi que le site dispose d'un robots.txt et identifie ce qui manque
  • Assure-toi que le site dispose d'un sitemap.xml et identifie ce qui manque
  • Vérifie la présence de .md fichiers
  • Vérifie si le site comprend un llms.txt fichier* (voir la note ci-dessous concernant la mise en garde)
  • Vérifie que le site ne bloque pas involontairement les robots d'exploration LLM.

Comme nous l'avons mentionné plus haut, l'outil identifie ce qui peut manquer. À ce stade, on ne sait pas à 100 % ce qu'il faut faire, car il s'agit d'une norme en évolution.

Notre point de vue sur "ce qui devrait être fait" pour aider les robots d'indexation à utiliser les outils d'intelligence artificielle est basé sur notre expérience. Nous établirons des liens vers des ressources complémentaires au fur et à mesure de leur publication, alors pardonnez l'absence de liens pour l'instant.

 

Ramper, s'entraîner, chercher - plus de nouvelles ventes

Commençons par ceci : les ventes sont déjà en train d'arriver grâce à ces nouveaux modèles de recherche. Les gens vont sur leur chatbot IA préféré, font des recherches avec l'intention d'acheter, et viennent sur nos sites pour finaliser l'achat. C'est un fait que j'ai personnellement constaté. Le modèle n'est pas encore exactement compris et on ne sait pas non plus quelle part de ce flux d'achat passera des recherches Google à ChatGPT et similaires.

Les informations ci-dessous décrivent ce que nous constatons. Je ne parle pas de savoir si les sites Web, les documents, les livres, etc. devraient être utilisés pour former les MFR sans que les MFR ne donnent leur avis sur ce qui a servi de base à la formation. J'ai mon opinion à ce sujet que je publierai une autre fois, car c'est une préoccupation légitime. Pour cette discussion, je parle des sites Web qui ont déjà spécifiquement accepté que Google et ses pairs explorent et ingèrent leurs informations dans le but d'envoyer des visiteurs sur leur site à des fins lucratives.

Le crawling des sites se produit actuellement par de nombreuses "entreprises d'IA". Plusieurs acteurs majeurs, dont OpenAI et Anthropic, ont donné des indications sur la façon dont ils respectent les règles de l'art. robots.txt et ce que leur User-Agent se présentera comme à ton serveur web. Nous avons observé cette activité dans les journaux du serveur.

Ce qui n'est pas clair, c'est s'il y aura une différence entre les recherches pour l'inclusion dans les ensembles de données de formation et les recherches pour des besoins d'information "immédiats". Les besoins d'information "immédiats" sont définis comme suit :

  • Visites parallèles de pages - lorsqu'un utilisateur d'Anthropic ou de ChatGPT demande à ce service, comme Deep Research, d'effectuer des recherches, le processus comprend la visite parallèle de nombreuses pages que le LLM doit ensuite évaluer.
  • Données récentes nécessaires - lorsqu'un utilisateur recherche des informations qui ne sont probablement pas à jour dans l'ensemble des données de travail du LLM, le LLM consultera des sites Web à la volée pour collecter des informations récentes.
  • Demande spécifique - lorsqu'un utilisateur demande spécifiquement que certaines informations, comme une page Web ou une vidéo, soient ingérées par le LLM et résumées en vue de leur utilisation.
  • Autres raisons

Les crawls "Right now" se produisent avec un certain niveau d'urgence qui se manifeste par des demandes de pages parallèles rapides sur ton site Web. Nous pourrions souhaiter que ces services dosent davantage leurs demandes, mais en réalité, ils essaient d'atteindre un objectif d'expérience utilisateur et accélérer le processus de collecte des données est un moyen facile d'y parvenir.

Quoi qu'il en soit, lorsqu'une page est explorée, l'objectif principal est d'ingérer cette page et de la convertir dans un format prêt pour la machine. Dans sa forme la plus simple, elle est convertie en Markdown. Markdown est une représentation textuelle du contenu de la page, y compris une représentation textuelle des tableaux et des images. Il existe plusieurs systèmes populaires qui font cela, mais chaque outil d'exploration le fait un peu différemment. Nous pouvons évaluer les outils open source. Ceux qui se trouvent dans les coulisses des services sont moins évidents, mais nous nous attendons à ce qu'ils utilisent l'une des bibliothèques les plus populaires.

En plus des recherches sur une seule page, nous voyons que les robots d'indexation sont conçus pour lire le site Web de l'entreprise. sitemap.xml fichier. À partir de là, il peut ensuite explorer chaque URL et produire son fichier Markdown correspondant. Il s'agit généralement d'un .md pour chacune des pages explorées.

Prenons par exemple une page appelée "à propos de nous". Il peut s'agir d'une page statique ou d'une page créée par une application web ou créée côté serveur comme WordPress. Elle a cependant été rendue dans le navigateur. Cette page est riche en graphiques, couleurs, mise en page, images, etc. pour qu'une personne puisse la lire et l'absorber. Pour les cas d'utilisation les plus courants, les LLM ont besoin que ce contenu riche soit traduit en Markdown pour qu'il puisse être absorbé facilement.

Pour notre système, il produira certains de ces fichiers sous forme d'URL publics avec la structure de fichier probable suivante :

  • /inmotion-ai-helper/openai/directory/about-us.md
  • /inmotion-ai-helper/claude/directory/about-us.md
  • /inmotion-ai-helper/gemini/directory/about-us.md
  • /inmotion-ai-helper/opencrawl/directory/about-us.md
  • /inmotion-ai-helper/crawl4ai/directory/about-us.md
  • /inmotion-ai-helper/docling/directory/about-us.md

Comme tu peux le constater, il existe plusieurs crawlers populaires. Nous en aborderons quelques-uns dans de futures vidéos d'évaluation technique et dans des articles au fur et à mesure que nous progresserons dans nos évaluations. L'essentiel, cependant, c'est que notre plan consiste à utiliser les différents crawlers pour produire un .md qui lui est propre. Le robot d'indexation peut alors simplement lire ce .md fichier. Cela le rendra beaucoup plus rapide et évitera à chaque entreprise utilisant ce crawler d'avoir à traiter la même page à l'adresse .md fichier.

De notre côté, nous surveillerons les principales mises à jour des robots d'indexation et nous pourrons déclencher des mises à jour de l'. .md de temps en temps. Nous réfléchissons à la fréquence à laquelle cela pourrait se produire ou même si nous pouvons laisser le crawler lui-même déclencher une nouvelle mise à jour de la base de données. .md à l'aide d'un simple appel d'API à notre service.

Il est à noter que nous travaillerons également avec les fournisseurs de crawlers eux-mêmes pour voir ce qui pourrait les aider.

 

LLMs.txt vs Robots.txt

Il y a quelques temps, l'idée de charger les conseils spécifiques aux LLM dans un nouveau logiciel de gestion des droits d'auteur a été évoquée. llms.txt similaire au fichier robots.txt fichier. Le débat est maintenant de savoir si un fichier spécifique est le bon choix. Les crawlers sont des robots et ceux qui sont bien écrits respectent déjà le fichier robots.txt. L'idée d'un llms.txt m'a semblé logique la première fois que je l'ai lu, mais après avoir réfléchi à la question, j'ai l'impression qu'elle est déjà résolue par le fichier robots.txt ou qu'elle devrait l'être avec quelques ajouts mineurs au fichier robots.txt. robots.txt.

Voici quelques exemples de notre llms.txt sur le site inmotionhosting.com. Je vais rester en dehors de l'argument pour le moment et laisser le modèle d'utilisation nous aider. Actuellement, la quantité d'accès à ce fichier n'est pas vraiment mesurable par rapport au trafic du site et aux requêtes robots.txt. Donc, pour l'instant, disons que ce n'est pas quelque chose, mais nous continuerons à le surveiller. L'idée est bonne, alors espérons que les robots d'indexation commenceront à respecter l'un ou l'autre.

Exemple de fichier LLMs.txt de InMotion Hosting

 

Blocage intentionnel ou accidentel des chenilles

Il est important de savoir si ton site web est crawlable ou non. Si tu veux bloquer les robots d'indexation, ce n'est pas le billet qu'il te faut. Tu peux consulter cette page pour connaître les méthodes possibles, mais il n'est pas vraiment possible au final de couper l'accès au contenu public.

Pour ce billet, nous nous concentrons sur le fait de savoir si tes pages sont crawlables parce que tu veux que ton contenu figure dans les principaux LLM pendant la formation et pendant les recherches "Tout de suite". Pour moi, une vérification rapide consiste à aller dans mes quatre principaux chatbots d'IA et à leur demander d'accéder à une page de notre site. S'il n'y arrive pas, c'est qu'il y a un problème.

Cloudflare essaie aussi quelques trucs qui me préoccupent. J'en dirai plus à ce sujet et sur les moyens de tester la crawlabilité.

 

Prochaines étapes et questions ouvertes

Cet espace évolue rapidement et nous adoptons une approche interactive. Voici quelques questions sur lesquelles nous travaillons encore :

  • Quelles sorties Markdown devons-nous prendre en charge ?
  • Dans quelle mesure cette tâche est-elle déjà effectuée par les grands robots d'intelligence artificielle ? Il est probable qu'ils mettent déjà en cache le Markdown pour les sites populaires. Il est certain que les outils font actuellement des crawls de sites à la demande, donc pour l'instant c'est important.
  • Devrions-nous réfléchir à la question de savoir si ce contenu devrait simplement être hébergé par nous ? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
  • llms.txt - Nous suivons cette question et nous l'inclurons pour l'instant. Plus tard, nous pourrons soit le doubler, soit le déprécier si les robots d'indexation s'en tiennent à la norme robots.txt
  • Lorsqu'un client publie de nouvelles pages sur son site, à quelle fréquence devons-nous procéder à un audit et mettre à jour la page d'accueil ? .md et .xml des fichiers ?
  • Devrions-nous intégrer un flux de travail basé sur Git pour faciliter les choses ?
  • Comment pouvons-nous aider au mieux les utilisateurs de WordPress ? Doit-il s'intégrer à notre plugin Total Cache?

Nous avons beaucoup de choses à régler, mais nous voulions partager notre orientation et sensibiliser les gens : ces outils génèrent déjà des ventes. Ils sont déjà importants et il y aura une importance accrue pour les années à venir.

Outils

Outils d'IA

SEO

AI SEO - Robots.txt, Markdown, et comment les fournisseurs d'IA crawlent tes sites

Explore comment le nouveau AI SEO Helper d'InMotion Hostingaide les sites web à rester visibles dans les modèles de recherche évolutifs pilotés par l'IA. Apprends à préparer ton site pour les robots d'exploration LLM et à pérenniser ta stratégie de référencement.

En savoir plus

Guides ultimes

SEO

Guide pour planifier et exécuter une migration de site à grande échelle

Tu prévois une migration ? Découvre ces conseils d'experts pour assurer un transfert de site en douceur tout en protégeant ton référencement et tes performances.

En savoir plus

Guides ultimes

SEO

Comment donner la priorité à la performance du site Web pour le référencement

Apprends à migrer efficacement ton site web pour un meilleur classement. Découvre les options d'hébergement qui améliorent tes performances en matière de référencement.

En savoir plus

Guides et outils supplémentaires

Blog

Restez informé des dernières actualités, astuces et tendances en matière d'hébergement Web. Découvrez nos articles d'experts pour améliorer votre présence en ligne et optimiser les performances de votre site Web.

Découvrez notre blog

Centre d'assistance

Bénéficiez d'une assistance 24h/24 et 7j/7 de la part de notre équipe d'assistance dédiée. Accédez à une multitude de ressources, de tutoriels et de guides pour résoudre rapidement et efficacement tout problème d'hébergement.

Visite notre centre d'assistance

Hébergement géré

Bénéficiez de solutions d'hébergement gérées performantes, sécurisées et fiables. Laissez nos experts gérer les détails techniques pendant que vous vous concentrez sur la croissance de votre entreprise.

En savoir plus sur l'hébergement géré

Abonnez-vous pour recevoir notre dernier contenu de site Web et d'hébergement directement dans votre boîte de réception :

Lancer ton site Web est plus facile que tu ne le penses

Explorer l'hébergement

InMotion Hosting Logo

InMotionHosting.com fournit de l'hébergement web, des solutions basées sur le cloud et des services gérés aux entreprises et aux entrepreneurs du monde entier.

Suis-nous

  • English
  • Español
  • Nederlands
  • Deutsch
  • Italiano
  • 中文 (简体)
  • 中文 (繁體)
  • Türkçe
  • Ελληνικά
  • हिंदी
  • Українська
  • Português (Brasil)
  • Português
  • Polski
  • Русский
  • $ USD
  • € EUR
Hébergement web
  • Hébergement mutualisé
  • Hébergement pour WordPress
  • Hébergement géré pour WordPress
  • UltraStack ONE pour WordPress
  • Hébergement VPS
  • VPS en nuage
  • Serveurs dédiés
  • Serveur bare metal
  • Solutions d'hébergement pour entreprises
  • OpenMetal Cloud IaaS
  • Hébergement revendeur
  • Revendeur VPS
  • Hébergement de serveurs Minecraft
  • Hébergement ecommerce
  • RamNode Cloud
  • InMotion Cloud
  • Tarification
Outils d'hébergement
  • WordPress
  • Hébergement WooCommerce
  • Hébergement Drupal
  • Hébergement Joomla
  • Hébergement cPanel
  • Hébergement PHP
  • Hébergement Magento
  • PrestaShop Hébergement
  • Hébergement Laravel
  • Hébergement Ubuntu
  • Hébergement Linux
  • Tableau de bord WebPro
  • WordPress Constructeur de site Web
  • Noms de domaine
  • Courriel professionnel
Soutien
  • Chat en direct
  • +1 757 416 6575
  • +44 2045 763722
  • Centre d'assistance
  • Ressources
  • Soutien à la communauté
  • WordPress Tutoriels
  • Guide RamNode
  • Solutions InMotion
  • Hébergement géré
  • Migrations de sites Web
  • Emplacement des centres de données
  • Centre de données de Los Angeles
  • Centre de données Ashburn
  • Centre de données d'Amsterdam
A propos de nous
  • Nous contacter
  • A propos de nous
  • Blog
  • Nouvelles
  • Carrières
  • Programme d'affiliation
  • Parrainer un ami
  • Hébergement Web pour étudiants
  • Plan du site
  • Paramètres des cookies
  • Paramètres d'accessibilité (ADA)

Copyright© 2002-2026 InMotion Hosting, Inc. Tous droits réservés. InMotionHosting® est une marque déposée InMotion Hosting, Inc.

Conditions d'utilisation Politique de confidentialité POLITIQUE DE CONFIDENTIALITÉ Déclaration d'accessibilité Questions juridiques
Ne pas vendre mes informations personnelles Limiter l'utilisation de mes informations personnelles sensibles

En continuant à visiter n'importe quelle page web de ce site, chaque visiteur accepte l'utilisation de cookies et de technologies de suivi, et accepte en outre de se conformer à nos conditions universelles de service, à notre politique de confidentialité, à notre politique en matière de cookies, et à toutes les autres conditions et politiques affichées sur ce site web.