Nota: este artículo documenta una visión de un producto y una norma que vemos emerger en el mercado. Pretende ayudar tanto a los clientes como a nosotros mismos a comprender cómo responder y aprovechar el poder de los nuevos sistemas de IA y la evolución de los patrones de búsqueda. ¡Es un trabajo en curso! Con esto, nuestro anuncio.Estamos lanzando un nuevo servicio para ayudar a nuestros clientes y a otros gestores profesionales de sitios web a navegar por los cambios provocados por los proveedores de IA que manejan cada vez más las consultas de búsqueda. Nosotros mismos utilizamos un proceso que queremos compartir para ayudar a garantizar que tu sitio esté preparado para la IA. Por ahora, lo llamamos InMotion AI SEO Helper.En este post, me referiré tanto a nuestro sitio web como a un conjunto de sitios web anonimizados. Como empresa de alojamiento, podemos ver patrones agregados en muchos sitios y esos patrones coinciden estrechamente con lo que ocurre en el sitio web inmotionhosting.com.Podrás utilizar una versión parcial del AI SEO Helper directamente desde nuestro sitio web en inmotionhosting.com/services/ai-seo-helper para hacerte una idea de cómo funciona. Si necesitas más de lo que proporciona, tendrás que registrarte, de forma gratuita, para utilizar el AI SEO Helper completo. Ten en cuenta que en tiempos de contención de recursos, nuestros clientes tienen prioridad en el sistema.La herramienta comprobará tu sitio web y (plan actual) hará lo siguiente en la Versión 2. La Versión 1 tendrá un subconjunto, por supuesto:Asegúrate de que el sitio tiene un robots.txt e identifica lo que faltaAsegúrate de que el sitio tiene un sitemap.xml e identifica lo que faltaComprueba la presencia de .md archivosComprueba si el sitio incluye un llms.txt archivo* (ver nota más abajo sobre la advertencia aquí)Comprueba que el sitio no está bloqueando involuntariamente los rastreadores LLMComo ya se ha dicho, la herramienta identifica lo que puede faltar. En este momento, no se sabe al 100% lo que hay que hacer, ya que se trata de una norma en evolución.Nuestra opinión sobre "lo que debería hacerse" para ayudar a los rastreadores de las herramientas de IA se basa en nuestra experiencia actual. Pondremos enlaces a recursos de apoyo a medida que se publiquen, así que perdona la falta de enlaces por ahora. Rastrear, entrenar, buscar - Más nuevas ventasEmpecemos por esto: ya se están produciendo ventas gracias a estos nuevos patrones de búsqueda. La gente acude a su chatbot de IA favorito, investiga con la intención de comprar y viene a nuestros sitios para completar la compra. Esto es un hecho que yo mismo he comprobado personalmente. Aún no se entiende exactamente el patrón y tampoco está claro qué parte de ese flujo de compra pasará de las búsquedas en Google a ChatGPT y similares.La información que figura a continuación esboza lo que estamos viendo. No estoy hablando de si deberían utilizarse sitios web, documentos, libros, etc. para formar a los LLM sin que éstos den atribución sobre lo que se formó. Tengo mis opiniones al respecto que publicaré en otra ocasión, ya que es una preocupación legítima. Para este debate, estoy hablando de sitios web que ya han aceptado específicamente que Google y sus homólogos rastreen e ingieran su información con el fin de enviar visitantes a su sitio web para obtener beneficios económicos.Muchas "empresas de IA" están rastreando sitios web. Varios actores importantes, como OpenAI y Anthropic, han proporcionado orientaciones sobre cómo respetan robots.txt y cuáles son sus User-Agent se presentará como a tu servidor web. Hemos observado esta actividad en los registros del servidor.Lo que no está claro es si habrá un patrón diferente entre los rastreos para la inclusión en conjuntos de datos de Formación y los rastreos debidos a necesidades de información "ahora mismo". Las necesidades de información "ahora mismo" se definen como:Rastreos paralelos de páginas - cuando un usuario de Anthropic o ChatGPT pide que dicho servicio, como Deep Research, realice búsquedas, el proceso incluye la visita paralela de muchas páginas para que el LLM las evalúe después.Se necesitan datos recientes: cuando un usuario busca información que probablemente no esté actualizada en el conjunto de datos de trabajo del LLM, éste consultará sitios web sobre la marcha para recopilar información reciente.Petición específica: cuando un usuario pide específicamente que cierta información, como una página web o un vídeo, sea ingerida por el LLM y resumida para su uso.Otros motivosLos rastreos "ahora mismo" se producen con un cierto nivel de urgencia que se manifiesta en rápidas peticiones de páginas paralelas a tu sitio web. Puede que deseemos que estos servicios midan más sus peticiones, pero siendo realistas, están intentando cumplir un objetivo de experiencia de usuario y acelerar el proceso de recogida de datos es una forma fácil de ayudar a conseguirlo.En cualquier caso, cuando se rastrea una página, el objetivo principal es ingerirla y convertirla a un formato preparado para la máquina. En su forma más simple, se convierte a Markdown. Markdown es una representación basada en texto del contenido de la página, incluida una representación en texto de tablas e imágenes. Hay varios sistemas populares que hacen esto, pero cada herramienta de rastreo lo hace de forma un poco diferente. Las de código abierto están disponibles para que las evaluemos. Las que funcionan entre bastidores en los servicios son menos obvias, pero esperamos que utilicen alguna de las bibliotecas populares.Además de los rastreos de una sola página, vemos que los rastreadores están diseñados para leer el sitemap.xml archivo. A partir de ahí, puede rastrear cada URL y producir su archivo Markdown para que coincida. Normalmente se trata de un .md para cada una de las páginas rastreadas.Por ejemplo, tomemos una página llamada "sobre nosotros". Podría ser una página estática o una página creada por una aplicación web o creada del lado del servidor, como WordPress. Sin embargo, se ha renderizado en el navegador. Esta página es rica en gráficos, colores, diseño, imágenes, etc. para que una persona pueda leerla y asimilarla. Para los casos de uso más comunes, los LLM necesitan que este contenido rico se traduzca a Markdown para que se asimile fácilmente.Para nuestro sistema, se producirán algunas de ellas a continuación como URL de cara al público con la siguiente estructura probable de archivos:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.mdComo puedes ver, hay varios rastreadores muy populares. Cubriremos algunos de ellos en futuros vídeos y posts de evaluación técnica a medida que avancemos en nuestras evaluaciones. Sin embargo, lo principal es que nuestro plan es utilizar los rastreadores individuales para producir un .md específico para él. Entonces ese rastreador puede simplemente leer ese .md archivo. Eso lo hará mucho, mucho más rápido y evitará que cada empresa que utilice este rastreador tenga que procesar la misma página al .md archivo.Por nuestra parte, estaremos atentos a las actualizaciones importantes de los rastreadores y podremos activar las actualizaciones del .md de vez en cuando. Estamos pensando con qué frecuencia podría ser o incluso si podemos dejar que el propio rastreador active una nueva actualización del .md mediante una simple llamada a la API de nuestro servicio.También trabajaremos con los propios proveedores de rastreadores para ver qué puede ayudarles. LLMs.txt vs Robots.txtUn poco más atrás, el concepto de tener orientación específica para LLMs se cargó en un nuevo llms.txt similar al archivo robots.txt archivo. El debate ahora es si un archivo específico es la elección correcta. Los rastreadores son robots y los que están bien escritos ya respetan el robots.txt. La idea de un llms.txt me pareció lógico la primera vez que lo leí, pero después de reflexionar sobre el tema, me parece que o bien ya está resuelto con el robots.txt o bien debería resolverse con algunas pequeñas adiciones al archivo robots.txt.Aquí tienes algunos ejemplos de nuestra llms.txt en el sitio inmotionhosting.com. De momento me mantendré al margen de la discusión y dejaré que el patrón de uso nos ayude. Actualmente, la cantidad de accesos a ese archivo no es realmente medible en comparación con el tráfico del sitio y las peticiones de robots.txt. Así que, por el momento, llamémoslo "nada", pero seguiremos observándolo. Sin embargo, la idea es correcta, así que esperemos que los rastreadores empiecen a respetar una cosa u otra. Bloqueo intencionado o accidental de rastreadoresEs importante saber si tu sitio web es rastreable o no. Si quieres bloquear los rastreadores, éste no es el post para ello. Puedes consultar esta página para conocer posibles métodos, pero al final no es posible cortar el acceso al contenido público.Para este post, nos centraremos en saber si tus páginas son rastreables porque quieres que tu contenido aparezca en los principales LLM durante el Entrenamiento y durante las búsquedas "Ahora mismo". Para mí, una comprobación rápida consiste en entrar en mis cuatro chatbots de IA principales y pedirles que accedan a una página de nuestro sitio. Si no puede, tenemos un problema.Cloudflare también está probando algunas cosas que me preocupan. Publicaré más sobre esto y sobre las formas de probar la rastreabilidad. Próximos pasos y preguntas abiertasEste espacio está evolucionando rápidamente, y estamos adoptando un enfoque interactivo. Éstas son algunas de las cuestiones que todavía estamos resolviendo:¿Qué salidas de Markdown debemos admitir?¿Cuánto de esto hacen ya los grandes robots de IA? Es probable que ya estén almacenando en caché el Markdown de los sitios populares. Definitivamente, las herramientas están haciendo actualmente rastreos de sitios bajo demanda, así que por ahora importa.¿Deberíamos pensar si este contenido debería ser alojado sólo por nosotros? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - estamos haciendo un seguimiento de esto y lo incluiremos por ahora. Más adelante podremos duplicarlo o dejarlo obsoleto si los rastreadores siguen con el robots.txtCuando un cliente publica nuevas páginas en su sitio, ¿con qué frecuencia debemos auditarlo y actualizar el .md y .xml ¿archivos?¿Deberíamos integrarnos con un flujo de trabajo basado en Git para facilitarlo?¿Cómo podemos ayudar mejor a los usuarios WordPress ? ¿Debería integrarse con nuestro plugin Caché Total?Tenemos mucho que trabajar, pero queríamos compartir nuestra dirección y concienciar: ya se están produciendo ventas gracias a estas herramientas. Ya son importantes y su importancia aumentará en los próximos años. Herramientas Herramientas de IASEO AI SEO - Robots.txt, Markdown y cómo rastrean tus sitios los proveedores de AI Explora cómo el nuevo AI SEO Helper de InMotion HostingHosting ayuda a los sitios web a mantenerse visibles en los patrones de búsqueda en evolución impulsados por la IA. Aprende a preparar tu sitio para los rastreadores LLM y prepara tu estrategia SEO para el futuro. Sigue leyendo Guías definitivas SEO Guía para programar y ejecutar una migración de sitio a gran escala ¿Planeas una migración? Descubre estos consejos de expertos para garantizar un traslado del sitio sin problemas, al tiempo que proteges tu SEO y tu rendimiento. Sigue leyendo Guías definitivas SEO Cómo priorizar el rendimiento del sitio web para el SEO Aprende a migrar tu sitio web de forma eficaz para mejorar tu posicionamiento. Descubre opciones de alojamiento que mejoran tu rendimiento SEO. Sigue leyendo Guías y herramientas adicionalesBlogMantente al día de las últimas noticias, consejos y tendencias sobre alojamiento web. Explora nuestros artículos de expertos para mejorar tu presencia en Internet y mantener tu sitio web al máximo rendimiento.Explora nuestro blogCentro de ApoyoObtén asistencia 24 horas al día, 7 días a la semana, de nuestro equipo de soporte especializado. Accede a una gran cantidad de recursos, tutoriales y guías para resolver cualquier problema de alojamiento de forma rápida y eficaz.Visita nuestro Centro de asistenciaHosting GestionadoExperimenta soluciones de alojamiento gestionado de alto rendimiento, seguras y fiables. Deja que nuestros expertos se ocupen de los detalles técnicos mientras tú te centras en hacer crecer tu negocio.Más información sobre el alojamiento gestionado Suscríbete para recibir nuestros últimos contenidos sobre sitios web y alojamiento directamente en tu bandeja de entrada: Lanzar tu sitio web es más fácil de lo que creesExplorar el alojamiento