AI SEO Crawlers - Robots.txt, Markdown e fornecedores de IA

Nota: este artigo documenta uma visão de um produto e de um padrão que vemos surgir no mercado. Destina-se a ajudar os clientes e a nós próprios a compreender como responder e aproveitar o poder dos novos sistemas de IA e a evolução dos padrões de pesquisa. É um trabalho em curso! Com isto, o nosso anúncio.

Estamos a lançar um novo serviço para ajudar os nossos clientes e outros gestores profissionais de sítios Web a navegar pelas mudanças provocadas pelos fornecedores de IA que cada vez mais lidam com as consultas de pesquisa. Nós próprios utilizamos um processo que queremos partilhar para ajudar a garantir que o teu site está pronto para a IA. Por enquanto, estamos chamando-o de InMotion AI SEO Helper.

Neste post, vou me referir tanto ao nosso site quanto a um conjunto de sites anônimos. Como uma empresa de hospedagem, podemos ver padrões agregados em muitos sites e esses padrões se aproximam do que está acontecendo no site inmotionhosting.com.

Poderás usar uma versão parcial do AI SEO Helper diretamente do nosso site em inmotionhosting.com/services/ai-seo-helper para teres uma ideia de como funciona. Se precisares de mais do que isso, terás de te inscrever, gratuitamente, para usar o AI SEO Helper completo. Tem em atenção que, em alturas de contenção de recursos, os nossos clientes têm prioridade no sistema.

A ferramenta verificará o teu sítio Web e fará o seguinte (plano atual) na versão 2. A versão 1 terá um subconjunto, como é óbvio:

Assegura-te de que o sítio tem um robots.txt e identifica o que está em falta
Assegura-te de que o sítio tem um sitemap.xml e identifica o que está a faltar
Verifica a presença de .md ficheiros
Verifica se o sítio inclui um llms.txt ficheiro* (vê a nota abaixo sobre a advertência aqui)
Verifica se o sítio não está a bloquear involuntariamente os rastreadores do LLM

Como já foi referido, a ferramenta identifica o que pode estar em falta. Nesta altura, não se sabe a 100% o que é necessário fazer, uma vez que se trata de uma norma em evolução.

A nossa opinião sobre "o que deve ser feito" para ajudar os crawlers das ferramentas de IA baseia-se na nossa experiência atual. Iremos ligar aos recursos de apoio à medida que forem sendo publicados, por isso perdoa a falta de links por agora.

Rastejar, treinar, pesquisar - mais novas vendas

Comecemos por isto: as vendas já estão a chegar com estes novos padrões de pesquisa. As pessoas vão ao seu chatbot de IA favorito, fazem pesquisas com a intenção de comprar e vêm aos nossos sites para concluir a compra. Este é um facto que eu próprio constatei. O padrão ainda não é exatamente compreendido e também não é claro quanto desse fluxo de compras irá mudar das pesquisas no Google para o ChatGPT e similares.

A informação abaixo descreve o que estamos a ver. Não estou a falar de sites, artigos, livros, etc., que devam ser usados para formar os LLMs sem que estes atribuam a autoria da formação. Tenho a minha opinião sobre isso, que publicarei noutra altura, pois é uma preocupação legítima. Para esta discussão, estou a falar de sítios Web que já aceitaram especificamente que o Google e os seus pares rastejem e ingiram a sua informação com o objetivo de enviar visitantes para o seu sítio, para obterem ganhos monetários.

O rastreio de sítios está a ser feito por muitas "empresas de IA". Vários intervenientes importantes, incluindo a OpenAI e a Anthropic, forneceram orientações sobre a forma como respeitam robots.txt e o que os teus User-Agent será apresentado ao teu servidor web. Observámos esta atividade nos registos do servidor.

O que não é claro é se haverá um padrão diferente entre as pesquisas para inclusão nos conjuntos de dados de formação e as pesquisas devido a necessidades de informação "imediatas". As necessidades de informação "imediatas" são definidas como:

Rastreios paralelos de páginas - quando um utilizador do Anthropic ou do ChatGPT pede a esse serviço, como o Deep Research, para efetuar pesquisas, o processo inclui a visita paralela de muitas páginas para o LLM avaliar.
Necessidade de dados recentes - quando um utilizador procura informação que não é suscetível de estar actualizada no conjunto de dados de trabalho do LLM, o LLM consultará os sítios Web em tempo real para recolher informações recentes.
Pedido específico - quando um utilizador pede especificamente que determinada informação, como uma página Web ou um vídeo, seja ingerida pelo LLM e resumida para utilização.
Outros motivos

Os rastreios "neste momento" estão a acontecer com um certo nível de urgência que se manifesta em rápidos pedidos de páginas paralelas ao teu Web site. Podemos desejar que estes serviços medissem mais os seus pedidos, mas, na realidade, estão a tentar cumprir um objetivo de experiência do utilizador e acelerar o processo de recolha de dados é uma forma fácil de o fazer.

De qualquer forma, quando uma página é rastreada, o principal objetivo é ingerir essa página e convertê-la para um formato pronto a utilizar. Na sua forma mais simples, converte-a para Markdown. Markdown é uma representação em texto do conteúdo da página, incluindo uma representação em texto de tabelas e imagens. Há vários sistemas populares que fazem isto, mas cada ferramenta de rastreio fá-lo de forma um pouco diferente. As de código aberto estão disponíveis para avaliação. As que estão nos bastidores dos serviços são menos óbvias, mas esperamos que utilizem uma das bibliotecas populares.

Para além dos rastreios de uma única página, vemos que os rastreadores são concebidos para ler a sitemap.xml ficheiro. A partir daí, pode então rastrear cada URL e produzir o seu ficheiro Markdown correspondente. Normalmente, é apenas um ficheiro .md para cada uma das páginas rastreadas.

Por exemplo, pega numa página chamada "about-us". Esta pode ser uma página estática ou uma página criada por uma aplicação Web ou criada do lado do servidor, como o WordPress. No entanto, foi renderizada no browser. Esta página é rica em gráficos, cores, layout, imagens, etc. para uma pessoa ler e absorver. Para os casos de utilização mais comuns, os LLM precisam que este conteúdo rico seja traduzido para Markdown para que seja facilmente absorvido.

Para o nosso sistema, produzirá alguns destes abaixo como URLs públicos com a seguinte estrutura de ficheiros provável:

/inmotion-ai-helper/openai/diretory/about-us.md
/inmotion-ai-helper/claude/diretory/about-us.md
/inmotion-ai-helper/gemini/diretory/about-us.md
/inmotion-ai-helper/opencrawl/diretory/about-us.md
/inmotion-ai-helper/crawl4ai/diretory/about-us.md
/inmotion-ai-helper/docling/diretory/about-us.md

Como podes ver, existem vários crawlers populares. Abordaremos alguns deles em futuros vídeos de avaliação técnica e publicações à medida que avançarmos nas nossas avaliações. O ponto principal, porém, é que o nosso plano é usar os rastreadores individuais para produzir um .md específico para ele. Depois, esse crawler pode simplesmente ler isso .md ficheiro. Isso torná-lo-á muito, muito mais rápido e impedirá que cada empresa que utilize este crawler tenha de processar a mesma página para o .md arquiva.

Do nosso lado, vamos estar atentos às principais actualizações dos crawlers e podemos desencadear actualizações para o .md ocasionalmente. Estamos a pensar na frequência com que isto pode acontecer ou mesmo se podemos deixar que o próprio crawler desencadeie uma nova atualização dos ficheiros .md utilizando uma simples chamada à API do nosso serviço.

De notar que também vamos trabalhar com os próprios fornecedores de crawlers para ver o que os pode ajudar.

LLMs.txt vs Robots.txt

Há algum tempo atrás, o conceito de ter uma orientação específica para os LLMs a ser carregada num novo llms.txt semelhante ao ficheiro robots.txt ficheiro. O debate agora é se um ficheiro específico é a escolha certa. Os crawlers são robots e os bem escritos já respeitam o robots.txt. A ideia de um ficheiro llms.txt fez sentido para mim da primeira vez que li sobre isso, mas depois de pensar sobre o problema, parece que ele já está resolvido pelo robots.txt ou deve ser resolvido com algumas pequenas adições ao robots.txt.

Aqui tens alguns exemplos do nosso llms.txt no site inmotionhosting.com. De momento, não vou entrar na discussão e vou deixar que o padrão de utilização nos ajude. Atualmente, a quantidade de acesso a esse ficheiro não é realmente mensurável em comparação com o tráfego do site e os pedidos robots.txt. Por isso, neste momento, chamemos-lhe "não é uma coisa", mas vamos continuar a observá-lo. No entanto, a ideia é correta, pelo que esperamos que os crawlers comecem a respeitar um ou outro.

Exemplo de ficheiro LLMs.txt de InMotion Hosting

Bloqueio intencional ou acidental de rastreadores

É importante saber se o teu site é rastreável ou não. Se quiseres bloquear os crawlers, este não é o post para isso. Podes consultar esta página para veres os métodos possíveis, mas, no final, não é possível cortar o acesso a conteúdos públicos.

Para este post, vamos concentrar-nos em saber se as tuas páginas são rastreáveis, porque queres que o teu conteúdo apareça nos principais LLMs durante o treino e durante as pesquisas "Right Now". Para mim, uma verificação rápida é entrar nos meus quatro principais chatbots de IA e pedir-lhe para aceder a uma página do nosso site. Se não conseguir, temos um problema.

Cloudflare também está a tentar algumas coisas que me preocupam. Vou publicar mais sobre isto e sobre formas de testar a capacidade de rastreio.

Próximas etapas e questões em aberto

Este espaço está a evoluir rapidamente e estamos a adotar uma abordagem interactiva. Aqui estão algumas questões que ainda estamos a analisar:

Que saídas Markdown devemos suportar?
Quanto disto já é feito pelos grandes bots de IA? É provável que já estejam a armazenar em cache o Markdown para sítios populares. Definitivamente, as ferramentas estão atualmente a fazer rastreios de sites a pedido, por isso, por agora, é importante.
Devemos pensar se este conteúdo deve ser alojado apenas por nós? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - estamos a acompanhar isto e vamos incluí-lo por agora. Mais tarde, podemos duplicar ou descontinuá-la se os crawlers continuarem com a robots.txt
Quando um cliente publica novas páginas no seu sítio, com que frequência devemos fazer uma auditoria e atualizar a .md e .xml ficheiros?
Devemos integrar um fluxo de trabalho baseado no Git para facilitar este processo?
Como podemos apoiar melhor os utilizadores WordPress ? Deverá isto integrar-se com o nosso plugin Total Cache?

Temos muito que trabalhar, mas queríamos partilhar a nossa orientação e sensibilizar as pessoas: estas ferramentas já estão a gerar vendas. Elas já são importantes e serão cada vez mais importantes nos próximos anos.

Ferramentas

Ferramentas de IA

SEO

AI SEO - Robots.txt, Markdown e como os fornecedores de IA estão a rastrear os teus sites

Explora como o novo AI SEO Helper do InMotion Hostingajuda os sites a permanecerem visíveis nos padrões de pesquisa em evolução orientados por IA. Saiba como preparar seu site para rastreadores LLM e preparar sua estratégia de SEO para o futuro.

Lê mais

Guias definitivos

SEO

Guia para programar e executar uma migração de site em grande escala

Estás a planear uma migração? Descobre estas sugestões de especialistas para garantir uma mudança de site sem problemas, protegendo simultaneamente o seu SEO e desempenho.

Lê mais

Guias definitivos

SEO

Como dar prioridade ao desempenho do site para SEO

Aprende a migrar o teu sítio Web de forma eficaz para obteres uma melhor classificação. Descobre opções de alojamento que melhoram o teu desempenho de SEO.

Lê mais

Guias e ferramentas adicionais

Blogue

Mantém-te atualizado com as últimas notícias, sugestões e tendências sobre alojamento Web. Explora os nossos artigos especializados para melhorares a tua presença online e manteres o teu site com o melhor desempenho possível.

Explora o nosso blogue

Centro de apoio

Obtém assistência 24/7 da nossa equipa de suporte dedicada. Acede a uma grande variedade de recursos, tutoriais e guias para resolver quaisquer problemas de alojamento de forma rápida e eficiente.

Visita o nosso centro de apoio

Alojamento gerido

Experimenta soluções de alojamento gerido de alto desempenho, seguras e fiáveis. Deixa que os nossos especialistas tratem dos detalhes técnicos enquanto te concentras no crescimento do teu negócio.

Sabe mais sobre o alojamento gerido

Subscreve para receberes o nosso conteúdo mais recente sobre sites e alojamento diretamente na tua caixa de correio eletrónico:

Lançar o teu site é mais fácil do que pensas

Explora o alojamento