Observação: este artigo documenta uma visão de um produto e um padrão que vemos surgindo no mercado. O objetivo é ajudar os clientes e a nós mesmos a entender como responder e aproveitar o poder dos novos sistemas de IA e a evolução dos padrões de pesquisa. É um trabalho em andamento! Com isso, você pode anunciar.Estamos lançando um novo serviço para ajudar nossos clientes e outros gerentes de sites profissionais a navegar pelas mudanças trazidas pelos provedores de IA que lidam cada vez mais com as consultas de pesquisa. Nós mesmos usamos um processo que queremos compartilhar para ajudar a garantir que seu site esteja pronto para a IA. Por enquanto, estamos chamando-o de InMotion AI SEO Helper.Nesta publicação, vou me referir tanto ao nosso site quanto a um conjunto de sites anônimos. Como empresa de hospedagem, podemos ver padrões agregados em muitos sites e esses padrões correspondem muito bem ao que está acontecendo no site inmotionhosting.com.Você poderá usar uma versão parcial do AI SEO Helper diretamente do nosso site em inmotionhosting.com/services/ai-seo-helper para ter uma ideia de como ele funciona. Se precisar de mais do que isso, você precisará se inscrever, gratuitamente, para usar o AI SEO Helper completo. Observe que, em momentos de contenção de recursos, nossos clientes têm prioridade no sistema.A ferramenta verificará seu site e fará o seguinte (plano atual) na Versão 2. A versão 1 terá um subconjunto, é claro:Certifique-se de que o site tenha um robots.txt arquivo e identificar o que está faltandoCertifique-se de que o site tenha um sitemap.xml e identificar o que está faltandoVerifique a presença de .md arquivosVerifique se o site inclui um llms.txt arquivo* (veja a nota abaixo sobre a advertência aqui)Verifique se o site não está bloqueando involuntariamente os rastreadores do LLMConforme mencionado acima, a ferramenta identifica o que pode estar faltando. Neste momento, não se sabe 100% do que precisa ser feito, já que se trata de um padrão em evolução.Nossa opinião sobre "o que deve ser feito" para ajudar os rastreadores das ferramentas de IA é baseada em nossa experiência contínua. Vamos criar links para recursos de apoio à medida que forem publicados, portanto, perdoe a falta de links por enquanto. Rastreamento, treinamento, pesquisa - além de novas vendasVamos começar com isto: as vendas já estão chegando a partir desses novos padrões de pesquisa. As pessoas estão acessando seu chatbot de IA favorito, fazendo pesquisas com a intenção de comprar e acessando nossos sites para concluir a compra. Isso é um fato que eu mesmo vi pessoalmente. O padrão ainda não é exatamente compreendido e também não está claro quanto desse fluxo de compras será transferido das pesquisas do Google para o ChatGPT e similares.As informações abaixo descrevem o que estamos vendo. Não estou falando sobre se sites, artigos, livros, etc. devem ser usados para treinar os LLMs sem que os LLMs atribuam a autoria do treinamento. Tenho minhas opiniões sobre isso, que publicarei em outro momento, pois essa é uma preocupação legítima. Para esta discussão, estou falando de sites que já aceitaram especificamente que o Google e seus pares rastrearão e ingerirão suas informações com o objetivo de enviar visitantes a seus sites para obter ganhos monetários.O rastreamento de sites está sendo feito agora por muitas "empresas de IA". Vários dos principais participantes, incluindo a OpenAI e a Anthropic, forneceram orientações sobre como respeitam a robots.txt e o que você User-Agent será apresentado ao seu servidor da Web. Observamos essa atividade nos logs do servidor.O que não está claro é se haverá um padrão diferente entre os rastreamentos para inclusão nos conjuntos de dados de treinamento e os rastreamentos devido às necessidades de informações "imediatas". As necessidades de informações "imediatas" são definidas como:Rastreamento paralelo de páginas - quando um usuário do Anthropic ou do ChatGPT solicita que esse serviço, como o Deep Research, realize pesquisas, o processo inclui a visita paralela de muitas páginas para que o LLM avalie.Necessidade de dados recentes - quando um usuário está buscando informações que provavelmente não estão atualizadas no conjunto de dados de trabalho do LLM, o LLM verificará os sites em tempo real para coletar informações recentes.Solicitação específica - quando um usuário solicita especificamente que determinadas informações, como uma página da Web ou um vídeo, sejam ingeridas pelo LLM e resumidas para uso.Outros motivosOs rastreamentos "no momento" estão ocorrendo com um certo nível de urgência que se manifesta em rápidas solicitações de páginas paralelas ao seu site. Talvez desejemos que esses serviços medissem mais suas solicitações, mas, na realidade, eles estão tentando atender a uma meta de experiência do usuário e acelerar o processo de coleta de dados é uma maneira fácil de ajudar a fazer isso.De qualquer forma, quando uma página é rastreada, o objetivo principal é ingerir essa página e convertê-la em um formato pronto para a máquina. Em sua forma mais simples, ela é convertida em Markdown. Markdown é uma representação baseada em texto do conteúdo da página, incluindo uma representação de texto de tabelas e imagens. Há vários sistemas populares que fazem isso, mas cada ferramenta de rastreamento faz isso de forma um pouco diferente. As de código aberto estão disponíveis para nossa avaliação. As que estão nos bastidores dos serviços são menos óbvias, mas esperamos que elas estejam usando uma das bibliotecas populares.Além dos rastreamentos de uma única página, vemos que os rastreadores são projetados para ler o sitemap.xml arquivo. A partir daí, ele pode rastrear cada URL e produzir o arquivo Markdown correspondente. Normalmente, isso é apenas um arquivo .md para cada uma das páginas rastreadas.Por exemplo, vamos pegar uma página chamada "about-us". Ela pode ser uma página estática ou uma página criada por um aplicativo da Web ou criada no lado do servidor, como WordPress. No entanto, ela foi renderizada no navegador. Essa página é rica em gráficos, cores, layout, imagens etc. para que uma pessoa possa ler e absorver. Para os casos de uso mais comuns, os LLMs precisam que esse conteúdo rico seja traduzido para Markdown para que você possa absorvê-lo facilmente.Para o nosso sistema, ele produzirá alguns desses itens abaixo como URLs públicos com a seguinte estrutura de arquivo provável:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.mdComo você pode ver, há vários rastreadores populares por aí. Abordaremos alguns deles em futuros vídeos e publicações de avaliação técnica à medida que avançarmos em nossas avaliações. O ponto principal, porém, é que nosso plano é usar os rastreadores individuais para produzir um .md específico para ele. Então, o rastreador pode simplesmente ler isso .md arquivo. Isso o tornará muito, muito mais rápido e impedirá que cada empresa que usa esse rastreador tenha que processar a mesma página para o arquivo .md arquivo.De nossa parte, observaremos as principais atualizações dos rastreadores e poderemos acionar atualizações para o .md ocasionalmente. Estamos pensando na frequência com que isso pode ocorrer ou mesmo se podemos permitir que o próprio rastreador acione uma nova atualização do arquivo .md usando uma simples chamada de API para o nosso serviço.Vale ressaltar que também trabalharemos com os próprios fornecedores de rastreadores para ver o que pode ajudá-los. LLMs.txt vs. Robots.txtHá pouco tempo, o conceito de ter uma orientação específica para LLMs carregada em um novo llms.txt semelhante ao arquivo robots.txt arquivo. O debate agora é se um arquivo específico é a escolha certa. Os rastreadores são robôs e os bem escritos já respeitam o robots.txt. A ideia de um arquivo llms.txt fez sentido para mim na primeira vez que li sobre isso, mas depois de pensar sobre o problema, parece que ele já foi resolvido pelo robots.txt ou deve ser resolvido com algumas pequenas adições ao arquivo robots.txt.Aqui estão alguns exemplos de nosso llms.txt no site inmotionhosting.com. No momento, não vou entrar na discussão e deixarei que o padrão de uso nos ajude. Atualmente, a quantidade de acesso a esse arquivo não é realmente mensurável em comparação com o tráfego do site e as solicitações do robots.txt. Portanto, no momento, vamos chamá-lo de "não é uma coisa", mas continuaremos observando. No entanto, a ideia é correta, portanto, esperamos que os rastreadores comecem a respeitar um ou outro. Bloqueio intencional ou acidental de rastreadoresÉ importante que você saiba se seu site é rastreável ou não. Se você quiser bloquear os rastreadores, esta não é a publicação certa para isso. Você pode conferir esta página para ver os métodos possíveis, mas, no final das contas, não é realmente possível cortar o acesso ao conteúdo público.Nesta postagem, vamos nos concentrar em saber se suas páginas são rastreáveis, pois você quer que seu conteúdo apareça nos principais LLMs durante o treinamento e durante as pesquisas "Right Now". Para mim, uma verificação rápida é simplesmente entrar nos meus quatro principais chatbots de IA e pedir a eles que acessem uma página do nosso site. Se ele não conseguir, temos um problema.Cloudflare também está tentando algumas coisas que me preocupam. Publicarei mais informações sobre isso e sobre maneiras de testar a capacidade de rastreamento. Próximas etapas e perguntas abertasEsse espaço está evoluindo rapidamente e estamos adotando uma abordagem interativa. Aqui estão algumas perguntas que ainda estamos analisando:A quais saídas de Markdown devemos dar suporte?Quanto disso já é feito pelos grandes bots de IA? É provável que eles já estejam armazenando em cache o Markdown para sites populares. Definitivamente, as ferramentas estão atualmente fazendo rastreamentos de sites sob demanda, portanto, por enquanto, isso é importante.Devemos pensar se esse conteúdo deve ser hospedado apenas por nós? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - Estamos monitorando isso e vamos incluí-lo por enquanto. Posteriormente, poderemos duplicar ou descontinuá-la se os rastreadores mantiverem o padrão robots.txtQuando um cliente publica novas páginas em seu site, com que frequência devemos auditar isso e atualizar o .md e .xml arquivos?Devemos nos integrar a um fluxo de trabalho baseado em Git para facilitar isso?Como podemos oferecer o melhor suporte aos usuários WordPress ? Isso deve ser integrado ao nosso plug-in Total Cache?Temos muito a fazer, mas queremos compartilhar nossa orientação e aumentar a conscientização: essas ferramentas já estão gerando vendas. Elas já são importantes e serão cada vez mais importantes nos próximos anos. Ferramentas Ferramentas de IASEO SEO com IA - Robots.txt, Markdown e como os provedores de IA estão rastreando seus sites Explore como o novo AI SEO Helper do InMotion Hostingajuda os sites a permanecerem visíveis nos padrões de pesquisa em evolução orientados por IA. Saiba como preparar seu site para rastreadores LLM e preparar sua estratégia de SEO para o futuro. Leia mais Guias definitivos SEO Guia para programar e executar uma migração de site em grande escala Você está planejando uma migração? Descubra estas dicas de especialistas para garantir uma mudança perfeita do site e, ao mesmo tempo, proteger seu SEO e desempenho. Leia mais Guias definitivos SEO Como priorizar o desempenho do site para SEO Saiba como migrar seu site de forma eficaz para melhorar a classificação. Descubra as opções de hospedagem que melhoram o desempenho de SEO. Leia mais Guias e ferramentas adicionaisBlogMantenha-se atualizado com as últimas notícias, dicas e tendências sobre hospedagem na Web. Explore nossos artigos especializados para aprimorar sua presença on-line e manter seu site com o melhor desempenho possível.Explore nosso blogCentro de suporteObtenha assistência 24 horas por dia, 7 dias por semana, de nossa equipe de suporte dedicada. Acesse uma grande variedade de recursos, tutoriais e guias para resolver qualquer problema de hospedagem de forma rápida e eficiente.Visite nosso centro de suporteHospedagem gerenciadaExperimente soluções de hospedagem gerenciada de alto desempenho, seguras e confiáveis. Deixe que nossos especialistas cuidem dos detalhes técnicos enquanto você se concentra no crescimento dos seus negócios.Saiba mais sobre a hospedagem gerenciada Inscreva-se para receber nosso conteúdo mais recente sobre site e hospedagem diretamente em sua caixa de entrada: Lançar seu site é mais fácil do que você pensaExplore a hospedagem