Обрати внимание: в этой статье изложено видение продукта и стандарта, который, как мы видим, появляется на рынке. Она призвана помочь клиентам и нам самим понять, как реагировать и использовать возможности новых систем искусственного интеллекта и развивающихся моделей поиска. Это работа в процессе! На этом наше объявление закончено.Мы запускаем новый сервис, чтобы помочь нашим клиентам и другим профессиональным менеджерам сайтов сориентироваться в изменениях, вызванных тем, что ИИ-провайдеры все чаще обрабатывают поисковые запросы. Мы сами используем процесс, которым хотим поделиться, чтобы помочь убедиться, что твой сайт готов к работе с ИИ. Пока что мы называем его InMotion AI SEO Helper.В этом посте я буду ссылаться как на наш сайт, так и на набор анонимизированных сайтов. Как хостинговая компания, мы можем видеть совокупные закономерности по многим сайтам, и эти закономерности близко соответствуют тому, что происходит на сайте inmotionhosting.com.Ты сможешь воспользоваться частичной версией AI SEO Helper прямо с нашего сайта по адресу inmotionhosting.com/services/ai-seo-helper, чтобы получить представление о том, как она работает. Если тебе нужно больше, чем предоставляет эта версия, тебе нужно будет бесплатно зарегистрироваться, чтобы использовать полную версию AI SEO Helper. Обрати внимание, что в периоды нехватки ресурсов наши клиенты имеют первый приоритет в системе.Инструмент проверит твой сайт и (текущий план) сделает следующее в версии 2. Версия 1, конечно же, будет иметь подмножество:Убедись, что на участке есть robots.txt файл и определи, чего не хватаетУбедись, что на участке есть sitemap.xml и определи, чего не хватаетПроверь наличие .md файлыПроверь, есть ли на сайте llms.txt файл* (см. примечание ниже об оговорке здесь)Проверь, не блокирует ли сайт непреднамеренно краулеры LLM.Как уже говорилось выше, инструмент определяет, чего может не хватать. На данный момент не известно на 100%, что нужно сделать, так как это развивающийся стандарт.Наше мнение о том, "что нужно сделать", чтобы помочь краулерам для инструментов ИИ, основано на нашем текущем опыте. Мы будем ссылаться на вспомогательные ресурсы по мере их публикации, так что извини за отсутствие ссылок на данный момент. Ползание, обучение, поиск - плюс новые продажиНачнем вот с чего: продажи уже поступают по этим новым поисковым шаблонам. Люди обращаются к своему любимому чатботу с искусственным интеллектом, проводят исследование с намерением совершить покупку и приходят на наши сайты, чтобы завершить ее. Это факт, в котором я лично убедился. Пока эта схема не совсем понятна, и также неясно, какая часть этого потока покупок переместится из поиска Google в ChatGPT и подобные ему.Ниже приведена информация о том, что мы видим. Я не говорю о том, следует ли использовать веб-сайты, статьи, книги и т.д. для обучения LLM без того, чтобы LLM указывал, на чем он обучался. У меня есть свои взгляды на это, которые я опубликую в другой раз, так как это законная проблема. В данном обсуждении я говорю о сайтах, которые уже специально согласились с тем, что Google и ему подобные будут ползать и проглатывать их информацию с целью отправки посетителей на их сайт для получения денежной выгоды.Ползанием по сайтам сейчас занимаются многие "ИИ-компании". Несколько крупных игроков, включая OpenAI и Anthropic, представили руководство о том, как они соблюдают robots.txt и что их User-Agent будет представлен твоему веб-серверу. Мы наблюдали эту активность в логах сервера.Неясно только, будет ли различаться картина между поползновениями на включение в наборы обучающих данных и поползновениями, вызванными потребностями в информации "прямо сейчас". Информационные потребности "прямо сейчас" определяются следующим образом:Параллельные переходы по страницам - когда пользователь Anthropic или ChatGPT просит соответствующий сервис, например Deep Research, выполнить поиск, процесс включает в себя параллельное посещение множества страниц для последующей оценки LLM.Нужны свежие данные - когда пользователь ищет информацию, которая, скорее всего, не будет актуальной в рабочем наборе данных LLM, LLM будет проверять сайты на лету, чтобы собрать свежую информацию.Специфический запрос - когда пользователь специально запрашивает определенную информацию, например веб-страницу или видео, чтобы получить ее в LLM и обобщить для использования.Другие причины"Прямо сейчас" crawls происходят с определенной степенью срочности, которая проявляется в быстрых параллельных запросах страниц к твоему сайту. Мы можем желать, чтобы эти сервисы более тщательно измеряли свои запросы, но в реальности они пытаются достичь цели, связанной с пользовательским опытом, и ускорение процесса сбора данных - простой способ помочь в этом.В любом случае, когда по странице ползают, главная цель - проглотить ее и преобразовать в готовый к работе формат. В самом простом варианте она преобразуется в Markdown. Markdown - это текстовое представление содержимого страницы, включая текстовое представление таблиц и изображений. Существует несколько популярных систем, которые занимаются этим, но каждый инструмент для краулинга делает это немного по-своему. Те, что с открытым исходным кодом, доступны нам для оценки. Те, что находятся за кулисами сервисов, менее очевидны, но мы ожидаем, что они будут использовать одну из популярных библиотек.В дополнение к одностраничным ползаниям мы видим, что краулеры предназначены для чтения sitemap.xml файл. На основе этого он может просмотреть каждый URL и создать свой Markdown-файл для соответствия. Как правило, это просто .md файл для каждой из просмотренных страниц.Например, возьмем страницу под названием "about-us". Это может быть статическая страница, страница, созданная веб-приложением или созданная на стороне сервера, как WordPress. Тем не менее, она была отображена в браузере. Эта страница богата графикой, цветами, макетом, изображениями и т.д., чтобы человек мог ее прочитать и усвоить. Для наиболее распространенных случаев использования LLM нужно перевести этот богатый контент в Markdown, чтобы он легко усваивался.Для нашей системы она будет выдавать некоторые из них в виде публичных URL со следующей вероятной структурой файлов:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.mdКак видишь, есть несколько популярных краулеров. О некоторых из них мы расскажем в будущих видео по технической оценке и в постах по мере продвижения нашей оценки. Но главное, что мы планируем сделать, - это использовать отдельные краулеры для создания .md специфический для него. Тогда краулер может просто прочитать, что .md файл. Это сделает работу намного, намного быстрее и не позволит каждой компании, использующей этот краулер, обрабатывать одну и ту же страницу в .md файл.На нашей стороне мы будем следить за крупными обновлениями краулеров и сможем запускать обновления в .md файлы время от времени. Мы думаем о том, как часто это может происходить или даже о том, можно ли позволить краулеру самому запускать свежее обновление .md файлы с помощью простого API-вызова нашего сервиса.Разумеется, мы также будем работать с самими поставщиками краулеров, чтобы понять, что может им помочь. LLMs.txt против Robots.txtНемного назад появилась концепция, согласно которой руководство, предназначенное для магистров, должно быть загружено в новый llms.txt файл, похожий на robots.txt файл. Сейчас спор идет о том, является ли конкретный файл правильным выбором. Краулеры - это роботы, и хорошо написанные роботы уже уважают robots.txt. Идея llms.txt Когда я впервые прочитал об этом, мне показалось, что проблема уже решена в robots.txt или должна быть решена с помощью небольших дополнений к robots.txt.Вот несколько примеров из нашей llms.txt на сайте inmotionhosting.com. Сейчас я не буду вмешиваться в спор и позволю схеме использования помочь нам. В настоящее время количество обращений к этому файлу не поддается реальному измерению по сравнению с посещаемостью сайта и запросами robots.txt. Так что на данный момент назовем это "ничего особенного", но мы будем продолжать наблюдать за этим. Идея, впрочем, правильная, так что, надеюсь, краулеры начнут уважать то одно, то другое. Преднамеренная или случайная блокировка кроулеровВажно знать, является ли твой сайт краулером или нет. Если ты хочешь заблокировать краулеров, то этот пост не для этого. Ты можешь посмотреть на этой странице возможные методы, но в конечном итоге перекрыть доступ к публичному контенту не получится.В этом посте мы сосредоточимся на том, чтобы узнать, являются ли твои страницы ползающими, потому что ты хочешь, чтобы твой контент находился в основных LLM во время обучения и при поиске "Прямо сейчас". Для меня быстрая выборочная проверка заключается в том, что я просто захожу в свои четыре лучших AI-чатбота и прошу его зайти на страницу нашего сайта. Если он не может этого сделать, значит, у нас проблема.Cloudflare также пробует несколько вещей, которые вызывают у меня опасения. Я еще напишу об этом и о том, как проверить ползучесть. Следующие шаги и открытые вопросыЭто пространство быстро развивается, и мы используем интерактивный подход. Вот несколько вопросов, над которыми мы все еще работаем:Какие выходы Markdown мы должны поддерживать?Как много из этого уже сделано большими ботами с искусственным интеллектом? Скорее всего, они уже кэшируют Markdown для популярных сайтов. Определенно, в настоящее время инструменты выполняют переползание сайтов по запросу, так что пока это имеет значение.Стоит ли задуматься о том, что этот контент должен быть размещен только у нас? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - Мы следим за этим и пока включим его в список. Позже мы сможем либо удвоить его, либо отказаться от него, если краулеры будут придерживаться robots.txtКогда клиент публикует новые страницы на своем сайте, как часто мы должны проводить аудит и обновлять их. .md и .xml файлы?Стоит ли нам интегрироваться с рабочим процессом на основе Git, чтобы сделать это проще?Как мы можем лучше всего поддержать пользователей WordPress ? Должно ли это интегрироваться с нашим плагином Total Cache?Нам предстоит многое проработать, но мы хотели поделиться своим направлением и повысить осведомленность: продажи уже идут с помощью этих инструментов. Они важны уже сейчас, и в ближайшие годы их значение будет только возрастать. Инструменты Инструменты искусственного интеллектаSEO AI SEO - Robots.txt, Markdown и то, как AI-провайдеры ползают по твоим сайтам Узнай, как новый AI SEO Helper от InMotion Hostingпомогает сайтам оставаться заметными в развивающихся поисковых шаблонах, управляемых искусственным интеллектом. Узнай, как подготовить свой сайт для краулеров LLM и защитить свою SEO-стратегию на будущее. Читать далее Полные руководства SEO Руководство по выбору времени и проведению крупномасштабной миграции сайта Планируешь миграцию? Открой для себя эти советы экспертов, которые обеспечат беспроблемный перенос сайта и при этом защитят твою SEO и производительность. Читать далее Полные руководства SEO Как расставить приоритеты в производительности сайта для SEO Узнай, как эффективно перенести свой сайт для лучшего ранжирования. Открой для себя варианты хостинга, которые повысят твои SEO-показатели. Читать далее Дополнительные руководства и инструментыБлогБудьте в курсе последних новостей, советов и тенденций веб-хостинга. Изучите наши экспертные статьи, чтобы улучшить свое присутствие в сети и поддерживать наилучшую производительность вашего веб-сайта.Изучите наш блогЦентр поддержкиПолучите круглосуточную помощь от нашей специализированной службы поддержки. Получите доступ к множеству ресурсов, учебных пособий и руководств для быстрого и эффективного решения любых проблем с хостингом.Посетите наш центр поддержкиУправляемый хостингИспытайте высокопроизводительные, безопасные и надежные решения управляемого хостинга. Позвольте нашим экспертам заняться техническими деталями, пока вы сосредоточены на развитии своего бизнеса.Узнайте больше об управляемом хостинге Подпишитесь, чтобы получать самые свежие материалы о веб-сайтах и хостинге прямо на свой почтовый ящик: Запустить свой сайт проще, чем ты думаешьИзучи хостинг