AI SEO-сканери - Robots.txt, Markdown та AI-провайдери

Зверніть увагу: у цій статті викладено бачення продукту і стандарту, який, на нашу думку, з'являється на ринку. Вона покликана допомогти як клієнтам, так і нам самим зрозуміти, як реагувати на нові системи штучного інтелекту та еволюцію пошукових патернів і використовувати їхні можливості. Робота над ним триває! На цьому ми завершуємо наш анонс.

Ми запускаємо нову послугу, щоб допомогти нашим клієнтам та іншим професійним веб-майстрам орієнтуватися у змінах, спричинених тим, що постачальники послуг зі штучного інтелекту все частіше обробляють пошукові запити. Ми самі використовуємо процес, яким хочемо поділитися, щоб допомогти забезпечити готовність вашого сайту до роботи зі штучним інтелектом. Наразі ми називаємо його InMotion AI SEO Helper.

У цьому дописі я буду посилатися як на наш веб-сайт, так і на низку анонімних веб-сайтів. Як хостингова компанія, ми можемо бачити загальні закономірності на багатьох сайтах, і ці закономірності тісно пов'язані з тим, що відбувається на сайті inmotionhosting.com.

Ви можете скористатися частковою версією AI SEO Helper прямо з нашого сайту inmotionhosting.com/services/ai-seo-helper, щоб отримати уявлення про те, як він працює. Якщо вам потрібно більше, ніж передбачено цією версією, вам потрібно буде безкоштовно підписатися на повну версію AI SEO Helper. Зверніть увагу, що під час боротьби за ресурси наші клієнти мають першочерговий пріоритет у системі.

Інструмент перевірить ваш веб-сайт і (за поточним планом) зробить наступне у версії 2. Звичайно, версія 1 матиме підмножину:

Переконайтеся, що на сайті є robots.txt файл і визначте, чого не вистачає
Переконайтеся, що на сайті є sitemap.xml і визначити, чого не вистачає
Перевірте наявність .md файли
Перевірте, чи містить сайт llms.txt file* (див. примітку нижче про застереження тут)
Переконайтеся, що сайт не блокується пошуковими роботами LLM ненавмисно

Як зазначалося вище, інструмент визначає, чого може не вистачати. На даний момент не відомо на 100%, що потрібно зробити, оскільки це стандарт, що розвивається.

Наше уявлення про те, "що потрібно зробити", щоб допомогти пошуковим роботам для інструментів ШІ, ґрунтується на нашому поточному досвіді. Ми будемо додавати посилання на допоміжні ресурси, коли вони будуть опубліковані, тому вибачте за відсутність посилань.

Сканування, навчання, пошук - плюс нові продажі

Почнемо з цього: продажі вже надходять з цих нових пошукових патернів. Люди звертаються до свого улюбленого чат-бота зі штучним інтелектом, проводять дослідження з наміром купити, а потім приходять на наші сайти, щоб завершити покупку. Це факт, в якому я особисто переконався. Ця закономірність ще не зовсім зрозуміла, і також незрозуміло, яка частина цього потоку покупок перейде з пошуку в Google до ChatGPT і подібних сервісів.

Інформація, наведена нижче, описує те, що ми бачимо. Я не говорю про те, чи слід використовувати веб-сайти, статті, книги тощо для підготовки магістрів права без зазначення джерел, на яких вони навчалися. У мене є свої погляди на це, які я опублікую іншим разом, оскільки це законне занепокоєння. У цій дискусії я говорю про веб-сайти, які вже дали згоду на те, що Google і його аналоги будуть сканувати і поглинати їхню інформацію з метою перенаправлення відвідувачів на їхні сайти для отримання грошової вигоди.

Сканування сайтів зараз відбувається багатьма "AI-компаніями". Кілька великих гравців, зокрема OpenAI та Anthropic, надали рекомендації щодо того, як вони поважають robots.txt і які їхні User-Agent відображатиметься на вашому веб-сервері. Ми спостерігали цю активність в логах сервера.

Незрозуміло, чи буде існувати різниця між скануванням для включення в навчальні набори даних і скануванням, пов'язаним з інформаційними потребами "прямо зараз". "Нагальні" інформаційні потреби визначаються наступним чином:

Паралельний перегляд сторінок - коли користувач Anthropic або ChatGPT звертається до зазначеного сервісу, наприклад, Deep Research, з проханням виконати пошук, процес включає паралельний перегляд багатьох сторінок для подальшої оцінки LLM.
Необхідні свіжі дані - коли користувач шукає інформацію, яка навряд чи є актуальною в робочому наборі даних LLM, LLM буде перевіряти веб-сайти на льоту, щоб зібрати свіжу інформацію.
Конкретний запит - коли користувач конкретно просить, щоб певна інформація, наприклад, веб-сторінка або відео, була отримана LLM і узагальнена для використання.
Інші причини

Сканування "прямо зараз" відбувається з певним рівнем терміновості, що проявляється у швидких паралельних запитах сторінок до вашого сайту. Можливо, ми хотіли б, щоб ці сервіси вимірювали свої запити більш ретельно, але насправді вони намагаються досягти мети покращення користувацького досвіду, і прискорення процесу збору даних - це простий спосіб допомогти їм у досягненні цієї мети.

У будь-якому випадку, коли сторінка сканується, основною метою є поглинання цієї сторінки і перетворення її в машинний формат. У найпростішому випадку, вона перетворюється на розмітку. Розмітка - це текстове представлення вмісту сторінки, включаючи текстове представлення таблиць і зображень. Існує кілька популярних систем, які роблять це, але кожен інструмент сканування робить це трохи по-різному. Ми можемо оцінити системи з відкритим вихідним кодом. Ті, що працюють за лаштунками сервісів, менш очевидні, але ми очікуємо, що вони використовують одну з популярних бібліотек.

На додаток до односторінкових сканерів, ми бачимо, що вони призначені для читання sitemap.xml файл. Після цього він може сканувати кожну URL-адресу і створювати свій файл розмітки відповідно до неї. Зазвичай це просто .md для кожної з переглянутих сторінок.

Наприклад, візьмемо сторінку з назвою "про нас". Це може бути статична сторінка або сторінка, створена веб-додатком чи створена на стороні сервера, наприклад, WordPress. Однак вона відображається у браузері. Ця сторінка багата на графіку, кольори, макет, зображення і т.д., щоб людина могла її прочитати і засвоїти. Для найпоширеніших випадків використання, LLM потребують перекладу цього багатого контенту на мову Markdown, щоб він легко засвоювався.

Для нашої системи деякі з них будуть створені як загальнодоступні URL-адреси з наступною ймовірною структурою файлів:

/inmotion-ai-helper/openai/directory/about-us.md
/inmotion-ai-helper/claude/directory/about-us.md
/inmotion-ai-helper/gemini/directory/about-us.md
/inmotion-ai-helper/opencrawl/directory/about-us.md
/inmotion-ai-helper/crawl4ai/directory/about-us.md
/inmotion-ai-helper/docling/directory/about-us.md

Як бачите, існує кілька популярних пошукових систем. Ми розповімо про деякі з них у майбутніх відео з технічними оцінками та публікаціях по мірі того, як ми будемо проводити наші оцінки. Але головне, що ми плануємо використовувати окремі кроулери для створення .md специфічний для нього. Тоді цей робот може просто прочитати це .md файл. Це зробить його набагато, набагато швидшим і позбавить кожну компанію, яка використовує цей сканер, необхідності обробляти одну і ту ж сторінку в .md файл.

Зі свого боку, ми будемо стежити за основними оновленнями пошукових роботів і можемо ініціювати оновлення .md файли час від часу. Ми думаємо про те, як часто це може відбуватися, і чи можна дозволити сканеру самому запускати нове оновлення .md файли за допомогою простого API виклику нашого сервісу.

Варто зазначити, що ми також будемо працювати з самими постачальниками пошукових систем, щоб дізнатися, що може їм допомогти.

LLMs.txt vs Robots.txt

Трохи раніше концепція, згідно з якою вказівки для LLMs повинні бути завантажені в новий посібник, була llms.txt файл, подібний до robots.txt файл. Зараз дебати точаться навколо того, чи правильним є вибір конкретного файлу. Пошукові системи - це роботи, і добре написані з них вже поважають robots.txt. Ідея файлу llms.txt мала сенс для мене, коли я вперше прочитав про це, але після роздумів над проблемою, мені здається, що вона або вже вирішена в robots.txt, або має бути вирішена з деякими незначними доповненнями до файлу robots.txt.

Ось кілька прикладів з нашого llms.txt на сайті inmotionhosting.com. Наразі я не буду втручатися в суперечку, і нехай нам допоможе шаблон використання. Наразі кількість звернень до цього файлу не можна виміряти порівняно з відвідуваністю сайту та запитами robots.txt. Тому наразі, давайте назвемо це "нічим", але ми будемо продовжувати спостерігати за цим. Ідея правильна, тож сподіваємося, що роботи почнуть поважати одне і друге.

Приклад файлу LLMs.txt InMotion Hosting

Навмисне або випадкове блокування повзунків

Важливо знати, чи є ваш сайт доступним для пошукових роботів чи ні. Якщо ви хочете заблокувати пошукових роботів, ця стаття не для цього. Ви можете ознайомитися з можливими методами на цій сторінці, але в кінцевому підсумку неможливо повністю перекрити доступ до публічного контенту.

У цій статті ми зосередимося на тому, щоб дізнатися, чи доступні ваші сторінки для сканування, оскільки ви хочете, щоб ваш контент був у головних пошукових системах під час навчання та під час пошуку "Прямо зараз". Для мене найпростіший спосіб перевірити це - зайти в чотири моїх найкращих чат-боти зі штучним інтелектом і попросити їх отримати доступ до сторінки на нашому сайті. Якщо він не може, у нас проблема.

Cloudflare також пробує кілька речей, які мене турбують. Я напишу більше про це і про способи тестування сканування.

Наступні кроки та відкриті питання

Цей простір швидко розвивається, і ми застосовуємо інтерактивний підхід. Ось кілька питань, над якими ми ще працюємо:

Які результати Markdown ми повинні підтримувати?
Скільки з цього вже зроблено великими ботами зі штучним інтелектом? Цілком ймовірно, що вони вже кешують Markdown для популярних сайтів. Безумовно, інструменти зараз виконують сканування сайтів на вимогу, тож наразі це має значення.
Чи варто нам замислитися над тим, чи варто розміщувати цей контент у нас? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - ми відстежуємо це і поки що включимо його. Пізніше ми можемо або подвоїти його, або прибрати, якщо повзуни дотримуватимуться robots.txt
Коли клієнт публікує нові сторінки на своєму сайті, як часто ми повинні перевіряти це і оновлювати .md і .xml файли?
Чи варто нам інтегруватися з робочим процесом на основі Git, щоб полегшити це завдання?
Як ми можемо найкраще підтримати користувачів WordPress ? Чи варто інтегрувати його з нашим плагіном Total Cache?

Нам є над чим працювати, але ми хотіли б поділитися нашим напрямком і підвищити обізнаність: продажі з цих інструментів вже починають надходити. Вони вже важливі, і їхня важливість зростатиме в найближчі роки.

Інструменти

Інструменти штучного інтелекту

SEO

AI SEO - Robots.txt, уцінка та як провайдери штучного інтелекту сканують ваші сайти

Дізнайтеся, як новий AI SEO Helper від InMotion Hostingдопомагає сайтам залишатися помітними в еволюціонуючих пошукових моделях, керованих штучним інтелектом. Дізнайтеся, як підготувати свій сайт до роботи пошукових роботів LLM і як розробити SEO-стратегію на перспективу.

Ultimate Guides

SEO

Посібник з планування та виконання масштабної міграції сайту

Плануєте міграцію? Ознайомтеся з цими порадами експертів, щоб забезпечити безперешкодний переїзд сайту, захистивши при цьому його SEO та продуктивність.

Ultimate Guides

SEO

Як визначити пріоритети продуктивності сайту для SEO

Дізнайтеся, як ефективно перенести свій сайт для кращого ранжування. Відкрийте для себе варіанти хостингу, які підвищать ефективність вашого SEO.

Додаткові посібники та інструменти

Блог

Будьте в курсі останніх новин, порад і тенденцій у сфері веб-хостингу. Ознайомтеся з нашими експертними статтями, щоб розширити свою присутність в Інтернеті та забезпечити найкращу роботу вашого веб-сайту.

Ознайомтеся з нашим блогом

Центр підтримки

Отримуйте підтримку 24/7 від нашої спеціалізованої команди підтримки. Отримайте доступ до безлічі ресурсів, навчальних посібників та інструкцій для швидкого та ефективного вирішення будь-яких проблем з хостингом.

Відвідайте наш центр підтримки

Керований хостинг

Спробуйте високопродуктивний, безпечний та надійний керований хостинг. Дозвольте нашим фахівцям займатися технічними деталями, а ви зосередьтеся на розвитку вашого бізнесу.

Дізнайтеся більше про керований хостинг

Підпишіться, щоб отримувати наші найновіші матеріали про веб-сайти та хостинг прямо на вашу поштову скриньку:

Запустити свій сайт простіше, ніж ви думаєте

Дослідити хостинг