Uwaga: ten artykuł dokumentuje wizję produktu i standardu, który widzimy na rynku. Ma on na celu pomóc zarówno klientom, jak i nam samym zrozumieć, jak reagować i wykorzystywać moc nowych systemów sztucznej inteligencji i ewoluujących wzorców wyszukiwania. To praca w toku! W związku z tym, nasze ogłoszenie.Uruchamiamy nową usługę, aby pomóc naszym klientom i innym profesjonalnym menedżerom stron internetowych w poruszaniu się po zmianach wprowadzanych przez dostawców AI coraz częściej obsługujących zapytania wyszukiwania. Sami korzystamy z procesu, który chcemy udostępnić, aby upewnić się, że Twoja witryna jest gotowa na AI. Na razie nazywamy go InMotion AI SEO Helper.W tym poście będę odnosił się zarówno do naszej strony internetowej, jak i do zestawu anonimowych stron internetowych. Jako firma hostingowa, możemy zobaczyć zagregowane wzorce na wielu stronach i te wzorce ściśle pasują do tego, co dzieje się na stronie inmotionhosting.com.Będziesz mógł skorzystać z częściowej wersji AI SEO Helper bezpośrednio z naszej strony internetowej pod adresem inmotionhosting.com/services/ai-seo-helper, aby dowiedzieć się, jak to działa. Jeśli potrzebujesz więcej niż to, co zapewnia, będziesz musiał zarejestrować się za darmo, aby korzystać z pełnego AI SEO Helper. Pamiętaj, że w czasach ograniczenia zasobów nasi klienci mają pierwszeństwo w systemie.Narzędzie sprawdzi Twoją witrynę i (zgodnie z aktualnym planem) wykona następujące czynności w wersji 2. Wersja 1 będzie miała oczywiście podzbiór:Upewnij się, że witryna ma robots.txt plik i określ, czego brakujeUpewnij się, że witryna ma sitemap.xml i określ, czego brakujeSprawdź obecność .md plikiSprawdź, czy witryna zawiera llms.txt plik* (patrz uwaga poniżej dotycząca tego zastrzeżenia)Sprawdź, czy witryna nie blokuje przypadkowo robotów indeksujących LLM.Jak wspomniano powyżej, narzędzie identyfikuje, czego może brakować. W tym momencie nie wiadomo w 100%, co należy zrobić, ponieważ jest to rozwijający się standard.Nasz pogląd na to, "co należy zrobić", aby pomóc robotom indeksującym narzędzia AI, opiera się na naszym bieżącym doświadczeniu. Linki do zasobów pomocniczych będziemy zamieszczać w miarę ich publikowania, więc wybaczcie na razie brak linków. Pełzanie, szkolenie, wyszukiwanie - plus nowa sprzedażZacznijmy od tego, że te nowe wzorce wyszukiwania już generują sprzedaż. Ludzie przechodzą do swojego ulubionego chatbota AI, przeprowadzają badania z zamiarem zakupu i przychodzą do naszych witryn, aby sfinalizować zakup. Jest to fakt, który osobiście zaobserwowałem. Wzorzec ten nie jest jeszcze dokładnie zrozumiały i nie jest również jasne, jak duża część tego przepływu zakupów przeniesie się z wyszukiwań w Google na ChatGPT i podobne.Poniższe informacje przedstawiają to, co widzimy. Nie mówię o tym, czy strony internetowe, dokumenty, książki itp. powinny być wykorzystywane do szkolenia LLM bez podawania przez LLM informacji o tym, na czym zostało przeprowadzone szkolenie. Mam swoje poglądy na ten temat, które opublikuję innym razem, ponieważ jest to uzasadniona obawa. W tej dyskusji mówię o witrynach internetowych, które już zaakceptowały, że Google i jego odpowiedniki będą indeksować i pozyskiwać ich informacje w celu wysyłania odwiedzających do ich witryny w celu uzyskania korzyści finansowych.Przeszukiwanie witryn jest obecnie realizowane przez wiele "firm AI". Kilku głównych graczy, w tym OpenAI i Anthropic, przedstawiło wytyczne dotyczące sposobu, w jaki respektują robots.txt i jakie są ich User-Agent będą prezentowane na Twoim serwerze internetowym. Zaobserwowaliśmy tę aktywność w dziennikach serwera.Nie jest jasne, czy wystąpi inny wzorzec między przeszukiwaniem w celu włączenia do zestawów danych szkoleniowych a przeszukiwaniem ze względu na "bieżące" potrzeby informacyjne. Potrzeby informacyjne "na teraz" są zdefiniowane jako:Równoległe przeszukiwanie stron - gdy użytkownik Anthropic lub ChatGPT prosi wspomnianą usługę, taką jak Deep Research, o przeprowadzenie wyszukiwania, proces obejmuje równoległe odwiedzanie wielu stron, które LLM następnie ocenia.Najnowsze dane - gdy użytkownik szuka informacji, które prawdopodobnie nie są aktualne w zestawie danych roboczych LLM, LLM sprawdzi strony internetowe na bieżąco, aby zebrać najnowsze informacje.Konkretne żądanie - gdy użytkownik wyraźnie prosi o pewne informacje, takie jak strona internetowa lub wideo, które mają zostać pozyskane przez LLM i podsumowane do wykorzystania.Inne powodyPrzeszukiwanie "w tej chwili" odbywa się z pewnym poziomem pilności, który przejawia się w szybkich równoległych żądaniach strony do Twojej witryny. Możemy sobie życzyć, aby te usługi lepiej mierzyły swoje żądania, ale realistycznie rzecz biorąc, starają się one osiągnąć cel związany z doświadczeniem użytkownika, a przyspieszenie procesu gromadzenia danych jest łatwym sposobem, aby to osiągnąć.Tak czy inaczej, gdy strona jest indeksowana, głównym celem jest pozyskanie tej strony i przekonwertowanie jej do formatu gotowego do użycia maszynowego. W najprostszym przypadku jest on konwertowany do Markdown. Markdown to tekstowa reprezentacja zawartości strony, w tym tekstowa reprezentacja tabel i obrazów. Istnieje kilka popularnych systemów, które to robią, ale każde narzędzie indeksujące robi to nieco inaczej. Te open source są dostępne dla nas do oceny. Te za kulisami usług są mniej oczywiste, ale spodziewamy się, że będą korzystać z jednej z popularnych bibliotek.Oprócz indeksowania pojedynczych stron widzimy, że crawlery są zaprojektowane do odczytywania sitemap.xml plik. Na tej podstawie może następnie przeszukać każdy adres URL i utworzyć plik Markdown, aby go dopasować. Zazwyczaj jest to po prostu plik .md dla każdej z zaindeksowanych stron.Weźmy na przykład stronę o nazwie "about-us". Może to być strona statyczna lub strona utworzona przez aplikację internetową lub utworzona po stronie serwera, taka jak WordPress. Została ona jednak wyrenderowana w przeglądarce. Ta strona jest bogata w grafikę, kolory, układ, obrazy itp., które osoba może przeczytać i przyswoić. W najczęstszych przypadkach użycia LLM potrzebuje tej bogatej treści przetłumaczonej na Markdown, aby można ją było łatwo wchłonąć.W naszym systemie niektóre z nich będą generowane jako publiczne adresy URL z następującą prawdopodobną strukturą plików:/inmotion-ai-helper/openai/directory/about-us.md/inmotion-ai-helper/claude/directory/about-us.md/inmotion-ai-helper/gemini/directory/about-us.md/inmotion-ai-helper/opencrawl/directory/about-us.md/inmotion-ai-helper/crawl4ai/directory/about-us.md/inmotion-ai-helper/docling/directory/about-us.mdJak widzisz, istnieje kilka popularnych crawlerów. Omówimy kilka z nich w przyszłych filmach z oceną techniczną i postach w miarę postępów w naszych ocenach. Najważniejsze jest jednak to, że naszym planem jest wykorzystanie poszczególnych crawlerów do stworzenia .md specyficzne dla niego. Następnie crawler może po prostu to odczytać .md plik. To znacznie przyspieszy działanie i sprawi, że każda firma korzystająca z tego crawlera nie będzie musiała przetwarzać tej samej strony do pliku .md plik.Po naszej stronie będziemy obserwować główne aktualizacje crawlerów i możemy uruchamiać aktualizacje do .md pliki od czasu do czasu. Zastanawiamy się, jak często może się to odbywać, a nawet czy możemy pozwolić samemu crawlerowi wyzwalać świeżą aktualizację plików. .md za pomocą prostego wywołania API do naszej usługi.Warto zauważyć, że będziemy również współpracować z samymi dostawcami crawlerów, aby zobaczyć, co może im pomóc. LLMs.txt vs Robots.txtNieco wcześniej pojawiła się koncepcja, aby wytyczne dotyczące LLM zostały załadowane do nowego llms.txt podobny do pliku robots.txt plik. Debata polega teraz na tym, czy konkretny plik jest właściwym wyborem. Crawlery to roboty, a te dobrze napisane już respektują robots.txt. Idea pliku llms.txt miało dla mnie sens, gdy czytałem o tym po raz pierwszy, ale po przemyśleniu tej kwestii wydaje się, że jest ona już rozwiązana przez robots.txt lub powinna zostać rozwiązana za pomocą drobnych dodatków do robots.txt.Oto kilka przykładów z naszego llms.txt na stronie inmotionhosting.com. W tej chwili pozostanę poza sporem i pozwolę, aby wzorzec użytkowania nam pomógł. Obecnie ilość dostępu do tego pliku nie jest tak naprawdę mierzalna w porównaniu z ruchem w witrynie i żądaniami robots.txt. Więc obecnie nazwijmy to "nic takiego", ale będziemy to obserwować. Idea jest jednak słuszna, więc miejmy nadzieję, że roboty indeksujące zaczną szanować jedno lub drugie. Celowe lub przypadkowe blokowanie robotów indeksującychWażne jest, aby wiedzieć, czy Twoja witryna jest indeksowalna, czy nie. Jeśli chcesz zablokować roboty indeksujące, nie jest to odpowiedni wpis. Możesz sprawdzić tę stronę pod kątem możliwych metod, ale ostatecznie nie jest możliwe odcięcie dostępu do treści publicznych.W tym poście skupimy się na sprawdzeniu, czy Twoje strony są indeksowalne, ponieważ chcesz, aby Twoje treści znajdowały się w głównych LLM podczas szkolenia i wyszukiwania "Right Now". Dla mnie szybkie sprawdzenie tego polega na przejściu do moich czterech najlepszych chatbotów AI i poproszeniu ich o dostęp do strony w naszej witrynie. Jeśli nie może, to mamy problem.Cloudflare również próbuje kilku rzeczy, które mnie niepokoją. Opiszę więcej na ten temat i sposoby testowania indeksowalności. Kolejne kroki i otwarte pytaniaTa przestrzeń szybko ewoluuje, a my przyjmujemy interaktywne podejście. Oto kilka pytań, nad którymi wciąż pracujemy:Które wyjścia Markdown powinny być obsługiwane?Jak wiele z tego jest już wykonywane przez duże boty AI? Prawdopodobnie buforują już Markdown dla popularnych witryn. Zdecydowanie narzędzia wykonują obecnie przeszukiwanie witryn na żądanie, więc na razie ma to znaczenie.Czy powinniśmy zastanowić się, czy ta zawartość powinna być hostowana przez nas? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.mdllms.txt - Śledzimy tę kwestię i na razie ją uwzględnimy. Później możemy to podwoić lub wycofać, jeśli crawlery pozostaną przy wersji robots.txtKiedy klient publikuje nowe strony w swojej witrynie, jak często powinniśmy je kontrolować i aktualizować? .md i .xml pliki?Czy powinniśmy zintegrować się z przepływem pracy opartym na Git, aby to ułatwić?Jak możemy najlepiej wspierać użytkowników WordPress ? Czy powinno to być zintegrowane z naszą wtyczką Total Cache?Mamy wiele do przepracowania, ale chcieliśmy podzielić się z Wami naszym kierunkiem i podnieść świadomość: sprzedaż tych narzędzi już rośnie. Już teraz są one ważne, a ich znaczenie będzie rosło w nadchodzących latach. Narzędzia Narzędzia AISEO AI SEO - Robots.txt, Markdown i jak dostawcy AI indeksują Twoje witryny Dowiedz się, w jaki sposób nowy AI SEO Helper firmy InMotion Hostingpomaga stronom internetowym pozostać widocznymi w ewoluujących wzorcach wyszukiwania opartych na sztucznej inteligencji. Dowiedz się, jak przygotować witrynę na roboty indeksujące LLM i zabezpieczyć swoją strategię SEO na przyszłość. Przeczytaj więcej Przewodniki Ultimate SEO Przewodnik po planowaniu i przeprowadzaniu migracji witryny na dużą skalę Planujesz migrację? Odkryj te porady ekspertów, aby zapewnić płynne przeniesienie witryny przy jednoczesnej ochronie SEO i wydajności. Przeczytaj więcej Przewodniki Ultimate SEO Jak nadać priorytet wydajności witryny dla SEO Dowiedz się, jak skutecznie migrować witrynę w celu uzyskania lepszej pozycji w rankingu. Odkryj opcje hostingu, które zwiększają wydajność SEO. Przeczytaj więcej Dodatkowe przewodniki i narzędziaBlogBądź na bieżąco z najnowszymi wiadomościami, wskazówkami i trendami dotyczącymi hostingu stron internetowych. Zapoznaj się z naszymi artykułami eksperckimi, aby zwiększyć swoją obecność online i utrzymać najlepszą wydajność swojej witryny.Odkryj nasz blogCentrum wsparciaUzyskaj całodobową pomoc od naszego oddanego zespołu wsparcia. Uzyskaj dostęp do bogactwa zasobów, samouczków i przewodników, aby szybko i skutecznie rozwiązać wszelkie problemy z hostingiem.Odwiedź nasze centrum wsparciaHosting zarządzanyPoznaj wydajne, bezpieczne i niezawodne rozwiązania hostingu zarządzanego. Pozwól naszym ekspertom zająć się szczegółami technicznymi, podczas gdy Ty będziesz się skupiać na rozwijaniu swojego biznesu.Dowiedz się więcej o hostingu zarządzanym Subskrybuj, aby otrzymywać najnowsze treści dotyczące witryny internetowej i hostingu bezpośrednio do swojej skrzynki odbiorczej: Uruchomienie strony internetowej jest łatwiejsze niż myśliszPoznaj hosting