Crawler SEO AI - Robots.txt, Markdown e Fornitori AI

Nota bene: questo articolo documenta la visione di un prodotto e di uno standard che vediamo emergere sul mercato. Il suo scopo è quello di aiutare i clienti e noi stessi a capire come rispondere e sfruttare la potenza dei nuovi sistemi di intelligenza artificiale e l'evoluzione dei modelli di ricerca. È un lavoro in corso! Con questo, il nostro annuncio.

Stiamo lanciando un nuovo servizio per aiutare i nostri clienti e gli altri gestori di siti web professionali ad affrontare i cambiamenti apportati dai fornitori di intelligenza artificiale che gestiscono sempre più spesso le query di ricerca. Noi stessi utilizziamo un processo che vogliamo condividere per garantire che il tuo sito sia pronto per l'AI. Per ora lo chiamiamo InMotion AI SEO Helper.

In questo post, farò riferimento sia al nostro sito web che a un insieme di siti web anonimizzati. In qualità di società di hosting, possiamo vedere gli schemi aggregati di molti siti e questi schemi corrispondono molto bene a ciò che accade sul sito inmotionhosting.com.

Potrai utilizzare una versione parziale di AI SEO Helper direttamente dal nostro sito web all'indirizzo inmotionhosting.com/services/ai-seo-helper per farti un'idea del suo funzionamento. Se hai bisogno di più di quello che ti viene fornito, dovrai registrarti gratuitamente per utilizzare l'AI SEO Helper completo. Ti ricordiamo che in caso di contrazione delle risorse, i nostri clienti hanno la priorità assoluta nel sistema.

Lo strumento controllerà il tuo sito web e (secondo il piano attuale) farà quanto segue alla versione 2. La versione 1 avrà un sottoinsieme, ovviamente:

Assicurati che il sito abbia un robots.txt e identificare ciò che manca
Assicurati che il sito abbia un sitemap.xml e identificare ciò che manca
Controlla la presenza di .md file
Controlla se il sito include un llms.txt file* (si veda la nota sottostante sull'avvertenza)
Verifica che il sito non stia bloccando involontariamente i crawler di LLM.

Come già detto, lo strumento identifica ciò che potrebbe mancare. A questo punto, non si sa al 100% cosa sia necessario fare perché si tratta di uno standard in evoluzione.

Il nostro punto di vista su "ciò che dovrebbe essere fatto" per aiutare i crawler per gli strumenti di intelligenza artificiale si basa sulla nostra esperienza attuale. I link alle risorse di supporto verranno pubblicati man mano, quindi perdona la mancanza di link per il momento.

Strisciare, addestrare, cercare - più nuove vendite

Iniziamo con questo: le vendite stanno già arrivando grazie a questi nuovi modelli di ricerca. Le persone si rivolgono al loro chatbot AI preferito, fanno ricerche con l'intenzione di acquistare e arrivano ai nostri siti per completare l'acquisto. Questo è un dato di fatto che ho potuto constatare personalmente. Il modello non è ancora ben chiaro e non è nemmeno chiaro quanto di questo flusso di acquisti si sposterà dalle ricerche su Google a ChatGPT e simili.

Le informazioni riportate di seguito illustrano ciò che stiamo vedendo. Non sto parlando del fatto che i siti web, i documenti, i libri, ecc. debbano essere utilizzati per formare i LLM senza che questi ultimi diano la possibilità di sapere su cosa sono stati formati. Ho le mie opinioni in merito che pubblicherò in un'altra occasione, poiché si tratta di una preoccupazione legittima. Per questa discussione, sto parlando di siti web che hanno già accettato specificamente che Google e i suoi colleghi effettuino il crawling e l'ingestione delle loro informazioni allo scopo di inviare visitatori al loro sito per ottenere un guadagno economico.

Il crawling dei siti viene effettuato da molte "aziende di AI". Diversi attori importanti, tra cui OpenAI e Anthropic, hanno fornito indicazioni su come rispettano robots.txt e quali sono i loro User-Agent si presenterà al tuo server web. Abbiamo osservato questa attività nei log del server.

Non è chiaro se ci sarà uno schema diverso tra le ricerche per l'inclusione nei set di dati per la formazione e le ricerche dovute a esigenze informative "immediate". Le esigenze informative "immediate" sono definite come:

Parallel Page Crawls - quando un utente di Anthropic o ChatGPT chiede a un determinato servizio, come Deep Research, di eseguire delle ricerche, il processo prevede la visita parallela di molte pagine che il LLM dovrà poi valutare.
Dati recenti necessari - quando un utente cerca informazioni che probabilmente non sono aggiornate nel set di dati di lavoro del LLM, quest'ultimo controlla i siti web al volo per raccogliere informazioni recenti.
Richiesta specifica - quando un utente chiede specificamente che determinate informazioni, come una pagina web o un video, vengano ingerite dal LLM e riassunte per l'utilizzo.
Altri motivi

I crawl "in questo momento" avvengono con un certo livello di urgenza che si manifesta in rapide richieste parallele di pagine al tuo sito web. Potremmo desiderare che questi servizi misurino di più le loro richieste, ma realisticamente stanno cercando di soddisfare un obiettivo di esperienza utente e accelerare il processo di raccolta dei dati è un modo semplice per contribuire a questo obiettivo.

In ogni caso, quando una pagina viene strisciata, lo scopo principale è quello di ingerire la pagina e convertirla in un formato pronto per l'uso. Nella sua forma più semplice, viene convertita in Markdown. Il Markdown è una rappresentazione testuale del contenuto della pagina, compresa una rappresentazione testuale di tabelle e immagini. Esistono diversi sistemi popolari che eseguono questa operazione, ma ogni strumento di crawling la esegue in modo diverso. Quelli open source sono disponibili per essere valutati. Quelli dietro le quinte dei servizi sono meno evidenti, ma ci aspettiamo che utilizzino una delle librerie più diffuse.

Oltre ai crawl di una singola pagina, vediamo che i crawler sono progettati per leggere le pagine sitemap.xml file. A partire da questo, può quindi effettuare il crawling di ogni URL e produrre il file Markdown da abbinare. In genere si tratta di un file .md per ognuna delle pagine crawlate.

Ad esempio, prendiamo una pagina chiamata "about-us". Potrebbe essere una pagina statica o una pagina creata da un'applicazione web o creata lato server come WordPress. Tuttavia, è stata resa nel browser. Questa pagina è ricca di grafica, colori, layout, immagini, ecc. che una persona può leggere e assimilare. Per i casi d'uso più comuni, i LLM hanno bisogno di tradurre questi contenuti ricchi in Markdown per poterli assimilare facilmente.

Per il nostro sistema, produrrà alcuni di questi file sotto forma di URL pubblici con la seguente probabile struttura di file:

/inmotion-ai-helper/openai/directory/about-us.md
/inmotion-ai-helper/claude/directory/about-us.md
/inmotion-ai-helper/gemini/directory/about-us.md
/inmotion-ai-helper/opencrawl/directory/about-us.md
/inmotion-ai-helper/crawl4ai/directory/about-us.md
/inmotion-ai-helper/docling/directory/about-us.md

Come puoi vedere, ci sono diversi crawler popolari. Ne tratteremo alcuni nei prossimi video di valutazione tecnica e nei post che pubblicheremo man mano che procederemo con le nostre valutazioni. Il punto principale, però, è che il nostro piano prevede di utilizzare i singoli crawler per produrre un .md specifico per esso. Allora quel crawler può semplicemente leggere quel .md file. Questo renderà il tutto molto, molto più veloce e impedirà a ogni azienda che utilizza questo crawler di dover elaborare la stessa pagina per il .md file.

Da parte nostra, osserveremo gli aggiornamenti principali dei crawler e potremo attivare gli aggiornamenti del sito. .md occasionalmente. Stiamo pensando alla frequenza con cui questo potrebbe avvenire o anche se possiamo lasciare che sia il crawler stesso a innescare un nuovo aggiornamento dei file. .md utilizzando una semplice chiamata API al nostro servizio.

Inoltre, lavoreremo con gli stessi fornitori di crawler per capire cosa potrebbe aiutarli.

LLMs.txt vs Robots.txt

Un po' di tempo fa il concetto di avere una guida specifica per i LLM da caricare in un nuovo llms.txt simile al file robots.txt file. Il dibattito ora è se un file specifico sia la scelta giusta. I crawler sono robot e quelli ben scritti rispettano già il robots.txt. L'idea di un file llms.txt La prima volta che l'ho letto mi è sembrato sensato, ma dopo aver riflettuto sul problema, mi sembra che sia già risolto dal robots.txt o che dovrebbe essere risolto con alcune piccole aggiunte al file robots.txt.

Ecco alcuni esempi tratti dal nostro llms.txt sul sito inmotionhosting.com. Per il momento non voglio entrare nel merito della questione e lascio che sia il modello di utilizzo ad aiutarci. Al momento, la quantità di accessi a quel file non è realmente misurabile rispetto al traffico del sito e alle richieste di robots.txt. Al momento, quindi, non si tratta di un problema, ma continueremo a tenerlo sotto controllo. L'idea è comunque giusta e speriamo che i crawler inizino a rispettare l'uno o l'altro.

Esempio di file LLMs.txt di InMotion Hosting

Blocco intenzionale o accidentale dei crawler

È importante sapere se il tuo sito web è crawlabile o meno. Se vuoi bloccare i crawler, questo non è il post adatto. Puoi dare un'occhiata a questa pagina per conoscere i metodi possibili, ma alla fine non è possibile bloccare l'accesso ai contenuti pubblici.

Per questo post, ci concentriamo sul sapere se le tue pagine sono crawlabili perché vuoi che i tuoi contenuti siano presenti nei principali LLM durante la formazione e durante le ricerche "Right Now". Per me, un rapido controllo consiste nell'entrare nei miei quattro principali chatbot AI e chiedergli di accedere a una pagina del nostro sito. Se non ci riesce, abbiamo un problema.

Anche Cloudflare sta sperimentando alcune cose che mi preoccupano. Pubblicherò ulteriori informazioni su questo argomento e sui modi per testare la crawlabilità.

Prossimi passi e domande aperte

Questo spazio è in rapida evoluzione e stiamo adottando un approccio interattivo. Ecco alcune domande su cui stiamo ancora lavorando:

Quali output Markdown dovremmo supportare?
Quanto di questo viene già fatto dai grandi bot AI? È probabile che stiano già mettendo in cache il Markdown per i siti più popolari. Sicuramente gli strumenti stanno effettuando crawl di siti su richiesta, quindi per ora è importante.
Dobbiamo pensare se questi contenuti debbano essere ospitati solo da noi? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
llms.txt - Stiamo monitorando questo aspetto e lo includeremo per il momento. In un secondo momento potremo raddoppiarla o deprezzarla se i crawler si atterranno al modello robots.txt
Quando un cliente pubblica nuove pagine sul proprio sito, con quale frequenza dobbiamo verificare e aggiornare il .md e .xml file?
Dovremmo integrare un flusso di lavoro basato su Git per rendere tutto più semplice?
Come possiamo supportare al meglio gli utenti di WordPress ? Dovrebbe integrarsi con il nostro plugin Total Cache?

Dobbiamo lavorare molto, ma volevamo condividere la nostra direzione e sensibilizzare l'opinione pubblica: le vendite di questi strumenti stanno già arrivando. Sono già importanti e lo saranno sempre di più negli anni a venire.

Strumenti

Strumenti AI

SEO

AI SEO - Robots.txt, Markdown e il modo in cui i fornitori di AI effettuano il crawling dei tuoi siti

Scopri come il nuovo AI SEO Helper di InMotion Hostingaiuta i siti web a rimanere visibili nei modelli di ricerca in evoluzione guidati dall'intelligenza artificiale. Scopri come preparare il tuo sito per i crawler LLM e come rendere la tua strategia SEO a prova di futuro.

Guide definitive

SEO

Guida alla tempistica e all'esecuzione di una migrazione del sito su larga scala

Stai pianificando una migrazione? Scopri i consigli degli esperti per garantire un trasferimento del sito senza problemi, proteggendo la SEO e le prestazioni.

Guide definitive

SEO

Come dare priorità alle prestazioni del sito web per la SEO

Scopri come migrare il tuo sito web in modo efficace per migliorare il posizionamento. Scopri le opzioni di hosting che migliorano le prestazioni SEO.

Guide e strumenti aggiuntivi

Blog

Rimani aggiornato sulle ultime notizie, consigli e tendenze del web hosting. Esplora i nostri articoli di esperti per migliorare la tua presenza online e far sì che il tuo sito web funzioni al meglio.

Esplora il nostro blog

Centro di assistenza

Ricevi assistenza 24 ore su 24, 7 giorni su 7 dal nostro team di supporto dedicato. Accedi a un'infinità di risorse, tutorial e guide per risolvere qualsiasi problema di hosting in modo rapido ed efficiente.

Visita il nostro Centro di assistenza

Hosting gestito

Prova le soluzioni di hosting gestito ad alte prestazioni, sicure e affidabili. Lascia che i nostri esperti si occupino dei dettagli tecnici mentre tu ti concentri sulla crescita della tua attività.

Scopri l'hosting gestito

Iscriviti per ricevere i nostri ultimi contenuti su siti web e hosting direttamente nella tua casella di posta elettronica:

Lanciare il tuo sito web è più facile di quanto pensi

Esplora l'hosting