Vai al contenuto
InMotion Hosting Logo InMotion Hosting Casa
Ti presentiamo il Programma Partner di InMotion Agency. Iscriviti gratis
  • Risorse
    Impara
    Confronta l'InMotion Hosting
    Centro risorse
    Blog
    Centro di assistenza
    Unisciti a noi
    Carriera
    Programma di affiliazione
    Programma dell'Agenzia
    Segnala amici
  • Contattaci
    +1 757 416 6575
    +44 2045 763722
    Chatta con il reparto vendite Chatta con il reparto vendite
    Richiedi assistenza Ottieni assistenza
    Contattaci
    Stato del sistema
  • Centro di assistenza
  • Login
  • Chat in diretta
  • Accesso AMP
  • Centro di assistenza
  • 0
Menu principale
    InMotion Hosting Logo InMotion Hosting Casa
  • VPS Hosting
  • Server dedicati
    Managed Dedicated Servers Proteggi la tua azienda con un'infrastruttura sicura e scalabile
    Server Bare Metal Soluzioni Bare Metal personalizzate per i carichi di lavoro unici di
    Server ad alta capacità I nostri server più potenti, pensati per carichi di lavoro pesanti e un'
    e elevata
    Server dedicati ecologici Server sostenibili a prezzi competitivi
  • WordPress
    Condivisa Hosting per WordPress Classico Hosting con e-mail e cPanel inclusi
    UltraStack ONE per WordPress Velocità superiore per siti mission-critical
    Hosting VPS per WordPress Server ottimizzati con controllo flessibile
    Visualizza tutte le soluzioni WordPress
  • Prodotti
    Hosting per siti web di qualsiasi dimensione
    Hostingcondiviso Parti forte con un hosting affidabile, un'assistenza reale e una piattaforma che scala con te
    Hosting per WordPress Hosting ottimizzato per WordPress con e-mail e cPanel inclusi
    HostingVPS Hosting flessibile e ad alte prestazioni con controllo completo
    Hostingsu server dedicato Proteggi la tua azienda con un'infrastruttura sicura e scalabile
    Hostingper rivenditori cPanel a marchio bianco per i rivenditori
    Componenti aggiuntivi per l'hosting Migliora il tuo hosting con strumenti per la sicurezza, la posta elettronica e altro ancora
    Visualizza tutti i siti web Hosting
  • Partner NUOVI
    Programma per i partner dell'agenzia
    Soluzioni di hosting per agenzie
  • Servizi
    Hosting gestito
    Gestione del server Assistenza strategica e soluzioni personalizzate per amministratori di sistema
    Servizi di web design
    Design di siti web personalizzati Distinguiti con un design personalizzato per il tuo marchio
    QuickSite Siti web di qualità progettati a partire da modelli premium
    Ricostruzione del sito web Modernizza il tuo sito legacy per ottenere prestazioni e crescita
    Visualizza tutti i servizi del sito web
    Servizi di manutenzione
    Piani di manutenzione Mantieni il tuo sito WordPress in perfetta efficienza
    Servizi SEO Fatti trovare, aumenta il traffico, classificati meglio
    Ottimizzazione della velocità Migliora il tempo di caricamento e le prestazioni
    Riparazione del sito hackerato Esperto in rimozione di malware e ripristino di siti web
  • 0 Carrello
    • $ USD
    • € EUR
  • Avvia una chat dal vivo
  • Richiedi assistenza
  • +1 757 416 6575
  • +44 2045 763722
  • +1 757 416 6575
    +44 2045 763722
  • Centro di assistenza
  • 0 Carrello
  • Login
Strumenti

AI SEO - Robots.txt, Markdown e il modo in cui i fornitori di AI effettuano il crawling dei tuoi siti

Scopri come il nuovo AI SEO Helper di InMotion Hostingaiuta i siti web a rimanere visibili nei modelli di ricerca in evoluzione guidati dall'intelligenza artificiale. Scopri come preparare il tuo sito per i crawler LLM e come rendere la tua strategia SEO a prova di futuro.

Scritto da:
Todd Robinson -
Menu
  • Centro risorse
  • Casi di studio
  • Download
    • eBook
    • Infografiche
  • Guide definitive
  • Video
  • Strumenti
  • Chat di vendita

Nota bene: questo articolo documenta la visione di un prodotto e di uno standard che vediamo emergere sul mercato. Il suo scopo è quello di aiutare i clienti e noi stessi a capire come rispondere e sfruttare la potenza dei nuovi sistemi di intelligenza artificiale e l'evoluzione dei modelli di ricerca. È un lavoro in corso! Con questo, il nostro annuncio.

Stiamo lanciando un nuovo servizio per aiutare i nostri clienti e gli altri gestori di siti web professionali ad affrontare i cambiamenti apportati dai fornitori di intelligenza artificiale che gestiscono sempre più spesso le query di ricerca. Noi stessi utilizziamo un processo che vogliamo condividere per garantire che il tuo sito sia pronto per l'AI. Per ora lo chiamiamo InMotion AI SEO Helper.

In questo post, farò riferimento sia al nostro sito web che a un insieme di siti web anonimizzati. In qualità di società di hosting, possiamo vedere gli schemi aggregati di molti siti e questi schemi corrispondono molto bene a ciò che accade sul sito inmotionhosting.com.

Potrai utilizzare una versione parziale di AI SEO Helper direttamente dal nostro sito web all'indirizzo inmotionhosting.com/services/ai-seo-helper per farti un'idea del suo funzionamento. Se hai bisogno di più di quello che ti viene fornito, dovrai registrarti gratuitamente per utilizzare l'AI SEO Helper completo. Ti ricordiamo che in caso di contrazione delle risorse, i nostri clienti hanno la priorità assoluta nel sistema.

Lo strumento controllerà il tuo sito web e (secondo il piano attuale) farà quanto segue alla versione 2. La versione 1 avrà un sottoinsieme, ovviamente:

  • Assicurati che il sito abbia un robots.txt e identificare ciò che manca
  • Assicurati che il sito abbia un sitemap.xml e identificare ciò che manca
  • Controlla la presenza di .md file
  • Controlla se il sito include un llms.txt file* (si veda la nota sottostante sull'avvertenza)
  • Verifica che il sito non stia bloccando involontariamente i crawler di LLM.

Come già detto, lo strumento identifica ciò che potrebbe mancare. A questo punto, non si sa al 100% cosa sia necessario fare perché si tratta di uno standard in evoluzione.

Il nostro punto di vista su "ciò che dovrebbe essere fatto" per aiutare i crawler per gli strumenti di intelligenza artificiale si basa sulla nostra esperienza attuale. I link alle risorse di supporto verranno pubblicati man mano, quindi perdona la mancanza di link per il momento.

 

Strisciare, addestrare, cercare - più nuove vendite

Iniziamo con questo: le vendite stanno già arrivando grazie a questi nuovi modelli di ricerca. Le persone si rivolgono al loro chatbot AI preferito, fanno ricerche con l'intenzione di acquistare e arrivano ai nostri siti per completare l'acquisto. Questo è un dato di fatto che ho potuto constatare personalmente. Il modello non è ancora ben chiaro e non è nemmeno chiaro quanto di questo flusso di acquisti si sposterà dalle ricerche su Google a ChatGPT e simili.

Le informazioni riportate di seguito illustrano ciò che stiamo vedendo. Non sto parlando del fatto che i siti web, i documenti, i libri, ecc. debbano essere utilizzati per formare i LLM senza che questi ultimi diano la possibilità di sapere su cosa sono stati formati. Ho le mie opinioni in merito che pubblicherò in un'altra occasione, poiché si tratta di una preoccupazione legittima. Per questa discussione, sto parlando di siti web che hanno già accettato specificamente che Google e i suoi colleghi effettuino il crawling e l'ingestione delle loro informazioni allo scopo di inviare visitatori al loro sito per ottenere un guadagno economico.

Il crawling dei siti viene effettuato da molte "aziende di AI". Diversi attori importanti, tra cui OpenAI e Anthropic, hanno fornito indicazioni su come rispettano robots.txt e quali sono i loro User-Agent si presenterà al tuo server web. Abbiamo osservato questa attività nei log del server.

Non è chiaro se ci sarà uno schema diverso tra le ricerche per l'inclusione nei set di dati per la formazione e le ricerche dovute a esigenze informative "immediate". Le esigenze informative "immediate" sono definite come:

  • Parallel Page Crawls - quando un utente di Anthropic o ChatGPT chiede a un determinato servizio, come Deep Research, di eseguire delle ricerche, il processo prevede la visita parallela di molte pagine che il LLM dovrà poi valutare.
  • Dati recenti necessari - quando un utente cerca informazioni che probabilmente non sono aggiornate nel set di dati di lavoro del LLM, quest'ultimo controlla i siti web al volo per raccogliere informazioni recenti.
  • Richiesta specifica - quando un utente chiede specificamente che determinate informazioni, come una pagina web o un video, vengano ingerite dal LLM e riassunte per l'utilizzo.
  • Altri motivi

I crawl "in questo momento" avvengono con un certo livello di urgenza che si manifesta in rapide richieste parallele di pagine al tuo sito web. Potremmo desiderare che questi servizi misurino di più le loro richieste, ma realisticamente stanno cercando di soddisfare un obiettivo di esperienza utente e accelerare il processo di raccolta dei dati è un modo semplice per contribuire a questo obiettivo.

In ogni caso, quando una pagina viene strisciata, lo scopo principale è quello di ingerire la pagina e convertirla in un formato pronto per l'uso. Nella sua forma più semplice, viene convertita in Markdown. Il Markdown è una rappresentazione testuale del contenuto della pagina, compresa una rappresentazione testuale di tabelle e immagini. Esistono diversi sistemi popolari che eseguono questa operazione, ma ogni strumento di crawling la esegue in modo diverso. Quelli open source sono disponibili per essere valutati. Quelli dietro le quinte dei servizi sono meno evidenti, ma ci aspettiamo che utilizzino una delle librerie più diffuse.

Oltre ai crawl di una singola pagina, vediamo che i crawler sono progettati per leggere le pagine sitemap.xml file. A partire da questo, può quindi effettuare il crawling di ogni URL e produrre il file Markdown da abbinare. In genere si tratta di un file .md per ognuna delle pagine crawlate.

Ad esempio, prendiamo una pagina chiamata "about-us". Potrebbe essere una pagina statica o una pagina creata da un'applicazione web o creata lato server come WordPress. Tuttavia, è stata resa nel browser. Questa pagina è ricca di grafica, colori, layout, immagini, ecc. che una persona può leggere e assimilare. Per i casi d'uso più comuni, i LLM hanno bisogno di tradurre questi contenuti ricchi in Markdown per poterli assimilare facilmente.

Per il nostro sistema, produrrà alcuni di questi file sotto forma di URL pubblici con la seguente probabile struttura di file:

  • /inmotion-ai-helper/openai/directory/about-us.md
  • /inmotion-ai-helper/claude/directory/about-us.md
  • /inmotion-ai-helper/gemini/directory/about-us.md
  • /inmotion-ai-helper/opencrawl/directory/about-us.md
  • /inmotion-ai-helper/crawl4ai/directory/about-us.md
  • /inmotion-ai-helper/docling/directory/about-us.md

Come puoi vedere, ci sono diversi crawler popolari. Ne tratteremo alcuni nei prossimi video di valutazione tecnica e nei post che pubblicheremo man mano che procederemo con le nostre valutazioni. Il punto principale, però, è che il nostro piano prevede di utilizzare i singoli crawler per produrre un .md specifico per esso. Allora quel crawler può semplicemente leggere quel .md file. Questo renderà il tutto molto, molto più veloce e impedirà a ogni azienda che utilizza questo crawler di dover elaborare la stessa pagina per il .md file.

Da parte nostra, osserveremo gli aggiornamenti principali dei crawler e potremo attivare gli aggiornamenti del sito. .md occasionalmente. Stiamo pensando alla frequenza con cui questo potrebbe avvenire o anche se possiamo lasciare che sia il crawler stesso a innescare un nuovo aggiornamento dei file. .md utilizzando una semplice chiamata API al nostro servizio.

Inoltre, lavoreremo con gli stessi fornitori di crawler per capire cosa potrebbe aiutarli.

 

LLMs.txt vs Robots.txt

Un po' di tempo fa il concetto di avere una guida specifica per i LLM da caricare in un nuovo llms.txt simile al file robots.txt file. Il dibattito ora è se un file specifico sia la scelta giusta. I crawler sono robot e quelli ben scritti rispettano già il robots.txt. L'idea di un file llms.txt La prima volta che l'ho letto mi è sembrato sensato, ma dopo aver riflettuto sul problema, mi sembra che sia già risolto dal robots.txt o che dovrebbe essere risolto con alcune piccole aggiunte al file robots.txt.

Ecco alcuni esempi tratti dal nostro llms.txt sul sito inmotionhosting.com. Per il momento non voglio entrare nel merito della questione e lascio che sia il modello di utilizzo ad aiutarci. Al momento, la quantità di accessi a quel file non è realmente misurabile rispetto al traffico del sito e alle richieste di robots.txt. Al momento, quindi, non si tratta di un problema, ma continueremo a tenerlo sotto controllo. L'idea è comunque giusta e speriamo che i crawler inizino a rispettare l'uno o l'altro.

Esempio di file LLMs.txt di InMotion Hosting

 

Blocco intenzionale o accidentale dei crawler

È importante sapere se il tuo sito web è crawlabile o meno. Se vuoi bloccare i crawler, questo non è il post adatto. Puoi dare un'occhiata a questa pagina per conoscere i metodi possibili, ma alla fine non è possibile bloccare l'accesso ai contenuti pubblici.

Per questo post, ci concentriamo sul sapere se le tue pagine sono crawlabili perché vuoi che i tuoi contenuti siano presenti nei principali LLM durante la formazione e durante le ricerche "Right Now". Per me, un rapido controllo consiste nell'entrare nei miei quattro principali chatbot AI e chiedergli di accedere a una pagina del nostro sito. Se non ci riesce, abbiamo un problema.

Anche Cloudflare sta sperimentando alcune cose che mi preoccupano. Pubblicherò ulteriori informazioni su questo argomento e sui modi per testare la crawlabilità.

 

Prossimi passi e domande aperte

Questo spazio è in rapida evoluzione e stiamo adottando un approccio interattivo. Ecco alcune domande su cui stiamo ancora lavorando:

  • Quali output Markdown dovremmo supportare?
  • Quanto di questo viene già fatto dai grandi bot AI? È probabile che stiano già mettendo in cache il Markdown per i siti più popolari. Sicuramente gli strumenti stanno effettuando crawl di siti su richiesta, quindi per ora è importante.
  • Dobbiamo pensare se questi contenuti debbano essere ospitati solo da noi? ai-helper-cdn.inmotionhosting.com/sitename/openai/directory/filename.md
  • llms.txt - Stiamo monitorando questo aspetto e lo includeremo per il momento. In un secondo momento potremo raddoppiarla o deprezzarla se i crawler si atterranno al modello robots.txt
  • Quando un cliente pubblica nuove pagine sul proprio sito, con quale frequenza dobbiamo verificare e aggiornare il .md e .xml file?
  • Dovremmo integrare un flusso di lavoro basato su Git per rendere tutto più semplice?
  • Come possiamo supportare al meglio gli utenti di WordPress ? Dovrebbe integrarsi con il nostro plugin Total Cache?

Dobbiamo lavorare molto, ma volevamo condividere la nostra direzione e sensibilizzare l'opinione pubblica: le vendite di questi strumenti stanno già arrivando. Sono già importanti e lo saranno sempre di più negli anni a venire.

Strumenti

Strumenti AI

SEO

AI SEO - Robots.txt, Markdown e il modo in cui i fornitori di AI effettuano il crawling dei tuoi siti

Scopri come il nuovo AI SEO Helper di InMotion Hostingaiuta i siti web a rimanere visibili nei modelli di ricerca in evoluzione guidati dall'intelligenza artificiale. Scopri come preparare il tuo sito per i crawler LLM e come rendere la tua strategia SEO a prova di futuro.

Leggi tutto

Guide definitive

SEO

Guida alla tempistica e all'esecuzione di una migrazione del sito su larga scala

Stai pianificando una migrazione? Scopri i consigli degli esperti per garantire un trasferimento del sito senza problemi, proteggendo la SEO e le prestazioni.

Leggi tutto

Guide definitive

SEO

Come dare priorità alle prestazioni del sito web per la SEO

Scopri come migrare il tuo sito web in modo efficace per migliorare il posizionamento. Scopri le opzioni di hosting che migliorano le prestazioni SEO.

Leggi tutto

Guide e strumenti aggiuntivi

Blog

Rimani aggiornato sulle ultime notizie, consigli e tendenze del web hosting. Esplora i nostri articoli di esperti per migliorare la tua presenza online e far sì che il tuo sito web funzioni al meglio.

Esplora il nostro blog

Centro di assistenza

Ricevi assistenza 24 ore su 24, 7 giorni su 7 dal nostro team di supporto dedicato. Accedi a un'infinità di risorse, tutorial e guide per risolvere qualsiasi problema di hosting in modo rapido ed efficiente.

Visita il nostro Centro di assistenza

Hosting gestito

Prova le soluzioni di hosting gestito ad alte prestazioni, sicure e affidabili. Lascia che i nostri esperti si occupino dei dettagli tecnici mentre tu ti concentri sulla crescita della tua attività.

Scopri l'hosting gestito

Iscriviti per ricevere i nostri ultimi contenuti su siti web e hosting direttamente nella tua casella di posta elettronica:

Lanciare il tuo sito web è più facile di quanto pensi

Esplora l'hosting

InMotion Hosting Logo

InMotionHosting.com fornisce web hosting, soluzioni basate su cloud e servizi gestiti ad aziende e imprenditori di tutto il mondo.

Seguici

  • English
  • Español
  • Nederlands
  • Deutsch
  • Français
  • 中文 (简体)
  • 中文 (繁體)
  • Türkçe
  • Ελληνικά
  • हिंदी
  • Українська
  • Português (Brasil)
  • Português
  • Polski
  • Русский
  • $ USD
  • € EUR
Hosting web
  • Hosting condiviso
  • Hosting per WordPress
  • Hosting gestito per WordPress
  • UltraStack ONE per WordPress
  • Hosting VPS
  • Cloud VPS
  • Hosting su server dedicato
  • Server Bare Metal
  • Soluzioni di hosting aziendale
  • OpenMetal Cloud IaaS
  • Hosting per rivenditori
  • Rivenditore VPS
  • Hosting server Minecraft
  • Hosting eCommerce
  • RamNode Cloud
  • InMotion Cloud
  • Prezzi
Strumenti di hosting
  • WordPress
  • Hosting WooCommerce
  • Drupal Hosting
  • Joomla Hosting
  • cPanel Hosting
  • Hosting PHP
  • Magento Hosting
  • PrestaShop Hosting
  • Laravel Hosting
  • Hosting Ubuntu
  • Hosting Linux
  • Cruscotto WebPro
  • WordPress Costruttore di siti web
  • Nomi di dominio
  • Email professionale
Supporto
  • Chat in diretta
  • +1 757 416 6575
  • +44 2045 763722
  • Centro di assistenza
  • Risorse
  • Supporto alla comunità
  • WordPress Tutorial
  • Guida RamNode
  • Soluzioni InMotion
  • Hosting gestito
  • Migrazioni di siti web
  • Sedi dei centri dati
  • Centro dati di Los Angeles
  • Centro dati di Ashburn
  • Centro dati di Amsterdam
Chi siamo
  • Contattaci
  • Chi siamo
  • Blog
  • Notizie
  • Carriera
  • Programma di affiliazione
  • Segnala un amico
  • Hosting web per studenti
  • Mappa del sito
  • Impostazioni dei cookie
  • Impostazioni di accessibilità (ADA)

Copyright© 2002-2026 InMotion Hosting, Inc. Tutti i diritti riservati. InMotionHosting® è un marchio registrato di InMotion Hosting, Inc.

Termini di servizio Informativa sulla privacy DPA | Dichiarazione di accessibilità Richieste legali
Non vendere le mie informazioni personali Limitare l'uso dei miei dati personali sensibili

Continuando a visitare qualsiasi pagina web di questo sito, ogni visitatore accetta l'uso dei cookie e delle tecnologie di tracciamento e accetta inoltre di rispettare i nostri Termini di servizio universali, l'Informativa sulla privacy, l'Informativa sui cookie e qualsiasi altro termine e politica pubblicati su questo sito.