File robots.txt: per cosa usarlo e gli errori più comuni

File robots.txt: per cosa usarlo e gli errori più comuni

Cos’è il file robots.txt

Il file robots.txt è un file di testo che contiene direttive di accesso al sito web rivolte ai bot (dei motori di ricerca e non solo). Lo scopo è quello di precludere l’accesso al sito, o ad alcune parti di esso, ai crawler in generale o solo ad alcuni di essi. Si tratta di uno standard, ideato nel 1994, che consente ai webmaster di richiedere ai bot automatici di non fare il crawling di pagine o intere sezioni di un sito internet.

Il file robots.txt rappresenta in realtà solo una linea guida. Ciò sta a significare che mentre i bot noti e affidabili (come quello di Google) seguono le direttive contenute nel file, non è detto che tutti i crawler facciano la stessa cosa. Ma vediamo per quale scopi utilizzare il file robots.txt e per quali invece no, sottolineando alcuni degli errori più comuni.

Non andremo invece ad analizzare la sintassi da utilizzare nella creazione e configurazione del robots.txt. Per questa si rimanda all’ottima guida Google. Sul sito robotstxt.org è invece possibile visionare, tra le altre cose, un database con nomi e dettagli di alcuni dei principali bot.

Per cosa usare il file robots.txt

Lo scopo delle direttive contenute nel file robots.txt (quindi ad esempio dell’inserimento del Disallow:) è quello di limitare il traffico di scansione su un sito web. Ciò consente di ridurre l’eventuale sovraccarico di un server, oltreché permette di non far fare “lavoro superfluo” al crawler, sottoponendo a scansione sezioni non importanti di un sito web (sprecando budget di scansione).

Dunque il fine per cui è stato implementato lo standard robots.txt, è quello di consentire ai gestori di un sito web di ottimizzarne i percorsi di scansione; offrendo più banda agli utenti da un lato, solo le pagine o sezioni importanti agli spider dall’altro.

Il file robots.txt può essere utilizzato anche per bloccare l’accesso al sito internet ai bot di determinati tools (per approfondirne alcuni aspetti, andare a vedere il post nascondere i backlink).

Si tratta quindi di uno strumento molto utile, ma che va usato con cautela. Se si bloccano infatti risorse utili al motore di ricerca per comprendere i nostri contenuti, ciò può avere conseguenze negative sul posizionamento del sito web. Vediamo quali sono gli errori più comuni associati all’utilizzo del file robots.txt.

Per cosa non usare il file robots.txt

Vediamo nel dettaglio quando o per cosa non usare il file robots.txt e gli errori più comuni da evitare.

  • No Index: servirsi del file robots.txt per impedire a una pagina di essere indicizzata nei risultati di Google è forse uno degli errori più diffusi. I processi di scansione e di indicizzazione sono infatti due processi distinti. Una pagina messa in Disallow può comunque finire per essere indicizzata, se magari è linkata altrove. Anzi, affinché una pagina non venga indicizzata dal motore di ricerca occorre che questa sia scansionabile (dunque niente Disallow). Per evitare l’indicizzazione di pagine e risorse servirsi di altri metodi, come il meta tag robots o l’intestazione HTTP X-Robots-Tag.
  • Rimuovere dall’Indice: si tratta di un errore collegato al precedente. Non servirsi delle direttive contenuti nel file robots.txt per rimuovere dall’indice una risorsa precedentemente indicizzata. Infatti bisogna dare via libera d’accesso allo spider affinché possa “visionare” il no-index fissato per una determinata pagina, oppure registrarne lo status code 404/410 (e così rimuovere la risorsa). Allo stesso modo, non mettere il Disallow in robots.txt per una pagina contenente la direttiva rel=canonical o un redirect attivo (il motore di ricerca non potrà visualizzarli).
  • Informazioni riservate: non usare il robots.txt per bloccare pagine o risorse confidenziali. Anche perché il robots.txt è pubblico e qualsiasi utente con un minimo di dimestichezza può visualizzarlo (basta ad esempio digitare nella barra seoholmes.it/robots.txt). Per nascondere pagine riservate, servirsi di altri sistemi (come la protezione mediante credenziali).
  • Sintassi: occhio alla sintassi corretta nel compilare il robots.txt. Evitare di ripetere direttive che possono essere esplicitate in modo più semplice (fare riferimento anche alla guida Google citata sopra). Ricordarsi inoltre che il robots.txt è case sensitive (fa differenza tra lettere maiuscole e minuscole).
  • Crawl-Delay: la direttiva crawl-delay consente di impostare il numero di secondi che i bot devono attendere tra due richieste consecutive. Si tratta di una direttiva molto utile per i portali continuamente visitati dai web crawler. Impostando il delay si tenta di prevenire il sovraccarico del server, derivante dalle costanti richieste dei bot. Occorre sapere però che Google ignora il parametro crawl-delay (ciò viene anche segnalato in Search Console, qualora lo si inserisse nel file robots.txt).

Lasciate che i bot vengano a voi

L’ultimo consiglio riguarda il non esagerare nel farsi prendere dalla smania “disallowatrice”. A meno che non si gestisce un sito di grandi dimensioni, non è essenziale mettere troppe risorse in Disallow (ciò può creare più problemi che benefici). La configurazione standard del file robots.txt di WordPress ad esempio, nella maggior parte dei casi è sufficiente.

In Search Console infine, trovate l’ottimo strumento Tester dei file robots.txt, che consente anche di verificare il blocco di determinati url.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *