Cosa sono e a che cosa servono i File Robots.txt?

Se avete sentito parlare ancora di questi file (cosa molto probabile) conoscete, almeno di fama, quanto essi sono importanti per un sito che funzioni bene.

Infatti ottimizzare un sito web lato SEO non significa solo creare contenuti di qualità e utilizzare le giuste parole chiave: certo, questi sono aspetti fra quelli fondamentali, ma gestire un sito che raggiunga i primi posti su Google significa anche curare la SEO tecnica.

I File Robots.txt vengono in gioco proprio relativamente alla parte di ottimizzazione SEO tecnica del sito web.

Trascurare questa parte fondamentale significa incorrere il rischio di non ottimizzare bene il sito: dobbiamo quindi capire cosa è un file robots.txt, come si usa e a cosa serve, in che modo configurarlo per garantire il risultato migliore al sito web, quale è la sua importanza per la SEO.

Cosa è un file robots.txt e a che cosa serve

Il file robots.txt è noto anche in italiano con il nome di ‘protocollo di esclusione robot’. Si tratta semplicemente di uno standard, nato nel 1994, con lo scopo di comunicare un determinato messaggio ai crawler, ovvero i software che scansionano senza sosta il web per trovare e leggere i contenuti e permettere agli utenti di trovare quello che stanno cercando.

Un breve accenno ai crawler è necessario per comprendere quanto i file robots.txt siano importanti: gli spider, bot o crawler a seconda del nome che si sceglie, sono software completamente automatici che scansionano le pagine dei siti web e che leggono i contenuti dei siti e delle loro pagine.

In sostanza, il file robots.txt è un file di testo (come si capisce dalla sua estensione), che ha lo scopo di contenere una serie di informazioni, indicando al crawler che aree del sito debbano essere scansionate e quali invece no.

Come una specie di ambasciatore, il file robots.txt comunica con il crawler e consente quindi al webmaster di mostrare solo alcune parti del sito, nascondendone altre che non vuole che vengano indicizzate: ovvero, queste parti nascoste del sito web continuano a far parte della pagina, in quanto non vengono eliminate, ma non sono mostrate ai visitatori.

Il tutto grazie al lavoro del file robots.txt che, se correttamente configurato, comunica precisamente al crawler cosa deve apparire e che cosa invece deve restare sommerso.

Le informazioni che il file robots.txt sono comunicate ai crawler prima ancora che questi comincino a scansionare il materiale.

Il file robots.txt comunica al bot che in quella pagina ci sono aree, più o meno grandi, che non devono essere scansionate. Questa comunicazione avviene prima della fase di scansione in quanto contiene un preciso ordine al bot di non leggere una certa zona del sito. Non facendolo, quel particolare contenuto non sarà mai indicizzato, e quindi non sarà posizionato: in sostanza, sarà invisibile, quindi nessun utente collegandosi al sito potrà vedere quella parte della pagina o quelle pagine del sito web.

Conviene riportare che tutti i bot usati dai motori di ricerca principali (come Google, Yahoo e via dicendo) considerano le informazioni dei file robots.txt e le rispettano, anche se qualche volta può avvenire che ciò venga meno.

Scrivere correttamente il file robots.txt: qualche istruzione utile

Il file robots.txt è un protocollo: ha quindi regole precise, se non si rispettano i bot rischiano di non leggerlo e quindi ignoreranno l’ordine che è in esso contenuto.

Le regole del protocollo, quindi, devono essere sempre rispettate altrimenti le indicazioni in esse contenute non saranno chiare per i Bot che scansioneranno e indicizzeranno tutti i contenuti senza distinzione.

Di conseguenza perché il file robots.txt funzioni è necessario rispettare le seguenti regole di sintassi:

  • usare un file di testo con codifica caratteri UTF-8
  • mantenere il rispetto delle minuscole maiuscole e delle nella scrittura
  • le istruzioni vanno fornite in righe separate, se sono più di una
  • le istruzioni sono lette secondo la logica top-down
  • un file robots.txt senza indicazioni fa sì che il bot scansioni tutte le pagine
  • se si inseriscono dei commenti nel file robots.txt bisogna precederli con un #.

Non solo. È importante anche inserire correttamente il file all’interno dell’url del sito se si vuole che i Bot lo leggano correttamente.

Ma dove va inserito il file robots.txt perché possa correttamente funzionare? Attenzione: impostare correttamente il file robots.txt è fondamentale perché se esso non viene posizionato bene, il bot del motore di ricerca lo ignorerà semplicemente e quindi la pagina comparirà. Il modo corretto di inserire il file robots.txt è all’interno della root del sito.

Vogliamo fare un esempio:

User-agent: *
Disallow: /wp-admin/

Questo sono le istruzioni corrette per un file robots.txt di un sito WordPress.

Se avete dei sottodomini, dovete creare diverse file robots.txt. Errori di scrittura all’interno della root non permettono ai Bot di leggere correttamente il file robots.txt.