Home Aggiungi un sito
Registrati Accedi

Il file robots.txt

Il file robots.txt si crea per definire delle regole restrittive rivolte agli spider o crawler che si trovino a scandagliare il nostro sito internet e può essere utilizzato anche per segnalargli la nostra sitemap che è cosa ben più utile.
Una volta creato il file robots.txt deve essere collocato rigorosamente nella directory principale del nostro sito poichè è li che gli spider andranno a cercarlo. Il protocollo di un file robots.txt è estremamente semplice e permette di definire lo specifico robot al quale applicare la regola e la directory o pagina da non indicizzare. Ogni riga del file deve contenere un record che a sua volta deve contenere l'user agent a cui si rivolge e i file o percorsi da escludere dall'indicizzazione.
La sintassi come si può notare è molto semplice:

User-Agent #campo con il nome del robot al quale porre la restrizione, il simbolo * indica che la regola si applica a tutti i robots
Disallow #campo con l'url delle pagine o directory da non indicizzare

Vediamo ora qualche esempio pratico di file robots.txt


Indichiamo a tutti i robots di seguire qualsiasi file o percorso del sito:
User-agent: *
Disallow:

Tutti i robots non devono indicizzare nulla del sito:
User-agent: *
Disallow: /

Tutti i robots non devono indicizzare questa pagina:
User-agent: *
Disallow: /file_privato.html

Tutti i robots non devono indicizzare questa directory:
User-agent: *
Disallow: /directory_privata/

Solo Googlebot non deve indicizzare questi files e percorsi:
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /file-inutile.html
Disallow: /file_utenti.php

Segnaliamo la nostra sitemap xml agli spider:
Sitemap: http://www.miosito.it/sitemap.xml


Naturalmente esistono diverse altre direttive applicabili ai file robots.txt ma noi ci limitiamo ad esporvi quanto sopra sperando di esservi stati d'aiuto.