tags: robots_txt reconnaissance


Il file contiene semplici file di testo che indicano quali parti del sito non debbano risultare visibili ai crawler web dei motori di ricerca. Per trovare un file robots.txt basta inserirlo nell’URL in questo modo http://www.sito.com/robots.txt per avere informazioni utili è bene cercare un dominio top-level perchè ho sottodominio ha un suo robots.txt separato dagli altri.

I dati che può fornire sono:

  • User-agent: Questo è un crawler web specifico a cui si stanno dando istruzioni per la scansione(di solito motore di ricerca).

  • Disallow: Questo è il comando utilizzato per indicare allo user-agent di non eseguire la ricerca per indicizzazione di un determinato URL. Solo una riga Disallow è consentita per ciascun URL.

  • Allow: Comando valido solo per Googlebot che consente l’accesso a pagine/directory nonostante il disallow alla parent page.

  • Crawler-delay: Tempo in secondi che un crawler deve attendere prima di caricare e sottoporre a scansione il contenuto della pagina. Il comando è applicabile solo per Googlebot

  • Sitemap: Utilizzato per richiamare la posizione di qualsiasi sitemap XML associata all’URL. Questo comando è supportato solo da Google, Ask, Bing e Yahoo.