El archivo robots.txt es un archivo de texto que permite a un buscador saber qué páginas debe rastrear y cuales no. El archivo tiene que estar alojado en la carpeta raíz de la web.

Los bots de los buscadores, interpretan el archivo robots.txt antes de rastrear todas las páginas de una web, por lo que hay que tener mucho cuidado ya que si nos equivocamos de páginas al programarlo entonces el bot interpretará el archivo y no indexará las páginas escritas, sean las que sean.

El archivo en formato .txt se programa con una serie de comandos que indicarán a los rastreadores saber que páginas no tienen que rastrear. Este archivo sólo te será útil si hay páginas que no quieres que Google rastree, lo que en una web/blog hecho con WordPress siempre es necesario.

robotstxt

Ejemplo de Robots.txt para WordPress

  • Por ejemplo en WordPress, para que no accedan a los archivos de administrador es así:
User-agent: *
Disallow: /wp-admin
  • Ten mucho cuidado en no equivocarte y bloquear toda la web escribiendo el comando:
Disallow: /
  • También sirve para decir donde esta nuestro Sitemap, escribiremos la línea a continuación al final del archivo robots:
Sitemap: http://www.nuestraweb.com/sitemap.xml
  • Los comandos son sensibles a minúsculas y mayúsculas, no es lo mismo:
Disallow: /wp-admin
Disallow: /Wp-admin

Recuerda llamar el archivo robots.txt tal cual, para que los buscadores puedan encontrarlo.