Qué es el archivo robots.txt
Robots.txt es un archivo de texto que brinda instrucciones a los robots de los motores de búsqueda indicándoles qué páginas pueden rastrear y cuáles no. Estas instrucciones pueden especificarse "permitiendo" o "desautorizando" el comportamiento de todos los bots o solo algunos en específico.
(!) Google recomienda no utilizar un archivo robots.txt para impedir que tus páginas web aparezcan en los resultados de la Búsqueda de Google. Si quieres bloquear una página para que no aparezca en los resultados de búsqueda, puedes usar otro método como protegerla con una contraseña o utilizar una directiva noindex.
Cómo funciona un archivo robots.txt
Los motores de búsqueda tienen dos trabajos principales: por un lado, rastrear la web para descubrir contenidos, y por otro, indexar el contenido para mostrarlo a los buscadores que buscan información.
Al rastrear, los robots de los motores de búsqueda descubren y siguen enlaces. Al llegar a cualquier sitio, lo primero que hará un bot es buscar un archivo robots.txt. Los archivos robots.txt indican a los robots de los motores de búsqueda qué URL pueden rastrear y, sobre todo, cuáles no. Si encuentra uno, leerá el archivo antes de hacer cualquier otra cosa.
Los archivos robots.txt deben situarse en la raíz de los sitios. Por ejemplo, si tu sitio es http://www.example.com , este archivo debe estar en www.example.com/robots.txt.
En este instructivo encontrarás las reglas para crear y escribir un archivo robots.txt
Cómo crear un archivo robots.txt
Se puede crear archivos robots.txt con prácticamente cualquier editor de texto; por ejemplo, Bloc de notas, TextEdit.
Debe ser un archivo de texto sin formato, que debe cumplir el estándar de exclusión de robots. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados, como comillas curvas, que pueden causar problemas a los rastreadores. Guarda el archivo con la codificación UTF-8 si aparece la opción para hacerlo en el cuadro de diálogo para guardar.
Cómo están conformados los archivos robots.txt
Los archivos robots.txt constan de una o varias reglas. Cada regla bloquea o permite el acceso de todos o de un rastreador determinado a una ruta de archivo concreta del dominio o subdominio en el que se aloja el archivo robots.txt. A menos que especifiques lo contrario en el archivo robots.txt, de forma implícita das permiso para rastrear todos los archivos.
Las reglas son instrucciones que permiten a los robots de los motores de búsqueda saber qué partes de un sitio pueden rastrear.
Los archivos robots.txt pueden tener uno o varios grupos y conjunto de reglas. Cada grupo consta de varias reglas. A estas reglas también se las denomina denominadas "directivas". Debes añadir una directiva por línea.
Los rastreadores de Google admiten las siguientes reglas en archivos robots.txt:
User-agent: indica el nombre del cliente automático, denominado "rastreador de buscador", al que se aplicará la regla. Esta será la primera línea de cualquier grupo de reglas. El asterisco (*) se aplica a todos los rastreadores, excepto a los de AdsBot, que deben nombrarse explícitamente.
En cada grupo de reglas debe haber por lo menos una entrada disallow o allow:
Disallow: Indica un directorio o una página del dominio raíz que no quieres que rastree el user-agent. Si la regla hace referencia a una página, debe ser el nombre completo de la página, tal como se muestra en el navegador. Debe comenzar con un carácter / y, si hace referencia a un directorio, debe terminar con el carácter /.
Allow: Indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Sirve para anular la regla disallow y permitir que se rastree un determinado subdirectorio o una determinada página de un directorio bloqueado. Si se trata de una sola página, especifica su nombre completo tal como se muestra en el navegador. Debe comenzar con un carácter / y, si hace referencia a un directorio, debe terminar con el carácter /.
También es opcional:
Sitemap: Indica la ubicación de un sitemap de este sitio web. Es opcional, puede haber uno, varios o ninguno en cada archivo. La URL del sitemap debe ser una URL cualificada, ya que Google no comprueba alternativas con o sin www, o con http o https. Los sitemaps son una buena forma de indicar el contenido que Google debe, puede o no puede rastrear.
Cómo añadir reglas a un archivo robots.txt
Comienza cada conjunto de reglas con una línea User-agent, indicando el "rastreador de buscador" al que se aplicará la regla. Es decir, al bot al cual está dirigido. Puedes utilizar un asterisco (*) para que aplique a todos los rastreadores, excepto a los de AdsBot, que deben nombrarse explícitamente.
Recuerda que de forma predeterminada, los user‑agent pueden rastrear todas las páginas y directorios que no estén bloqueados por una regla disallow.
Proporciona las reglas que deseas que apliquen específicamente para ese user agent, como:
A qué directorios o archivos puede acceder (allow).
A qué directorios o archivos no puede acceder (disallow).
Es importante tener en cuenta que:
Las reglas se procesan de arriba hacia abajo, y cuando un robot visita el sitio, se aplica el primer grupo de reglas que coincida con su user-agent. Si hay múltiples grupos para el mismo user-agent, las reglas se combinan en un solo grupo antes del procesamiento. Por este motivo, el orden y la especificidad de las reglas son importantes para asegurarse de que se apliquen correctamente a los robots que visitan el sitio web.
En las reglas se distingue entre mayúsculas y minúsculas.
El carácter # marca el principio de un comentario. Los comentarios se ignoran durante el procesamiento.
Veamos un ejemplo:
Reglas de formato y ubicación tener en cuenta:
El archivo debe llamarse robots.txt.
Solo puede haber un archivo robots.txt por sitio.
El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URLs de https://www.example.com/ , el archivo robots.txt debe estar en https://www.example.com/robots.txt. No se puede colocar en un subdirectorio, como https://example.com/pages/robots.txt.
Los archivos robots.txt se pueden publicar en un subdominio (como https://website.example.com/robots.txt) o en puertos no estándar (como https://example.com:8181/robots.txt).
Los archivos robots.txt se aplican únicamente a las rutas del protocolo, del host y del puerto en los que se publican. Es decir, las reglas de https://example.com/robots.txt solo se aplican a los archivos de https://example.com/ , no a sus subdominios, como https://m.example.com/, o a protocolos alternativos, como http://example.com/ .
Los archivos robots.txt deben estar codificados en UTF-8, que incluye ASCII. Google puede ignorar los caracteres que no formen parte del intervalo de UTF-8, lo que puede provocar que las reglas de robots.txt no sean válidas.
Con información del Centro de búsqueda de Google
Una vez que hayas guardado el archivo robots.txt, podrás ponerlo a disposición de los rastreadores de los buscadores.
Search Console cuenta con una herramienta de comprobación del archivo robots.txt para comprobar el marcado.
Instrucciones
Ve a Portada > Modo Template.
2. Haz click en la lupa para que se desplieguen las opciones y selecciona Administrador de portales para ingresar al editor de portal.
Dentro del editor de Portales, podrás ver todos los campos disponibles donde cargar y configurar los scripts que te brinda el AdServer, tanto para seguimiento del sitio como para configurar las declaraciones de banners.En el campo ROBOTS.TXT, ingresa las directivas. Para esto puedes:
Copiar y pegar las directivas del archivo robots.txt
Escribir las directivas una por una
4. Haz click en Grabar para guardar los cambios.
Con información del Centro de búsqueda de Google