Cuando hablamos de robots.txt nos referimos a un archivo del texto en el que el propietario de un sitio web escribe una serie de instrucciones para los robots de los buscadores. De esta manera, los robots atienden a dichas instrucciones a la hora de rastrearlo. Cada uno de los buscadores que existen en la red tiene su propio robot; por ejemplo, Googlebot es el nombre del robot de Google y Bingbot el del Bing. Además, cada buscador puede tener bots específicos como Googlebot-Image, el robot indexador de imágenes de Google.
Beneficios del fichero robots.txt
Impedir la sobrecarga del servidor
A la hora de crear el fichero con las instrucciones, puedes controlar el flujo de los robots en el sitio web. Una gran ventaja teniendo en cuenta que algunos bots son un verdadero descontrol de peticiones a la hora de rastrear un sitio, pudiendo llegar finalmente a saturar el servidor.Impedir el acceso a determinadas páginas
Puede darse el caso de que determinadas páginas de tu sitio web no quieres que aparezcan en buscadores. Pues bien, a través del archivo robots.txt puedes indicar a los robots que no rastreen dichas páginas.Eliminar contenido duplicado
Es uno de los beneficios más grandes del fichero robots.txt, aunque por desgracia, es uno de los más olvidados. Este archivo te permite eliminar la duplicidad del contenido en tu sitio web, mejorando así notablemente el posicionamiento SEO.Escribir instrucciones robots.txt
User-agent Con User-agent indicas para qué buscador estás escribiendo las instrucciones. Si van dirigidas a todos los buscadores, entonces se pone un asterisco de la siguiente manera: User-agent: * Disallow Con disallow señalas qué es lo que no quieres que los robots de los buscadores rastreen en tu sitio web. Aquí van algunos ejemplos:- URL que empiece por “X”: Disallow: /X
- URL que finalice por “X”: Disallow /* X$
- URL que contenga “X”: Disallow /*/ X
- Contenido que contenga “X”: Disallow /*X