Blog

Todo sobre robots.txt

 Robots.txt es un archivo que tienes que conocer sí o sí. Hoy te voy a explicar algo sobre él y sus reglas de funcionamiento, con sólo modificar un carácter en este archivo podrías dar al traste con la mejor estrategia SEO de la historia, así que imagina la importancia de este pequeño archivo.

 

Web Scraping

Web Scraping

¿Qué es el archivo robots.txt?

Es un archivo de texto (.txt) en el que podrás elaborar una serie de recomendaciones (no obligaciones, ojo, los crawlers no están obligados a cumplirnos aunque sí es recomendable) para indicar a los crawlers y  bots de los buscadores encargados de rastrear las webs qué paginas de tu web quieres que sean rastreadas y cuáles no, impedir acceso a los crawlers, etc.

Los bots, hay miles, cada buscador tiene el suyo, algunos ejemplos de nombres de bots son:

googlebot – es el de Google
msnbot – el de MSN Search
yahoo-slurp – el de Yahoo
teoma – el de Ask/Teoma

Pero como te digo hay miles (en la web de robotstxt.org puedes encontrar una base de datos con una lista de bots), más adelante veremos comodines para deshabilitar todos los bots de un plumazo.

 

Uso de robots.txt

Vamos a ver la sintáxis que podemos usar para crear un robots.txt y una vez creado el archivo debe ir colgado de la raíz de tu web, es decir, debería colgar de https://javierflores.com/robots.txt, los buscadores no lo encontrarían si lo cuelgas en https://javierflores.com/carpeta/robots.txt por ejemplo.

User-agent: Aquí indicamos el nombre del bot al que queremos aplicar las reglas que vengan a continuación, en la web de robotstxt.org puedes encontrar una base de datos con nombres y especificaciones de los bots.

Disallow: A continuación ponemos la ruta de las carpetas que queremos que no se visiten, también podemos usar comodines como * para indicar todo.

Allow: Al contrario que disallow, esta etiqueta indica las carpetas que sí queremos que los buscadores visiten.

Ejemplo de robots.txt de mi blog.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Este es por defecto un archivo robots.txt que crea WordPress, como ves, indica a todos los bots de buscadores que no visiten las carpetas /wp-admin (donde se encuentra la administración de WordPress) y /wp-includes (donde se almacenan archivos necesarios para el CMS, imágenes…).

 

Crear un robots.txt

Puedes crearlo a mano con los códigos que hemos visto más arriba o usar alguno de las muchas aplicaciones que nos permiten crearlo automáticamente sin necesidad de conocer nada de código, como este de SeoBook, creador automático de robots.txt.

No olvides que el robots.txt no es obligatorio, tu sitio puede funcionar sin él, pero te puede ayudar a mejorar la indexación de tu web, ahorrar en ancho de banda deshabilitando archivos y páginas que no quieras que los usuarios visiten, controlar el contenido duplicado.

Sólo debe existir un archivo de robots.txt en tu web, se aplicará a todos los directorios que tengamos.

 

Para crear el robots.txt a mano sigue estos pasos:

1.- Abre el blog de notas (notepad):

2.- Seleccionamos los bots a los que queremos aplicar las normas con la etiqueta User-Agent:, por ejemplo vamos a aplicar las normas al bot de Google.

User-agent: Googlebot

3.- Ahora vamos a indicar si queremos permitir o no, el acceso a una carpeta o a toda la web con el comodín *. Por ejemplo, vamos a impedir el acceso a la carpeta /prohibida y permitimos el acceso a la carpeta /publica.

Disallow: /prohibida
Allow: /publica

Ya tienes creado el archivo, ahora sólo debes subirlo a la raíz de tu web, por ejemplo, javierflores.com, donde los buscadores podrán acceder a él y leerlo antes de indexar tu web.

 

Una vez creado el robots.txt bien a mano o bien automáticamente, te recomiendo que lo pruebes, ¿cómo? Google, que nos cuida como una madre tiene una herramienta donde podemos enviar nuestro robots.txt y nos dirá lo que hace exactamente, es muy útil, porque si en vez de Allow te has confundido y puesto Disallow, puede ser que des con tu web al traste en cuestión de días y sin darte cuenta. Visita la herramienta de comprobación de robots.txt de Google.

 

Ejemplo de códigos

User-agent: *
Disallow: /

Indica a todos los bots que no visiten nada de la web, al indicar / como raíz. La etiqueta Allow, sin nada a continuación hace el mismo efecto.

 

User-agent: *
Disallow: /prohibida/
Disallow: /admin/

Indica a todos los bots que no visiten las carpetas /prohibida y /admin, pero permite acceso al resto de la web.

 

User-agent: GoogleBot
Disallow:

User-agent: *
Disallow: /

Permite acceso a toda la web al bot de Google (GoogleBot) y deshabilita el acceso a todos los demás bots.

 

Pero cuidado al editar el robots.txt porque puede mostrar las vergüenzas de tu web y sino que se lo digan a la Casa Real que tras el escándalo de Iñaki Urdangarín y su «expulsión» de la familia real española trataron también de hacerlo desaparecer de la web y eliminar todo rastro en los buscadores del apartado que la Casa Real dedicaba a Urdangarín en su web y para eso, editaron el robots.txt de indicando a los buscadores que no rastrearan las urls que contenían información sobre Urdangarín.

 

Robots.txt Casa Real

Robots.txt Casa Real

Puedes ver el archivo robots.txt de la Casa Real aqui.

Si quieres aprender más sobre robots.txt visita la web, robotstxt.org

No Comments
Post a comment