Tarea 6 del AdventSEO: revisar robots.txt de la web

Hoy como es festivo vamos con una tarea muy simple y rápida: revisar robots.txt. Probablemente no tengas que tocarle nada, y trabajando con WordPress se genera directamente, tendrás algo como la imagen de abajo. El problema aquí está en si hemos cometido algún error y estamos impidiendo que lleguen a nuestra web.

¿Qué es el robots.txt?

El robots.txt sirve para informar de lo que queremos indexar y lo que no en nuestra web. Es un archivo público, con lo cuál cualquiera lo puede ver.

Aclaración muy importante: es un documento informativo, hay robots que pueden ignorar las instrucciones del archivo.

Es un fichero de texto plano (sin formato) que se puede crear con cualquier editor de texto plano (bloc de notas, WordPad, Notepad…) y tiene la extensión .txt.

Es un archivo que solo necesitamos crearlo una vez y no acostumbra a ser necesario actualizarlo. El problema está, en que si nos equivocamos, puede haber consecuencias graves, como que no se indexe ninguna página.

¿Cómo revisar robots.txt?

Para comprobar el robots.txt es tan fácil como poner tu web terminada en robots.txt (https://tuweb.com/robots.txt), en el caso de mi web sería https://sandrapalau.es/robots.txt.

Si te sale algo como la imagen de arriba está todo bien.

Principales instrucciones a utilizar en el robots.txt

Las principales instrucciones que usamos para el robots.txt son 4:

User-agent: se utiliza para identificar el robot sobre el que vamos a aplicar las reglas que indicaremos a continuación. Podemos especificar reglas para cada robot, para todos (*) o para el resto.
Disallow: se usa para identificar los recursos que queremos bloquear.
Allow: se utiliza para identificar recursos a los que permitamos el acceso a excepción de la regla Disallow.
Sitemap: sirve para indicar la ruta de donde está el mapa del sitio (sitemap).

Principales robots

Robots de motores de búsqueda principales

Estos son los robots que rastrean tu sitio para indexarlo en motores de búsqueda:

Google:

User-agent: Googlebot (bot de indexación general).

User-agent: Googlebot-Image (para imágenes).

User-agent: Googlebot-News (para Google News).

User-agent: Googlebot-Video (para videos).

User-agent: AdsBot-Google (para revisar anuncios).

User-agent: AdsBot-Google-Mobile (anuncios en dispositivos móviles).

User-agent: Mediapartners-Google (para Google AdSense).

Bing (Microsoft):

User-agent: Bingbot (bot principal de Bing).

User-agent: MSNBot (bot más antiguo, ahora reemplazado por Bingbot).

Yahoo:

User-agent: Slurp (el bot de Yahoo, ahora usa datos de Bing).

Yandex (Rusia):

User-agent: Yandex (bot principal).

User-agent: YandexImages (para imágenes).

User-agent: YandexVideo (para videos).

Baidu (China):

User-agent: Baiduspider (bot principal).

User-agent: Baiduspider-image (para imágenes).

DuckDuckGo:

User-agent: DuckDuckBot.

Ask.com:

User-agent: Teoma.

Robots de analítica y SEO

Ahrefs:

User-agent: AhrefsBot (para análisis de backlinks).

Semrush:

User-agent: SemrushBot.

Majestic:

User-agent: MJ12bot.

Moz:

User-agent: rogerbot.

SEMrush:

User-agent: SEMrushBot.

Robots de redes sociales

Facebook:

User-agent: Facebot (para obtener vistas previas de enlaces en publicaciones).

Twitter:

User-agent: Twitterbot (para tarjetas de Twitter).

LinkedIn:

User-agent: LinkedInBot.

Pinterest:

User-agent: Pinterestbot.

Robots de contenido multimodal

YouTube:

User-agent: Googlebot-Video (usado también por YouTube).

Wayback Machine (Internet Archive):

User-agent: ia_archiver.

Robots de monitoreo y seguridad

Uptime:

User-agent: UptimeRobot.

Pingdom:

User-agent: Pingdom.

Siteliner:

User-agent: Siteliner.

Ejemplos de robots.txt

Vamos a conceder acceso a todos los robots y a todas las páginas.

User-agent: *

Disallow: 

Sitemap: https://tuweb.com/sitemap.xml

Ahora vamos a bloquear el acceso a todo el sitio a todos los robots. Esto sólo lo haríamos en caso de tener la web en pruebas o en construcción y no queremos que se indexe nada.

User-agent: *

Disallow: /

Sitemap: https://tuweb.com/sitemap.xml

/ es el directorio raíz de cualquier web.

En este caso vamos a denegar el acceso a algunas carpetas que no tiene sentido que sean públicas a todos los robots.

User-agent:*

Disallow:/logs/

Disallow:/admin/

Disallow:/privado/

Sitemap: https://tuweb.com/sitemap.xml

En el caso de WordPress, sería como en la imagen.

User-agent:*

Disallow:/wp-admin/

Allow:/wp-admin/admin-ajax.php

Sitemap: https://tuweb.com/sitemap.xml

Y por último vamos a dar acceso a Google y a Bing y vamos a bloquear al resto de robots.

User-agent: Googlebot

User-agent: Bingbot

Disallow:

User-agent:*

Disallow:/

Sitemap: https://tuweb.com/sitemap.xml

Consideraciones a tener en cuenta al crear el archivo robots.txt

Aunque algunas ya las he ido nombrando, pero voy a hacer una recopilación final:

Es un archivo público, cualquiera puede ver su contenido.
No se puede cambiar ni el nombre (robots.txt) ni la ubicación (raíz del sitio).
Sólo puede haber un archivo por web, a excepción de que tengamos subdominios, en este caso cada uno tiene el suyo propio.
Algunos robots pueden ignorar las instrucciones, principalmente los que son considerados como maliciosos (los que rastrean las webs buscando direcciones de emails para hacer spam, o los que rastrean buscando sitios con fallos de seguridad).
El archivo distingue entre mayúsculas y minúsculas.
Entre cada bloque de instrucciones debe haber una línea en blanco.
Los cambios que realicemos al archivo pueden tardar días en verse reflejadas en los resultados de búsqueda.
No se debe bloquear el acceso a recursos como imágenes, JavaScript, CSS… Al hacerlo dificultamos el rastreo de páginas que tienen llamadas a estos ficheros y puede afectar al posicionamiento.

Si no usas WordPress y necesitas ayuda para crear el robots.txt puedes ayudarte de generadores como este.

Día 6: revisar robots.txt

¿Qué es el robots.txt?

¿Cómo revisar robots.txt?

Principales instrucciones a utilizar en el robots.txt

Principales robots

Robots de motores de búsqueda principales

Google:

Bing (Microsoft):

Yahoo:

Yandex (Rusia):

Baidu (China):

DuckDuckGo:

Ask.com:

Robots de analítica y SEO

Ahrefs:

Semrush:

Majestic:

Moz:

SEMrush:

Robots de redes sociales

Facebook:

Twitter:

LinkedIn:

Pinterest:

Robots de contenido multimodal

YouTube:

Wayback Machine (Internet Archive):

Robots de monitoreo y seguridad

Uptime:

Pingdom:

Siteliner:

Ejemplos de robots.txt

Consideraciones a tener en cuenta al crear el archivo robots.txt

Día 24: buscar un infoproducto que se pueda crear

Día 23: crear el avatar de nuestro cliente ideal

Día 22: analizar dominios: se renueva, se deja morir o se revisa más adelante

Día 21: crear lista de dominios con fechas de renovación

Día 20: consultar Pinterest Trends para sacar ideas

Día 19: revisar el enlazado interno

¿Qué es el robots.txt?

¿Cómo revisar robots.txt?

Principales instrucciones a utilizar en el robots.txt

Principales robots

Robots de motores de búsqueda principales

Google:

Bing (Microsoft):

Yahoo:

Yandex (Rusia):

Baidu (China):

DuckDuckGo:

Ask.com:

Robots de analítica y SEO

Ahrefs:

Semrush:

Majestic:

Moz:

SEMrush:

Robots de redes sociales

Facebook:

Twitter:

LinkedIn:

Pinterest:

Robots de contenido multimodal

YouTube:

Wayback Machine (Internet Archive):

Robots de monitoreo y seguridad

Uptime:

Pingdom:

Siteliner:

Ejemplos de robots.txt

Consideraciones a tener en cuenta al crear el archivo robots.txt

Publicaciones Similares