Hoy como es festivo vamos con una tarea muy simple y rápida: revisar robots.txt. Probablemente no tengas que tocarle nada, y trabajando con WordPress se genera directamente, tendrás algo como la imagen de abajo. El problema aquí está en si hemos cometido algún error y estamos impidiendo que lleguen a nuestra web.

¿Qué es el robots.txt?
El robots.txt sirve para informar de lo que queremos indexar y lo que no en nuestra web. Es un archivo público, con lo cuál cualquiera lo puede ver.
Aclaración muy importante: es un documento informativo, hay robots que pueden ignorar las instrucciones del archivo.
Es un fichero de texto plano (sin formato) que se puede crear con cualquier editor de texto plano (bloc de notas, WordPad, Notepad…) y tiene la extensión .txt.
Es un archivo que solo necesitamos crearlo una vez y no acostumbra a ser necesario actualizarlo. El problema está, en que si nos equivocamos, puede haber consecuencias graves, como que no se indexe ninguna página.
¿Cómo revisar robots.txt?
Para comprobar el robots.txt es tan fácil como poner tu web terminada en robots.txt (https://tuweb.com/robots.txt), en el caso de mi web sería https://sandrapalau.es/robots.txt.
Si te sale algo como la imagen de arriba está todo bien.
Principales instrucciones a utilizar en el robots.txt
Las principales instrucciones que usamos para el robots.txt son 4:
- User-agent: se utiliza para identificar el robot sobre el que vamos a aplicar las reglas que indicaremos a continuación. Podemos especificar reglas para cada robot, para todos (*) o para el resto.
- Disallow: se usa para identificar los recursos que queremos bloquear.
- Allow: se utiliza para identificar recursos a los que permitamos el acceso a excepción de la regla Disallow.
- Sitemap: sirve para indicar la ruta de donde está el mapa del sitio (sitemap).
Principales robots
Robots de motores de búsqueda principales
Estos son los robots que rastrean tu sitio para indexarlo en motores de búsqueda:
Google:
User-agent: Googlebot (bot de indexación general).
User-agent: Googlebot-Image (para imágenes).
User-agent: Googlebot-News (para Google News).
User-agent: Googlebot-Video (para videos).
User-agent: AdsBot-Google (para revisar anuncios).
User-agent: AdsBot-Google-Mobile (anuncios en dispositivos móviles).
User-agent: Mediapartners-Google (para Google AdSense).
Bing (Microsoft):
User-agent: Bingbot (bot principal de Bing).
User-agent: MSNBot (bot más antiguo, ahora reemplazado por Bingbot).
Yahoo:
User-agent: Slurp (el bot de Yahoo, ahora usa datos de Bing).
Yandex (Rusia):
User-agent: Yandex (bot principal).
User-agent: YandexImages (para imágenes).
User-agent: YandexVideo (para videos).
Baidu (China):
User-agent: Baiduspider (bot principal).
User-agent: Baiduspider-image (para imágenes).
DuckDuckGo:
User-agent: DuckDuckBot.
Ask.com:
User-agent: Teoma.
Robots de analítica y SEO
Ahrefs:
User-agent: AhrefsBot (para análisis de backlinks).
Semrush:
User-agent: SemrushBot.
Majestic:
User-agent: MJ12bot.
Moz:
User-agent: rogerbot.
SEMrush:
User-agent: SEMrushBot.
Robots de redes sociales
Facebook:
User-agent: Facebot (para obtener vistas previas de enlaces en publicaciones).
Twitter:
User-agent: Twitterbot (para tarjetas de Twitter).
LinkedIn:
User-agent: LinkedInBot.
Pinterest:
User-agent: Pinterestbot.
Robots de contenido multimodal
YouTube:
User-agent: Googlebot-Video (usado también por YouTube).
Wayback Machine (Internet Archive):
User-agent: ia_archiver.
Robots de monitoreo y seguridad
Uptime:
User-agent: UptimeRobot.
Pingdom:
User-agent: Pingdom.
Siteliner:
User-agent: Siteliner.
Ejemplos de robots.txt
Vamos a conceder acceso a todos los robots y a todas las páginas.
User-agent: *
Disallow:
Sitemap: https://tuweb.com/sitemap.xml
Ahora vamos a bloquear el acceso a todo el sitio a todos los robots. Esto sólo lo haríamos en caso de tener la web en pruebas o en construcción y no queremos que se indexe nada.
User-agent: *
Disallow: /
Sitemap: https://tuweb.com/sitemap.xml
/ es el directorio raíz de cualquier web.
En este caso vamos a denegar el acceso a algunas carpetas que no tiene sentido que sean públicas a todos los robots.
User-agent:*
Disallow:/logs/
Disallow:/admin/
Disallow:/privado/
Sitemap: https://tuweb.com/sitemap.xml
En el caso de WordPress, sería como en la imagen.
User-agent:*
Disallow:/wp-admin/
Allow:/wp-admin/admin-ajax.php
Sitemap: https://tuweb.com/sitemap.xml

Y por último vamos a dar acceso a Google y a Bing y vamos a bloquear al resto de robots.
User-agent: Googlebot
User-agent: Bingbot
Disallow:
User-agent:*
Disallow:/
Sitemap: https://tuweb.com/sitemap.xml
Consideraciones a tener en cuenta al crear el archivo robots.txt
Aunque algunas ya las he ido nombrando, pero voy a hacer una recopilación final:
- Es un archivo público, cualquiera puede ver su contenido.
- No se puede cambiar ni el nombre (robots.txt) ni la ubicación (raíz del sitio).
- Sólo puede haber un archivo por web, a excepción de que tengamos subdominios, en este caso cada uno tiene el suyo propio.
- Algunos robots pueden ignorar las instrucciones, principalmente los que son considerados como maliciosos (los que rastrean las webs buscando direcciones de emails para hacer spam, o los que rastrean buscando sitios con fallos de seguridad).
- El archivo distingue entre mayúsculas y minúsculas.
- Entre cada bloque de instrucciones debe haber una línea en blanco.
- Los cambios que realicemos al archivo pueden tardar días en verse reflejadas en los resultados de búsqueda.
- No se debe bloquear el acceso a recursos como imágenes, JavaScript, CSS… Al hacerlo dificultamos el rastreo de páginas que tienen llamadas a estos ficheros y puede afectar al posicionamiento.
Si no usas WordPress y necesitas ayuda para crear el robots.txt puedes ayudarte de generadores como este.
