La tarea de hoy va a ser un poco más técnica, vamos a comprobar páginas indexadas. Si bien la tarea de ayer fue algo más entretenido, hoy nos toca algo más monótono.
¿Cómo comprobar página indexadas?
Para comprobar las páginas indexadas lo haremos con Google Search Console, es tan simple como ir al menú lateral y seleccionar páginas. Allí se nos abrirá la indexación de páginas, con una gráfica por días de las páginas indexadas y sin indexar, debajo podemos ver los datos sobre las páginas indexadas y si bajamos un poco más nos encontramos con los motivos que impiden que se indexen las otra página.

¿Cómo analizar los datos de páginas indexadas?
Bien, aquí no esperes encontrar todas las páginas indexadas y ningún error. Seguramente salgan páginas sin indexar y varios motivos, no todo es malo ni motivo de preocupación. Estamos en manos de Google aquí y como sabrás, y si no lo sabes ya te lo cuento yo, hace un poco lo que quiere y al ritmo que el quiere.
En la imagen que puse de ejemplo arriba hay un montón de errores, la elegí porque es la que salía más variedad, y ya que vamos a hablar de errores de indexación como más veas mejor. Aquí hubo una cagada en el sitemap y aunque haga ya varios meses que lo arreglé, todavía queda mucho por actualizar.
Yo en la que más me fijo aquí es en la excluida por una etiqueta «noindex», normalmente aquí están las políticas, páginas que no queremos que indexen y tal. Pero a veces por malas configuraciones de plugins o errores que cometemos terminan aquí páginas que no deberían.
Principales causas de porque no se indexa una página
1. No se ha encontrado (404)
- Qué significa: Google intentó acceder a una URL, pero el servidor devolvió un error 404 (página no encontrada).
- Causas comunes:
- La página fue eliminada sin implementar una redirección.
- Enlaces rotos dentro del sitio o desde sitios externos.
- Errores tipográficos en los enlaces internos o externos.
- Solución:
- Implementa una redirección 301 hacia una página relevante o corrige el enlace si la página aún existe.
- Si la página realmente no existe y no debe existir, verifica que el error sea esperado y asegúrate de que no haya enlaces internos apuntando a esa URL.
2. Soft 404
- Qué significa: Google interpreta que una página devuelve contenido vacío o irrelevante, a pesar de que técnicamente no devuelve un error 404 (por ejemplo, devuelve un código 200).
- Causas comunes:
- Páginas con poco contenido o sin relevancia (por ejemplo, «Página en construcción»).
- Mensajes genéricos como «No se encontró nada aquí», pero con un código HTTP 200.
- Solución:
- Asegúrate de que las páginas ofrezcan contenido relevante.
- Si una página no debe existir, haz que devuelva un código 404 o redirige a una página relevante con un código 301.
3. Descubierta: actualmente sin indexar
- Qué significa: Google ha encontrado la URL (a través de enlaces internos, externos o del sitemap), pero aún no la ha procesado para indexarla.
- Causas comunes:
- Baja prioridad asignada por Google debido a la calidad o relevancia percibida de la página.
- Problemas de presupuesto de rastreo (crawl budget).
- Solución:
- Mejora el contenido de la página para que sea más relevante y útil.
- Asegúrate de que esté enlazada internamente desde páginas ya indexadas.
- Revisa tu archivo robots.txt y directivas meta para garantizar que no haya restricciones al rastreo.
4. Rastreada: actualmente sin indexar
- Qué significa: Google pudo rastrear la página y analizar su contenido, pero decidió no incluirla en el índice.
- Causas comunes:
- Contenido duplicado o muy similar a otras páginas.
- Páginas de baja calidad o con poco contenido.
- Problemas técnicos que afectan el rendimiento o la legibilidad de la página.
- Solución:
- Asegúrate de que la página sea única, valiosa y relevante para los usuarios.
- Comprueba si hay etiquetas «noindex» o problemas técnicos que puedan confundir a Google.
- Revisa si otras páginas del sitio están compitiendo por las mismas palabras clave y ajusta tu estrategia.
5. Alternativa con etiqueta canónica válida
- Qué significa: Google identificó que la página tiene una etiqueta canónica que apunta a otra URL, y ha decidido indexar la URL canónica en su lugar.
- Causas comunes:
- Páginas duplicadas o muy similares en el contenido.
- Uso correcto de etiquetas canónicas para consolidar señales de SEO.
- Solución:
- Si esto es intencional, no necesitas hacer nada.
- Si la etiqueta canónica no es correcta, actualízala para que apunte a la URL adecuada.
6. Excluida por una etiqueta ‘noindex’
- Qué significa: la página tiene una etiqueta «noindex» o una cabecera HTTP que instruye a Google a no incluirla en el índice.
- Causas comunes:
- Configuración intencional para páginas privadas, temporales o irrelevantes.
- Error al aplicar la etiqueta en páginas importantes.
- Solución:
- Si quieres que la página sea indexada, elimina la etiqueta «noindex».
7. Página duplicada: no seleccionada como canónica
- Qué significa: Google detectó que esta página tiene contenido duplicado, pero eligió otra versión como la principal para indexar.
- Causas comunes:
- URLs múltiples con el mismo contenido (por ejemplo, con parámetros UTM, http/https, etc.).
- Solución:
- Usa etiquetas canónicas para indicar qué versión debe ser la principal.
- Configura redirecciones 301 para consolidar versiones duplicadas.
8. Bloqueada por robots.txt
- Qué significa: el archivo robots.txt bloquea el acceso de Google a la página.
- Causas comunes:
- Restricciones intencionales en el archivo robots.txt.
- Errores en la configuración del archivo.
- Solución:
- Revisa el archivo robots.txt y elimina las restricciones para las páginas que deseas indexar.
9. Bloqueada debido a una solicitud no autorizada (401)
- Qué significa: la página requiere autenticación para acceder, y Google no puede rastrearla.
- Solución:
- Haz que las páginas públicas no requieran autenticación.
- Revisa las configuraciones de acceso para asegurarte de que los bots puedan rastrearlas.
10. Anomalía de rastreo
- Qué significa: se produjo un problema genérico al intentar rastrear la página, pero no está claro cuál fue el motivo.
- Solución:
- Usa herramientas como Google Search Console, inspecciona la URL y revisa los logs del servidor para identificar el problema exacto.
11. Página con redirección
- Qué significa: la URL en cuestión redirige a otra página, y por lo tanto no es indexada directamente. Google rastrea la URL de destino final en lugar de la URL redirigida.
- Causas comunes:
- Redirecciones 301 o 302 configuradas correctamente.
- Cadena de redirecciones (una URL redirige a otra, y así sucesivamente).
- Solución:
- Si es intencional: no necesitas hacer nada, salvo asegurarte de que las redirecciones son directas y no tienen cadenas largas.
- Si no es intencional: revisa la configuración de redirección y corrige el problema.
- Usa herramientas como Search Console o extensiones de navegador para verificar si las redirecciones son correctas.
12. Se ha bloqueado debido a otro problema de tipo 4xx
- Qué significa: Google intentó rastrear la página, pero recibió un error 4xx que no es un 404 (por ejemplo, 403 – Prohibido, 410 – Eliminada, etc.).
- Causas comunes:
- 403 – Prohibido: la configuración del servidor o un archivo como .htaccess está bloqueando el acceso.
- 410 – Eliminada: la página fue eliminada intencionalmente y el servidor devuelve un error 410.
- Solución:
- Para errores 403: revisa las configuraciones de permisos en el servidor y asegúrate de que los bots tengan acceso.
- Para errores 410: si fue un error, asegúrate de devolver un código 200 o redirige la URL a una página relevante con un código 301.
13. Error de redirección
- Qué significa: Google detectó un problema al seguir redirecciones en la URL. Esto puede ser debido a un bucle infinito de redirecciones o una configuración incorrecta.
- Causas comunes:
- Bucle de redirección (A → B → A o similar).
- Redirecciones excesivas (una cadena muy larga, por ejemplo, A → B → C → D…).
- Redirecciones mal configuradas.
- Solución:
- Detectar bucles: usa herramientas como Screaming Frog o inspecciona la URL en Google Search Console para identificar bucles o cadenas largas.
- Simplificar redirecciones: asegúrate de que cada redirección es directa y apunta a la URL final deseada.
- Configurar correctamente: corrige configuraciones en el servidor (por ejemplo, en .htaccess o configuraciones del CMS).
14. Error de servidor (5xx)
- Qué significa: Google intentó rastrear la página, pero el servidor devolvió un error 5xx (problema del servidor).
- Causas comunes:
- 500 – Error interno del servidor: problema genérico de configuración del servidor.
- 502 – Bad Gateway: problema temporal en una pasarela o proxy entre servidores.
- 503 – Servicio no disponible: el servidor estaba sobrecargado o en mantenimiento.
- 504 – Tiempo de espera agotado: el servidor tardó demasiado en responder.
- Solución:
- Revisar logs del servidor: identifica el motivo exacto del error y corrige problemas de configuración o de código.
- Optimizar recursos: si es por sobrecarga, aumenta los recursos del servidor o implementa soluciones como caché.
- Evitar errores temporales: para problemas de mantenimiento (503), utiliza la cabecera «Retry-After» para informar a Google cuándo volver a rastrear.
Hay más errores, aquí hice una recopilación de los más comunes.
