Últimamente se habla mucho del presupuesto de rastreo y de la optimización del sitio. Pero… ¿Cómo afecta realmente este presupuesto de rastreo o “Crawl Budget” a GoogleBot?

Antes de empezar, debes saber que el presupuesto de rastreo no es algo que nos deba de preocupar en sitios pequeños, es importante en sitios grandes con muchas URL, especialmente si se están indexando parámetros.

Del mismo modo, tampoco depende del presupuesto de rastreo a qué velocidad nos indexa los nuevos contenidos Googlebot. Google sí reconoce que la popularidad del dominio afecta a tu presupuesto de rastreo, esto es un negocio, si tu dominio garantiza contenidos de calidad es obvio que Googlebot rastreará de forma más profunda tu web, ya que ofrecerá calidad a los usuarios que buscan respuestas en él. Del mismo modo lo que requiere Googlebot es mantener sus índices actualizados para las preguntas de hoy de los usuarios, así pues, es posible que la respuesta de hace 10 años no sea válida a día de hoy. Debes actualizar tus contenidos y ofrecer la mejor respuesta de usuario si no quieres que tu dominio disminuya su popularidad paulatinamente.

 

Presupuesto de rastreo: Crawl Rate Limit

¿Qué es el Crawl Rate Limit para GoogleBot? De forma simple se puede definir como el número de consultas por segundo que los robots de Google generan en nuestro sitio para rastrear-lo y actualizarlo correctamente en su base de datos o caché.

Los rastreadores de Google están diseñados para ser totalmente compatibles con los usuarios de nuestros sitios, esto significa que pueden estar rastreando nuestro dominio paralelamente sin que esto afecte a la experiencia de usuario de nuestros clientes. Principalmente esto significa que rastrean el dominio sin afectar a la velocidad del mismo.

 

¿Cómo aumentar o disminuir la frecuencia de rastreo?

Como siempre, Google nos permite bloquear a sus arañas, pero no existe una fórmula mágica para que podamos aumentar la visibilidad de nuestro dominio, en este caso la frecuencia de rastreo o Crawl Rate Limit.

La recomendación de Google es que mantengamos nuestro dominio sano, ¿Y qué significa esto? Google hace especial hincapié en la velocidad del sitio y los errores para aumentar la frecuencia de rastreo. Es simple, si el sitio responde rápido, le permitimos a GoogleBoot realizar más consultas en el mismo tiempo, del mismo modo, estas consultas deben devolver un código 200 la mayoría de veces, los buscadores se cansan de los 3xx que convierten el sitio en un laberinto o peor aún de los errores 4xx.

Aquí os adjunto un ejemplo de un dominio al que se movió de servidor y luego le optimizamos la respuesta. Fijaros como disminuye la gráfica en verde que hace referencia a la velocidad, a la vez que aumenta la gráfica en azul que hace referencia a las páginas rastreadas al día por Googlebot.

velocidad-web-y-presupuesto-de-rastreo

Recuerda que uno de los principales factores de abandono de un sitio web es la velocidad. El factor velocidad se vuelve cada vez más importante con el aumento de búsquedas móviles, en muchas ocasiones con poca cobertura y mínima capacidad de transmisión de datos. Para Googlebot un sitio rápido es sinónimo de servidores sanos y de calidad, se recomienda mantener el mínimo de errores de servidor posibles en Search Console.

Podemos limitar la frecuencia de rastreo en el mismo Search Console, pulsando encima del icono rueda dentada de la parte superior derecha, y en configuración del sitio encontraremos su apartado de “Frecuencia de Rastreo”. De forma predeterminada tendremos activada la casilla “Permitir que Google se optimice para mi sitio (recomendado)”, podemos limitar la frecuencia de rastreo pero no aumentarla de este modo, ni tampoco usando comandos a través de robots.txt, el comando “crawl-delay” en teoría no es procesado por Googlebot.

 

¿Qué afecta al presupuesto de rastreo?

Las URL que no aportan valor en nuestro dominio pueden afectar negativamente al presupuesto de rastreo. Como se ha repetido en tantas ocasiones, debemos generar contenido que aporte valor a los usuarios, e indexar únicamente este contenido dentro de nuestro dominio.

Los parámetros. La navegación por facetas o los filtros generan parámetros constantemente, que en muchas ocasiones son URL que no tienen valor, por ejemplo los de precio. También podemos tener problemas de contenido duplicado con los parámetros generados por URL identificativas de la sesión, de afiliados etc… Tienes múltiples soluciones, desde canonicalizar esas URL a su principal, o no dejar que de indexen pero si se sigan dependiendo del caso, o de forma radical bloquear en robots.txt para que no sean vistas.

Contenido duplicado. El problema en sí es el mismo que lo comentado en parámetros, un ejemplo común de contenido duplicado es una misma descripción para un producto que tiene dos o más pequeñas variaciones. Un jersey con o sin botón en el cuello, distintos colores, mismo producto con distintas medidas… Por lo general, la mejor opción será elegir una de las variaciones como producto principal y canonicalizar el resto de URL.

Soft 404. El servidor debe devolver siempre el código HTTP 404 para una página inexistente, es decir, si un contenido ha dejado de existir el usuario o GoogleBot deben aterrizar en la página con error 404 o 410 si no existirá nunca más. En ocasiones se trata de confundir a GoogleBot “escondiendo” los errores y llevando ese tráfico a la home del sitio, por ejemplo, una muy mala práctica que puede hacer que los robots indexen contenido para búsquedas incorrectas, y que en definitiva pueden afectar de forma negativa nuestro presupuesto de rastreo.

Cuidado con el SPAM. Cuida tu sitio, debes asegurarlo de SPAM y hackers. Evidentemente si te infectan el dominio con contenido que viola las políticas de Google tu presupuesto de rastreo se reducirá, de igual modo si te llenan el blog o foro con comentarios basura llenos de enlaces.

Enlaces infinitos. Es posible que en alguno de tus dominios hayas recibido una altera de este tipo “Googlebot ha detectado un número muy elevado de URL en su sitio”. Entre otras cosas, esta alerta puede haber sido generada por una cadena de enlaces que no tienen fin. Esto pueden ser los parámetros de un navegador por facetas anteriormente comentado, pero también algo tan simple como una sección de eventos con un calendario que no tenga fin, con un enlace a “siguiente mes” y puedas pasar meses hasta el infinito.

Contenido de baja calidad. Resumiendo, contenido de baja calidad. Si subes un feed con miles de productos que contienen descripciones duplicadas no esperes que tu presupuesto de rastreo aumente, lo más probable es que disminuya. Lo mismo en sitios con malas traducciones, que contienen blogs con contenido spameado etc…

Tipos de contenido. Googlebot rastrea todo tipo de contenido y archivos dentro de nuestro sitio, incluidos los CSS o archivos JavaScript. Evidentemente estos archivos consumen también nuestro presupuesto de rastreo estipulado, pero no por ello debemos bloquearlos. Googlebot necesita rastrear todos estos archivos para cachear correctamente nuestro sitio. En su optimización, sí podemos eliminar todos los archivos que ya no usemos en nuestro sitio, por este motivo se aconseja mantener plugins, módulos o cualquier tipo de funcionalidades instaladas siempre actualizadas, y desinstalar todo aquello que no usemos de nuestros temas.

 

Tu dominio es demasiado grande? Tienes problemas en parámetros, navegador por facetas o cualquier otro tipo de incidencia en indexación? Si necesitas ayuda nuestra agencia SEO te ofrece una auditoria gratis! El placer es nuestro por ayudarte 😉


Also published on Medium.