Seo y logs (primera parte): Monitorización de Googlebot mediante logs

Publicado por Lino Uruñuela el 27 de junio del 2016
 

Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que hacen redirecciones, o urls que son correctamente rastreadas.

Esta información nos es útil para poder ver rápidamente si está ocurriendo algo fuera de lo normal en tu site, o si por el contrario todo va según lo previsto. Muchas veces los SEOs definimos que urls deben dar un estado 200, o cuando deben hacer un tipo de redirecciones o si deben responder un código de error u otro.

Hay ocasiones en el que al hacer la implementación técnica se comete algún error de programación o un error en la definición que les pasamos,  y que como consecuencia estemos dando algo erróneo a Google sin darnos cuenta,.

Hoy vamos a ver unos ejemplos de cómo con los logs obtendremos información útil sobre que está haciendo Google en tu site,  de lo fácil que es darse cuenta de que algo ha ocurrido y de identificar dónde está ocurriendo.

Estos ejemplos son sacados de una tool propia que usamos en FunnelPunk con nuestros clientes, así cada día podemos comprobar de un vistazo si todo va bien.

En este ejemplo vamos a  filtrar los logs de la siguiente manera
  • Fecha: Desde comienzo de año
  • User Agent: que contiene "Googlebot"
  • Código de estado: = 200


Y mostramos una gráfica como esta, la cual nos dice cuántas urls con estado 200  rastrea Google en nuestro site cada día

URLs 200 rastreadas por Googlebot
*Las líeneas verticales son guías que indican una implementación en el site para poder relacionar los cambios en el site con el comportamiento de Google.

Vemos como de repente en un día Google se puso a rastrear más de 100.000 urls mientras que anteriormente su frecuencia no era tan alta, algo había pasado. Y es que se cometió un error de programación que nos duplicó todo el site unas cuantas veces y creó miles de enlaces a páginas tanto correctas como inexistentes.

Filtrando igual que antes pero en vez de código de estado = 200 lo hacemos por los 410, vemos los distintos incrementos en este tipo de errores..

  • Fecha: Desde comienzo del año
  • User Agent: que contiene "Googlebot"
  • Código de estado: = 410
URLs 410 rastreadas por Googlebot


No solo se crearon miles de urls correctas, también muchas dieron 410, pero ¿que fue lo que las causó? Para ello debemos segmentar el site por secciones, para saber en que secciones ocurrió y si fueron urls que antes daban 200 o han sido nuevas.
 
URLs 410 rastreadas por Googlebot

Podemos ver rápidamente como las fichas crearon el primer pico de 410, algo que era correcto ya que eran fichas caducadas que no daban tráfico y queríamos eliminar, pero vemos que el segundo pico se genera en los segmentos 3 y 2, las dos secciones  que más tráfico orgánico aportaban al site.

Para facilitarnos la investigación podemos supoponer las visitas, obtenidas desde la API, esto nos dará una información vital para entender cómo afecto al site aquel error cometido.

URLs 410 rastreadas por Googlebot y visitas

 

Como se ve, poco a poco se va recuperando el tráfico una vez resuelto los errores, pero claro, después de marear a Google con esos errores en miles y miles de urls, está siendo costoso, pero poco a poco parece que recupera :)

En el siguiente post veremos información igual o más útil que esta pero que no se puede representar en gráficos ;)

 

 

 

 


henry hace Hace más de 3 años y 31 días

hola dar la gracias por el port bastante interesante.
les tengo una preguanta cuando uno tiene un server dedicado como puedo adquirir los log

Errioxahace Hace más de 3 años y 30 días

@henry si tu sistema es linux suelen estar en /var/log/apache/access.log



Lea otros artículos de Logs y Big Data

Últimos posts

Últimos comentarios


Lino

@errioxa probando desde comentarios del site :)
Post: El valor de los logs para el SEO

Lino

@Santy Jordi y Sergio muchas gracias! Irá mejorando, pero poco a poco :)
Post: Informes y gráficas usando la API de Google Search Console

sergio

Bravo! Gracias por compartir.
Post: Informes y gráficas usando la API de Google Search Console

Santy

Gracias Lino, muy útil para el día a día
Post: Informes y gráficas usando la API de Google Search Console

Jordi

Buenas tardes Lino, Felicidades por la herramienta, me parece algo espectacular y rápido de utilizar. Espero con muchas ganas ver las nue
Post: Informes y gráficas usando la API de Google Search Console

Joan marc

Muchísimas gracias @Lino!! Para acabar, sabes si con Varnish tendríamos problemas? Entiendo que al no hacerse siempre consultas al servid
Post: Monitorizar GoogleBot con Google Analytics

Lino

@Joan marc sí!, pero has de configurar el server para que cualquier URL que de 301 sea tratada por una única url del site (como la url de
Post: Monitorizar GoogleBot con Google Analytics

Joan marc

Excelento post Lino! Has podido trackear los 301 y 302?
Post: Monitorizar GoogleBot con Google Analytics

German

Hola amigo, lo cierto es que no me he enterado pajolera idea de lo que cuentas, aunque te felicito por aparecer en el Discovery de Google. M
Post: Google podria no querer el HTML de una URL

Lino

Una manera súper sencilla para comprobarlo: 1- Una URL, mirar un log de Googlrbot de esa UR cuando da 200 2- Comparar con otro log
Post: Google podria no querer el HTML de una URL