Seo y logs (primera parte): Monitorización de Googlebot mediante logs

Publicado por Lino Uruñuela el 27 de junio del 2016
 

Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que hacen redirecciones, o urls que son correctamente rastreadas.

Esta información nos es útil para poder ver rápidamente si está ocurriendo algo fuera de lo normal en tu site, o si por el contrario todo va según lo previsto. Muchas veces los SEOs definimos que urls deben dar un estado 200, o cuando deben hacer un tipo de redirecciones o si deben responder un código de error u otro.

Hay ocasiones en el que al hacer la implementación técnica se comete algún error de programación o un error en la definición que les pasamos,  y que como consecuencia estemos dando algo erróneo a Google sin darnos cuenta,.

Hoy vamos a ver unos ejemplos de cómo con los logs obtendremos información útil sobre que está haciendo Google en tu site,  de lo fácil que es darse cuenta de que algo ha ocurrido y de identificar dónde está ocurriendo.

Estos ejemplos son sacados de una tool propia que usamos en FunnelPunk con nuestros clientes, así cada día podemos comprobar de un vistazo si todo va bien.

En este ejemplo vamos a  filtrar los logs de la siguiente manera
  • Fecha: Desde comienzo de año
  • User Agent: que contiene "Googlebot"
  • Código de estado: = 200


Y mostramos una gráfica como esta, la cual nos dice cuántas urls con estado 200  rastrea Google en nuestro site cada día

URLs 200 rastreadas por Googlebot
*Las líeneas verticales son guías que indican una implementación en el site para poder relacionar los cambios en el site con el comportamiento de Google.

Vemos como de repente en un día Google se puso a rastrear más de 100.000 urls mientras que anteriormente su frecuencia no era tan alta, algo había pasado. Y es que se cometió un error de programación que nos duplicó todo el site unas cuantas veces y creó miles de enlaces a páginas tanto correctas como inexistentes.

Filtrando igual que antes pero en vez de código de estado = 200 lo hacemos por los 410, vemos los distintos incrementos en este tipo de errores..

  • Fecha: Desde comienzo del año
  • User Agent: que contiene "Googlebot"
  • Código de estado: = 410
URLs 410 rastreadas por Googlebot


No solo se crearon miles de urls correctas, también muchas dieron 410, pero ¿que fue lo que las causó? Para ello debemos segmentar el site por secciones, para saber en que secciones ocurrió y si fueron urls que antes daban 200 o han sido nuevas.
 
URLs 410 rastreadas por Googlebot

Podemos ver rápidamente como las fichas crearon el primer pico de 410, algo que era correcto ya que eran fichas caducadas que no daban tráfico y queríamos eliminar, pero vemos que el segundo pico se genera en los segmentos 3 y 2, las dos secciones  que más tráfico orgánico aportaban al site.

Para facilitarnos la investigación podemos supoponer las visitas, obtenidas desde la API, esto nos dará una información vital para entender cómo afecto al site aquel error cometido.

URLs 410 rastreadas por Googlebot y visitas

 

Como se ve, poco a poco se va recuperando el tráfico una vez resuelto los errores, pero claro, después de marear a Google con esos errores en miles y miles de urls, está siendo costoso, pero poco a poco parece que recupera :)

En el siguiente post veremos información igual o más útil que esta pero que no se puede representar en gráficos ;)

 

 

 

 


henry hace Hace más de 3 años y 237 días

hola dar la gracias por el port bastante interesante.
les tengo una preguanta cuando uno tiene un server dedicado como puedo adquirir los log

Errioxahace Hace más de 3 años y 236 días

@henry si tu sistema es linux suelen estar en /var/log/apache/access.log



Lea otros artículos de Logs y Big Data

Últimos posts

Últimos comentarios


Adrian Coutin

muy bueno Lino, nos indica un elemento, de los tantos, en la optimización de googlebot, no trabajar en vano... ;-) ciao
Post: Google podria no querer el HTML de una URL

Ricardo

Hola, Hay vídeo de la charla de Seonthebeach? saludos,
Post: Logs y Big Data

Lino

@Felipe quizás si puedes añadir javacript podrías añadirla, pero si no creo que no podrás ya que el meta canonical va a nivel de cabec
Post: Consolidación de urls canónicas en Google Search Console

Jordi

Presentarl@ a un amig@ = Redirección.
Post: El SEO para ligar

OSCAR NAVARRO AMADO


Post: Saber cuántos dominios tiene una persona

Felipe

Cada vez que pongo una etiqueta canónica en wordpress, me la desaparece automáticamente, la pongo en html, ya que de otra forma no me per
Post: Consolidación de urls canónicas en Google Search Console

Lino

@pacorapidohace así es, este experimento fue hace 10 años... y sí, he comprobado lo mismo que tú, hace falta estar la palabra en la url
Post: Links de imagen y texto, como los trata Google

pacorapido

Hola @Errioxa todo esto ha cambiado por que creo que tiene que ver que la pagina destino no tiene en su contenido las palabras inventadas,
Post: Links de imagen y texto, como los trata Google

FunnelPunk

Complementando la respuesta (y aprovechando para comprobar mi "avisador" por Twitter), por si Google no pudiese acceder al robots.txt y no s
Post: Errores críticos originados por el robots.txt

Lino

Hola Miriam, crea un robots.txt vacío para probar, también podrías añadir uno básico con las dos siguientes líneas User-agent: * Allo
Post: Errores críticos originados por el robots.txt