El valor de los logs para el SEO

Publicado el martes 6 de septiembre del 2016 por Lino Uruñuela

Hace poco escribí el primero de una serie de post sobre el uso de Logs, Big Data y  gráficas,  en este caso continúo el análisis de la bajada que comenzamos a ver en Seo y logs (primera parte): Monitorización de Googlebot mediante logs , una caída importante en el tráfico orgánico del site sin que hubiesen cambios aparentes en el algoritmo de Google.

Vamos a ponernos en antecedentes para refrescar un poco la memoria.
  • Un día concreto, el 23 de febrero, el mismo día que el site batía récord de tráfico orgánico,  comenzó la gran odisea, bajando el tráfico orgánico en un 30% con respecto a la semana anterior.

    La línea roja es el tráfico orgánico del site, y las guías verticales son implementaciones y desarrollos técnicos en la web.

    Logs Big Data y SEO



  • Al analizar el comportamiento de GoogleBot en el site nos dimos cuenta que justo el día del récord en tráfico en el site comenzaba la odisea, y comenzamos a dar errores 410 en miles de urls, cuando lo habitual eran menos de 10 .
    En esta gráfica y en las siguientes el área azul representa el tráfico orgánico


    Logs Big Data y SEO y Google


  • Además, las urls que estaban generando estos miles de errores 410 eran las secciones más importantes del site, y que aportaban un amplio porcentaje del tráfico orgánico, por lo que el impacto fue importante. más de un 30% del tráfico se perdió en una semana.


    caida de trafico


  • Por si fuese poco,  ahora le iba a tocar el turno a los errores 404, siendo más de 20.000 las urls que arrojaban 404.

    Por lo menos esta vez el segmento más importante del site no estaba afectado, ya había tenido bastante con los 410... pero sí se vio afectado el segundo segmento más importante, y en mayor medida todavía el tercero,  que no aportaba tanto tráfico como los otros dos, pero que tenía muchísimas más urls.

    El tráfico orgánico sigue cayendo.


    Errores 404 en los logs


  • Para colmo, también las urls  con código de estatus 200 rastreables e indexables llegaron casi a las 150.000 en un solo  día,  cuando lo normal venía siendo una media de 10.000 urls al día, con sus picos pero por ahí rondaba. Ya lo teníamos todo, sin querer, habíamos quintuplicado las urls del site dando errores y páginas sin contenido.


    urls correctas en los logs


Si había algo bueno en toda esta hecatombe es que al menos sabíamos qué estaba ocurriendo, y por lo tanto, podríamos pensar en cómo solucionar esos errores e intentar mitigar la caída todo lo posible.

Ahí nos dimos cuenta que  esto se había producido por el caos de urls que había en la arquitectura del site, ya que la web tiene mucha historia y  salían bichos de debajo de cada byte que movías... Las webs grandes y medianamente antiguas tienden a acumular mierda como si fuesen fans del mismísimo Diógenes.

Comenzamos a solucionarlo

Como es lógico, desde el primer momento estuvimos pensando cómo solucionar esto, y ahí es cuando uno se da cuenta del valor que tienen los logs para el SEO,  sin análisis de  logs hubiéramos estado vendidos,  o al menos nos hubiera costado mucho más esfuerzo y horas. Lo que venía a continuación iba a ser más parecido a un análisis forense que un trabajo de "informáticos".


Comienzan las soluciones


OjO con los 410

Dar miles de errores 410 donde no se debe, se paga, y muy caro,. Creo que es una de las lecciones más valiosas que hemos aprendido, pero teníamos datos, una tool a medida hecha por nosotros, una gran preocupación y muchos, muchos frentes abiertos.

Lo que hicimos fue dejarnos de parches aquí o allá y cogimos el toro por los cuernos. Vimos, y aceptamos, el grave problema que había en cuanto a la arquitectura y que si queríamos llevar esto a buen puerto deberíamos de ser más radicales y comenzar a diseñar la arquitectura de información, a pensar las urls indexables y las que no, a agrupar urls por el problema que tuviesen y a valorar y decidir qué hacer con cada grupo de urls con errores.

A parte de que más de 20.000 urls dieran error, o que casi 100.000  urls respondían un 200 cuando no debían haberse creado, ya tenían de por sí sus propios problemas. Típicas cosillas de sites con antigüedad...  que si hace nos sé cuántos años creamos así las urls, luego  asá...

Pero claro, hasta que un día saltó el muelle y  al programador se le escapó algo erróneo en producción (cosa totalmente normal viendo lo que había) y la líada fue parda,, como diría aquella chavalilla punki después de quemar su escuela....

Pero para punkis www.FunnelPunk.com, nos remangamos, nos pusimos las gafas de científicos y fuimos uno a uno solucionando como mejor creímos los grupos de problemas/urls que teníamos.

En este caso concreto, no nos hacía falta saber desde donde se producían esas urls erróneas, era cosa nuestra en el enlazado interno y las distintas lógicas que a lo largo de los años había sufrido el site. Así que nos centramos en revisar toda la lógica, hacer las redirecciones correctas y voilá! poco a poco fuimos recuperando el tráfico perdido.

Record



Era inviable seguir definiendo parches, ya que tarde o temprano algún técnico se iba a confundir, era inevitable y eso nos hizo afrontar esto de cara, sin parches. Pensamos en qué segmentos y qué facetas queríamos indexar y potenciar, todo ello en base a los datos de tráfico y crawleo de GoogleBot durante su pèriodo normal, no durante el caos.

Una vez tuvimos claro esto, nos pusimos a pensar qué hacer con los grupos de errores que había, si merecían o no la pena redirigirlo, si debíamos restringir el acceso mediante robots.txt, si le metíamos canonical allí o aquí, etc.

Parece fácil,  pero no lo es, es un duro trabajo, y nada divertido debido a que la cagada había sido bien grande.. pero bueno, al ver la recuperación del site, que hoy bate récords de visitas en su historia, estamos orgullosos (yo por lo menos ;) ) del trabajo que estamos haciendo, y de ver que los tres en FunnelPunk (Natzir, Dani y yo), hemos conseguido un reto que es de los mayores en este juego de la Ginkana  SEO, de los bomberos apagafuegos...

Espero que os haya gustado este post y bienvenida cualquier aportación , idea o duda.. vamos, que a ver si alguien se digna a comentar :p.

En los siguientes artículos seguiré con la serie de posts sobre crawleo, logs y bots

 


Comentarios

David barrerahace Hace más de 1 años y 41 días

Maquinón! Gracias por el post.. la verdad es que no miro los logs, quizá porque no me ha surgido.. pero quiero pedirte un favor, si quieres por privado.. explicar un poco como podría revisar un log sin ese programa a medida.. un poco para bichear :D

Gracias y enhorabuena por ese levantamiento!

Errioxahace Hace más de 1 años y 41 días

@David barrena escribí hace tiempo un par de post que igual te pueden ayudar.

Este para hacerlo desde la consola de tu ordenador

Y este para hacerlo con Google Analytics.


Saludos!

David barrerahace Hace más de 1 años y 40 días

Muchas gracias!!! :)

Deja un comentario


Posts anteriores en Logs y Big Data


Space Needle
Publicado por Lino Uruñuela el 22 de marzo del 2017 El otro día hubo un debate sobre qué método usará Google a la hora de interpretar, seguir y valorar las redirecciones 301. Las dudas que me surgieron fueron ¿Cómo se comportan los crawler

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo. Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directament

Seguir leyendo
Space Needle
Publicado por Lino Uruñuela el 27 de junio del 2016   Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que ha

Seguir leyendo
Space Needle
Publicado el 23 de junio del 2013 By Lino Uruñuela   Algo muy común en el día a día de un SEO es mirar las distintas herramientas que Google nos proporciona dentro de WMT para saber el estado de nuestra web en cosas como la frecuencia de rast

Seguir leyendo
Space Needle
Publicado el 3 de diciembre del 2012, by Lino Uruñuela Llevo unos cuantos meses observando un comportamiento algo contradictorio al restringir URLs desde el robots.txt. Supuestamente en el robots.txt puedes restring

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado el 10 de abril del 2012, by Lino Uruñuela Hace tiempo hice unos tests para comprobar que Google interpretaba el meta canonical y cómo lo evaluaba. No recuerdo si publiqué el experimento, pero sí recuerdo que Google contaba los links que había hacia

Seguir leyendo

Datos de contacto
  • 637167218
  • wachynaky@gmail.com

Dónde encontrarme

FunnelPunk.com


Blog Seo de Lino Uruñeula
Co-Fundador



Lánzate y pregunta!

Nos gustan los robots, pero no tanto
7 + 3

Últimos posts

Últimos comentarios


Luis Salazar Jurado

Buenas Lino He hecho un test en mi site: www.seotecnico.com y tras hacer test en Iphone, Chrome y Firefow parece que funciona Sería a
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Gracias Lino por avisar. Solo he aplicado las mejoras de CSS y va como un tiro. Debido a que la web en la que lo he implementado cargo
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

...la línea ---?php wp_head()--- Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

Hola Lino. En WordPress, ¿de qué manera se podría editar una línea de código CSS y JS para añadir las modificaciones en verde que menc
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan M.

Para mí, esa forma de cargar los estilos donde todo se ve sin estilo y los carga a los segundos me da una muy mala sensación del site. Tan
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Luis actualizado! Si te da algún problema avisa!
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Lo he implementado y va como la seda Espero la actualización que has comentado en Twitter para ver el Javascript, pero solo con el CSS y
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Antonio solo Google sabe si se pasa o no lj con nofollow, en principio la url de destino no se vería beneficiada porque no lo contaría, p
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Antonio José Soler Morillas

Uff, que buen curro, una duda, "si quieres evitar pasarle linkjuice ponle nofollow" No pasas LJ si usas nofollow para los anuncios cargad
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Martin Maqueira

Seguro que guarda la URL original. Así ahorra volver a crawlearla. Pero a efectos de calificarla la cuenta como una destino final. Es decir
Post: Intentando comprender Googlebot y los 301

Categorias