Dime que logs tienes, y te dire si Googlebot te quiere

Publicado el 23 de junio del 2013 By Lino Uruñuela

 

Algo muy común en el día a día de un SEO es mirar las distintas herramientas que Google nos proporciona dentro de WMT para saber el estado de nuestra web en cosas como la frecuencia de rastreo, el número de páginas indexadas, errores 404, errores 503, etc...

 

 

 

 

No está mal echar de vez en cuando un vistazo a estos datos, pueden darnos señales de algo que ocurra en nuestra web.

Pero creo que damos demasiada importancia a esos números e ignoramos otros datos en los que deberíamos fijarnos, por lo menos, de la misma manera aunque no nos los muestre WMT.

En primer lugar, hay que inetentar comprender cómo funciona exactamente el bot de Google en nuestra página, y en segundo lugar, debemos optimizar lo que creamos que hay mejorable y/o arreglar lo que esté mal después de analizar lo que veamos.

Por ejemplo, en el caso de los errores 404, o los errores propios del servidor los 501, 503, etc, estos datos debemos mantenerlos lo más bajo posible, porque todos podríamos afirmar en consenso que tener muchos errores, bueno no es. Así que si los controlamos mucho mejor.

Hay otros datos como el número de páginas rastreadas al día, que no es que me fie o no de esa gráfica, porque realmente la mayoría de las veces coincide en las variaciones de la frecuencia de rastreo, cuando la contrastas con los logs . Pero posiblemente no sea muy importante el valor del número sino como varía y por qué! 


 

Dicho esto, creo que nos conformamos con muy poco, con estos datos realmente estamos tuertos si no analizamos nada más. El saber qué está haciendo el bot cuando llega a nuestra web, por dónde está “perdiendo” el tiempo,

  • ¿cada cuanto vuelve a rastrear los distintos tipos de urls que tengamos?

  • ¿Con que frecuencia rastrea nuestros sitemaps?

  • ¿Cuántas redirecciones 301 tenemos en cada tipología de url? 

  • ¿Sigue Google rastreando redirecciones de hace 10 años? ya os lo adelanto... sí.
  • ¿Cuánto tiempo dedica a los paginados?

  • ¿Y a los filtros?

  • ¿Cuál es el ratio entre el número total de hits de Googlebot que hay en cada tipo de urls y los usuarios recibidos a éstas?



¿A que ahora parece que no sabemos nada?
Hay que reconocer que la única información útil que nos puede mostrar Google Analytics y no nos la podrán dar los logs del servidor, son los datos de las kw de los usuarios que llegan de buscadores, y puede que dentro de pooco nos quedaremos sin referer, ya que cada vez hay más usuarios que van con esa información encriptada o directamente sin ella como en OS6.


¿Que podemos hacer de una forma rápida y fácil con los logs?
Hay cuatro o cinco comandos (linux) que podemos/debemos usar para obtener unos datos muy interesantes de la actividad del bot en nuestras páginas.

Ahí tenemos muchísima información, y si lo hacemos bien, que es muy fácil, tendremos datos más fiables que los de cualquier herramienta de analítica que nos proporcionen otros, como WMT.

Vamos a ello!
Digamos que nos bajamos los logs del servidor del último mes, o de donde los tengamos guardados. Normalmente vienen en ficheros separandos, por ejemplo, pongamos que tenemos

  • ficherologs.1

  • ficherologs.2

  • ficherologs.3

  • ficherologs.4

  • etc



Lo primero que vamos a hacer es unir estos logs todos en un mismo fichero, para esto hacemos.

cat ficherologs.* > logs-Unidos.txt

Ahora que ya tenemos todos los logs juntitos, vamos analizar por ejemplo los hits que hace Googlebot en nuestro site. Para ello del fichero de logs-Unidos.txt vamos a quedarnos sólo con los accesos de Googlebot y los meteremos en otro archivo

cat logs-Unidos.txt | grep Googlebot > AccesosTotalesGooglebot.txt

Cada fila representa un acceso de Googlebot, entonces, ya tenemos el número total de veces que Googlebot ha pasado por nuestro site!, en dos órdenes... vamos a analizar un poquito más. Hay que tener en cuenta que en este fichero están todos los accesos, tanto a imágenes, js, etc. aunque Googlebot casi no entra en comparación al resto de urls

Así que vamos a centrarnos en URLs de contenido, no js, css, o imágenes.
No quedmaos sólo con la info útil de cada línea, en este caso las URLs

cat AccesosTotalesGooglebot.txt | egrep -io 'GET (.*) HTTP' > HitsTotales.txt


Ahora tenemos un fichero que está compuesto por líneas como estas

 

Vemos que por cada línea tenemos un GET + landing + HTTP, el GET y el HTTP los he dejado ahí porque la primera vez que hice la expresión regular me salió de esta manera, y cómo realmente me da igual que estén o no... pues ahí siguen :)

Ahora filtramos para quedarnos sólo con las urls de contenido, o sea, nos quedamos sólo con las que acaben en “.php HTTP” o en “/ HTTP”

cat AccesosTotalesGooglebot.txt | egrep -io 'GET (.*)[\.php|/] HTTP' > Hits-URLs.txt


Ahí tendremos por cada línea un acceso de Googlebot a la url de esa línea. Ahora sí, podemos saber el número de accesos que ha hecho en total el bot.

egrep -c '' Hits-URLs.txt


El resultado que devuelve es el número de hits que hace Googlebot en nuestro site.

Puede que también queramos saber por ejemplo el desglose por tipo de url, entonces le ponemos el patrón que las diferencie, por ejemplo yo quiero saber cuántas hits hay a urls de un directorio haría

egrep -c 'nombreDirectorio' Hits-URLs.txt


Daros cuenta que en vez de nombreDirectorio le puedo poner el patrón que quiera, por ejemplo el patron que uso en las paginaciones, o el patrón que se usa en cada filtro. De esta manera también sabré cuánto tiempo dedica el bot a rastrear mis paginados... En todas las webs que miro se pasa casi un 80% del tiempo en paginados o haciéndose la picha un lío ordenándose a si mismo...

Si la web es muy muy grande esto puede ser un punto en tu contra, porque ese tiempo que dedica a esos paginados interminables no se lo dedica a otras urls que quizás te interesaran más...

Otro dato muy importante es saber a cuántas URls únicas accede, ¿cuántas URLs rastrea de verdad?

Tal como está ahora puede haber muchos accesos por parte de Googlebot a una misma URL .pero nosotros ahora quremos analizar por ejemplo cuántas URLs distintas nos está rastreando
Para eso vamos a ordenar y agrupar nuestro fichero de Hits-URLs.txt con la siguiente orden

sort Hits-URLs.txt | uniq -c > hits-agrupados-por-urls.txt


Si miramos cómo nos queda el fichero vemos algo así





Donde el número de la primera columna es las veces que el bot de Google ha accedido a esa url. Ahora con la misma orden de antes (o contando las líneas totales del fichero) sabremos cuántas URLs distintas ha rastreado Google.

egrep -c '' hits-agrupados-por-urls.txt


De la misma manera podemos analizar cuánto tráfico orgánico nos llega desde Google por medio de los logs, y combinando con los datos que hoy hemos obtenido podemos tener una visión muy clara de que URls son rentables o cuáles no, pero esto lo dejaremos para el próximo post :)



Además se pueden pintar todos estos datos gracias a muy diversas y variadas herramientas de gráficas, y así conseguiremos gráficas como estas, donde desglosamos todos estos filtros y datos.


grtaficas de logs


Todavía más:

Y no sólo eso, también podemos hacer muchas cosas con estos datos, como ver el comportamiento del bot de Google en comparación con el acceso de usuarios, ahí os dejo este vídeo.

 




Posts anteriores en Logs y Big Data


Space Needle
Publicado por Lino Uruñuela el 22 de marzo del 2017 El otro día hubo un debate sobre qué método usará Google a la hora de interpretar, seguir y valorar las redirecciones 301. Las dudas que me surgieron fueron ¿Cómo se comportan los crawler

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo. Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directament

Seguir leyendo
Space Needle
Publicado el martes 6 de septiembre del 2016 por Lino Uruñuela Hace poco escribí el primero de una serie de post sobre el uso de Logs, Big Data y  gráficas,  en este caso continúo el análisis de la bajada que comenzamos a ver en Seo y logs (primera par

Seguir leyendo
Space Needle
Publicado por Lino Uruñuela el 27 de junio del 2016   Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que ha

Seguir leyendo
Space Needle
Publicado el 3 de diciembre del 2012, by Lino Uruñuela Llevo unos cuantos meses observando un comportamiento algo contradictorio al restringir URLs desde el robots.txt. Supuestamente en el robots.txt puedes restring

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado el 10 de abril del 2012, by Lino Uruñuela Hace tiempo hice unos tests para comprobar que Google interpretaba el meta canonical y cómo lo evaluaba. No recuerdo si publiqué el experimento, pero sí recuerdo que Google contaba los links que había hacia

Seguir leyendo

Últimos posts

Últimos comentarios


Javier Galán

Este post es una auténtica genialidad. Muy útil.
Post: Medir cuántos usuarios hacen click para ampliar la imagen en Google Imágenes, aunque no entren en nuestra web

Antonio

Hola Lino, Sabes si añadiendo como robot Googlebot ya incluye tanto al robot de desktop como de mobile? O se tendria que añadir Googlebot
Post: Monotorizar GoogleBot con Google Analytics

unoquepasa

Que pasaria si haces varias paginas y cambias el orden de las palabras en los titulos ¿cual se mostrara primero? las que esten mas cerca de
Post: ¿Cuántas palabras valorará Google en el title?

Alex Rodríguez

Muy buenas Lino! Me pasaba por aquí por casualidad a ver si encontraba algo de info de lo que pasó estos días y bueno... Parece que al
Post: Google comienza el año con dos updates

Lino Uruñuela

@Javi sí, sobre que hay mucho cafre por ahí, tienes razón, pero es como el robots.txt es "peligroso" en manos inadecuadas, igual que el n
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

Javier Lorente

Gracias Lino! Para "ocultar" errores en plan de andar por casa tiro de robots. Por otro lado, estamos ante una genial actualización que
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

Lino Uruñuela

Hola Ana! Si esas urls no tenían tráfico orgánico, o este es despreciable yo usaría un 410. Si no hay más enlaces hacia estas urls p
Post: Ofuscando enlaces para mejorar Link Juice

Ana

Muy interesante el artículo, pero tengo una cuestión. ¿Qué se haría con todos esos enlaces que desaparecen si ya han sido indexados por
Post: Ofuscando enlaces para mejorar Link Juice

Lino Uruñuela

@Javier Lorente mañana te contesto poco a poco, de momento la sugerencia de "Pon algo para enterarnos de las respuestas de los comentarios
Post: Cuando restringes por robots.txt puedes aumentar el número de URLs indexadas

Javier Lorente

Siempre sospeché de https://www.seroundtable.com/amp/google-long-term-noindex-follow-24990.html tiene toda la lógica. En alguno de tus exp
Post: Meta Robots Noindex

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.