Logs y Big Data

Publicado por Lino Uruñuela el 27 de junio del 2016

El otro día tuve el placer de poder participar otra vez en el evento Seonthebeach, y es que la verdad es que este evento me gusta!

Estuve hablando sobre logs y SEO, aquí la presentación, de cómo analizando los logs de una web se puede hacer un seguimiento muy detallado de que hace Google en tu site, además de obtener datos de los enlaces entrantes en un site.

Como me faltó tiempo para verlo todo en profundidad voy a empezar una serie de posts sobre logs y SEO para ver
los datos que podemos obtener de ellos, el cómo usarlos y el gran valor que para un SEO tienen. Aquí os dejo un primer borrador del índice con el pimer post "Monitorización de Googlebot en tu site"

 

Para el que no sepa muy bien que es un log, aquí dejo una breve intro.

¿Qué son los logs?

Cada vez que un usuario (o un bot de un buscador o scraper) hace una petición desde el navegador de una url de tu página web el servidor lo registra en un fichero de texto, donde queda reflejado quién ha hecho la petición, cuándo la hizo, que url ha pedido, información de sistema operativo y navegador de quién la ha hecho.

Por ejemplo, cuando cargamos la home de este site, podemos ver como nuesrtro navegador pide al servidor una serie de ficheros.

Peticiones al navegador



Si miramos los logs mientras carga la página podemos ver las siguientes líneas


Peticiones al navegador

Podemos ver como las urls que señalo son exactamente las mismas que el navegador del cliente está pidiendo.

En los logs, no solo se guarda la url que pide el usuario desde la barra de direcciones del navegador, sino que
también se guardan  todas las peticiones que se hacen desde el html devuelto al cliente, por ejemplo las hojas de estilos (ficheros  css,) imágenes, ficheros js o cualquier petición que se haga.

¿Que información nos ofrecen los logs?

Los campos que aquí veremos y manejaremos son
  • Fecha
    Cualquier análisis de logs no valdrá de nada si no filtramos los datos por fecha, ya sea por días, ya sea comparando datos entre dos fechas. Los datos sin fecha no son relevantes, y aquí lo que queremos es ver que ocurre en nuestro site cada día, para así poder ver o analizar los cambios que en ellos se produzcan.

  • URL
    Queremos ver los datos de una url o en un grupo de urls y para ello usaremos este campo. En la mayoría de ocasiones necesitamos saber qué ocurre con un grupo determinado de urls como podrían ser las distintas secciones del site, sus distintos  filtros, las paginaciones, las fichas de producto, listados etc.

  • Código de estado (200, 301, 302, 404, 410, etc)
    Este campo como os podéis imaginar es uno de los más importantes, ya que nos interesa ver que hacen las urls de nuestro site, cómo responden ante Google y a dónde le llevan.

  • Referer
    Normalmente cuando es un bot de un buscador como el caso de Google, este campo suele ir vacío "-",.


  • User Agent
    Este campo lo usaremos para identificar a GoogleBot, si este campo contiene "Googlebot" es Google, aunque lo ideal es hacer un reverse DNS para ver si es Google realmente o algún otro crawler que se hace pasar por el?

 

 

 


Comentarios

Deja un comentario

Space Needle
Publicado por Lino Uruñuela el 22 de marzo del 2017 El otro día hubo un debate sobre qué método usará Google a la hora de interpretar, seguir y valorar las redirecciones 301. Las dudas que me surgieron fueron ¿Cómo se comportan los crawler

Seguir leyendo

  • 0000-00-00 00:00:00

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo. Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directament

Seguir leyendo

Space Needle
Publicado el martes 6 de septiembre del 2016 por Lino Uruñuela Hace poco escribí el primero de una serie de post sobre el uso de Logs, Big Data y  gráficas,  en este caso continúo el análisis de la bajada que comenzamos a ver en Seo y logs (primera par

Seguir leyendo

Space Needle
Publicado por Lino Uruñuela el 27 de junio del 2016   Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que ha

Seguir leyendo

Space Needle
Publicado el 23 de junio del 2013 By Lino Uruñuela   Algo muy común en el día a día de un SEO es mirar las distintas herramientas que Google nos proporciona dentro de WMT para saber el estado de nuestra web en cosas como la frecuencia de rast

Seguir leyendo

Space Needle
Publicado el 3 de diciembre del 2012, by Lino Uruñuela Llevo unos cuantos meses observando un comportamiento algo contradictorio al restringir URLs desde el robots.txt. Supuestamente en el robots.txt puedes restring

Seguir leyendo

  • 0000-00-00 00:00:00

Publicado el 10 de abril del 2012, by Lino Uruñuela Hace tiempo hice unos tests para comprobar que Google interpretaba el meta canonical y cómo lo evaluaba. No recuerdo si publiqué el experimento, pero sí recuerdo que Google contaba los links que había hacia

Seguir leyendo


Posts anteriores en Posicionamiento


  • 0000-00-00 00:00:00

Pues parece ser que Google no se traga las estrellitas ????? en el title :(

Seguir leyendo
  • 0000-00-00 00:00:00

Seguir leyendo
  • 0000-00-00 00:00:00

Pues parece ser que Google no se traga las estrellitas ★★★★☆ en el title :(

Seguir leyendo
  • 0000-00-00 00:00:00

Seguir leyendo
  • 0000-00-00 00:00:00

Seguir leyendo
  • 0000-00-00 00:00:00

Seguir leyendo
  • 0000-00-00 00:00:00

Seguir leyendo
  • 0000-00-00 00:00:00

Escrito el martes 24 de Julio de 2007 Estoy comprobando en mis propias carnes como afecta una caída del hosting en los resultados de Google. El hosting donde tengo alojado algunas páginas me ha suspendido por culpa nuestra, al no responder a una serie de correos que nos mandó

Seguir leyendo
  • 0000-00-00 00:00:00

Los links son la clave en el posicionamiento web, cuando un usuario hace una búsqueda por la frase X en un Google, éste mira en su base de datos y hace cáculos con los datos sobre los links de internet que contengan esa frase X. Además de contar el número de links que hay hacia una página tam

Seguir leyendo

Datos de contacto
  • 637167218
  • wachynaky@gmail.com

Dónde encontrarme

FunnelPunk.com


Blog Seo de Lino Uruñeula
Co-Fundador



Lánzate y pregunta!

Nos gustan los robots, pero no tanto
7 + 3

Últimos posts

Últimos comentarios


Luis Salazar Jurado

Buenas Lino He hecho un test en mi site: www.seotecnico.com y tras hacer test en Iphone, Chrome y Firefow parece que funciona Sería a
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Gracias Lino por avisar. Solo he aplicado las mejoras de CSS y va como un tiro. Debido a que la web en la que lo he implementado cargo
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

...la línea ---?php wp_head()--- Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

Hola Lino. En WordPress, ¿de qué manera se podría editar una línea de código CSS y JS para añadir las modificaciones en verde que menc
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan M.

Para mí, esa forma de cargar los estilos donde todo se ve sin estilo y los carga a los segundos me da una muy mala sensación del site. Tan
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Luis actualizado! Si te da algún problema avisa!
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Lo he implementado y va como la seda Espero la actualización que has comentado en Twitter para ver el Javascript, pero solo con el CSS y
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Antonio solo Google sabe si se pasa o no lj con nofollow, en principio la url de destino no se vería beneficiada porque no lo contaría, p
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Antonio José Soler Morillas

Uff, que buen curro, una duda, "si quieres evitar pasarle linkjuice ponle nofollow" No pasas LJ si usas nofollow para los anuncios cargad
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Martin Maqueira

Seguro que guarda la URL original. Así ahorra volver a crawlearla. Pero a efectos de calificarla la cuenta como una destino final. Es decir
Post: Intentando comprender Googlebot y los 301

Categorias