Cuando restringes por robots.txt puedes aumentar el número de URLs indexadas

Publicado el 3 de diciembre del 2012, by Lino Uruñuela

Llevo unos cuantos meses observando un comportamiento algo contradictorio al restringir URLs desde el robots.txt. Supuestamente en el robots.txt puedes restringir el acceso a los buscadores como Google, para así no indexar y que no se muestre en las búsquedas resultados que no te interesan.

Lo normal es pensar que cuando restringes URLs a través del robots.txt tu número de páginas indexadas en Google debería descender, pero no es así.

URLs indexadas


Como vemos el mismo día que restringimos por robots.txt muchas URLs vemos como las páginas indexadas aumenta igualmente!

Esta no es una coincidencia, lo he comprobado en unas cuantas webs y ocurre lo mismo. Podéis comprobarlo :)

En este otro ejemplo, no es tan tan claro, pero vemos también como varia
URLs indexadas


Mi teoría
Pienso que Google asigna un Nº determinado de URLs indexables variable para cada web. Este Nº podria depender de la autoridad del dominio, quizás también use el Nº de URLs totales, para asignar más o menos número de URLs en su índice de cada site.

De esta manera se podría explicar por qué cuando restringimos por robots.txt el acceso a muchas URLs vemos un incremento en el número de URLs indexadas en Google.. Vemos como las URLs seguidas alguna vez (color rojo) sigue con su tendencia, no varía, Google rastrea todo lo que puede, pero en cambio los demás datos varían claramente al modificar el robots.txt.

Si Google por ejemplo tuviese un cupo de URLs para un site con un valor de 1000,  entre esas 1000 hay 800 URLs no seguidas (meta noindex, mala calidad, duplicado, errores desconocidos, etc) quedarían sólo 200 para ser indexables y la proporción de URLs "malas" y URLs indexables no es suficiente para aumentar el cupo con lo que tu número de URLs indexables seguirá igual a 200.

Si conseguimos descender el número de URls de mala calidad que Google detecte , podremos hacer que el ratio entre NºURLs indexables y NºURLs del cupo aumente y puede que sea esto lo que hace que Google recalcule ese nuevo cupo para las URLs indexables.

Puede que Google no contemple este ratio entre urls indexables y urls no seguidas, pero está claro que algo tiene que ver con el robots.txt por lo que a mi parecer tiene que ser que Google asigna un cupo de URLs en su índice de tu site. Y es este número el que debemos intentar aumentar y/o regular.

¿Podría haber diferencias relevantes entre usar un meta noindex y usar la restricción por el robots.txt? Yo con el meta noindex no he visto este comportamiento...




 


Comentarios

Christian Oliveirahace Hace más de 4 años y 321 días

Muy raro, no? Cuando bloqueas URLs en el robots el número de indexadas pasa a ser superior al número de rastreadas (lo que en teoría no tiene sentido). Hace unos extraños y luego como que se normaliza, y las bloqueadas por robots.txt bajan a 0 (les has quitado el bloqueo?)

En cualquier caso, el robots.txt no impide que Google indexe esas URLs, sólo que no las rastree. Si hay enlaces las "indexa" igual (indexa sólo la URL) sin ningún tipo de información más que la URL y los anchor de los enlaces que haya a esa URL). En cambio el deja a Google rastrear la página pero no indexarla (lo contrario que el robots).

Errioxahace Hace más de 4 años y 321 días

@Christian lo que comentas de número de indexadas superior al rastreadas está claro que no nos ofrece todos los datos, pero ya te digo que este comportamiento no lo he visto en esta web, en esta hice la prueba poco tiempo, la he vuelto a realizar ahora. Pero en otros sites pasa lo mismo! no creo que sea coincidencia...

Como bien dices no impide que Google indexe esas URLs, concretamente no indexará su contenido, ni lo leerá pero pueden estar en su índicede una manera indirecta, si las linkas lo suficiente hasta aparecerán en las serps sin título ni descripción, pero... ¿será que los datos para ofrecer ese resultado son los que tienen guardado en el índice de links de otras webs y no en el nuestro?

Algo ocurre, hacer la prueba y así compartimos experiencias :)

Saludos

Errioxahace Hace más de 4 años y 321 días

@Dario Cedeño si me pones un poco más de gráfica igual se puede ver algo...

Y sobretodo depende de lo que estés haciendo en tu web, si la acción ha sido aislada o hubo más implementaciones de otro tipo en el site. También si has hecho la prueba de cambiar el noindex por robots.txt...

David Carrero Fernandez-Baillohace Hace más de 4 años y 307 días

Yo ultimamente en algunas web estoy optando por incluir url en robots.txt pero además restringir el acceso por IP, así además de no indexarse google realmente no puede acceder y así evito la mirada indiscreta del gran hermano.

Errioxahace Hace más de 4 años y 307 días

@David ten cuidado que igual te podría acusar de cloaking ;)

JavierMhace Hace más de 4 años y 286 días

Olvidé comentar que en el apartado de sitemap de GWT prácticamente todas las URL's que deben indexarse lo han hecho:

797 Enviado
794 Indexadas

JavierMhace Hace más de 4 años y 286 días

Perdón... el gráfico:

Javier Lorentehace Hace más de 4 años y 251 días

X-Robots-Tag: noindex + robots.txt no indexaría la URL, no?

Errioxahace Hace más de 4 años y 250 días

La URL la guardará siempre si tiene algún link entrante creo yo, y si recibe suficientes enlaces se posicionará.

Sólo desde WMT puedes hacer que desaparezca.

Javierhace Hace más de 4 años y 241 días

Gracias por los comentarios, lo que extraña es que parece que sí se van borrando (lentamente), pero las que aparecen como no eliminadas (y algunas que vuelven a aparecer al tener enlaces) no aparecen usando 'cache:'

Javierhace Hace más de 4 años y 241 días

Gracias por los comentarios, lo que extraña es que parece que sí se van borrando (lentamente), pero las que aparecen como no eliminadas (y algunas que vuelven a aparecer al tener enlaces) no aparecen usando \\\'cache:\\\'

Javier Lorentehace Hace más de 2 años y 208 días

Tengo proyectos con xrobots tag con noindex que despues de meses y meses... la URL sigue indexada si hago un site:.. tiene enlaces, lo que dices.

Javier Lorentehace Hace más de 2 años y 208 días

Tengo proyectos con xrobots tag con noindex que despues de meses y meses... la URL sigue indexada si hago un site:.. tiene enlaces, lo que dices.

Javier Lorentehace Hace más de 2 años y 208 días

Tengo proyectos con xrobots tag con noindex que despues de meses y meses... la URL sigue indexada si hago un site:.. tiene enlaces, lo que dices.

Javier Lorentehace Hace más de 2 años y 208 días

AH! Lo bueno sería contar las posicionadas Lino.. no las indexadas :-)

Deja un comentario


Posts anteriores en Logs y Big Data


Space Needle
Publicado por Lino Uruñuela el 22 de marzo del 2017 El otro día hubo un debate sobre qué método usará Google a la hora de interpretar, seguir y valorar las redirecciones 301. Las dudas que me surgieron fueron ¿Cómo se comportan los crawler

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo. Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directament

Seguir leyendo
Space Needle
Publicado el martes 6 de septiembre del 2016 por Lino Uruñuela Hace poco escribí el primero de una serie de post sobre el uso de Logs, Big Data y  gráficas,  en este caso continúo el análisis de la bajada que comenzamos a ver en Seo y logs (primera par

Seguir leyendo
Space Needle
Publicado por Lino Uruñuela el 27 de junio del 2016   Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que ha

Seguir leyendo
Space Needle
Publicado el 23 de junio del 2013 By Lino Uruñuela   Algo muy común en el día a día de un SEO es mirar las distintas herramientas que Google nos proporciona dentro de WMT para saber el estado de nuestra web en cosas como la frecuencia de rast

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado el 10 de abril del 2012, by Lino Uruñuela Hace tiempo hice unos tests para comprobar que Google interpretaba el meta canonical y cómo lo evaluaba. No recuerdo si publiqué el experimento, pero sí recuerdo que Google contaba los links que había hacia

Seguir leyendo

Datos de contacto
  • 637167218
  • wachynaky@gmail.com

Dónde encontrarme

FunnelPunk.com


Blog Seo de Lino Uruñeula
Co-Fundador



Lánzate y pregunta!

Nos gustan los robots, pero no tanto
7 + 3

Últimos posts

Últimos comentarios


Luis Salazar Jurado

Buenas Lino He hecho un test en mi site: www.seotecnico.com y tras hacer test en Iphone, Chrome y Firefow parece que funciona Sería a
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Gracias Lino por avisar. Solo he aplicado las mejoras de CSS y va como un tiro. Debido a que la web en la que lo he implementado cargo
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

...la línea ---?php wp_head()--- Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

Hola Lino. En WordPress, ¿de qué manera se podría editar una línea de código CSS y JS para añadir las modificaciones en verde que menc
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan M.

Para mí, esa forma de cargar los estilos donde todo se ve sin estilo y los carga a los segundos me da una muy mala sensación del site. Tan
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Luis actualizado! Si te da algún problema avisa!
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Lo he implementado y va como la seda Espero la actualización que has comentado en Twitter para ver el Javascript, pero solo con el CSS y
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Antonio solo Google sabe si se pasa o no lj con nofollow, en principio la url de destino no se vería beneficiada porque no lo contaría, p
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Antonio José Soler Morillas

Uff, que buen curro, una duda, "si quieres evitar pasarle linkjuice ponle nofollow" No pasas LJ si usas nofollow para los anuncios cargad
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Martin Maqueira

Seguro que guarda la URL original. Así ahorra volver a crawlearla. Pero a efectos de calificarla la cuenta como una destino final. Es decir
Post: Intentando comprender Googlebot y los 301

Categorias