Cuando restringes por robots.txt puedes aumentar el número de URLs indexadas

Publicado el 3 de diciembre del 2012, by Lino Uruñuela

Llevo unos cuantos meses observando un comportamiento algo contradictorio al restringir URLs desde el robots.txt. Supuestamente en el robots.txt puedes restringir el acceso a los buscadores como Google, para así no indexar y que no se muestre en las búsquedas resultados que no te interesan.

Lo normal es pensar que cuando restringes URLs a través del robots.txt tu número de páginas indexadas en Google debería descender, pero no es así.

URLs indexadas


Como vemos el mismo día que restringimos por robots.txt muchas URLs vemos como las páginas indexadas aumenta igualmente!

Esta no es una coincidencia, lo he comprobado en unas cuantas webs y ocurre lo mismo. Podéis comprobarlo :)

En este otro ejemplo, no es tan tan claro, pero vemos también como varia
URLs indexadas


Mi teoría
Pienso que Google asigna un Nº determinado de URLs indexables variable para cada web. Este Nº podria depender de la autoridad del dominio, quizás también use el Nº de URLs totales, para asignar más o menos número de URLs en su índice de cada site.

De esta manera se podría explicar por qué cuando restringimos por robots.txt el acceso a muchas URLs vemos un incremento en el número de URLs indexadas en Google.. Vemos como las URLs seguidas alguna vez (color rojo) sigue con su tendencia, no varía, Google rastrea todo lo que puede, pero en cambio los demás datos varían claramente al modificar el robots.txt.

Si Google por ejemplo tuviese un cupo de URLs para un site con un valor de 1000,  entre esas 1000 hay 800 URLs no seguidas (meta noindex, mala calidad, duplicado, errores desconocidos, etc) quedarían sólo 200 para ser indexables y la proporción de URLs "malas" y URLs indexables no es suficiente para aumentar el cupo con lo que tu número de URLs indexables seguirá igual a 200.

Si conseguimos descender el número de URls de mala calidad que Google detecte , podremos hacer que el ratio entre NºURLs indexables y NºURLs del cupo aumente y puede que sea esto lo que hace que Google recalcule ese nuevo cupo para las URLs indexables.

Puede que Google no contemple este ratio entre urls indexables y urls no seguidas, pero está claro que algo tiene que ver con el robots.txt por lo que a mi parecer tiene que ser que Google asigna un cupo de URLs en su índice de tu site. Y es este número el que debemos intentar aumentar y/o regular.

¿Podría haber diferencias relevantes entre usar un meta noindex y usar la restricción por el robots.txt? Yo con el meta noindex no he visto este comportamiento...




 




Posts anteriores en Logs y Big Data


Space Needle
Publicado por Lino Uruñuela el 22 de marzo del 2017 El otro día hubo un debate sobre qué método usará Google a la hora de interpretar, seguir y valorar las redirecciones 301. Las dudas que me surgieron fueron ¿Cómo se comportan los crawler

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo. Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directament

Seguir leyendo
Space Needle
Publicado el martes 6 de septiembre del 2016 por Lino Uruñuela Hace poco escribí el primero de una serie de post sobre el uso de Logs, Big Data y  gráficas,  en este caso continúo el análisis de la bajada que comenzamos a ver en Seo y logs (primera par

Seguir leyendo
Space Needle
Publicado por Lino Uruñuela el 27 de junio del 2016   Una de las ventajas de analizar los datos de los logs es que podemos hacer un seguimiento de lo que hace Google en nuestro site, pudiendo desglosar y ver independientemente el comportamiento sobre urls que dan error, o urls que ha

Seguir leyendo
Space Needle
Publicado el 23 de junio del 2013 By Lino Uruñuela   Algo muy común en el día a día de un SEO es mirar las distintas herramientas que Google nos proporciona dentro de WMT para saber el estado de nuestra web en cosas como la frecuencia de rast

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado el 10 de abril del 2012, by Lino Uruñuela Hace tiempo hice unos tests para comprobar que Google interpretaba el meta canonical y cómo lo evaluaba. No recuerdo si publiqué el experimento, pero sí recuerdo que Google contaba los links que había hacia

Seguir leyendo

Últimos posts

Últimos comentarios


Marinette

Gracias por la información!
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

[url=http://www.i-online-casino.org/Slotocash-Casino.html]slotocash casino[/url]

Looking for casino?Check out top free online casino bonus offers at SlotoCash
Post: Search Congress en Bilbao

Adolfo

Parece que a todo el mundo le ha gustado este artículo sexista y lleno de situaciones de agresión sexual y violencia de género, ya tendrÃ
Post: Tipos de marketing

FDM

Hola, Lino: Genial el post, como siempre. Es genial contar con personas tan curiosas y que investigan al detalle el funcionamiento de Goo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Lino Uruñuela

@Cesar saltarse alguna orden del código es un falta de respeto!, que para algo lo hice :D No se les da muy bien esperar, su tiempo es or
Post: La segunda ola de indexación y cómo saber qué renderiza Google

César Aparicio

Hola Lino, Nos conocemos de películas como: Los de Google son muy frikis o Pasodobles y SEO. Mi cuestión es la siguiente: entiendo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Nostram

Porque será que no me extraña. No he visto un producto que funcione peor que "OK Google" lamentable.
Post: ¿Grave fallo de privacidad de Google Assistant?

Carlos

Parece mas un fallo de la aerolinea, que parece que en un mismo número de reserva (WXI99I) ha metido mas pasajeros, y google assistant ha d
Post: ¿Grave fallo de privacidad de Google Assistant?

Lino Uruñuela

@David Es capaz de renderizar e interpretar el JavaScript siempre que no haga falta la interacción del usuario. Me explico, si pones una fu
Post: Ofuscando enlaces para mejorar Link Juice

David

Hablando sobre la ofuscación de enlaces, tras las últimas noticias de Google y su segunda oleada de indexación tras la renderización de
Post: Ofuscando enlaces para mejorar Link Juice

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.