¿Cuál es la mejor manera de desindexar URLs?

Publicado el lunes 10de junio del 2013, By Lino Uruñuela

Hoy debatiendo en una lista de correo me ha hecho pensar en cuál es el mejor método para desindexar una url, y claro todo depende de en cómo definamos lo que es desindexar una página y para que lo estamos usando....



Empezemos por definir que entendemos por desindexar
  • ¿Que no se muestren en los resultados?
  • ¿Que lo marque WMT?
  • ¿Que GoogleBot no entre nunca?

Si entendemos por desindexar que no la muestre en los resultados entonces la mejor opción es la herramienta de WMT donde puedes desindexar hasta directorios, el meta noindex también consigue ese efecto, pero mucho menos rápido ya que ha de rastrear cuando le toque url a url. Lo malo de esta opción es que no puedes crear ningún tipo de regla con expresiones regulares y la mayoría de los casos son miles de urls las que queremos desindexar y no se podría ir una a una. Además no garantizamos que el bot no acceda, sólo que no lo mostrará en sus resultados y su caché.

Si consideramos por desindexar que en WMT descienda la  gráfica debemos tener mucho cuidado en que pensamos, porque realmente creo que estas gráficas pueden representar algo hoy y otra cosa mañana

Google de vez en cuando hará limpia de cosas y antes que sus datos de índices borrará datos de herramientas como esta y pondrá la cuenta a 0.... es muy raro que el número de urls bloquedas de repente descienda de repente si las reglas son las mismas y por lo tanto, sí o sí, el número de urls bloquedas como mínimo será el mismo... nunca menos, pero vemos como NO refleja la realidad.


La 3ª opción, que GoogleBot no acceda y por lo tanto no lea lo que hay. Para esto lo mejor es usar robots.txt ya que nos aseguramos que el Bot no entra ni entrará y no sabrá lo que hay.
En sus índices estará si tiene los suficientes enlaces entrantes, entonces aunque no sepa lo que hay lo mostrará como resultado. Podríamos concluir que sí está indexada porque las guarda en sus índices.

Esta tercera opción para mi es la mejor cuando quieres restringir cosas molestas y riesgos por urls de baja calidad y duplicidad, por qué
  1. Estás completamente seguro que Google no entra, no podrá valorar lo que hay y no lo hará.

  2. Te evitas consumo de máquina inecesario. Si pones un meta noindex el bot hará la petición y luego leerá o no el contenido, pero la petición la hace, no la indexa pero puede valorarla y seguir los enlaces de
      • paginaciones
      • ordenaciones
      • ordenaciones de paginaciones
      • filtros
      • ordenaciones de filtros
      • paginaciones de filtros
      • paginaciones de ordenaciones de filtros
      • etc etc

      esto puede estar ocupando a tu servidor el 80-90% de sus recursos y tiempo, mirar los logs y flipar.

  3. Aunque tarda más en ser representado con el comando site, no quiere decir que no las acabe desindexando, una muestra puede ser la gráfica de arriba, con el tiempo bajan, aunque parece más razonable que como también bajan el número de URLs indexadas sea por una limpia en los datos de la herramienta, quizás hasta de sus índices....

    Pero no se ve tan reflejada en la otra gráfica del post... por lo cual y con casos muy contradictorios lo único que sé es de que no puedo fiarme demasiado de WMT, puede que de síntomas de cosas en muchos casos, pero con lo del número de urls indexadas.... no me fio un pelo de sus datos.

La verdad es que me podría extender y contradecir durante párrafos y párrafos (hay que ser muy simple para ser siempre coherente), pero no sabría a ciencia cierta casi nada, sólo son intuiciones e ideas abstractas que rozan mi cabeza, pero me da que Panda mucho tiene que ver con el número de urls de baja calidad que tienes en tu sitio, entendiendo por "de baja calidad" lo que Google quiera entender....

 

 


 




Posts anteriores en Como evitar contenido duplicado


    gg
  • Lunes 14 de Junio del 2010

Publicado el 14 de junio del 2010 Muchas veces Google ha comentado que lucha contra el contenido duplicado y que cada vez identifica mejor la fuente original, pero ¿que de cierto hay en esto? Yo comienzo a dudar que Google haga un esfuerzo claro por identificar  cuál es la f

Seguir leyendo

Últimos posts

Últimos comentarios


javier

Buenas , esto del onclik ha cambiado actuamente en algunas web que tengo las lee y sigue enlaces
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

David Girona

Antes de Nada muchas gracias por la aportación. Estoy probando de poner en marcha este procedimiento y me surgen un par de dudas. En
Post: Cómo añadir el valor del meta Robots a Google Analytics via Google Tag Manager

Javier Espinoza

Gracias por la informacion!! Este tipo de blogs me parecen muy importantes, esto lo estudio en la universidad. gracias por la informacion. h
Post: Atacados por los .cn .cz .pl

juan

Hola Lino Uruñuela, una duda ¿aun funciona? porque no lo logro. Mira, en un index.php tengo este codigo: Camuflados
Post: Ofuscando enlaces para mejorar Link Juice

DUQUEredes

Google pasa del canonical bastante :-(
Post: Comprobando comportamiento de Google con meta canonical

Marinette

Gracias por la información!
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

Adolfo

Parece que a todo el mundo le ha gustado este artículo sexista y lleno de situaciones de agresión sexual y violencia de género, ya tendr
Post: Tipos de marketing

FDM

Hola, Lino: Genial el post, como siempre. Es genial contar con personas tan curiosas y que investigan al detalle el funcionamiento de Goo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Lino Uruñuela

@Cesar saltarse alguna orden del código es un falta de respeto!, que para algo lo hice :D No se les da muy bien esperar, su tiempo es or
Post: La segunda ola de indexación y cómo saber qué renderiza Google

César Aparicio

Hola Lino, Nos conocemos de películas como: Los de Google son muy frikis o Pasodobles y SEO. Mi cuestión es la siguiente: entiendo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.