¿Cuál es la mejor manera de desindexar URLs?

Publicado el lunes 10de junio del 2013, By Lino Uruñuela

Hoy debatiendo en una lista de correo me ha hecho pensar en cuál es el mejor método para desindexar una url, y claro todo depende de en cómo definamos lo que es desindexar una página y para que lo estamos usando....



Empezemos por definir que entendemos por desindexar
  • ¿Que no se muestren en los resultados?
  • ¿Que lo marque WMT?
  • ¿Que GoogleBot no entre nunca?

Si entendemos por desindexar que no la muestre en los resultados entonces la mejor opción es la herramienta de WMT donde puedes desindexar hasta directorios, el meta noindex también consigue ese efecto, pero mucho menos rápido ya que ha de rastrear cuando le toque url a url. Lo malo de esta opción es que no puedes crear ningún tipo de regla con expresiones regulares y la mayoría de los casos son miles de urls las que queremos desindexar y no se podría ir una a una. Además no garantizamos que el bot no acceda, sólo que no lo mostrará en sus resultados y su caché.

Si consideramos por desindexar que en WMT descienda la  gráfica debemos tener mucho cuidado en que pensamos, porque realmente creo que estas gráficas pueden representar algo hoy y otra cosa mañana

Google de vez en cuando hará limpia de cosas y antes que sus datos de índices borrará datos de herramientas como esta y pondrá la cuenta a 0.... es muy raro que el número de urls bloquedas de repente descienda de repente si las reglas son las mismas y por lo tanto, sí o sí, el número de urls bloquedas como mínimo será el mismo... nunca menos, pero vemos como NO refleja la realidad.


La 3ª opción, que GoogleBot no acceda y por lo tanto no lea lo que hay. Para esto lo mejor es usar robots.txt ya que nos aseguramos que el Bot no entra ni entrará y no sabrá lo que hay.
En sus índices estará si tiene los suficientes enlaces entrantes, entonces aunque no sepa lo que hay lo mostrará como resultado. Podríamos concluir que sí está indexada porque las guarda en sus índices.

Esta tercera opción para mi es la mejor cuando quieres restringir cosas molestas y riesgos por urls de baja calidad y duplicidad, por qué
  1. Estás completamente seguro que Google no entra, no podrá valorar lo que hay y no lo hará.

  2. Te evitas consumo de máquina inecesario. Si pones un meta noindex el bot hará la petición y luego leerá o no el contenido, pero la petición la hace, no la indexa pero puede valorarla y seguir los enlaces de
      • paginaciones
      • ordenaciones
      • ordenaciones de paginaciones
      • filtros
      • ordenaciones de filtros
      • paginaciones de filtros
      • paginaciones de ordenaciones de filtros
      • etc etc

      esto puede estar ocupando a tu servidor el 80-90% de sus recursos y tiempo, mirar los logs y flipar.

  3. Aunque tarda más en ser representado con el comando site, no quiere decir que no las acabe desindexando, una muestra puede ser la gráfica de arriba, con el tiempo bajan, aunque parece más razonable que como también bajan el número de URLs indexadas sea por una limpia en los datos de la herramienta, quizás hasta de sus índices....

    Pero no se ve tan reflejada en la otra gráfica del post... por lo cual y con casos muy contradictorios lo único que sé es de que no puedo fiarme demasiado de WMT, puede que de síntomas de cosas en muchos casos, pero con lo del número de urls indexadas.... no me fio un pelo de sus datos.

La verdad es que me podría extender y contradecir durante párrafos y párrafos (hay que ser muy simple para ser siempre coherente), pero no sabría a ciencia cierta casi nada, sólo son intuiciones e ideas abstractas que rozan mi cabeza, pero me da que Panda mucho tiene que ver con el número de urls de baja calidad que tienes en tu sitio, entendiendo por "de baja calidad" lo que Google quiera entender....

 

 


 


Comentarios

Errioxahace Hace más de 4 años y 161 días

@Dani me alegro leerte :)

Sobre los errores 410 y 404, yo estaba pensando en miles de URLs a restringir, y dar miles de errores 404 o 410 no me gusta nada. No sé si será malo, pero sé que bueno no es :p

Como bien dices por el robots.txt es cortar de raíz con el problema, mientras que con las otras opciones como los metas el bot seguirá haciendo peticiones, para esto puedes mirar los logs y comprobarlo. Encima como le metas un noindex,follow lo hará con la misma frecuencia...

Sobre las 301 y 302, no sé muy bien que decirte... sé que hace poco Google tuvo problemas con los 301 y hasta lo reconoció, yo lo vi claramente en los logs como de un día para otro hacía muchas menos peticiones a estas urls que dan 301 ya que lo monotorizo. Y por lo que veo, sigue haciéndolas y checkeándolas continuamente!! raro, pero así es...

Dani Pinilloshace Hace más de 4 años y 161 días

Si te dará un montón de notificaciones de error en WMT y tienes que ir borrando de mil en mil pero para eliminarlas del índice es lo único que conozco que lo quite rápido :(

Interesante lo del crawleo de las redirecciones. Si sabía que el año pasado mas o meos tuvo problemas con las redirecciones pero no que no las seguia.

El nuevo seo está en los logs :D

Errioxahace Hace más de 4 años y 161 días

El nuevo SEO no sé, pero las nuevas métricas seguro que sí

Derlis H.hace Hace más de 4 años y 154 días

Realmente hay mucho contenido para realizar un posicionamiento web o blogs hay mucha maneras de obtener los resultados que deseamos no es fácil el trabajo de un SEO todo tiene sacrificio

Optimización web

Derlis H.hace Hace más de 4 años y 154 días

Realmente hay mucho contenido para realizar un posicionamiento web o blogs hay mucha maneras de obtener los resultados que deseamos no es fácil el trabajo de un SEO todo tiene sacrificio

Optimización web


Deja un comentario


Posts anteriores en Como evitar contenido duplicado


Space Needle
Publicado el día 1 de junio del 2011, by Lino Uruñuela Ultimamente vivo obsesionado con diferenciar mi contenido del resto, algunas veces se me ocurren cosas ingeniosas y otras tengo que tirar por el medio como los burros, como en este caso... Con la nueva salida de Google Shopp

Seguir leyendo
  • 0000-00-00 00:00:00

Publicado el 14 de junio del 2010 Muchas veces Google ha comentado que lucha contra el contenido duplicado y que cada vez identifica mejor la fuente original, pero ¿que de cierto hay en esto? Yo comienzo a dudar que Google haga un esfuerzo claro por identificar  cuál es la f

Seguir leyendo

Datos de contacto
  • 637167218
  • wachynaky@gmail.com

Dónde encontrarme

FunnelPunk.com


Blog Seo de Lino Uruñeula
Co-Fundador



Lánzate y pregunta!

Nos gustan los robots, pero no tanto
7 + 3

Últimos posts

Últimos comentarios


Mateo Bohorquez

Hola hermano, lo he intentado y no me funciona. para acotar problemas lo que hize fue usar ejemplo que nos redirige a otra pagina. este:
Post: Ofuscando enlaces para mejorar Link Juice

Juan M.

¿Esto lo has probado en Safari o Firefox? No pilla bien el preload para css
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Buenas Lino He hecho un test en mi site: www.seotecnico.com y tras hacer test en Iphone, Chrome y Firefow parece que funciona Sería a
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Gracias Lino por avisar. Solo he aplicado las mejoras de CSS y va como un tiro. Debido a que la web en la que lo he implementado cargo
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

...la línea ---?php wp_head()--- Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Tomás

Hola Lino. En WordPress, ¿de qué manera se podría editar una línea de código CSS y JS para añadir las modificaciones en verde que menc
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan M.

Para mí, esa forma de cargar los estilos donde todo se ve sin estilo y los carga a los segundos me da una muy mala sensación del site. Tan
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Luis actualizado! Si te da algún problema avisa!
Post: Cómo cargar css y js y no bloquear la carga de contenido

Luis Salazar Jurado

Lo he implementado y va como la seda Espero la actualización que has comentado en Twitter para ver el Javascript, pero solo con el CSS y
Post: Cómo cargar css y js y no bloquear la carga de contenido

Errioxa

@Antonio solo Google sabe si se pasa o no lj con nofollow, en principio la url de destino no se vería beneficiada porque no lo contaría, p
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

Categorias