Tratamiento de urls que tienen un tiempo de vida muy corto

Publicado por  (Errioxa) el 16 de abril del 2014

Ha habido grandes debates en el mundo SEO sobre cómo trata Google los errores 404 y 410 del servidor. Puede parecer que "da un poco igual" el cómo trate Google los errores 404 y 410 y de si hay diferencias entre ellos, pero puede ser crucial para algunas webs que son realmente grandes o que tienen urls que sólo son válidas y útiles por un breve espacio de tiempo.

Por ejemplo, si tenemos un portal de ofertas de trabajo (o un ecommerce donde hay productos activos y descatalogados), las urls de las fichas donde se describe la oferta de trabajo (o la ficha de un producto en el ecommerce) serán válidas para los usuarios mientras la oferta esté aun abierta (o el producto esté en stock), pero una vez que la empresa haya cerrado esa oferta de trabajo ya no sirve para nada al usuario.

Estas páginas nos pueden dar grandes alegrías como grandes penas si las dejas vivir mucho tiempo aunque para el usuario no sea útil. Pongamos como ejemplo el antes mencionado, una web sobre ofertas de trabajo, dónde las ofertas de trabajo expiran en un tiempo medio de una semana.

De cara al usuario, si dejamos pervivir esas urls siempre.

  • ¿Es bueno que llegue a una oferta a la que ya no se pueda inscribir?
    Al 99% no le será útil, no quiere ver los trabajos a los que ya no puede aspirar, le hace perder tiempo de navegación.

  • ¿Que podemos ofrecerle si entra en esa oferta?
    Lo normal es que no pueda contactar, ya sea porque se desactiva el botón de aplicar a la oferta, o bien porque no aparece el formulario pertinente para enviar el currículum. Así que si no le ofrecemos nada no le será útil y estará perdiendo el tiempo. Por eso es importante ofrecerle algo útil, por ejemplo otras ofertas de la misma empresa u otras ofertas del mismo perfil que la oferta que busca (misma categoría y provincia por ejemplo)

    De esta manera el usuario no estará perdiendo tanto tiempo, ha llegado a una página "inútil" para él, pero podemos hacer que sea algo útil si al menos desde ahí le ofrecemos una en la que pueda estar interesado y que pueda inscribirse en ella.

De cara a nuestro web/negocio

  • ¿Es bueno para nuestro site/negocio?
    Trae posibles usuarios que llegan desde Google al buscar algo relacionado con esa oferta de trabajo (normalmente long tail) por lo que son clientes potenciales, o sea, es bueno para nuestro negocio. Además quizás así tampoco entre en la competencia si consigue lo que quiere.

  • ¿Será bueno para nuestro negocio dentro de 3 años?
    Cuando llevas mucho tiempo así, y sobretodo si tu web es ya algo conocida, surge un problema, y es que al final comprobarás como el 80% de tu tráfico proveniente de Google llega a estas fichas. Por lo general estas fichas no aportan de por si valor al negocio, sólo servirán para captación, que no es poco.. a parte de eso son un dolor de cabeza para técnicos que ven como sus bases de datos crecen y crecen, como los errores 404 son más probables simplemente por cuestión de proporción,  cuantas más ofertas tengas más urls están en tu sistema y más errores dar.

    Otro daño colateral de que el 80% del tráfico a tu site recaiga sobre este tipo de páginas es que te desvirtua un poco  las estadísticas, muchos usuarios Vs poca pasta ingresada. Las estadísticas y números referentes a tu site se están separando de la realidad. Tendrás que examinar de distinta manera las urls de ofertas activas de las que no lo están, pero este problema es fácilmente asumible.

  • Si fueses Google ¿querrías indexar estas urls?
    Pongámonos en la piel del ingeniero de Google, ¿le interesaría perder el tiempo en rastrear y valorar estas urls? Seguro que no, ya que no satisfacerán lo que el usuario (de Google) ha buscado, casi, pero no ha sido satisfactorio porque ya la oferta de trabajo ha expirado. Google preferiría poder ofrecerle una oferta a la que sí pueda apuntarse (o que pueda comprar un producto si fuese un ecomerce).


Así que tenemos un problema, porque

  • Queremos ese usuario, ya que aunque no se apunte a la oferta porque no puede quizás aporte valor a nuestro site de otra manera. Igual navega por nuestro site y entra en las ofertas abiertas. Un % de los usuarios que llegan desde Google a una página con la oferta desactivada se inscribirán en otras ofertas de nuestro site, por lo que estamos dando algo de valor a las empresas que buscan candidatos para un puesto y que han pagado por estar en nuestro site. O igual hace click en un anuncio de AdSense y son ingresos para el negocio.

  • Puede ser poco escalable, mantener grandes volúmenes de ofertas en la base de datos, soportar el crawleo de millones de urls (no contactables = poco valor para negocio) puede suponer unos cuantos servidores frontales... y cada vez más técnicos....

  • Puede que algún día Google mida mejor el éxito de sus resultados y sea capaz de darse cuenta de que muchos usuarios que lleva a ese site vuelven al buscador porque no han quedado satisfechos y entonces nos devalua nuestro site y se posiciona peor.


¿Cómo podemos solucionarlo de la mejor manera?

Creo que es imposible satisfacer todos los intereses ya que si esas urls nos traen usuarios, muchos usuarios, lo de dejarlas inaccesibles (y dar un 404 o 410) no vale, porque perderíamos mucho dinero....

Las mejores soluciones que de momento he llevado a cabo son

  1. Ofrecer al usuario alternativas
    Mostrar de forma muy visible las ofertas (o artćulos en un ecommerce) más similares y activas a la que ha llegado el usuario.

    Realmente si le ofreces unas ofertas que le interesan y le dejas claro que la que está viendo actualmente no está activa no le importará haber hecho un click de más para llegar a donde quiere. Un alto porcentaje de estos usuarios cumplirán el objetivo como el resto de los usuarios. Si en una oferta activa se inscriben el 30% de los usuarios que llegan desde Google, posiblemente el 15% de los usuarios que llegan a una oferta desactivada harán clicks en las relacionadas que le muestres y se inscribirán en alguna.

    Entonces, con esta solución algo estamos aportando tanto al negocio como al usuario, y por ende a Google. Perdemos algunos usuarios, pero no sé cómo podríamos retenerlos...

  2. Eliminar URLs sin valor
    Comprobar el historial de las ofertas desactivadas y eliminar de nuestro sistema aquellas que desde hace mucho tiempo no haya tenido accesos. Si una oferta de trabajo ha sido cerrada hace 1 año y nunca ha tenido nungún usuario llegado por medio de Google desde entonces, ¿para que mantenerla?

  3. Redirigir automáticamente estas urls a otras con una oferta activa similar
    Esto no es escalable, porque cada vez que una se caduca tendrías que redireccionar todas las que estaban redireccionadas hacia ésta, y sería un caos total....

  4. Redirigir a la categoría de la oferta
    Esto es válido para el usuario, porque al menos los que lleguen a estas urls serán redirigidos a un listado de ofertas que puede que le interesen, pero realmente no nos traspasará al listado de la categoría el posicionamiento que la ficha de la oferta tenía.

Si no podemos ofrecer ofertas relacionadas ¿Cómo eliminamos estas urls?

Y aqui enlazamos el final del post con el principio... y es que he tenido muchos debates sobre que hacer para eliminarlas. Yo opto por dar un error 410 a Google en estas ofertas desactivadas y sin accesos. Matt Cutts ha comentado ayer en un vídeo la diferencia que hace el Bot entre un 404 y un 410.

  • 404
    Google pone en "espera" esa url y vuelve a las 24 horas a ver si hay contenido por si hubiera sido algún problema del servidor y sólo sea temporal

  • 410
    Google no volverá a comprobar si es un error temporal, sabe que será un error permanente y que esa url no volverá a activarse, aun así, dice que puede volver a intentarlo al cabo del tiempo, supongo qu si encuentra links intentará rastrearlo....


Después de ver el vídeo, tengo claro que para estas urls que decidamos eliminar daría un 410, y así el bot de Google no pierde el tiempo en esas urls ni nosotros recursos para mantenerlas.

No creo que Google interprete bien que un site de miles de 404 nuevos cada día, es más es uno de mis mayores temores si se aplicase 404 para eliminar todas esas fichas, Google pensará que está descuidado, u obsoleto, o a saber, pero nada bueno. Pero creo que no tomaría mal miles de 410 ya que son claramente realizados conscientemente por lo que el site no es que desatendido ni obsoleto ni "roto".


¿Se os ocurre alguna otra manera de eliminar estas urls y no por ello perder usuarios?




 


Sergio (@)hace Hace más de 9 años y 348 días

Y que te parecería reusar la url, me explico, en lugar de redirigir la url a una oferta activa similar sustituir la oferta caducada por una activa similar cuando la demos alta. Con esto conseguiríamos:

- Conservar la url original
- Volver a tener el contenido activo en esa url
- Evitamos que crezca el contenido caducado

No se como se lo tomaría google...

Alberto Fdez (@)hace Hace más de 9 años y 345 días

Buena reflexión. En cuanto al comentario de Sergio, yo creo que llegaría un punto en el que no tendrías slugs suficientemente válidos y acertados, además del caos que supondría tener listados enormes de posibles URLs candidatas para redefinir su contenido.

Errioxa (@)hace Hace más de 9 años y 343 días

@Sergio, la verdad que esa opción no la he probado nunca, podría ser válida y escalable... Thanks!

Txantxez (@)hace Hace más de 9 años y 284 días

Os cuento una nueva derivada para este problema para eventos.
Hace y un par de años cambiamos las URLs en nvivo.es para los conciertos, quitamos los IDs para dejar una dupla 'artista + ciudad'. De esta manera conseguíamos posicionar siempre la misma URL cada vez que Coldplay llegara a Madrid, por ejemplo. Esto lo hicimos porque cada vez que se repetía ese concierto, se posicionaba la URL con el ID antiguo.

Con el nuevo azote de Panda 4.0, lo primero que hicimos fue meter un noindex a muchos conciertos antiguos, porque eran URLs con mucho rebote y poco contenido.

Resultado: ahora cuando esos conciertos 'vuelven' a la URL le cuesta indexarse porque Google ya ha asumido ese 'noindex'. Estoy pensando incluso en volver a los IDs, para ver si el algoritmo ahora me posiciona mejor eventos con fechas actuales y pasa de las antiguas, o incluso usar canonicals a la nueva.

Ay los eventos...

Carlos (@)hace Hace más de 1 años y 70 días

Hola

En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5 años).

Pero también tengo artículos no atemporales que dentro de pocas semanas estarán algo desfasados y no servirán mucho, aparte que son difíciles que traigan lectores desde Google.

¿Crees que en el caso de estos artículos no atemporales es mejor no indexarlos a google y simplemente publicarlos en el blog? ¿O aun así es mejor indexarlos porque de una manera u otra también ayudará a que Google posicione mejor el blog?

Muchas gracias



Lea otros artículos de On Page

Últimos posts

Últimos comentarios


JaviLazaro
Ya me has dado la necesidad de crear un comaando en bash para hacer estas cosas. Gracias Lino por estos tips
Post: Obtener KWs de varias fuentes usando la línea de comandos

Señor Muñoz
Lino, el 11% más de clicks y el 47% más de impresiones diarias ¿es algo constante o depende de cada sitio web?
Post: Diferencias entre la exportación de datos de Search Console usando BigQuery o usando la API

Carlos
Hola En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5
Post: Tratamiento de urls que tienen un tiempo de vida muy corto

Profe Ray
Veo que hay comentarios de hace 5 años y de hace 3 años. ¿Habrá algun post actualizado sobre este tema o sigue funcionando? Lo cierto es
Post: Cómo cargar css y js y no bloquear la carga de contenido

Pepe
Muchas gracias por el articulo!! Muy buena información.
Post: Qué es ofuscar enlaces y cómo mejora el enlazado interno

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt

María
Hola Lino, tengo el mismo problema. El probador de robots de google me indica: "Error al obtener el archivo robots.txt Tienes un archivo ro
Post: Errores críticos originados por el robots.txt

Mario
Estoy tratando de vincular los datos en Google Data Studio y he combinado los datos de la tabla "Impresión del sitio" con "Impresión de UR
Post: Datos incoherentes y cálculo de la posición media en Search Console

José B. Moreno Suárez
Yo hace tiempo que agrupaba con stemmers. Ahora, además, comparo con un proceso las keywords que aportan impresiones a una URL determinada
Post: Clustering de keywords SEO en Google Search Console - Parte II