Otro META nuevo unavailable_after

Publicado el Viernes 27 de Julio de 2007 a las 4 de la mañana despés de salir de juerga

Pues sí, unas cuantas neuronas mas ocupadas en mi cerebro por tener que memorizar otro META. Éste para decirle a Google cuando quremos que expire nuestro contenido y lo borre de sus resultados, !!está loco¡¡ con lo que cuesta crearlos. Yo no lo haría. Supongo que habrá casos muy puntuales en que les venga bien.

Ya soltaron en una conferencia hace poco en Inglaterra que iban a crear el unavailable_after, y hoy lo han publicado.

¿y por qué tienen interés en quitar páginas de sus servidores? igual es que andan escasos de espacio con tantas webs nuevas cada día...

También han anunciado que disponen de un método para que podamos decir a Google que archivos como Pdf, Word, XLS, etc.. no sean indexados o no sean mostrados en los resultados del buscador. En HTML ya podíamos usar un META para esto.

<meta name="robots" content="noindex,nofollow">

Pero en cualquier otro tipo de documento  que no fuese HTML no podías decŕselo y Google que lo quiere todo, lo indexaba y mostraba si no le restringías el acceso por medio del robots.txt o por medio de contraseña en el directorio donde estuviera.

Ahora hay una nueva directiva en la cabecera Header que debemos enviársela si no queremos que algún documento sea indexado, por ejemplo así:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST


Esto supone que tenemos que tener acceso a la configuración de nuestro servidor (archivo .htaccess) para poder controlar las solicitudes a determinadas extensiones de archivos.

Un ejemplo para enviar estas cabeceras para todos los documentos .doc .pdf sería escribir esto en el .htaccess de tu servidor: (no lo he probado porque parece que el .htaccess de mi hosting debo hacerlo desde el panel, otro día lo haré, pero debería fucionar)

<FilesMatch "\.(doc|pdf)$">
      Header set X-Robots-Tag "noindex"
</FilesMatch>

Para hacerlo solamente para un fichero en concreto así:

<FilesMatch "nombre_archivo.doc$">
       Header set X-Robots-Tag "noindex"
</FilesMatch>

Pero con este método no impedimos el que alguien teclee la ruta en la barra de direcciones y se descargue cualquier archivo. Para hacer esto en Apache estoy investigando.

En .Net hice algo parecido hace poco para que no se pudiesen descargar archivos por medio de la URL si no estaban autentificados por medio de un formulario y además tenías los permisos necesarios sobre ese archivo que yo comprobaba en mi base de datos, de esta manera aunque supieran o probaran suerte por medio de la URL no podían descargarlo. Por supuesto si no estaban logueados no podían descargarlo tampoco. Más o menos era así;

Primero tenías que configurar el servidor diciéndole que determinados archivos los tratase como archivos  aspx. Entonces el servidor cada vez que haya una peticion http  mirará por si ese tipo de archivo debe ser tratado como un aspx. Si es así, iría al Web.config donde pondremos

<httpHandlers>

<addverb="GET,POST"path="*.doc"
type="objeto.HttpHandler.downloadHandler,
objeto.MiHttpHandler/>
</httpHandlers>

y verá que DLL debe usar para tratar ese tripo de ficheros. Y si has llegado hasta aquí, no necesitarás enviar nada a Google porque si tu no quieres no le das acceso.

Aquí teneis una perfecta explicación para manejar los HttpHandlers con .Net

Pero en Apache no sé cómo hacerlo, no me sale Yell . No lo necesito porque documentos privados la verdad que no tengo, esto ya es cabezonería. Pero puede ser muy importante para muchas páginas de hospitales, ayuntamietos, etc, que guardan datos confidenciales y deberían hacerlo todas, sin embargo la mayoría no lo hace y puedes descargarte, si sabes o adivinas la ruta, todos sus documentos.

Lo ideal y lógico es no depender de Google para tener seguros tus datos confidenciales, y en este caso Google no lo pone tan fácil, porque hay que saber de programación y tener control sobre tu servidor.

Espero poder probarlo mañana y publico cómo es. También voy a hacer una prueba haciendo lo que dicen y poniendo un link para ver si lo lee.

Si alguien sabe como hacerlo en Apache que me lo diga, si no seguiré investigando. Creo que habría que modificar el .htaccess y poner algo así para  redirigir las peticiones http cuando es a un archivo doc, mp3 o pdf

RewriteEngine on
RewriteCond %{QUERYSTRING} !^$
RewriteCond %{QUERYSTRING} !^http://([-a-z0-9]+\.)?mecagoenlos\.com[NC]
RewriteRule .*\.(doc|mp3|pdf)$ https://www.mecagoenlos.com/ [R,NC,L]

Pero a mi no me sale....

 




Lea otros artículos de Otras noticias sobre Google

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.

Últimos posts

Últimos comentarios


Javier

Buenas Lino, ¿Alguna novedad sobre cómo considera Google los links en PDFs? Se me ocurre que, siguiendo con este experimento, se po
Post: Link building con PDF

Francisco

Flaco. Por lo general, no dejo comentarios pero, en tu caso, voy a hacer una excepción pues, sencillamente... ¡sos un genio!, Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan Francisco Gancia

Excelente artículo, gracias! Te encuentro de casualidad por un post de hace 10 años.
Post: Diferencias entre url indexada y url accesible

Lino Urnuela

@Emirodgar gracias! Pero parece que en tema de imágenes las pilla lo hagas cómo lo hagas parece, eso sí, siempre que no tengas un fall
Post: Indexar imágenes en Google usando Lazy Load

Emirodgar

Muy interesante el experimento. Yo estaba probando con los nuevos formatos webp y pero al final, como eran pocas imágenes y usaba Masonry,
Post: Indexar imágenes en Google usando Lazy Load

Lino Uruñuela

Completamente de acuerdo :) Pero en este experimento solo quería comprobar el método usado para hacer lazy load, en este caso con xmlht
Post: Indexar imágenes en Google usando Lazy Load

Francisco Morales

Lino muy interesante las distintas formas de cargar la imagen. Pero no crees que lo realmente interesante de aplicar Lazy Loading es cargar
Post: Indexar imágenes en Google usando Lazy Load

javier

Buenas , esto del onclik ha cambiado actuamente en algunas web que tengo las lee y sigue enlaces
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

David Girona

Antes de Nada muchas gracias por la aportación. Estoy probando de poner en marcha este procedimiento y me surgen un par de dudas. En
Post: Cómo añadir el valor del meta Robots a Google Analytics via Google Tag Manager

Javier Espinoza

Gracias por la informacion!! Este tipo de blogs me parecen muy importantes, esto lo estudio en la universidad. gracias por la informacion. h
Post: Atacados por los .cn .cz .pl