¿Es necesario comenzar con slash la directiva Disallow?

Publicado el viernes 26 de febrero del 2016 por Lino Uruñuela

El otro día, mi socio Natzir me pasó el tweet de John Muller donde indicaba que la directiva Disallow del robots.txt debía comenzar siempre con un slash "/".

Robots.txt Google SEO 3


Esto ha provocado cierto revuelo entre los SEOs, muchos de nosotros no hemos tenido nunca esta premisa en cuenta a la hora de definir los robots.txt, y se comenta que Google ha cambiado esta directiva sin avisar, o casi sin avisar

Gracias a Javier Lorente, en un hilo de mails enviaba cómo era el robots.txt hace tiempo, concretamente el 6 de septiembre del 2015, podemos comprobar que no han cambiado la definición, es decir, que siempre ha sido así (también vemos cómo era el 6 de mayo del 2012) y que Google no ha cambiado la definición en la documentación actual, sino que nunca la tuvimos en cuenta ya que sin poner al principio el slash también nos ha funcionado.

Así que nos ponemos manos a la obra para ver exactamente cómo trata la directiva con slash al principio y sin slash tanto en la herramienta de probador de robots.txt de Google Search Console como la manera en que lo trata GoogleBot.


Para intentar tener ejemplos de distintos casos vamos a ver si funciona para
  1. URLs en el directorio raíz, ficheroso documentos que recaen sobre el directorio raíz
  2. URls dentro de un directorio, por ejemplo, desindexar un directorio
  3. URLs con parámetros, para saber si podemos aplicarlo independientemente de en que nivel de la url se ecuentre (para otro post)

URLs en el directorio raíz

En este caso vamos a intentar entender de manera que son tratados los documentos que cuelguen del directorio raíz.


Para este ejemplo voy a coger una web donde tengo determinados banners indexados y que son del año catapún, así que a desindexar!!

Robots.txt Google SEO 3

Para probarlo pensamos añadir la siguiente línea al robots.txt y así desindexar este tipo de ficheros


Disallow:*swf


Antes de subir las modificaciones lo comprobamos con la herramienta de probador de robots.txt de Google Search Console y contra todo pronóstico nos da que la url será bloqueada, lo cual era de esperar al añadir la línea, pero lo extraño es que se bloquea por otra línea distinta a la que hemos añadido en el robots.txt, una línea que no contiene, en principio, parte de la url a probar (yb2.swf)

Robots.txt Google SEO error

Esto empieza a inquietar... ¿por qué incluye la url que queremos probar si no contiene ningún caracter común con la regla en el Disallow? (solo coincide en el punto)

Podríamos pensar que es el * en el directorio raíz, así que para asegurarnos eliminamos los asteriscos de esa línea y sorpresa!

Robots.txt Google SEO error 3
Si no ponemos asteriscos esa misma línea también nos restringe el acceso!!

Seguimos probando otras opciones para ver qué da el fallo o qué ocurre, eliminamos el punto de esa línea y tachaaan! ya no coincide y marca otra línea distinta la que restringe el contenido.

Robots.txt Google SEO error 4

La verdad es que mucho sentido no tiene, podría ser que la herramienta "peta" cuando le metemos algún caracter especial que se suelen usar para expresiones regulares.

También comprobamos que si seguimos las directrices tal como comenta John Muller, poniendo siempre el slash al principio todo funciona correctamente aunque tenga caracteres especiales.

Robots.txt Google SEO error 5

Bingo!! ahora nos da como línea que restringe el contenido "Disallow:/*swf" es decir, la correcta.

URLs dentro de un directorio

Para este ejemplo voy a probar con un site el cual no trae ninguna visita orgánica a urls bajo el directorio /ejemplos/ pero que sí vemos que Google tiene indexadas determinadas URLs

Robots.txt Google SEO

Antes de este post el robots.txt no impedía el acceso a este directorio, ahora vamos a añadir esta línea para comprobar si funciona sin poner el slash al comienzo.


Disallow:ejemplos/*

 

La propia herramienta de probador de robots.txt ya nos indica que será bloqueado, eso sin haber iniciado la directiva con un slash.

Robots.txt Google SEO 2


Como en el caso anterior, nos dice que bloqueará cualquier url del dominio aunque no tenga ninguna coincidencia con la url que le damos a probar

Robots.txt Google SEO 6


Así que esperaremos unos días para confirmar si se cumple lo que dice la herramienta de probador de robots.txt y desindexa todo el domnio (creo y espero que no), o si solo desindexa ese directorio como creo que hará y sería otra prueba que demuestra que la herramienta "peta" cuando no comienzas con slash.

Conclusión

Como conclusión en estas pruebas (a espera de resultados de los cambio que acabo de hacer en los respectivos robots.txt), es que en la herramienta de comrpobación de robots.txt de Google Search Console sí es obligatorio poner slash al principio de la directiva Disallow, mientras que para GoogleBot no hace falta, ya que si fuese igual que en la herramienta las urls con swf no deberían indexarse y vemos por el contrario como sí lo hace.


Robots.txt Google SEO 3

Dada la importancia de estos detalles seguiremos haciendo prubas, para comprobar realmente cómo hay que ponerlo y cómo afecta. Desde luego mi recomendació es seguir las directrices que nos dan y comenzar siempre con un slash para evitar posibles errores o confusiones, porque además ¿que cuesta añadir un slash al comienzo? NADA

Actualización

Gracias a Mª José Cachón que ha encontrado en la documentación algo clave que habíamos pasado por alto y que nos dice que de no comenzar por slash (barra inclinada) se asumirá que la raíz está incluída, lo que parece que no se aplica a la herramienta de robots.txt en Google Search Console.


Robots.txt Google SEO 7



 




Posts anteriores en On Page


hhh
  • Miercoles 29 de Noviembre del 2017
yy Meta Robots Noindex
Publicado el 29 de Noviembre del 2017 por Lino Uruñuela Índice ¿Qué es el meta noindex? Valores que se pueden usar Casos de uso más frecuentes por muchos SEOs ¿Qué hace y qué no hace el meta noindex? ¿Cuándo S&Ia

Seguir leyendo
hhh
  • Martes 26 de Enero del 2016
yy Instalar HTTPS gratis y facilmente
Publicado el 26 de enero del 2016, por Lino Uruñuela Desde hace tiempo Google va evangelizando sobre el uso de https en internet, para ello lo hace de la manera más efectiva que conoce, EL MIEDO!. Un gran porcentaje de negocios online a día de hoy son Googledependient

Seguir leyendo
    gg
  • Miercoles 16 de Abril del 2014

Publicado por Lino Uruñuela (Errioxa) el 16 de abril del 2014 Ha habido grandes debates en el mundo SEO sobre cómo trata Google los errores 404 y 410 del servidor. Puede parecer que "da un poco igual" el cómo trate Google los errores 404 y 410 y de si hay

Seguir leyendo
yy Validando masivamente términos potenciales para muchas KWs
Publicado el 19 de marzo del 2014 por Lino Uruñuela (Errioxa) Cuando manejamos un site muy grande en el que tenemos cientos o miles de categorías para clasificar el contenido, como podría ser un e-commerce, puede que haya categorías muy distintas entre si. Por ejemp

Seguir leyendo
yy Velocidad de carga de una página web, ¿factor relevante para Google?
Publicado el 14 de febrero del 2014 porLino Uruñuela (Errioxa) Hoy leo en SEOby the Sea que Google incluye en una de sus patentes la velocidad de una página web como factor de relevancia en sus resultados. Esto no es nuevo, desde hace mucho se viene diciendo, casi casi lo mismo q

Seguir leyendo
hhh
  • Miercoles 10 de Abril del 2013
yy Google aconseja no usar canonical en las paginaciones
Publicado el 10 de abril del 2013, by Lino Uruñuela Ayer Google publicó los 5 errores más comunes al usar el meta rel=canonical, de ellos el que más me llama la atención es  "canonical en la primera página de una serie paginada" donde nos d

Seguir leyendo
    gg
  • Lunes 30 de Noviembre del -0001

Seguir leyendo
    gg
  • Lunes 30 de Noviembre del -0001

Seguir leyendo
    gg
  • Viernes 05 de Febrero del 2010

Publicado el 5 de febrero del 2010 Hoy quería explicar mi opinión sobre distintas formas de cómo podemos evitar el contenido duplicado, en algunos casos. Pongo un cuadro con algunos métodos que podemos utilizar para solucionar nuestros problemas.   

Seguir leyendo
    gg
  • Lunes 30 de Noviembre del -0001

Aunque yo sea republicano tengo que decir que el contenido es mi rey. Y es que el contenido de nuestra página web es una de las cosas más importantes a la hora de posicionarla en los buscadores. Pero no vale un contenido cualquiera, deberá de ser un contenido original y que le de a

Seguir leyendo
    gg
  • Lunes 30 de Noviembre del -0001

En los próximos días intentaré exponer aquí cómo se debe hacer una web para que esté al máximo optimizada para posicionarse en los buscadores, desde el diseño HTML hasta cómo deben ser redactados los contenidos. Lo primero que hay que tener muy claro al comenzar un proyecto web, es saber q

Seguir leyendo

Últimos posts

Últimos comentarios


javier

Buenas , esto del onclik ha cambiado actuamente en algunas web que tengo las lee y sigue enlaces
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

David Girona

Antes de Nada muchas gracias por la aportación. Estoy probando de poner en marcha este procedimiento y me surgen un par de dudas. En
Post: Cómo añadir el valor del meta Robots a Google Analytics via Google Tag Manager

Javier Espinoza

Gracias por la informacion!! Este tipo de blogs me parecen muy importantes, esto lo estudio en la universidad. gracias por la informacion. h
Post: Atacados por los .cn .cz .pl

juan

Hola Lino Uruñuela, una duda ¿aun funciona? porque no lo logro. Mira, en un index.php tengo este codigo: Camuflados
Post: Ofuscando enlaces para mejorar Link Juice

DUQUEredes

Google pasa del canonical bastante :-(
Post: Comprobando comportamiento de Google con meta canonical

Marinette

Gracias por la información!
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

Adolfo

Parece que a todo el mundo le ha gustado este artículo sexista y lleno de situaciones de agresión sexual y violencia de género, ya tendr
Post: Tipos de marketing

FDM

Hola, Lino: Genial el post, como siempre. Es genial contar con personas tan curiosas y que investigan al detalle el funcionamiento de Goo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Lino Uruñuela

@Cesar saltarse alguna orden del código es un falta de respeto!, que para algo lo hice :D No se les da muy bien esperar, su tiempo es or
Post: La segunda ola de indexación y cómo saber qué renderiza Google

César Aparicio

Hola Lino, Nos conocemos de películas como: Los de Google son muy frikis o Pasodobles y SEO. Mi cuestión es la siguiente: entiendo
Post: La segunda ola de indexación y cómo saber qué renderiza Google

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.