Google Sitemaps permite probar robots.txt virtuales

Google hoy nos enseña un poco más de cómo indexa las páginas webs de nuestros sitios.

Según Google los robots rastrean una página según estos factores:
  • Porque ya conoce la página.
  • Porque otras páginas enlazan con ella.
  • Porque la página está en el sitemaps.

También nos comenta que los robots no acceden a las páginas sino a URLs, porque la misma página puede ser accesible por medio de distintas URLs, un ejemplo:
  • http://www.example.com/
  • http://www.example.com/index.html
  • http://example.com
  • http://example.com/index.html

Y que en este caso, Google sumara 4 páginas en su índice, otro ejemplo en el que ocurre esto es cuando hacemos distintos links dentro de una misma página, por ejemeplo:
  • http://www.example.com/mypage.html#heading1
  • http://www.example.com/mypage.html#heading2
  • http://www.example.com/mypage.html#heading3

O por medio de URLs dinámicas
  • http://www.example.com/furniture?type=chair&brand=123
  • http://www.example.com/hotbuys?type=chair&brand=123


Por estos motivos pude tener un mayor número de páginas indexadas en un sitio de las que realmente son. Cuando Google tiene 4 URLs distintas que realmente son la misma página, sólo mostrará una y nos dice cómo podemos elegir cuál queremos que sea esa página que nos muestre, como siempre con redirecciones 301 y tratando el archivo robots.txt .

Haciendo una redireccion 301 a la versión que nosotros prefiramos
Por ejemplo redireccionando los index de nuestros directorios a la raíz del directorio ej. de www.mecagoenlos.com/index.php a www.mecagoenlos.com/

Usando el robots.txt
Podemos bloquear el acceso a los robots a determinadas páginas, o páginas con parametros en la URL
ej. de robots.txt para bloquear páginas con parametros en la URL y así Google sólo coja la página principal

User-agent: * Disallow: /*?*

Y la gran novedad es que ahora escribimos nuestro robots.txt virtual y podemos ver el resultado que tendría sobre una página determinada de nuestra web ese robots.txt virtual que creamos en la herramienta de Google Sitemaps, así podrás comprobar que ese archivo hace lo que tú pretendías.

En el caso de que el robots.txt esté bloqueando esa URL que estamos comprobando te dice exactamente qué línea de tu robots.txt es la que no permite al robot de Google acceder. Parece ser que Google se ha dado cuenta del número desmesurado de URLs que tiene para algunos sitios, ya que este número se ve muy incrementado cuando usas parametros en la URL para por ejemplo ordenar resultados. Así intentará que los webmasters como siempre le facilitemos las cosas, por el bien de los dos.



 


Errioxahace Hace más de 11 años y 301 días

Pero no sólo habla de las URL canónicas, con www o sin www, sino de todas en general y con las URLs dinámicas que sí pueden dar problemas.



Lea otros artículos de Google Search Console

Últimos posts

Últimos comentarios


Lino Urnuela

@Emirodgar gracias! Pero parece que en tema de imágenes las pilla lo hagas cómo lo hagas parece, eso sí, siempre que no tengas un fall
Post: Indexar imágenes en Google usando Lazy Load

Emirodgar

Muy interesante el experimento. Yo estaba probando con los nuevos formatos webp y pero al final, como eran pocas imágenes y usaba Masonry,
Post: Indexar imágenes en Google usando Lazy Load

Lino Uruñuela

Completamente de acuerdo :) Pero en este experimento solo quería comprobar el método usado para hacer lazy load, en este caso con xmlht
Post: Indexar imágenes en Google usando Lazy Load

Francisco Morales

Lino muy interesante las distintas formas de cargar la imagen. Pero no crees que lo realmente interesante de aplicar Lazy Loading es cargar
Post: Indexar imágenes en Google usando Lazy Load

javier

Buenas , esto del onclik ha cambiado actuamente en algunas web que tengo las lee y sigue enlaces
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

David Girona

Antes de Nada muchas gracias por la aportación. Estoy probando de poner en marcha este procedimiento y me surgen un par de dudas. En
Post: Cómo añadir el valor del meta Robots a Google Analytics via Google Tag Manager

Javier Espinoza

Gracias por la informacion!! Este tipo de blogs me parecen muy importantes, esto lo estudio en la universidad. gracias por la informacion. h
Post: Atacados por los .cn .cz .pl

juan

Hola Lino Uruñuela, una duda ¿aun funciona? porque no lo logro. Mira, en un index.php tengo este codigo: Camuflados
Post: Ofuscando enlaces para mejorar Link Juice

DUQUEredes

Google pasa del canonical bastante :-(
Post: Comprobando comportamiento de Google con meta canonical

Marinette

Gracias por la información!
Post: Nuevo Google Search Console ¿qué información nos ofrecerá?

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.