Google Sitemaps permite probar robots.txt virtuales

Google hoy nos enseña un poco más de cómo indexa las páginas webs de nuestros sitios.

Según Google los robots rastrean una página según estos factores:
  • Porque ya conoce la página.
  • Porque otras páginas enlazan con ella.
  • Porque la página está en el sitemaps.

También nos comenta que los robots no acceden a las páginas sino a URLs, porque la misma página puede ser accesible por medio de distintas URLs, un ejemplo:
  • http://www.example.com/
  • http://www.example.com/index.html
  • http://example.com
  • http://example.com/index.html

Y que en este caso, Google sumara 4 páginas en su índice, otro ejemplo en el que ocurre esto es cuando hacemos distintos links dentro de una misma página, por ejemeplo:
  • http://www.example.com/mypage.html#heading1
  • http://www.example.com/mypage.html#heading2
  • http://www.example.com/mypage.html#heading3

O por medio de URLs dinámicas
  • http://www.example.com/furniture?type=chair&brand=123
  • http://www.example.com/hotbuys?type=chair&brand=123


Por estos motivos pude tener un mayor número de páginas indexadas en un sitio de las que realmente son. Cuando Google tiene 4 URLs distintas que realmente son la misma página, sólo mostrará una y nos dice cómo podemos elegir cuál queremos que sea esa página que nos muestre, como siempre con redirecciones 301 y tratando el archivo robots.txt .

Haciendo una redireccion 301 a la versión que nosotros prefiramos
Por ejemplo redireccionando los index de nuestros directorios a la raíz del directorio ej. de www.mecagoenlos.com/index.php a www.mecagoenlos.com/

Usando el robots.txt
Podemos bloquear el acceso a los robots a determinadas páginas, o páginas con parametros en la URL
ej. de robots.txt para bloquear páginas con parametros en la URL y así Google sólo coja la página principal

User-agent: * Disallow: /*?*

Y la gran novedad es que ahora escribimos nuestro robots.txt virtual y podemos ver el resultado que tendría sobre una página determinada de nuestra web ese robots.txt virtual que creamos en la herramienta de Google Sitemaps, así podrás comprobar que ese archivo hace lo que tú pretendías.

En el caso de que el robots.txt esté bloqueando esa URL que estamos comprobando te dice exactamente qué línea de tu robots.txt es la que no permite al robot de Google acceder. Parece ser que Google se ha dado cuenta del número desmesurado de URLs que tiene para algunos sitios, ya que este número se ve muy incrementado cuando usas parametros en la URL para por ejemplo ordenar resultados. Así intentará que los webmasters como siempre le facilitemos las cosas, por el bien de los dos.



 


Errioxa (@)hace Hace más de 15 años y 14 días

Pero no sólo habla de las URL canónicas, con www o sin www, sino de todas en general y con las URLs dinámicas que sí pueden dar problemas.



Lea otros artículos de Google Search Console

Últimos posts

Últimos comentarios


iara erthal
10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000
Post: Representación visual de que es un Googol y Googolplex

cristina
que ha pasado?
Post: Valor del Alt en la imagenes

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt

María
Hola Lino, tengo el mismo problema. El probador de robots de google me indica: "Error al obtener el archivo robots.txt Tienes un archivo ro
Post: Errores críticos originados por el robots.txt

Mario
Estoy tratando de vincular los datos en Google Data Studio y he combinado los datos de la tabla "Impresión del sitio" con "Impresión de UR
Post: Datos incoherentes y cálculo de la posición media en Search Console

José B. Moreno Suárez
Yo hace tiempo que agrupaba con stemmers. Ahora, además, comparo con un proceso las keywords que aportan impresiones a una URL determinada
Post: Clustering de keywords SEO en Google Search Console - Parte II

Lino
@Fernando LEns es por si acaso falla en algo, pero viendo tu feedback y que no he dicho nada de esa hoja, la borraré :)
Post: Clustering de keywords SEO en Google Search Console - Parte II

Fernando LEns
Tremendo. Ya bien testado, funciona muy bien. Incluso con muchos datos tira bien y no tarda mucho . La pestaña de Cluster sin raiz sale v
Post: Clustering de keywords SEO en Google Search Console - Parte II

Quentin
Very good list, thx !
Post: Expresiones regulares para SEO (Google Search Console)