Google Sitemaps permite probar robots.txt virtuales

Google hoy nos enseña un poco más de cómo indexa las páginas webs de nuestros sitios.

Según Google los robots rastrean una página según estos factores:
  • Porque ya conoce la página.
  • Porque otras páginas enlazan con ella.
  • Porque la página está en el sitemaps.

También nos comenta que los robots no acceden a las páginas sino a URLs, porque la misma página puede ser accesible por medio de distintas URLs, un ejemplo:
  • http://www.example.com/
  • http://www.example.com/index.html
  • http://example.com
  • http://example.com/index.html

Y que en este caso, Google sumara 4 páginas en su índice, otro ejemplo en el que ocurre esto es cuando hacemos distintos links dentro de una misma página, por ejemeplo:
  • http://www.example.com/mypage.html#heading1
  • http://www.example.com/mypage.html#heading2
  • http://www.example.com/mypage.html#heading3

O por medio de URLs dinámicas
  • http://www.example.com/furniture?type=chair&brand=123
  • http://www.example.com/hotbuys?type=chair&brand=123


Por estos motivos pude tener un mayor número de páginas indexadas en un sitio de las que realmente son. Cuando Google tiene 4 URLs distintas que realmente son la misma página, sólo mostrará una y nos dice cómo podemos elegir cuál queremos que sea esa página que nos muestre, como siempre con redirecciones 301 y tratando el archivo robots.txt .

Haciendo una redireccion 301 a la versión que nosotros prefiramos
Por ejemplo redireccionando los index de nuestros directorios a la raíz del directorio ej. de www.mecagoenlos.com/index.php a www.mecagoenlos.com/

Usando el robots.txt
Podemos bloquear el acceso a los robots a determinadas páginas, o páginas con parametros en la URL
ej. de robots.txt para bloquear páginas con parametros en la URL y así Google sólo coja la página principal

User-agent: * Disallow: /*?*

Y la gran novedad es que ahora escribimos nuestro robots.txt virtual y podemos ver el resultado que tendría sobre una página determinada de nuestra web ese robots.txt virtual que creamos en la herramienta de Google Sitemaps, así podrás comprobar que ese archivo hace lo que tú pretendías.

En el caso de que el robots.txt esté bloqueando esa URL que estamos comprobando te dice exactamente qué línea de tu robots.txt es la que no permite al robot de Google acceder. Parece ser que Google se ha dado cuenta del número desmesurado de URLs que tiene para algunos sitios, ya que este número se ve muy incrementado cuando usas parametros en la URL para por ejemplo ordenar resultados. Así intentará que los webmasters como siempre le facilitemos las cosas, por el bien de los dos.



 


Errioxahace Hace más de 12 años y 220 días

Pero no sólo habla de las URL canónicas, con www o sin www, sino de todas en general y con las URLs dinámicas que sí pueden dar problemas.



Lea otros artículos de Google Search Console

Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.

Últimos posts

Últimos comentarios


German

Hola amigo, lo cierto es que no me he enterado pajolera idea de lo que cuentas, aunque te felicito por aparecer en el Discovery de Google. M
Post: Google podria no querer el HTML de una URL

Lino

Una manera súper sencilla para comprobarlo: 1- Una URL, mirar un log de Googlrbot de esa UR cuando da 200 2- Comparar con otro log
Post: Google podria no querer el HTML de una URL

Jose Antonio Gil

En primer lugar agradecerte tus palabras, he sido alumno tuyo este año en el Máster de Webpositer en Alicante por lo que algo de culpa ten
Post: Google podria no querer el HTML de una URL

Lino

Uppsss cierto, la culpa es de tantas elecciones consecutiva... hacen remarketing en mi cerebro
Post: Google podria no querer el HTML de una URL

José

Buenas Lino! Sólo comentar que el apellido de Gastón es RIERA (no Rivera). Saludos y gracias por compartir!
Post: Google podria no querer el HTML de una URL

Fran Javietr

Hola Lino como podemos añadir a este código la identificación de la ip del bot, como sabes hay falsos bots y una forma de saber si son l
Post: Monotorizar GoogleBot con Google Analytics

Javier

Buenas Lino, ¿Alguna novedad sobre cómo considera Google los links en PDFs? Se me ocurre que, siguiendo con este experimento, se po
Post: Link building con PDF

Francisco

Flaco. Por lo general, no dejo comentarios pero, en tu caso, voy a hacer una excepción pues, sencillamente... ¡sos un genio!, Gracias.
Post: Cómo cargar css y js y no bloquear la carga de contenido

Juan Francisco Gancia

Excelente artículo, gracias! Te encuentro de casualidad por un post de hace 10 años.
Post: Diferencias entre url indexada y url accesible

Lino Urnuela

@Emirodgar gracias! Pero parece que en tema de imágenes las pilla lo hagas cómo lo hagas parece, eso sí, siempre que no tengas un fall
Post: Indexar imágenes en Google usando Lazy Load