Diferencias entre url indexada y url accesible

Publicado el 18 de marzo del 2019 por Lino Uruñuela

Siempre ha habido debates sobre cómo indexar urls en Google, ¿cuántas urls tiene Google indexadas de mi web? ¿cuántas urls crawleadas tiene mi site? ¿es mejor usar el robots.txt o es mejor usar el meta noindex para no indexar determinadas urls?.... el debate continuará durante mucho tiempo, pero lo primero que debemos hacer es intentar hablar todos en el mismo idioma.

Los términos indexable, accesible, rastreable, etc se mezclan y distorisionan por todo el mundo, yo el primero, y deberíamos intentar consensuar determinada terminología SEO.

Creo que la mejor manera de llegar a una nomenclatura general es usar la misma que usa Google, concretamente en el nuevo Google Search Console.

Por ejemplo, yo hasta que no salió el nuevo GSC, en mi cabeza, una url bloqueada por robots.txt no era una url indexada. Y eso lleva a confusiones a la hora de interpretar algunos datos. 

Hasta hace algo más de un año, antes de que viera la luz la nueva versión de Search Console, tenia la duda de si al bloquear por robots.txt determinadas urls Google indexará, o al menos rastreará, otras URLs que antes no rastreaba. Y no estaba mal pensado, pero no era correcta esa hipótesis.



Las primeras dudas sobre tal hecho fueron con datos de logs del servidor. No veía ese crecimiento en urls rastreadas que antes no hubiese rastreado, es decir, no parecía que Google usase el tiempo que gastaba en las urls que restringí por robots.txt en otras urls a las que antes no accediera.

Cuando salió el nuevo Search Console lo vi claro, concretamente en el informe de cobertura, las urls a las que no se le permite acceder mediante robots.txt las cataloga como "indexables".




Y ahora cobra sentido las gráficas que veníamos viendo en el viejo Search Console cuando restringimos urls mediante el robots.txt.

Veíamos un aumento de URLs indexadas, casi las mismas que habíamos restringido por robots.txt. Ese aumento en el número de urls indexadas por Google no era porque Google indexara otras URLs, sino que Google ahora al no poder acceder a esas urls bloqueadas por robots.txt las marca como "indexadas" solamente con tener suficientes enlaces entrantes ya que el contenido no puede verlo.

Antes de bloquearlas no eran "indexadas" porque Google accedía a esas urls y no creía que su contenido fuese suficientemente relevante para añadirlas a su índice. Ahora como no puede acceder no puede ver ni el contenido ni los metas (si los tuviera) por lo que la marcará como indexable, pero no siempre, solo si tiene suficientes enlaces, por eso vemos en el nuevo GSC que hay warnings con urls bloqueadas por robots incluídas en el índice y también en excluidas por el mismo motivo.


Sobre este tema en concreto volveré en otro post profundizando en la diferencia de urls bloqueadas Vs aumento de urls indexadas, pero ahora vamos a intentar esquematizar un poco los posibles estados de una url y su nomenclatura


Las URLs de cara a SEO se podrían categorizar como:


  • Accesibles (rastreables)
    Google puede acceder y ver su contenido.

    Aquellas URLs a las que Google puede acceder, es decir, aquellas URL que no están restringidas por robots.txt (por defecto).

    Las URLs Accesibles pueden ser:

    • Indexable:
      Aquellas con valor index en el meta robots (por defecto).

      No por ser indexable quiere decir que sea indexada, sino que podría serlo, depende de Google y su algoritmo decidir si la indexa o no.
    • No Indexable
      Con meta robots = "noindex"

      Google accede a la url, ve su contenido, y parte del contenido es el meta robots, si contiene el valor "noindex" indicará a Google que esta URL no puede ser mostrada en sus resultados.

      Google denomina a las URLs que no puede o no quiere mostrar en sus resultados como URL no indexada (o excluída), lo que no quiere decir que no acceda a ella con regularidad.

      Posiblemente aquí deberíamos meter todas las urls que no responde con un código de estado 200. Ya que son accesibles (nada en el robots se lo impide) pero no son indexables,ya que o bien son páginas de error, o son redirecciones.

  • No Accesibles
    Aquellas URLs a las que Google NO puede acceder porque se lo prohibimos, es decir, aquellas bloqueadas mediante robots.txt.

    Al no poder acceder, Google no podrá ver su contenido, ni tampoco sus meta robots, ni ninguno otro. Ni siquiera podrá saber si da una redirección 301 o un error 404.


    • Indexables
      Todas, ya que si no puede acceder a la url no podrá ver el valor del meta robots.

      Recordemos que solamente este meta con valor "noindex" vuelve a una url no indexable, ya sea añadida en el HTML, como por cabeceras X-Robots-Tag  

    Las urls a NO Accesibles sólo pueden ser Indexables



Espero que este esquema y resumen sirva para aclarar un poco la nomenclatura para cada estado posible de una url y su posible indexación en Google.

Os animo a corregir / criticar, completar y usar esta nomenclatura, hacerlo lo más parecido a como lo hace Google podremos entendernos mejor a la hora de hablar de indexación y rastreo.

 


Juan Francisco Ganciahace 19 días

Excelente artículo, gracias!
Te encuentro de casualidad por un post de hace 10 años.


Contacta

Lánzate y pregunta!


He leído y acepto la política de privacidad

Mecagoenlos.com te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Lino Uruñuela. como responsable de esta web.

La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para enviar un correo con los datos que introduzcas, sin guardarse en ninguna base de datos.

Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad.

Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de Linode.com (proveedor de hosting de Mecagoenlos.com) cumpliendo la ley de protección de datos. Ver política de privacidad de Linode.com.

Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@mecagoenlos.com, así como el derecho a presentar una reclamación ante una autoridad de control. Más información aquí.

Últimos posts

Últimos comentarios


Juan Francisco Gancia

Excelente artículo, gracias! Te encuentro de casualidad por un post de hace 10 años.
Post: Diferencias entre url indexada y url accesible

Lino Urnuela

@Emirodgar gracias! Pero parece que en tema de imágenes las pilla lo hagas cómo lo hagas parece, eso sí, siempre que no tengas un fall
Post: Indexar imágenes en Google usando Lazy Load

Emirodgar

Muy interesante el experimento. Yo estaba probando con los nuevos formatos webp y pero al final, como eran pocas imágenes y usaba Masonry,
Post: Indexar imágenes en Google usando Lazy Load

Lino Uruñuela

Completamente de acuerdo :) Pero en este experimento solo quería comprobar el método usado para hacer lazy load, en este caso con xmlht
Post: Indexar imágenes en Google usando Lazy Load

Francisco Morales

Lino muy interesante las distintas formas de cargar la imagen. Pero no crees que lo realmente interesante de aplicar Lazy Loading es cargar
Post: Indexar imágenes en Google usando Lazy Load

javier

Buenas , esto del onclik ha cambiado actuamente en algunas web que tengo las lee y sigue enlaces
Post: ¿Cómo ejecuta, interpreta e indexa Google el contenido cargado mediante javascript?

David Girona

Antes de Nada muchas gracias por la aportación. Estoy probando de poner en marcha este procedimiento y me surgen un par de dudas. En
Post: Cómo añadir el valor del meta Robots a Google Analytics via Google Tag Manager

Javier Espinoza

Gracias por la informacion!! Este tipo de blogs me parecen muy importantes, esto lo estudio en la universidad. gracias por la informacion. h
Post: Atacados por los .cn .cz .pl

juan

Hola Lino Uruñuela, una duda ¿aun funciona? porque no lo logro. Mira, en un index.php tengo este codigo: Camuflados
Post: Ofuscando enlaces para mejorar Link Juice

DUQUEredes

Google pasa del canonical bastante :-(
Post: Comprobando comportamiento de Google con meta canonical