Guía para saber si Google está indexando bien mi web

Uno de los principales problemas a la hora de crear una nueva web o rediseñar una ya existente es conseguir que Google vea la web exactamente como es y que además no haya ninguna página que se quede fuera del índice de Google, de igual modo también hay páginas que no queremos que se indexen.

Muchas veces se quiere que las webs sean tan bonitas y originales que se deja completamente de lado la indexabilidad de la misma, haciendo que para Google sea muy difícil rastrearla e indexarla de manera correcta, con el perjuicio al SEO que eso conlleva.

¿Cómo saber si Google ve bien nuestra web?

Lo primero que hay que hacer a la hora de analizar una web a para que esta sea accesible para Google es ponernos en la piel de Google. Los motores de búsqueda no ven una web del mismo modo que la vemos nosotros, para saber si lo que Google ve es lo que queremos que vea tenemos que seguir una serie de pasos:

1. Instala el plugin Web Developer para Google Chrome o Mozilla Firefox.

2. Desactiva el Javascript de tu web, de este modo todas los enlaces o botones que haya dentro de un código Javascript y que no son visibles para Google no se mostrarán.

Google Chrome

desactivar javascript chrome

Mozilla Firefox

desactivar javascript firefox

3. Desactiva el CSS. Google lee una página en el orden en que está escrito el HTML, si con el CSS se modifica la posición de (por ejemplo) un menú, Google no lo verá así.

Google Chrome

desactivar css chrome

Mozilla Firefox

desactivar css firefox

4. ¿Ahora como se ve tu web?

Pues bien, así es cómo Google está viendo este blog. Como puedes ver, los pocos enlaces y el poco texto que hay en la home son completamente visibles a ojos de Google.

web sin css ni javascript

Tienes que comprobar que varias cosas estén en orden para que Google pueda rastrear cualquier página de tu web:

  • ¿Puedes ver todos los enlaces de tus menús?
  • ¿Todos los enlaces aparecen como texto plano?
  • ¿Todos los enlaces son clicables?
  • ¿Hay alguna porción de texto que antes no estaba? Si es así trata de arreglarlo cuanto antes, aunque sea involuntario esto puede penalizarte a nivel SEO ya que significa que estás ocultando texto a tus usuarios.
  • ¿Está tu sidebar o los widgets de tu web en la parte superior de la página? Es importante que los enlaces más importantes estén en la parte de superior de la página.

De todos modos, para comprobar una web si que ya está publicada ha sido bien indexada por Google (o si ha sido indexada) solo tienes que realizar está búsqueda:

cache:www.tudominio.com

Con esta búsqueda lo que haces es consultar esa URL específica en el índice de Google.

Por ejemplo, si busco cache:danielezquerro.com esto es lo que aperece:

cache google

Cómo ves Google nos muestra la fecha en la que se ha indexado por última vez esa página y nos permite ver la página en versión de solo texto.

¿Es el número de página indexadas el correcto?

Lo primero que tienes que hacer para saber si Google ha indexado el número correcto de página de tu web es hacer una búsqueda con el comando “site:”, de este modo Google nos dirá la cifra aproximada de las páginas de tu web que tiene indexadas:

numero paginas indexadas

Si tienes vinculado Google Search Console en tu web también puedes comprobar el número real de páginas indexadas desde Indice de Google > Estado de indexación:

paginas indexadas google search console

Sabiendo el número exacto de las páginas que tiene tu web podrás comparar las páginas que tiene Google indexadas con las páginas reales de tu web. Pueden darse tres escenarios distintos:

  1. El número en ambos casos es muy similar. Significa que todo está en orden
  2. El número que tiene Google es menor, lo que significa que Google no está indexando muchas de las páginas.
  3. El número que tiene Google es mayor, lo que significa que tu web tiene un problema de contenido duplicado.

1 . El número que tiene Google es menor

Seguramente estés ante un problema de bloqueo de alguna de las páginas de tu web para Google, esto normalmente se debe a que sin darnos cuenta bloqueamos el acceso de los bots a esas páginas o no hay ningún enlace hacia ellas, por lo que Google no tiene ningún medio por el que llegar a dichas páginas.

Para saber si estás bloqueando páginas que no deberíamos tienes que comprobar el archivo robots.txt y las meta-etiquetas de todas las páginas de tu web.

Archivo robots txt

El archivo robots.txt se usa para impedir que los motores de búsqueda indexen ciertas partes de una web. Es muy útil para evitar que Google muestre en los resultados de búsqueda las páginas que no queremos. Por ejemplo en WordPress, para que no accedan a los archivos de administrador, el archivo robots.txt sería así:

User-agent:*
Disallow: /wp-admin

Lo que suele pasar a menudo es que se bloquea el acceso a algunos partes de la web como en el siguiente ejemplo, donde se impide el acceso a toda la web:

User-agent: *
Disallow: /

Debemos comprobar que el archivo robots.txt no está bloqueando ninguna parte importante de nuestra web. Podemos hacerlo visitando la url www.ejemplo.com/robots.txt, o bien a través de Google Search Console en Rastreo > Probador de robots.txt

El archivo robots.txt también puede usarse para indicar dónde se encuentra nuestro sitemap añadiendo en la última línea del documento.

Por lo tanto, un ejemplo de robots.txt completo para WordPress se vería así:

User-agent: *
Disallow: /wp-admin

Sitemap: http://www.ejemplo.com/sitemap.xml

Meta-etiqueta Robot

La meta etiqueta “robots” se utiliza para decirle a los robots de los motores de búsqueda si pueden indexar la página y si deben seguir los enlaces que contiene.

A la hora de analizar una página deberás comprobar si hay alguna meta etiqueta que por error esté bloqueando el acceso a estos robots. Este es un ejemplo de cómo se verían estas etiquetas en el código HTML:

<meta name=”robots” content=”noindex, nofollow”>

Para comprobar de manera rápida estás meta-etiquetas lo podemos hacer con la herramienta Screaming Frog:

screaming frog meta-etiquetas

2 . El número que tiene Google es mayor

Ahora te encuentras seguramente ante un problema de contenido duplicado, ya que el hecho de que Google tenga indexadas más páginas de las que realmente (o crees) tienes es porque algún contenido se tiene que estar indexando con más de una URL.

También puede deberse a que haya páginas privadas que no quieres que se indexen, pero eso lo puedes arreglar fácilmente con el archivo robots.txt como ya vimos más arriba :D

¿Qué es el contenido duplicado?

Tener contenido duplicado significa que estás publicando el mismo contenido para más de una URL. Este es un problema muy común, que muchas veces es involuntario y que además puede acarrear efectos negativos a la hora de posicionar en los motores de búsqueda.

Los principales motivos del contenido duplicado son los siguientes:

  1. “Canonicalización” de la página
  2. Parámetros en la URL
  3. Paginación

1. “Canonicalización” de la página

Es el motivo más común de contenido duplicado y se produce cuando tu página de inicio tiene más de una URL:

  • dominio.com
  • www.dominio.com
  • dominio.com/index.html
  • www.dominio.com/index.html

Cada una de las anteriores dirigen a la misma página con el mismo contenido, si no se le indica a Google cuál es la correcta no sabrá cuál tiene que posicionar y puede que posicione justo la versión que no se quiera.

Existen 3 posibles soluciones

  1. Hacer una redirección en el servidor para asegurarte de que solo hay una página que se muestre a los usuarios
  2. Definir qué subdominio queremos que sea el principal (“www” o “no-www”) en Google Search Console. Cómo definir el subdominio principal
  3. Añadir una etiqueta “rel=canonical” en cada versión que apunte a las que se considera la correcta

2. Parámetros en la URL

Existen muchos tipos de parámetros que se puede añadir a una URL, sobre todo si hablamos de un e-commerce: filtros de los productos (color, talla, precio, etc.), ordenación (precio menor, por relevancia, precio mayor, en cuadrícula, etc.) y sesiones de usuarios. El problema es que muchos de estos parámetros solo ordenan el contenido de la página y eso genera muchas URLs con los mismos artículos.

www.dominio.com/abrigos?color=negro&precio-desde=100&precio-hasta=200&talla=m.html

Es este ejemplo encontramos cuatro parámetros: color, talla, precio mínimo y precio máximo.

En la gran mayoría de los casos la solución es añadir una etiqueta “rel=canonical” hacia la página original, así evitarás cualquier tipo de confusión por parte de Google con la página original a la hora de identificar cual es la página principal

De manera complementaria también deberías de indicar a través de Google Search Console > Rastreo > Parámetros de URL qué parámetros debe ignorar Google a la hora de indexar las páginas de una web.

3. Paginación

Este problema de contenido duplicado es algo que en un 90% de las situaciones se ignora ya que realmente el contenido no está totalmente duplicado.

Cuando un artículo, listado de productos o las etiquetas y categorías de un blog tienen más de una página pueden aparecer problemas de contenido duplicado aunque las páginas tengan contenido diferente, debido a que todas están centradas en el mismo tema.

La mejor solución para este problema es configurar las etiquetas rel=next y rel=prev que permiten a los motores de búsqueda saber qué páginas pertenecen a una misma categoría/publicación evitando así cualquier problema de posicionamiento.

Cómo usar los parámetros rel=next y rel=prev

1. Añade la etiqueta rel=next en el en la primera página:

2. Añadir en todas las páginas menos la primera y la última las etiquetas rel=next y rel=prev

3. Añadir en la última página la etiqueta rel=prev

De manera complementaria busca el parámetro de paginación en la URL e introducelo en Google Search Console para que no se indexe.


me jiño contenido duplicado

… y esa es la cara que se queda a uno cuando descubre que hay chorricientas maneras de provocar problemas de indexación con Google. Así que espero haberte ayudado en unas pocas.

  • Manuel Gómez

    ¡Muy útil! Quedaría más conciso y divulgativo aún :-) si comparas los datos de GSC Index vs site:dominio.com para saber cuándo dices que Google da más o menos. Y si ya lo comparas con lo que dice tu sitemap, lo bordas :-) ¡Abrazo, campeón!

    • Gracias Manuel!! Te doy toda la razón, cuantas más sean las fuentes con la que lo compares mucho mejor y conciso será el análisis.

      Un abrazo!!

  • Marc Bernabeu Moreno

    Como puede ser que haga un site:dominio.com y me muestre “Aproximadamente 2.280 resultados” y en el search console me diga “Total indexadas 9.602”

    • Hola Marc!!

      Seguramente eso sea un problema de que Google ve muchas páginas de contenido duplicado en tu web,

      Prueba a ir a la última página de los resultados de búsqueda y si te sale un mensaje similar a este, puede que ese sea el problema:

      “Para mostrarte los resultados más relevantes, hemos omitido algunas entradas muy similares a las x que ya se muestran.”

      Un abrazo!!

  • Insigpol Material Policial

    https://uploads.disquscdn.com/images/549f2e4314bfd82f2cb00c47cfbe2681314dda805a45fffa2971767ddc4f13dc.jpg

    La indexación de mi tienda online no para de bajar. Y no se que hacer. Las ventas también bajan. Esto ocurre hace un año, y mientras he metido un blog de worpress y he mirado bien la web. No se que más hacer.

    • Hola!!

      Así de primeras es difícil saber lo que te puede estar pasando, si quieres mándame un correo desde la página de contacto y en cuanto pueda te contesto :)

      Gracias!!

  • I Love Programming

    Si quieren saber si una url está o no en Google y la está teniendo en cuenta en los resultados de búsqueda pueden usar cualquier herramienta online existente, yo que estoy preocupado por estos temas encontré una web muy muy sencilla de usar que me está sirviendo para ese propósito. La quiero compartir con ustedes:

    https://todo-redes.com/seo/aparece-mi-web-en-las-busquedas-de-google

    Si tienen otras mejores me gustaría que las comparieran conmigo también. Gracias!

  • Pingback: 9 consejos para optimizar el SEO de una URL - Foxize()