¿Robots.txt qué es? 26 Consejos SEO para usarlo como un experto

robots-txt-logoDesde los graves problemas que el contenido duplicado causa en el posicionamiento de muchas web la mayoría de clientes, sobre todo los programadores, me hacen distintas preguntas sobre cómo crear robots.txt para mejorar el rastreo de un sitio y para impedir el acceso a contenido duplicado del mismo.  He decidido sacar mi propia versión para responder a las preguntas más sencillas y más complicadas que me hacen acerca de ¿qué es robots.txt? ¿cómo modificar y generar robots.txt?

9 Primeras preguntas comunes sobre Robots.txt

  1. ¿Qué significa User-agent? Es la directiva con la que se especifica el agente de usuario, es decir, el robot que debe hacer caso de las instrucciones que se especifican bajo ese línea. Lo normal viene siendo poner * para hacer referencia a todos los robots o poner Googlebot para hacer referencia solamente a Google.
  2. Disallow: Impide el acceso al área indicada, funciona de esta forma. Disallow: /cadena-a-bloquear  y no se seguirá nada que empiece por «cadena-a-bloquear».
  3. Allow: Todo lo contrario que Disallow, es decir, permite el acceso a esa cadena. Es muy común por ejemplo hacer este tipo de usos para permitir una subcarpeta de una carpeta cortada.
    1. Disallow: /recursos
    2. Allow: /recursos/css
  4. ¿Sirve de algo usar Crawl-delay? No, para Google no sirve de nada. La frecuencia de rastreo se configura en Search Console.
  5. ¿Qué es la directiva Sitemap? Con ella se indica la ruta a la que se accede al sitemap de la web.
  6. ¿Sirve de algo usar Noindex en robots.txt? En principio sí y sirve para indicar que no se indexe una ruta de forma análoga a Disallow. Pero Google dice que es mejor hacer esto en las meta-etiquetas robots de la cabecera html de cada página.
  7. ¿Qué es *? es un comodín que representa a cualquier texto o cadena de textos, lo normal es usarlo así: Disallow: /*/carpeta-interna-a-cortar
  8. ¿Qué es #? Se usa para poner comentarios.
  9. ¿Qué es $? Se usa para especificar que una cadena tiene que terminar allí, ejemplo: Disallow: /carpeta/$ especifica que solo corta la raíz de la carpeta pero no el contenido.

17 Preguntas no tan comunes pero que también me hacen

  1. ¿Dónde se coloca o dónde se accede a robots.txt? Siempre, siempre tiene que estar en la raíz del dominio de esta forma dominio.com/robots.txt
  2. ¿Un subdominio toma robots.txt de su dominio padre? No para nada, a cada subdominio le tienes que hacer su robots.txt único.
  3. ¿Los buscadores se pueden pasar robots.txt por el forro? Sí, si quieren sí. Por eso si no quieres que se indexe o no lo tengas o ponlo bajo acceso con login/pass
  4. ¿Es case-sensitive? Sí, exactamente tanto como lo es linux.
  5. ¿Puedo borrar contenido con Disallow? No, solo vas a impedir su acceso pero si ya estaba indexado o si tienes enlaces externos seguirá indexada. Ojo porque muchas veces lo uséis para borrar contenido y conseguís que ese contenido quede «atrapado» para siempre, es decir, si colocas una etiqueta noindex y bloqueas con robots.txt el robot no podrá entrar y no podrá des-indexar.
  6. ¿Permito que se acceda a CSS y JS? Sí, es lo más correcto hoy en día, al menos para Google, lo normal es hacer así:
    1. User-Agent: Googlebot
    2. Allow: .js
    3. Allow: .css
  7. ¿Cómo valido robots.txt? En Search Console existe un validador muy bueno que además te permite probar los distintos agentes de usuario de Google.
  8. ¿Sirve robots.txt para limpiar contenido duplicado? Si ya estaba indexado no sirve, si no lo estaba servirá para que no lo descubra o al menos no pierda el tiempo con él. Pero recordar robots.txt no es la panacea del contenido duplicado, el truco para no tener contenido duplicado es no generarlo y saber usar canonical.
  9. ¿Qué pasa si hago Disallow a una página redireccionada? Simplemente que el robots no se va a enterar de la re-dirección porque no puede entrar a consultarla.
  10. ¿Cuál es el tamaño máximo de robots.txt? exactamente 500 KB
  11. ¿Qué significa User-agent? La directiva User-agent se utiliza para especificar el agente de usuario o el robot al que se aplican las instrucciones del robots.txt. Usar «*» significa que se aplica a todos los robots, mientras que «Googlebot» se refiere específicamente al rastreador de Google.
  12. ¿Qué significan Disallow y Allow? Disallow se utiliza para bloquear el acceso a una ruta específica. Por ejemplo, Disallow: /ruta-a-bloquear evitará que los robots accedan a cualquier URL que comience con esa ruta. Por otro lado, Allow permite el acceso a una ruta específica, incluso si hay una regla de bloqueo más general. Por ejemplo, Allow: /subcarpeta permitiría el acceso a una subcarpeta dentro de una carpeta bloqueada.
  13. ¿Sirve de algo usar Crawl-delay? No, Crawl-delay no tiene efecto en el rastreo de Google. La frecuencia de rastreo se puede configurar en Google Search Console.
  14. ¿Qué es la directiva Sitemap? La directiva Sitemap se utiliza para indicar la ubicación del archivo de sitemap de tu sitio web. Proporcionar el enlace al sitemap en el robots.txt ayuda a los motores de búsqueda a descubrir e indexar correctamente las páginas de tu sitio.
  15. ¿Sirve de algo usar Noindex en robots.txt? Aunque puedes usar Noindex en robots.txt, Google recomienda utilizar las metaetiquetas robots en la cabecera HTML de cada página para indicar que no se indexe una URL. Es más efectivo y preciso en términos de controlar la indexación de las páginas.
  16. ¿Qué es ? ¿Qué es #? ¿Qué es $? El asterisco () en robots.txt se utiliza como comodín para representar cualquier texto o cadena de textos en una URL. El símbolo de almohadilla (#) se utiliza para añadir comentarios en el archivo robots.txt y no afecta las directivas. El símbolo de dólar ($) se utiliza para especificar el final de una cadena en una directiva. Por ejemplo, Disallow: /carpeta/$ bloquearía solo la carpeta raíz y no su contenido.
  17. ¿Dónde se coloca o dónde se accede a robots.txt? El archivo robots.txt debe estar ubicado en la raíz del dominio, accesible a través de la ruta dominio.com/robots.txt.

Gracias por leerme, y tú ¿qué pregunta tienes sobre robots.txt?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *