¿Cómo usar Robots.txt? 19 Consejos SEO para usarlo como un experto

robots-txt-logoDesde los graves problemas que el contenido duplicado causa en el posicionamiento de muchas web la mayoría de clientes, sobre todo los programadores, me hacen distintas preguntas sobre cómo crear robots.txt para mejorar el rastreo de un sitio y para impedir el acceso a contenido duplicado del mismo. Así que aprovechando este gran artículo en inglés he decidido sacar mi propia versión para responder a las preguntas más sencillas y más complicadas que me hacen acerca de ¿qué es robots.txt? ¿cómo modificar y generar robots.txt?

9 Primeras preguntas comunes sobre Robots.txt

  1. ¿Qué significa User-agent? Es la directiva con la que se especifica el agente de usuario, es decir, el robot que debe hacer caso de las instrucciones que se especifican bajo ese línea. Lo normal viene siendo poner * para hacer referencia a todos los robots o poner Googlebot para hacer referencia solamente a Google. Si queréis conocer los más comunes aquí os dejo una buena lista.
  2. Disallow: Impide el acceso al área indicada, funciona de esta forma. Disallow: /cadena-a-bloquear  y no se seguirá nada que empiece por “cadena-a-bloquear”.
  3. Allow: Todo lo contrario que Disallow, es decir, permite el acceso a esa cadena. Es muy común por ejemplo hacer este tipo de usos para permitir una subcarpeta de una carpeta cortada.
    1. Disallow: /recursos
    2. Allow: /recursos/css
  4. ¿Sirve de algo usar Crawl-delay? No, para Google no sirve de nada. La frecuencia de rastreo se configura en Search Console.
  5. ¿Qué es la directiva Sitemap? Con ella se indica la ruta a la que se accede al sitemap de la web.
  6. ¿Sirve de algo usar Noindex en robots.txt? En principio sí y sirve para indicar que no se indexe una ruta de forma análoga a Disallow. Pero Google dice que es mejor hacer esto en las meta-etiquetas robots de la cabecera html de cada página.
  7. ¿Qué es *? es un comodín que representa a cualquier texto o cadena de textos, lo normal es usarlo así: Disallow: /*/carpeta-interna-a-cortar
  8. ¿Qué es #? Se usa para poner comentarios.
  9. ¿Qué es $? Se usa para especificar que una cadena tiene que terminar allí, ejemplo: Disallow: /carpeta/$ especifica que solo corta la raíz de la carpeta pero no el contenido.

10 Preguntas no tan comunes pero que también me hacen

  1. ¿Dónde se coloca o dónde se accede a robots.txt? Siempre, siempre tiene que estar en la raíz del dominio de esta forma dominio.com/robots.txt
  2. ¿Un subdominio toma robots.txt de su dominio padre? No para nada, a cada subdominio le tienes que hacer su robots.txt único.
  3. ¿Los buscadores se pueden pasar robots.txt por el forro? Sí, si quieren sí. Por eso si no quieres que se indexe o no lo tengas o ponlo bajo acceso con login/pass
  4. ¿Es case-sensitive? Sí, exactamente tanto como lo es linux.
  5. ¿Puedo borrar contenido con Disallow? No, solo vas a impedir su acceso pero si ya estaba indexado o si tienes enlaces externos seguirá indexada. Ojo porque muchas veces lo uséis para borrar contenido y conseguís que ese contenido quede “atrapado” para siempre, es decir, si colocas una etiqueta noindex y bloqueas con robots.txt el robot no podrá entrar y no podrá des-indexar.
  6. ¿Permito que se acceda a CSS y JS? Sí, es lo más correcto hoy en día, al menos para Google, lo normal es hacer así:
    1. User-Agent: Googlebot
    2. Allow: .js
    3. Allow: .css
  7. ¿Cómo valido robots.txt? En Search Console existe un validador muy bueno que además te permite probar los distintos agentes de usuario de Google.
  8. ¿Sirve robots.txt para limpiar contenido duplicado? Si ya estaba indexado no sirve, si no lo estaba servirá para que no lo descubra o al menos no pierda el tiempo con él. Pero recordar robots.txt no es la panacea del contenido duplicado, el truco para no tener contenido duplicado es no generarlo y saber usar canonical.
  9. ¿Qué pasa si hago Disallow a una página redireccionada? Simplemente que el robots no se va a enterar de la re-dirección porque no puede entrar a consultarla.
  10. ¿Cuál es el tamaño máximo de robots.txt? exactamente 500 KB

 

Gracias por leerme, y tú ¿qué pregunta tienes sobre robots.txt?


Conoce mis servicios SEO.



Servicios personalizados para profesionales, agencias y PYMES

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *