SEO: Sitemap y robots.txt

      

sitemap y robot.txt

¿Qué es un sitemap y como crearlo?

¿Qué es y para que sirve el Sitemap?

El posicionamiento en buscadores de los sitios que diseñamos o que simplemente estamos administrando tiene una enorme importancia en un entorno tan competitivo como es la web de hoy en día. De posicionamiento web depende muchas veces el éxito o fracaso del sitio y por eso tenemos que hacer todo lo posible para informar al los buscadores de la existencia de nuestros sitio.

Un sitemap es un archivo XML que contiene una lista de las páginas del sitio junto con alguna información adicional, tal como con qué frecuencia la página cambia sus contenidos, cuándo fue su última actualización y qué tan importante es respecto al resto de las páginas del mismo sitio.

Un robots.txt en un fichero de texto que todos los buscadores tienen que leer

Construcción del sitemap

La construcción del archivo XML debe seguir una serie de pautas especificadas en el protocolo de sitemaps y después tenemos que informar a los buscadores de la existencia del mismo, para eso os vamos a explicar los siguientes pasos.

  • Contenidos obligatorios del sitemap
  • Ejemplo de sitemap
  • Etiquetas que forman el SITEMAP
  • Alojamiento del sitemap
  • Envío del sitemap con robots.txt

Contenidos obligatorios del sitemap

Un Sitemap se construye usando a etiquetas XML o tags incluidas en un archivo siempre con codificación UTF-8. Los valores de datos (por contraposición a las etiquetas mismas) deben utilizar códigos de escape para ciertos caracteres especiales, tal como se acostumbra en HTML, por ejemplo:

  • Las comillas dobles (“) deben ser reemplazadas por “
  • Los signos menor (<) y mayor (>) por < y > respectivamente.

Ejemplo sencillo de Sitemap

Sitemap y SEO

Captura de pantalla de un Sitemap sencillo

La explicación de la cabecera es bastante sencilla

  • Con la primera etiqueta definimos la versión de xml en uso y la codificación en este caso UTF-8
  • La segunda línea hace referencia al protocolo de uso, el 0.9

Etiquetas que forman el SITEMAP

  • <loc>http://….</lo> url de la página Dirección url de la página que forma parte del Sitemap
  • <lastmod>Fecha</lastmod>, fecha de última modificación
    • Se pone en este formato: 2011-03-31
  • <changefrec>Frec</changefrec>, Frecuencia de Cambio
    • always, siempre, para páginas que cambian cada vez que se muestran. Típicamente, las dinámicas,
    • hourly, a cada hora,
    • daily, diariamente,
    • weekly, semanalmente,
    • monthly mensualmente,
    • yearly anualmente
    • never nunca, típicamente para páginas archivadas.
  • <priority>Valor</priority> Prioridad Se refiere a la importancia que tiene la página que figura en respecto de las demás que componen el sitio. Es simplemente una manera de indicar prioridades relativas dentro del sitio, sin ningún efecto hacia el exterior del mismo. Valor puede tomar valores entre 0 y 1. El valor por defecto es 0.5

Alojamiento del sitemap

El archivo XML así construido se aloja en el servidor como un archivo más del sitio, con la salvedad de que puede contener las URL contenidas en el mismo directorio en que se encuentra o en otros contenidos en él. Normalmente se pone en la raíz del servidor llamándolo sitemap.xml

Envío el sitemap a los servidores

A través de Google Webmaster Tools o de Yahoo Site explorer podemos proporcionar directamente la información de nuestro sitemap a los buscadores. Pero también lo podemos hacer con el archivo robots.txt.

Más información aquí: http://www.sitemaps.org/protocol.php#submit_robots

Creación del fichero robots.txt

El archivo “robots.txt” les dice a los motores de búsqueda a qué partes de tu sitio pueden acceder y consecuentemente rastrear. Este archivo se debe llamar “robots.txt”, y tiene que estar en el directorio raíz de tu sitio.

Su formato habitual es:

User-Agent: *
Disallow: /estilo/plantilla.css
Disallow: /recursos/
Disallow: /capcha/
Disallow: /sesiones/
Disallow: /test/
Disallow: /img/
Disallow: /css/
Sitemap: http://impresas.es/sitemap.xml

En primer lugar con User-Agent: *, especificamos el buscador al que afectará la regla, si ponemos asterisco hacemos referencia a todos los buscadores, también se puede poner por ejemplo google para hacer referencia sólo a google.. Luego deshabilitamos el acceso a todas aquellas carpetas o ficheros que no queremos que sean accedidas y por último vamos a indicar donde está nuestro sitemap y  de esta forma todos los robots que pasen por es sitio podrán localizar fácilmente nuestro sitemap.


      

jlmora
Sobre nosotros

Juan Luis Mora Blanco, Consultor SEO/SEM freelance experto en posicionamiento web.Contactar si necesitas un profesional que te ayude a posicionar tu web o tienda online.

presupuesto seo



Recuerda: Todos mis artículos están basados en experiencias de trabajos reales. ¿crees que alguna de estás recomendaciones pueden ayudar a mejorar el posicionamiento web? contacta ahora y te diré que puedo hacer para optimizar tu web.

Etiquetado con: ,
Publicado en: SEO - Optimización en buscadores


No te quedes sin decir lo que piensas, ¡Vamos comenta!
7 comentarios sobre “SEO: Sitemap y robots.txt
  1. Jose dice:

    Gracias por el articulo, lo he entendido bastante bien por que lo has explicado de manera bastante sencilla y entendible, en otras paginas he visto turoriales hiperlargos que no se entendian nada :$

  2. Juan dice:

    Hola Juan Luis,
    ¿crees que puedo utilizar este ejemplo de robots.txt para mi tienda en Magento?
    Gracias

  3. Alfredo Gonzalez dice:

    tengo problemas con mi sitio podras ayudarme? gracias

  4. Francisco dice:

    Buenas tardes, alguien sabe como se podría poner para que los buscadores no indexen todas las url que termine mi web que acaben con /r/ por ejemplo. http://www.midominio.com/articulo/134/r/
    es que google me detecta duplicidades con esas url terminadas /r/
    Gracias

  5. Carlos dice:

    ¿Todavía se hace eso de poner el sitemap en el robots.txt? Por ahí leí que ya no es necesario, yo simplemente lo envío a Webmasters Tools y funciona.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>