Sitemap.xml para Grandes Sitios: Clasificados, Directorios, Inmobiliaria…
Tengo varios clientes con portales tipo propiedades inmobiliarias y directorios de servicios o clasificados para los que estamos creando un sitemap que ayude a Google en la primera indexación completa de las webs y de la experiencia adquirida en estos casos os dejo este artículo con un resumen de los más importante.
Algunas ideas fundamentales sobre sitemap y rastreo
- Aunque ayuda no es imprescindible. Un buen sitemap nos va ayudar en las primeras etapas de la indexación de un sitio pero ni es imprescidible ni por no crearlo y mandarlo vamos a impedir que ciertas partes del contenido se indexen. Simplemente será un complemento para reforzar la arquitectura interna de la web. Pero si tenemos partes no accesibles desde la arquitectura el sitemap poco o nada va a hacer, sencillamente puedo que no haga más que ayudarnos a tener páginas huérfanas, es decir, páginas que Google indexará pero posteriormente un usuario no podrá acceder por no encontrarse su ruta dentro de la navegación.
- Sobre las etiquetas frecuencia, prioridad… os comento que no van a ser tenidas en cuenta por Google de la forma que puede esperarse en incluso puede ser mejor no ponerlas para hacer el fichero xml resultante tenga el mínimo peso posible. Si considero que añadir la etiqueta de imágenes puede ser beneficioso porque estaremos ayudando a llevar las imágenes al buscador de imágenes.
- Más no quiere decir mejor, por muchas urls que metamos en el sitemap no quiere decir que se tengan que escanear todas y mucho menos que se vayan a indexar todas. Desde el propio Google ya han explicado que cada web tiene su propio crawl budget o crawl rate basándose en la autoridad de la página pero existen otros factores que pueden maximizar o limitar esa frecuencia de rastreo como son:
- Urls poco accesibles, es decir, que no están correctamente enlazadas desde otras páginas internas.
- Urls de mala calidad, principalmente por tener poco contenido, de mala calidad o altamente duplicado.
- Exceso de código http distintos a 200 como por ejemplo 404, 410, 310, 500…
- Un tiempo de carga alto, normalmente por encima del medio segundo.
- Continuo el punto 3 diciendo que lo importante es añadir en el sitemap solamente urls importantes, que no enlacen a paginas de mala calidad y cuidar mucho la arquitectura de información.
¿Cómo hago el sitemap para un sitio grande?
En primer lugar ten en cuenta el apartado anterior y recuerda que lo mejor es añadir solamente páginas realmente importantes para aprovechar al máximo el ratio de rastreo que tengamos asignado y luego sigue estos consejos.
- No añadas fichas finales o si crees que son muy importantes lleve un sitemap con las fichas recientes para favorecer su indexación pero no tengas todas las fichas en sitemap.
- Aunque con lo anterior queda claro añado que deberíamos hacer sitemap solamente de listados y que esos listados deben estar suficientemente rellenos.
- Si tienes listados con poco contenido tampoco los añadas al sitemap.
- Subiremos siempre los sitemaps comprimidos en gzip.
Aclaro que apartir de ahora llámare listados a los listados de anuncios o productos en tu web y usaré la palabra índice para referirme a los distintos índices que forman tu sitemap.
Usaremos varios sitemaps índices para segmentar por localización y tipo.
Por ejemplo para una web de clasificados podremos tener un sitemap índice de servicios para cada provincia y cada uno de esos índices será el sitemap para ese servicio en esa provincia.
Este por ejemplo podría ser el sitemap índice para Madrid de una web con anuncios.
Observar como he introducido un sitemap para cada tipo de anuncios en Madrid y al final dejo un sitemap con las fichas más recientes tal como comentaba en el punto 2 del anterior apartado.
Lo normal es hacer los índices por provincia para mantener relevancia entre los anuncios de una misma localización pero podríamos hacer los sitemaps indice por tipo de anuncio y luego segmentar por provincia como vemos en este ejemplo donde habríamos tomado la categoría de motor.
Dependiendo del sistema elegido tendremos que subir a SC:
- Si hemos elegido el primer sistema tendremos que subir un sitemap índice por cada provincia.
- Si hemos elegido el segundo sistema tendremos que subir un sitemap índice por cada categoría principal
Como ya hemos explicado en puntos anteriores ahora cada uno de esos sitemap solo contendrán las urls de los listados y no de fichas. Salvo si hemos decidido añadir sitemap de recientes los cuales llevarán fichas finales.
Tamaños máximos del sitemap
Tener en cuenta que el tamaño máximo de un sitemap no puede superar las 50.000 urls ni pesar más de 10 megas sin comprimir. Creo que añadiendo solo listados es difícil pasar de estos límites pero si te pasa tendrás que dividir y te quedaría algo como esto:
De donde motor-madrid.xml tiene las primeras 50000 urls y motor-madrid-2.xml tiene las restantes urls, si te sigue faltando espacio tendrás que hacer motor-madrid-3.xml y a así sucesivamente.
¿Qué datos aporto para cada listado incluido en el sitemap?
Yo aportaría sencillamente lo siguiente:
- loc con la url del listado
- image con una imagen del listado.
Por ejemplo nos quedaría esto para el listado de coches de segunda mano en madrid
Saludos, muchas gracias por leerme y ya sabes para cualquier duda contacta o comenta!