Des-indexado Masivo de Parámetros dinámicos en Google

Al hilo de un test que acaba de hacer público @Mjcachon desde su cuenta de Twitter y para hacer pública una pregunta que desde hace años me hacen casi todos los desarrolladores sobre des-indexado de parámetros dinámicos me tomo la libertad de añadir un par de pruebas al experimento de Mjcachon sobre des-indexado o borrado de urls del índice de Google.

[-] Indice de contenidos
  • Prueba 1: Usar la herramienta eliminación de url de SC con urls dinámicas.
  • Resultado de Prueba 1
  • Usar Noindex en robots.txt para solicitar el des-indexado de urls dinámicas
  • Resultado de la Prueba 2
  • Prueba 3: Borrado con devolución de error 403
  • Prueba 1: Usar la herramienta eliminación de url de SC con urls dinámicas.

    Esto es algo que he probado en otras ocasiones con resultados, si bien siempre lo he acompañado de otras técnicas complementarias. Básicamente voy a entender esta herramienta de SC como si se tratara de la interpretación que se hace de un fichero robots.txt:

    Se eliminarán todas las URL incluidas en el directorio ….//dominio.xxx/directorio de los resultados de búsqueda de Google.
    ¿Qué quiero decir con esto? Pretendo comprobar que si SC puede entiende que eliminar …//dominio.xxx/dir/ a nivel de directorio es eliminar todas las urls que comiencen …/dir/ a ver si puede entender que solicitar la eliminación de: …/dominio.xxx/?p= es equivalente a  eliminar un supuesto directorio que se llama «?p=». En esencia sería que el validador de la herramienta en SC está interpretando las cadenas de forma similar a como se hace para robots.txt. El caso para el experimento es el siguiente:
    Son urls de una web que están indexadas, con parámetros dinámicos por una mala configuración que tenía en htaccess. Estás urls que muestro en la imagen son del formato ………/2012/08…. Podrían borrarlas y des-indexarlas todas simplemente solicitando el borrado de la carpeta /2012/o8/ y colocando un noindex a todas las páginas contenidas en ella pero como lo que quiero es hacer la prueba para des-indexar urls dinámicas lo que voy a solicitar es el borrado de  …/2012/08/?C y según mi teoría de ese listado deberían desaparecer las dos ultimas páginas y en caso de ser mi teoría errónea no debería desaparecer ninguna de las tres.
    Otra salvedad de esta prueba con el experimento de Mjcachon es que yo no voy a colocar noindex en la cabecera de esas urls porque me temo que al hacerlo no voy a poder determinar si se han borrado por la solicitud o porque se han vuelto a rastrear con un robots=noindex. De tal forma que la supuesta eliminación de esas dos urls será una eliminación temporal.

    Resultado de Prueba 1

    En menos de 24 horas ha pasado exactamente lo que dije. No queda nada que empiece por ?C en el site de esa carpeta.

    Usar Noindex en robots.txt para solicitar el des-indexado de urls dinámicas

    Es simplemente usar la directiva Noindex en robots.txt para bloquear en este caso este tipo de urls también indexadas en Google:

    Que llevan una estructura similar a la del ejemplo anterior pero cambiando 2012 por 2011. En este caso haré una prueba algo más amplia colocando en robots.txt este código: Noindex: /wp-content/uploads/2011/*/?C. Con lo cual debería des-indexar todo lo contenido en subcarpetas de 2011 y que comiencen por ?C. Para hacer esta parte he realizado un ping desde SC a todas las urls que deberían ser des-indexadas justo antes de hacer la modificación en robots.txt porque de hacerlo al revés la herramienta de ping daba un error al entender la directiva Noindex como un Disallow.

    Resultado de la Prueba 2

    1. Pasadas 24 horas no se ha obtenido ningún resultado.
    2. Pasado casi un mes sigue habiendo urls en esa carpeta con el parámetro C

    Por tanto concluyo que el noindex en robots.txt no tiene utilidad para este caso.

    Prueba 3: Borrado con devolución de error 403

    Esta es una prueba que hago ya que al arreglar el problema por el que se estaban indexando los índices del servidor Apache ahora la web devuelve un 403 en esos casos así que vamos a ver cuánto tarda en des-indexar y lo actualizaré en cuanto lo sepa.


    SEO Freelance


    2 comentarios en “Des-indexado Masivo de Parámetros dinámicos en Google

    1. Yo tengo este problema, y las urls que supuestamente tienen esto (Se ha indexado aunque un archivo robots.txt la ha bloqueado) aparece la palabra «label». Y no se como arreglarlo

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.