Proyecto AjpdSoft Software Libre y Artículos sobre Nuevas Tecnologías: Cómo eliminar definitivamente una URL de la caché de búsqueda de Google

Cómo eliminar definitivamente una URL de la caché de búsqueda de Google

Explicamos en qué consisten los indexadores de los motores de búsqueda (robots o arañas) y cómo funcionan los buscadores de Internet. Mostramos paso a paso cómo impedir que una URL ó página web de nuestro sitio web sea indexada por los motores de búsqueda y cómo eliminarla en caso de que ya haya sido cacheada o indexada.

Googlebot.

Cómo funcionan los buscadores de Internet.

¿Por qué eliminar una URL de la caché de Google? ¿Por qué impedir que los buscadores indexen una URL de nuestro sitio web?.

Cómo impedir que una URL sea indexada por los buscadores.

Cómo eliminar una página de la caché de Google para que no aparezca en los resultados de búsqueda.

Googlebot

Googlebot es el robot de búsqueda usado por Google. Accede a los sitios webs y obtiene sus datos para construir una base de datos para el motor de búsqueda Google.

Googlebot tiene dos versiones, deepbot y freshbot. Deepbot investiga profundamente, tratando de seguir cualquier enlace en la página a la que está accediendo, además de poner esta página en la caché, y dejarla disponible para Google. Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente.

Googlebot es el robot de rastreo web de Google (también denominado "araña"). El rastreo es el proceso mediante el cual Googlebot descubre páginas nuevas y actualizadas y las añade al índice de Google.

Googlebot utiliza una enorme cantidad de equipos informáticos para obtener (o "rastrear") miles de millones de páginas de la Web. Googlebot utiliza un proceso de rastreo algorítmico: a través de programas informáticos se determinan los sitios que hay que rastrear, la frecuencia y el número de páginas que hay que buscar en cada sitio.

El proceso de rastreo de Googlebot comienza con una lista de URL de páginas web generada a partir de procesos de rastreo anteriores y se amplía con los datos de los sitemaps que ofrecen los webmasters. A medida que Googlebot visita cada uno de esos sitios web, detecta enlaces (SRC y HREF) en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Cómo funcionan los buscadores de Internet

Por supuesto este tema podría alargarse casi etermamente, pues cada buscador utiliza sus métodos y algoritmos con resultados similares (Google, Bing, Yahoo, ...). Todos los buscadores guardan celosamente el algoritmo último de búsqueda para posicionamiento de los sitios web. No será tema de este artículo explicar el funcionamiento exaustivo de los buscadores.

Un buscador como Google basa sus resultados en una serie de algoritmos y, por supuesto, un sitio web sólo aparecerá en los resultados de búsqueda si, previamente, Googlebot lo ha indexado. Por lo tanto para conseguir que una web aparezca en los resultados de búsqueda, hay que esperar a que el robot de Google (u otro buscador) acceda e indexe nuestro sitio. Una vez indexado (proceso que consiste en obtener el texto de la web y guardarlo en la base de datos de Google), con el tiempo y según determinados factores como PageRank, palabras clave, meta tags, páginas enlazadas y otros nuestra página web podrá aparecer en los resultados de una búsqueda.

Para entenderlo mejor, supongamos que el robot de Google accedió a esta URL de nuestro sitio web y la indexó (almacenó en la base de datos de Google):

http://www.ajpdsoft.com/modules.php?name=News&file=article&sid=536

Para saber si Google tiene indexada una URL es suficiente con introducir en el buscador el texto:

cache:http://www.ajpdsoft.com/modules.php?name=News&file=article&sid=536

(la palabra "cache:" seguida de la URL a comprobar)

Si el robot de Google ha indexado la URL aparecerá una ventana de Google indicando incluso la fecha y hora en la que la URL fue indexada, esto indicará que la URL está en la caché de Google y que será susceptible de aparecer en los resultados de búsqueda:

Cómo funcionan los buscadores de Internet

Como decimos, una vez que una URL de nuestro sitio web es indexada, podría aparecer en las búsquedas que un usuario realice en Google (u otro motor). Por ejemplo, introduciendo el texto: "mi primera aplicacion android", nuestra URL de ejemplo aparece en la posición segunda de 1,6 millones de resultados:

Lo que significa que, además de que el robot de Google indexó esta URL y la almacenó en la base de datos de Google, el motor de búsqueda de Google ha interpretado (basándose en los algoritmos propios de posicionamiento) que nuestra URL tiene la importantica suficiente como para aparecer de las primeras.

¿Por qué eliminar una URL de la caché de Google? ¿Por qué impedir que los buscadores indexen una URL de nuestro sitio web?

En una situación normal siempre es recomendable que nuestra web sea indexada por los motores de búsqueda, esto nos garantizará un aumento en las visitas. En el siguiente artículo mostramos algunos trucos para conseguir un mejor posicionamiento en los motores de búsqueda:

Conseguir un buen posicionamiento de nuestra web en los motores de búsqueda

Muchas empresas dedican parte de su presupuesto anual a conseguir un buen posicionamiento en los motores de búsqueda. Por lo tanto es muy importante que los robots indexen el contenido de nuestro sitio web.

Pero en ocasiones podemos tener determinadas URL dentro de nuestro sitio web que no queremos que sean "públicas", no queremos que aparezcan en los buscadores ni que sean indexadas. Por ejemplo la sección "Intranet" de una web suele contener datos internos, si bien suelen requierir de usuario y contraseña para el acceso, puede que tampoco queramos que los buscadores la indexen. Otro ejemplo es la sección "Estadísticas de visitas", puede que tampoco queramos que esta sección sea indexada por carecer de información útil. Existen multitud de razones por las que no queramos que determinadas URL sean indexadas por los buscadores.

Es más, si disponemos de un sitio web con miles de páginas (URL), puesto que los robots tienen un límite de indexación por sitio web, tal vez consideremos impedir la indexación de determinadas URL que no son de utilidad, así conseguiremos que los robots tengan que indexar menos URL de nuestro sitio web, por lo que incluso mejoraremos el rendimiento.

En este artículo explicaremos cómo impedir que los robots de los motores de búsqueda indexen una determinada URL (o carpeta) de nuestro sitio web.

Pero qué ocurre si Googlebot ya ha indexado la URL que queremos que no aparezca en las búsquedas ¿cómo eliminamos esta URL de la caché de los buscadores? explicamos cómo hacerlo más adelante.

Cómo impedir que una URL sea indexada por los buscadores

Existen varios métodos para impedir que los robots de los buscadores indexen una URL de nuestro sitio web. Los robots buscarán siempre un fichero en el raíz del sitio web llamado "robots.txt", si en este fichero indicamos que una determinada URL no sea indexada, los robots lo respetarán y no la indexarán, al menos los robots de los motores de búsqueda importantes como Google, Bing, Yahoo. Otro método es usar los meta tag para impedir la indexación de una URL. Explicamos ambos métodos más en detalle a continuación.

Impedir indexación de URL mediante fichero robots.txt del sitio web

El primer método es usar el fichero "robots.txt", este fichero debe estar alojado en la carpeta raíz del sitio web con el nombre exacto de "robots.txt". Este fichero debe ser de texto plano sin formato, por ejemplo, abriendo el Notepad de Windows (o el vi de Linux) el contenido de este fichero podría ser:

Sitemap: http://www.ajpdsoft.com/sitemap.xml
User-agent: *
Disallow: http://www.ajpdsoft.com/modules.php?name=News&file=article&sid=536
Allow: /

Con el contenido anterior estamos indicando a los robots de los motores de búsqueda lo siguiente, explicamos línea a línea:

"Sitemap: http://www.ajpdsoft.com/sitemap.xml": en esta línea (no es obligatoria) indicamos dónde se encuentra el fichero sitemap de nuestro sitio web. En este artículo explicamos cómo crearlo, para qué sirve y su formato:
Sitemap, Mapa del sitio web. Importancia para el posicionamiento en buscadores
"User-agent: *": indicamos que cualquier robots de cualquier motor puede indexar cualquier URL de nuestro sitio web. Con esta cláusula podríamos indicar que sólo determinado robot (por ejemplo Googlebot) indexe una determinada URL. Lo normal es permitirlos todos.
"Disallow: URL": esta es la línea más importante para nuestro artículo, aquí es donde indicamos a los robots de los motores de búsqueda que no indexen la URL indicada, en nuestro ejemplo la URL que no queremos que los motores de búsqueda muestren en los resultados de búsqueda es:
http://www.ajpdsoft.com/modules.php?name=News&file=article&sid=536
Por supuesto, podremos añadir todas las URL que queramos que no sean indexadas, una en cada línea con el mismo formato "Disallow: URL".
"Allow: /": esta línea suele colocarse al final, indicando que todas las URL de nuestro sitio sean indexadas salvo las indicadas en "Disallow".

Una vez introducidas estas líneas en el fichero de texto plano sin formato, lo guardaremos con el nombre "robots.txt":

Impedir indexación de URL mediante fichero robots.txt del sitio web

A continuación debemos subir este fichero robots.txt a la carpeta raíz de nuestro sitio web, donde tengamos el fichero de inicio del sitio web (index.php, index.html, ...), para subirlo podemos usar cualquier cliente FTP gratuito (como Filezilla Client):

Hay que proceder con mucha precaución con el fichero robots.txt, pues si cometemos un error podríamos impedir que los robots indexen nuestro sitio. Muchos motores tienen herramientas gratuitas para generar de forma automática este fichero. Por ejemplo Google herramientas para webmasters:

Impedir indexación de URL mediante etiquetas Meta Tag de la página web

Otro método para impedir que los robots de los motores de búsqueda indexen y cacheen una URL de nuestro sitio web es usando la metaetiqueta "noindex". Para evitar que cualquier robot indexe una determinada página de nuestro sitio, deberemos insertar la metaetiqueta que indicamos a continuación en la sección de la página:

Para hacer esto editaremos la página con cualquier editor como Dreamweaver, FrontPage u otros gratuitos, incluso con un editor de texto plano podremos añadir esta metaetiqueta. Abriremos la página html, php, asp, jsp (o del formato que sea) que queramos que no sea indexada y añadiremos la siguiente línea en la sección :

Impedir indexación de URL mediante etiquetas Meta Tag de la página web

Guardaremos la modificación y subieremos la página a nuestro sitio web mediante un cliente FTP. A partir de ahora, cuando los robots intenten indexar esta página, leerán las metaetiqueta "robots" y puesto que hemos indicado "noindex" no la indexarán.

Por supuesto sólo colocaremos esta metaetiqueta en aquellas páginas que no queramos que aparezcan en los resultados de búsqueda ni en las cachés de los buscadores.

Cómo eliminar una página de la caché de Google para que no aparezca en los resultados de búsqueda

Anteriormente hemos explicado cómo impedir que los motores de búsqueda indexen una página de nuestro sitio web, pero ¿y si la página ya ha sido indexada y aparece en la caché de Google, incluso en los resultados de búsqueda? ¿cómo eliminar una página ya indexada por Google? lo explicamos a continuación.

Google tiene una serie de herramientas para los desarrolladores web que llama "Google herramientas para webmasters". Son gratuitas y es suficiente con disponer de un usuario de Google y de haber demostrado que somos propietarios del dominio a analizar. En el siguiente artículo mostramos cómo hacer esto:

Herramientas para Webmasters - Google

Desde este panel de control de Google podremos, entre otras cosas, indicar a Google que elimine de su caché una determinada URL o incluso un directorio (a partir de una URL, todas sus "ramificaciones" o "subenlaces"). Para ello accederemos a "Información del sitio" - "Acceso de rastreadores", en la parte derecha pulsaremos en "Eliminar URL":

Cómo eliminar una página de la caché de Google para que no aparezca en los resultados de búsqueda

Pulsaremos en el botón "Nueva solicitud de eliminación" e introduciremos la URL que será eliminada de la caché de Google y por tanto de su base de datos (ya no aparecerá en los resultados de búsqueda):

El asistente para eliminar una URL nos dará tres posibilidades:

Eliminar página de los resultados de búsqueda y de la caché: eliminará la URL indicada de la caché de Google y no aparecerá tampoco en los resultados de la búsqueda.
Eliminar página solo de la caché: eliminará la página de la caché de Google pero podría seguir apareciendo en los resultados de búsqueda.
Eliminar directorio: elimina todas las páginas del directorio indicado de la caché de Google.

Tras seleccionar el método pulsaremos en "Enviar solicitud":

Google no eliminará la página indicada de manera inmediata, en la lista quedará como "Pendiente":

Transcurridas unas horas Google habrá eliminado la página de su caché y lo indicará colocándola en "Eliminadas":

Pasadas unas horas, si intentamos mostrar el contenido de la caché de Google para la URL eliminada nos mostrará un mensaje de error indicando que Google no tiene en caché dicha página:

Introduciendo en el buscador el texto: cache:url, donde "url" será la dirección de la página web que hemos eliminado.

Por supuesto, para evitar que los buscadores vuelvan a indexar en un futuro esta página web eliminada, usaremos uno de los dos métodos descritos aquí.

Créditos

Artículo realizado íntegramente por Alonsojpd miembro fundador del Proyecto AjpdSoft.

2 comentarios:

Prof. JJScarpetta dijo...: Hola. Tal ves no tenga que ver directamente con el tema desrrollado, pero me gustaría saber si se puede evitar que en los resultados de Google NO APREZCA una pagina específica. Por eemplo: softonic... muchas gracias; 4:11 a. m.
Anónimo dijo...: Excelente post, así da gusto!; 5:29 p. m.

Publicar un comentario

9/08/2011