Robots.txt: qué es y para qué sirve este archivo

Robots.txt qué es y para qué sirve este archivo

Una estrategia SEO es esencial para que tu negocio consiga el posicionamiento y visibilidad que realmente necesita. Sin embargo, a pesar de la creencia general, no basta, tristemente, con subir contenido redactado de manera óptima y atractiva. Se deben tener en cuenta otros muchos factores, técnicos en este caso (como fue el caso de las migas de pan), para lograr aparecer en las primeras posiciones de las búsquedas.

Es aquí donde reside la importancia de los robots.txt. Este indica a los rastreadores de los buscadores a qué URLs pueden acceder. Es importante remarcar que no es una técnica para impedir que una web aparezca en la lista de resultados de Google.

En la siguiente entrada vamos a ponerle nombre y apellido a este gran desconocido. ¿Listo/a para convertirte en un experto SEO? Allá vamos.

Qué es el archivo robots.txt - Dobuss

Qué es el archivo robots.txt

Un archivo robots.txt es un documento/archivo utilizado mayormente en el SEO profesional. Cuando creamos una web es fundamental que Google indexe nuestra página para que pueda rastrear la información que estamos compartiendo a través de ella. Gracias a los robots.txt indicamos qué secciones no queremos que accedan los rastreadores de los motores de búsqueda.

Este archivo emplea el Estándar de exclusión de robots (EER). Este protocolo cuenta con un pequeño conjunto de comandos que son usados para indicar el acceso al sitio web por sección y dependiendo de tipos específicos de rastreadores web.

Los archivos robots.txt no son obligatorios. Sin embargo, podríamos resumir el proceso en las siguientes pautas:

  • El robot de Google visita un sitio web.
  • Este robot intenta obtener el archivo robots.txt para saber si el sitio web puede ser rastreado.
  • Aquellos sitios web que no cuentan con un archivo robots.txt o metaetiquetas robots suelen ser rastreados e indexados con normalidad.

Para qué sirve el archivo robots.txt - Dobuss

Para qué sirve el archivo robots.txt

Los archivos robots.txt sirven para gestionar el tráfico de los rastreadores hacia las diferentes secciones de las webs. También pueden ser utilizados para que algunos archivos determinados no sean rastreados. Estos son algunos de los efectos de los robots.txt en distintos tipos de archivos:

  • Página web. Podemos usar un archivo robots.txt en páginas web en formatos HTML, PDF y otros no multimedia que Google esté capacitado para leer y gestionar el tráfico de los rastreadores o bien para evitar que algunas páginas sin importancia o similares a nuestra web sean completamente rastreadas.
  • Archivo multimedia. El tráfico de los rastreadores puede ser evitado a través de los robots.txt para prevenir la aparición de archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. Sin embargo, no impedirá que otros usuarios puedan compartir los enlaces en sus páginas y redes.
  • Archivo de recursos. Los archivos de recursos pueden ser bloqueados en el caso en el que no se crea que al prescindir de ellos no perjudique considerablemente al funcionamiento lógico de la web.

Cuál es el funcionamiento de este archivo

El archivo robots.txt cuenta con unos comandos que funcionan de una manera muy similar al HTML y a los lenguajes de programación utilizados en el desarrollo web. Dos de los principales los encontramos en los siguientes casos:

  • Disallow. Este comando es responsable a la hora de describir qué páginas de directorio no deben de ser incluidas dentro de los resultados de búsqueda.
    • Para guiar a los robots a que no accedan a la página «beta.php» de tu sitio web, el comando que deberíamos utilizar sería: Disallow: /beta.php
    • Para bloquear el acceso a una carpeta, por ejemplo «archivos», el comando sería: Disallow: / archivos /
    • Podemos bloquear el acceso a archivos que comiencen por una letra determinada. Por ejemplo, con la letra «x», este sería el comando: Disallow: / x
  • Allow. En este caso estaríamos ante la situación contraria; podremos determinar qué páginas queremos que estén disponibles.

Ejemplo del archivo robots.txt por defecto de WordPress

Puede parecer ciencia ficción, así que la mejor manera para entender un archivo robots.txt es ilustrarlo a través de un ejemplo. Es importante recordar que no existe un archivo robots.txt universal por lo que no debe de ser utilizado para su propia web.

User-Agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: https://dobuss.es/sitemap_index.xml

  • Línea 1: Las instrucciones que aparecen a continuación son para los robots de todo tipo de buscadores.
  • Línea 2: Se deniega el acceso a todo tipo de directorios y páginas que comienzan por “wp-”, propios de toda instalación en WordPress.
  • Línea 3: Permitimos el acceso al directorio de archivos adjuntos, ya que en la línea 2 lo habíamos desautorizado.
  • Línea 4: Señalar la ruta donde se encuentra el mapa XML de la página web en cuestión.

Apostar por una estrategia completa de SEO y de contenidos es de vital relevancia para todo tipo de negocios. En Dobuss somos conscientes de ello y trabajamos día a día para sacar lo mejor de tu empresa, innovando y teniendo en cuenta las tendencias del mercado. Para conocer más información no dudes en contactar con nuestro equipo.

Categorías

    Recibe cada semana
    las mejores noticias sobre marketing digital