Una guía rápida para escribir un archivo Robots.txt

¿Cómo se consulta un libro de texto enorme? Examinando el índice. Bueno: hay un elemento que es el verdadero resumen de tu sitio web…

Robots.txt: los códigos de programación se volverán cada vez más sofisticados
Los códigos de programación están destinados a ser cada vez más sofisticados

La única forma de ponerse en contacto con la araña del motor de búsqueda, o el rastreador, es a través de un archivo llamado robots.txt. O mejor. Cuando envía su propuesta de sitio web a Google, se enfrenta a una cantidad de información simplemente colosal.

¿Cómo consulta un libro de texto tan grande que siente que nunca encontrará todo lo que necesita? tu consulta la pista. Bueno: el archivo robots.txt es el índice de tu sitio web.

Este es un documento fácil de completar que le dice al rastreador del motor de búsqueda qué buscar. En resumen: lo ayudarás a comprender de qué está hecho tu sitio, para que el algoritmo pueda darte una clasificación adecuada al trabajo que has realizado.

¿Alguien puede escribir un archivo robots.txt?

La respuesta corta es sí. La respuesta honesta es no. Aunque la gramática de un archivo robots.txt es extremadamente simple, y su composición consta de unas pocas líneas, es mejor confiar en el cuidado de un webmaster experto que sepa dónde poner las manos. Después de todo, un pequeño error es suficiente para comprometer el posicionamiento de su sitio web y, por lo tanto, detener todas las operaciones de SEO incluso antes de comenzar.

Antes de empezar, sepa una cosa: cualquiera puede consultar el archivo robots.txt de cualquier sitio escribiendo /robots.txt después del dominio. ¡Incluso puedes consultar las de Google!

Puede escribir dicho archivo sin descargar un software especial. De hecho, es suficiente usar tu bloc de notas y guardar, adivina qué, en formato .txt.

Escribamos juntos un archivo robots.txt: el encabezado

Empecemos por el principio, como siempre es lógico hacerlo. La apertura del archivo, o más bien el encabezado, está enteramente dedicado al nombre de la araña, precedido por una pequeña redacción que es siempre la misma. Supongamos que desea llamar la atención de Google. Así que la primera línea será:

Usuario-agente: Googlebot

Esta cadena muy corta le dice a Google que todo lo que sigue seguramente será de su interés. En caso de que quieras que todos los rastreadores que leen este tipo de archivos puedan consultar el documento, sustituye Googlebot por un simple *, un asterisco.

Ahora que ha indicado qué araña, es decir, QUIÉN, deberá indicar también QUÉ tendrá que leer.

Cada línea de código, por definición, corresponde a una acción de la máquina. No hace falta decir que cada comando en el archivo robots.txt corresponde a lo que la máquina no debe hacer. Y esta es la clave que te permite escribir uno realmente efectivo. Estamos hablando del comando DISALLOW.

¿Qué es el comando DISALLOW?

Il rechazar comando permite razonar por exclusión. En otras palabras, cuando se dice que primero es decir lo que no se debe hacer, bueno, estás razonando por exclusión. Además del rechazo, también existe el permiso, que es la excepción al bloqueo.

Si desea escribir un buen archivo de robots, tendrá que pensar al revés, por lo que tendrá que decirle a Google lo que no debe leer. Si tú escribes:

Disallow:

La araña leerá todo su sitio, sin frenos.

Si después de "Rechazar:" inserta una barra inclinada (por lo tanto, Rechazar: /), el sitio no se ingresará en los motores de búsqueda, punto final.

No permitir: /directorios/

Reemplace el directorio de palabras con la carpeta que desea que se le niegue desde la vista de araña. Puede hacer lo mismo con un archivo específico.

No permitir: /miarchivo.html

Atención a puntuación y letras, mayúsculas o minúsculas. Este tipo de archivo tiene en alta estima este tipo de "pequeñeces", pero marcan una gran diferencia.

¿Por qué impediría que Google leyera gran parte de su sitio? Cuando escribes un archivo de este tipo, es importante entender qué archivos no deben aparecer en el buscador, pero sin abusar de ellos. Sin embargo, sepa que cualquiera que sepa la dirección exacta de ese archivo en particular podrá acceder a él en cualquier caso.

¿Qué es el comando PERMITIR?

En el archivo puede agregar una excepción con el comando PERMITIR. La gramática es idéntica, pero creará algunas excepciones a DISALLOW que permitirán abrir interesantes márgenes de exploración para la araña.

Un pequeño archivo de muestra:

Usuario-agente: Googlebot

No permitir: /imágenes/

Permitir: /images/vacaciones.jpg

Básicamente, le dijimos al robot de Google que no considerara la carpeta de imágenes, a excepción de una foto en particular dentro de ella, a saber, la de las vacaciones.

Y eso, chicos, es todo. Escribimos nuestro primer archivo robots.txt. Claro, lo que vamos a hacer para el sitio real puede ser un poco diferente, pero no mucho. En caso de duda, asesórese siempre con un webmaster especializado. Le recomendamos que intente escribirlo usted mismo, en primer lugar, y enviárselo para que lo revise, para dominar los rudimentos y comprender mejor cómo funciona su sitio.

¿Cuál es la correlación entre robots.txt y sitemaps?

El mapa del sitio es un archivo generado por complementos especiales que contiene todos los enlaces del sitio. Cuando la araña ingresa al sitio, primero lee los robots y luego rastrea el sitio. Si durante el rastreo el robot encuentra la dirección del mapa del sitio, todo el proceso será mucho más fácil.

Agregue lo siguiente al código anterior:

mapa del sitio: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

En conclusión

Todos los archivos de robots son iguales. Esto significa que un archivo de Robots escrito para Google también funcionará bien para Bing y sigue la misma gramática.

Un archivo robots.txt bien organizado le permite ahorrar tiempo de rastreo. No te desanimes: ¡este es el primer paso hacia el éxito!

Robots.txt: Google es el buscador más potente de Internet
Google es el buscador más potente de Internet