WordPress es el sistema gestor de contenido (CMS) líder en el mundo, pero una de las cosas que no tiene integrada es un archivo robots.txt. Se trata de una de las pocas cosas que sigues teniendo que hacer manualmente. Si no sabes cómo hacerlo, puede parecer confuso al principio. En este tutorial, vamos a mostrarte cómo preparar tu archivo robots.txt para WordPress.
¿Qué es?
El archivo robots.txt le dice a los distintos motores de búsqueda que indexen o no indexen una página. No evita que rastreen una página web, pero les dice qué contenido deseas indexar y qué contenido quieres que ignoren.
Generalmente, los motores de búsqueda respetables harán caso de tus solicitudes.
En esencia, se trata de un simple archivo de texto creado por un programa como Notepad. Tú lo subes a tu directorio public_html en los servidores de tu proveedor de hosting. Lo pruebas usando las herramientas para webmasters de Google y, si funciona, entonces todo listo.
La terminología del archivo
La terminología gira en torno a la utilización de dos comandos clave. Ningún archivo puede tener más de 500 líneas o los motores de búsqueda como Google dejarán de leerlo en ese punto, lo cual podría tener ciertas consecuencias no deseadas. Esto no debería ser un problema para la mayoría de la gente, sin embargo. Los dos comandos clave son:
- User-agent
- Disallow
User-agent es el comando usado para los proveedores de los motores de búsqueda. Cada motor de búsqueda tiene su propio nombre, pero para la mayoría de la gente no es necesario saberlo, ya que se puede usar un asterisco en su lugar. El asterisco simplemente dice que los bots de todos los motores de búsqueda pueden rastrear tu sitio web. Un comando de barra inclinada significa que ningún bot debería rastrear tu sitio web.
El comando disallow consiste en una lista de páginas web que no quieres que los motores de búsqueda rastreen. Si no quieres rechazar nada, puedes dejarlo en blanco. Pero también puedes añadir el enlace de una página para evitar que los rastreadores la indexen.
Reglas especiales
Ten en cuenta que si escribes ‘/123’ bajo el comando disallow, los motores de búsqueda no indexarán ‘/123’ ni ‘/1234’. Para evitar esto, deberías añadir un signo de dólar después de la dirección de la página. Esto le dirá a un motor como Google que sólo quieres excluir esta dirección en concreto.
También deberías recordar que sólo necesitas detallar cualquier CAMBIO que quieras efectuar en el proceso habitual. No tiene sentido crear un archivo robots.txt en el que les dices a los motores de búsqueda que indexen cada página de tu sitio web sin excepciones. Lo van a hacer de todos modos.
Subirlo a WordPress
Tienes que subir tu archivo robots.txt a cada directorio raíz de cada sitio web de WordPress que tengas en tus servidores, lo cual incluye también a cualquier subdirectorio.
Si sólo tienes un sitio web de WordPress, puedes añadir el archivo a tu directorio public_html y partir desde ahí. En este punto, sólo tienes que pasar por la fase de pruebas.
La fase de pruebas se puede hacer a través de Google. Tiene una sección en las herramientas para webmasters que pone a prueba el archivo robots.txt de tu sitio web. También puedes optar por un probador basado en navegadores de terceros. Estas herramientas te pueden decir qué archivo robots.txt se está utilizando.
Si ves que aparecen tus reglas, ¡entonces todo listo!