Cómo crear el archivo robots.txt en WordPress y modificar correctamente

Cómo crear el archivo robots.txt en WordPress y modificar correctamente
5 (100%) 1 vote

Si les pido que me definan qué es un archivo robots.txt en WordPress, ¿me pueden dar una respuesta táctica?

No es fácil, ¿verdad? Además, sin saberlo, es probable que ya tenga uno en su sitio.

La cosa es que no siempre entendemos mucho sobre este famoso archivo. ¿Para qué es esto? ¿Qué le pones? ¿Por qué su código parece chino?

Si ya has investigado esto, apuesto a que te has hecho estas preguntas.

Al igual que la dinamita, esta lima debe ser manejada con mucho cuidado.

Si lo configura mal, corre el riesgo de sellar la referenciación de su sitio. ¡Cuidado con la explosión!

En este artículo, le mostraré cómo evitar el desastre, y cómo optimizar su archivo robots.txt. Descubrirás para qué se usa, cómo funciona, dos maneras de crearlo y qué poner dentro.

¿Qué es el archivo robots.txt?

Un archivo robots.txt es un archivo de texto “ubicado en la raíz de su sitio que indica a los rastreadores de los motores de búsqueda que no rastreen determinadas partes de su sitio”, tal y como lo define Google en su sitio de ayuda para webmasters.

También conocido como Protocolo de Exclusión de Robots, impide que los motores de búsqueda indexen ciertos contenidos inútiles y/o privados (por ejemplo, su página de inicio de sesión, carpetas y archivos sensibles).

En resumen, este protocolo le dice a las arañas de los motores de búsqueda lo que pueden y no pueden hacer en su sitio.

Así es como funciona. Cuando un robot está a punto de rastrear una URL desde su sitio (es decir, explorará y recuperará información y luego la indexará), primero buscará el archivo robots.txt.

Si lo encuentra, lo leerá, y luego seguirá las instrucciones que usted le haya dado (no podrá navegar por este o aquel archivo si usted se lo ha prohibido).

Si no lo encuentra, explorará su sitio de una manera normal, sin excluir ningún contenido.

Agarré a la bestia con su dispositivo más simple. Mira este archivo de ejemplo robots.txt en WordPress para ver cómo se ve:

user-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

No se detenga necesariamente en su contenido. Usted verá más adelante, no hay tal archivo adaptable en cualquier sitio. En cualquier caso, esto no es aconsejable.

Si tuvieras que recordar cuatro cosas más sobre el tema de hoy, métetelas en la cabeza:

Como explica Google, la información que das en tu archivo robots.txt son “instrucciones, no reglas”. Si los robots de exploración “serios” (Google, Bing, Yahoo, Yandex, Baidu, etc.) los respetan, este no será el caso de los robots maliciosos, que buscan socavar la seguridad de su sitio.

El archivo robots.txt es un archivo público. Cualquiera puede acceder a él escribiendo la siguiente plantilla: yoursite.fr/robots.txt.

Por lo tanto, no lo uses para ocultar contenido, encontraremos rápidamente dónde está escondido…

Si quieres que el contenido siga siendo privado, no lo insertes en este archivo.
Si no desea que determinadas páginas aparezcan en los resultados de búsqueda, “no utilice el archivo robots.txt para ocultar su página web”, explica Google.

De hecho, si varios enlaces apuntan a esta página, es posible que Google la indexe y la muestre en sus resultados de búsqueda, sin saber lo que contiene, incluso si la ha bloqueado en su archivo robots.txt.

Para evitar que una página aparezca en los resultados de búsqueda, Google recomienda utilizar lo que se denomina una etiqueta noindex (puede activarla fácilmente en Yoast SEO desmarcando la casilla “Permitir a los motores de búsqueda mostrar contenido XXX en los resultados de búsqueda? “que se encuentra debajo de cada artículo/página en la pestaña de configuración).

El archivo robots.txt tiene un primo llamado humans.txt.

Como lo dice el sitio dedicado a él, es un “archivo TXT que contiene información sobre las distintas personas que contribuyeron a la construcción del sitio”.

Por ejemplo, desarrolladores, diseñadores web, editores, etc.

No es obligatorio, pero si encuentras útil integrarlo en tu WordPress, tendrás que añadirlo a la raíz de tu sitio, junto al archivo robots.txt (mira el archivo Marmite por ejemplo).

¿Para qué sirve el archivo robots.txt en WordPress?

Por defecto, un sitio web será navegado e indexado normalmente por un motor de búsqueda, incluso sin la presencia de un archivo robots.txt.

Esto último, por lo tanto, no es obligatorio. Como explica Daniel Roch, especialista en SEO de WordPress, “Si quieres referenciar todas tus páginas, contenidos y medios, no uses el archivo robots.txt: no te servirá de nada.

Pero entonces, ¿cuál puede ser la utilidad de este archivo, el resto del tiempo?

El principal beneficio es buscar en el lado de su referenciación natural (SEO). De hecho, un archivo robots.txt guarda lo que se llama presupuesto de rastreo, dice este artículo de Yoast SEO blog.

Es bastante técnico, pero para hacerlo simple: cuanto más presupuesto de rastreo tenga (el número de páginas que Google explorará en su sitio en un momento T), más probable es que su sitio esté bien indexado en Google.

Ahora es el momento de pasar a la configuración de su archivo. Y es importante, créeme. Si no se optimiza correctamente, se corre el riesgo de penalizar seriamente su presencia en los motores de búsqueda.

¿Cómo crear un archivo robots.txt en WordPress?

Por defecto, WordPress crea un archivo virtual robots.txt. No es accesible en su servidor, pero puede consultarlo en línea.

Este archivo virtual funciona. Pero, ¿cómo modificar este robots.txt en su sitio WordPress?

Bueno, tendrás que crear tu propio archivo para reemplazarlo.

Hay dos maneras de hacerlo:

  1. Usar un plugin
  2. Crearlo manualmente

Veamos ambas opciones con más detalle.

Crear y modificar un archivo robots txt en WordPress con el plugin Yoast SEO

Estoy dispuesto a apostar que usted sabe Yoast SEO, ¿verdad?

Sabes, este es un plugin SEO, uno de los más descargados de todos los tiempos.

El Pot lo usa, y yo también lo usaré para mostrarte cómo puede permitirte crear un archivo robots.txt.

Obviamente, la condición previa es que haya instalado y activado esta extensión.

Comience por ir a su escritorio de WordPress, y seleccione Yoast SEO > Herramientas.

Continúe haciendo clic en Editor de archivos.

Si aún no tiene un archivo dedicado, haga clic en el botón para crear uno. Por mi parte, ya tenía uno en mi sitio, así que sólo podía modificarlo. Y recuerda grabar bien, una vez que hayas terminado.
Aquí tienes. Aquí tienes.

No te preocupes, te explico al final de esta parte qué información rellenar en este archivo.

Por ahora, te sugiero que pases al segundo método: harás que tus manitas funcionen.

Cómo crear y editar un archivo robots.txt en WordPress manualmente

Tanto si utiliza un plugin dedicado como si no, también es posible añadir un archivo robots.txt en su WordPress manualmente. Es muy sencillo, ya lo verás.

Primero, necesitará un editor de texto. Entre ellos, puedo recomendarte Brackets (que al igual que WordPress es Open Source) o Sublime Text, que está disponible a un precio realmente económico.

De lo contrario, su antiguo portátil también funcionará.

Cree un nuevo documento y guárdelo en su ordenador con el nombre robots.txt

Su nombre debe estar siempre en minúsculas, y no olvide poner una “s” en la palabra robots (no escriba Robot.txt).

A continuación, conéctese a su cliente FTP. Este es un software que le permite comunicarse con su servidor.

Personalmente, uso Filezilla. Pero también puede recurrir a Cyberduck o Transmit. Para más información sobre cómo usar FTP, te redirecciono al artículo Cómo instalar WordPress: la guía paso a paso.

Dónde esta el archivo robots.txt en WordPress

Tercer y último paso: agregue su archivo a la raíz de su sitio. Repito, en la raíz de su sitio, y no en un subdirectorio. De lo contrario, los motores de búsqueda no lo tendrán en cuenta.

Por ejemplo, si su sitio es accesible a través de https://www.sitioweb.es/, el archivo robots.txt debe estar en https://www.sitioweb.es/robots.txt.

Esta ubicación (la raíz) puede variar de un hosting a otro. En SiteGround por ejemplo, se llama public_html. En OVH, lo encontrará bajo el nombre de www.

Lo que debes saber para configurar el robots.txt en WordPress

Felicitaciones, su archivo robots.txt está ahora en su servidor. Por el momento, está vacío, pero puedes editarlo cuando quieras.

Lógicamente, usted tiene que preguntarse qué tipo de instrucciones poner dentro.

Antes de abordar este punto, es necesario entender la sintaxis particular de este archivo.

Consiste en uno o más conjuntos de reglas que “bloquean (o permiten) que un determinado crawler acceda a una ruta específica del archivo en el sitio web”, tal y como explica Google en la ayuda de la Consola de Búsqueda.

Se llaman las dos reglas principales:

  1. User-agent: nombre de un robot de motor de búsqueda al que se aplica la regla.
  2. Disallow: designa un directorio o una página, relativa al dominio raíz, que no debe ser explorada por el usuario-agente. Recuerde que, de forma predeterminada, un robot puede explorar una página o directorio que no esté bloqueado por una regla Disallow.

Le sugiero que diseccione un ejemplo muy simple para que lo entienda bien.

User-agent: *
Disallow: /

En la primera línea, el asterisco * es lo que llamamos un comodín. Le dice a todos los robots de los motores de búsqueda (user-agent) que exploren su sitio.

En la segunda línea, (Prohibir) el acceso a los motores de búsqueda está prohibido a todos los directorios y páginas de su sitio, a través de la barra /.

No es necesario que introduzca su nombre de dominio (ej: monsite.fr/) antes de la barra oblicua, ya que el archivo robots.txt utiliza URLs relativas. En pocas palabras, él sabe que la barra se refiere a la raíz de su nombre de dominio.

Obviamente, el pedazo antedicho del código tiene poco interés si usted quisiera que su sitio fuera explorado e indexado. Pero puede ser útil cuando usted está creando su sitio.

Si no desea que un tipo particular de robot explore su sitio, por ejemplo Yahoo (Slurp es el nombre asociado con el robot de Yahoo), tendrá que hacer esto:

User-agent: Slurp

Disallow: /

Algunas reglas adicionales para modificar el robots.txt

Te hablé de User-agent y Disallow, que son los más utilizados. Saber que hay otras reglas sintácticas, pero que no son tenidas en cuenta por todos los robots (por los de Google, sí). Entre ellos, encontramos:

  1. Allow: permite la exploración de un subdirectorio o de una página en un directorio no autorizado (Disallow).
  2. Sitemap: indica a los robots dónde está el mapa del sitio. Esta línea es opcional. En su lugar, le recomiendo que envíe su mapa de sitio a los motores de búsqueda a través de una herramienta dedicada, como la Consola de Búsqueda de Google.

Para estar seguro de que entiendes bien, te propongo ir un poco más allá proponiéndote 3 nuevos ejemplos.

Cómo bloquear el acceso a un directorio con robots

User-agent: *

Disallow: /wp-admin/

Pido a todos los robots que no exploren todos los contenidos del directorio wp-admin.

Cómo bloquear el acceso a una página o archivo con robots txt

#Esto es un comentario

User-agent: *

# No indexar la página de acceso al panel de administración

Disallow: /wp-login.php

# No indexar una foto concreta

Disallow: /foto.jpg

En este ejemplo, pido a todos los robots que no indexen la página de inicio de sesión de WordPress, así como una foto.

También puede ver la apariencia del símbolo #. Introduce un comentario. Por lo tanto, no se tendrá en cuenta el texto subyacente.

También tenga en cuenta que las reglas distinguen entre mayúsculas y minúsculas.

Por ejemplo, Disallow: /foto.jpg es http://www.misitio.es/foto.jpg, pero no http://www.misitio.es/Foto.jpg

Cómo crear diferentes reglas para diferentes robots

User-agent: *

Disallow: /wp-login.php

User-agent: Googlebot

Disallow: /

Las reglas siempre se tratan de arriba a abajo. Recuerde, siempre empiezan con la sentencia User-agent.

En la primera, les pido a todos los robots que no indexen la página de inicio de sesión (wp-login.php).

En el segundo, le pido específicamente al crawler de Google (Googlebot), que no explore todo mi sitio.

Cómo permitir el acceso a un archivo en un directorio bloqueado

User-agent: *

Disallow: /wp-admin

Allow: wp-admin/widgets.php

Se utiliza la instrucción Permitir. En este ejemplo, se bloquea todo el directorio wp-admin, excepto el archivo widgets.php

¿Cómo comprobar el correcto funcionamiento de su archivo robots.txt?

Para asegurarse de que su archivo está correctamente configurado, puede consultarlo y validarlo en la Consola de Búsqueda de Google, una herramienta gratuita e imprescindible para gestionar la referenciación de su sitio (entre otros).

Conéctese a su Tablero de Control y, en la pestaña Exploración, seleccione la herramienta de prueba de archivos Robots.txt (debe haber agregado su sitio web de antemano).
Una vez que haya ingresado las instrucciones de su elección en el editor provisto para este propósito, puede probar su archivo.

Si todo va bien, deberías recibir el siguiente mensaje en la parte inferior del editor.

Finalmente, recuerde enviar el archivo.

¿Cómo optimizar el archivo robots.txt en WordPress?

¿Qué debo poner o no poner en mi archivo robots.txt?

¿Existe un modelo predefinido que pueda adaptarse a cada sitio?

La respuesta: sí y no.

De hecho, cada sitio es diferente y sería difícil copiar y pegar lo que Pierre, Paul o Jacques proponen en sus sitios. Lo más probable es que sus problemas sean diferentes de los que usted tiene en los suyos.

Sin embargo, podemos darle un archivo básico robots.txt que se adapte a la mayoría de los sitios:

User-agent: *

# Impedimos la indexación de archivos sensibles

Disallow: /wp-admin Disallow: /wp-includes

Disallow: /wp-content/plugins Disallow: /wp-content/cache

Disallow: /trackback

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.gz$

# Desindexamos la página de inicio de sesión

Disallow: /wp-login.php

A decir verdad, incluso dentro de la comunidad de WordPress, es imposible conseguir que todos estén de acuerdo. Las opiniones difieren.

Algunos, como Joost de Valk, CEO de Yoast, abogan por el minimalismo. Esta es la tendencia actual.

En esencia, creen que dado que Google es capaz de interpretar su sitio en su totalidad (incluyendo código CSS y Javascript, y no sólo HTML), no debería bloquear el acceso a los archivos CSS y Javascript para que pueda ver sus páginas en su totalidad. De lo contrario, podría afectar su SEO.

Para estar seguro, puede utilizar el enlace del Explorador como Google en la Consola de Búsqueda. Esto le permite ver cómo un Googlebot (robot de Google) ve su página.

Si su sitio no tiene su apariencia habitual (por ejemplo: algunos estilos no se aplican), es probablemente porque algunas reglas de su archivo robots.txt necesitan ser revisadas.

Pero volvamos a Yoast. Mira su archivo robots.txt:

Como puede ver, casi nada está bloqueado! Lo único que los robots no pueden explorar es una de sus herramientas caseras llamada Yoast Suggest.

Otros abogan por un enfoque más amplio y “seguro” de su sitio. Aconsejan, entre otros:

  1. Impedir el acceso a dos directorios clave de WordPress, como la carpeta wp-admin (donde se encuentran los elementos de administración de su sitio web) y la carpeta wp-includes (que contiene todos los archivos de WordPress).
  2. Desindexar la página de inicio de sesión (wp-login.php).
  3. Desindexar el archivo readme.html, porque contiene la versión de WordPress que está usando.
    En resumen, no es fácil encontrar tu camino a través de todas sus recomendaciones!

En resumen, le aconsejo:

  1. Editar sólo el archivo robots.txt si se sabe lo que se está haciendo, o siguiendo algún tutorial.
  2. Mantener los cambios al mínimo si no estás seguro de lo que estás haciendo. De lo contrario, las consecuencias en su SEO podría resultar desafortunado.
  3. Comprobar que el archivo no tiene errores en la Consola de Búsqueda antes de enviarlo.

Conclusión

Como habrás visto, el archivo robots.txt es una herramienta interesante para tu SEO. Permite a las arañas de los motores de búsqueda saber qué explorar y qué no explorar.

Pero debe manejarse con cuidado. Una mala configuración puede llevar a una desindexación total de su sitio (ej: si utiliza Disallow: /). ¡Entonces ten cuidado!

Para terminar este artículo, le sugiero que haga un resumen. A lo largo de estas líneas, te he detallado a ti en particular:

  1. Qué es el archivo robots.txt
  2. Cómo crear y editar el archivo robots.txt en WordPress
  3. Cómo modificar y optimizar su archivo robots.txt en WordPress para SEO

Ahora es tu turno. Dime si usas este tipo de archivo y cómo lo configuras.

Comparta sus comentarios y retroalimentación en los comentarios.

Y si crees que este artículo puede ser útil para otros, compártelo en las redes sociales.