Saltar al contenido

Cómo crear el archivo robots.txt en WordPress y modificarlo correctamente

Si te pido que me definas qué es un archivo robots.txt en WordPress, ¿me puedes dar una respuesta táctica?

No es fácil, ¿verdad? Además, sin saberlo, es probable que ya tengas uno en tu sitio.

La cosa es que no siempre entendemos mucho sobre este famoso archivo. ¿Para qué es? ¿Qué le pones? ¿Por qué su código parece chino?

Si ya has investigado esto, apuesto a que te has hecho estas preguntas.

Al igual que la dinamita, este archivo debe ser manejado con mucho cuidado.

Si lo configuras mal, corres el riesgo de sellar la referenciación de tu sitio. ¡Cuidado!

En este artículo, te mostraremos cómo evitar el desastre, y cómo optimizar tu archivo robots.txt.

Descubrirás:

  • Qué es,
  • para qué se usa,
  • cómo funciona,
  • dos maneras de crearlo, y
  • qué poner dentro.

¿Qué es el archivo robots.txt?

Un archivo robots.txt es un documento de texto «ubicado en la raíz de tu sitio, que indica a los rastreadores de los motores de búsqueda que no rastreen determinadas partes de tu sitio», así es tal y como lo define Google en su sitio de ayuda para webmasters.

También conocido como Protocolo de Exclusión de Robots, este archivo impide que los motores de búsqueda indexen ciertos contenidos inútiles y/o privados (por ejemplo, tu página de inicio de sesión, carpetas y archivos sensibles).

En resumen, este protocolo le dice a las arañas de los motores de búsqueda lo que pueden y no pueden hacer en tu sitio.

Así es como funciona. Cuando un robot está a punto de rastrear una URL de tu sitio (es decir, explorando y recuperando información para luego indexarla), primero buscará el archivo robots.txt.

Si lo encuentra, lo leerá, y luego seguirá las instrucciones que le hayas dado, y no podrá navegar por este o aquel archivo si se lo has prohibido.

Si no lo encuentra, explorará tu sitio de manera normal, sin excluir ningún contenido.

Agarra a la bestia con su dispositivo más simple: Mira este archivo de ejemplo robots.txt en WordPress para ver cómo se ve:

user-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

No te detengas necesariamente en su contenido. Verás más adelante que no hay un archivo adaptable a cualquier sitio. Y, en cualquier caso, eso no es aconsejable.

Como explica Google, la información que das en tu archivo robots.txt son «instrucciones, no reglas«.

Si bien los robots de exploración «serios» (Google, Bing, Yahoo, Yandex, Baidu, etc.) los respetan, no será el caso de los robots maliciosos que buscan socavar la seguridad de tu sitio.

El archivo robots.txt es un archivo público. Cualquiera puede acceder a él escribiendo la siguiente plantilla: tudominio.com/robots.txt. Por lo tanto, no lo uses para ocultar contenido, pues encontrán más rápidamente dónde está escondido…

Si quieres que el contenido siga siendo privado, no lo insertes en este archivo.

Si no deseas que determinadas páginas aparezcan en los resultados de búsqueda, «no utilices el archivo robots.txt para ocultar tu página web«, tal como explica Google.

De hecho, si varios enlaces apuntan a esta página, es posible que Google la indexe y la muestre en sus resultados de búsqueda, sin saber lo que contiene, incluso si la has bloqueado en tu archivo robots.txt.

Para evitar que una página aparezca en los resultados de búsqueda, Google recomienda utilizar lo que se denomina una etiqueta noindex (puedes activarla fácilmente en Yoast SEO, desmarcando la casilla «Permitir a los motores de búsqueda mostrar contenido X en los resultados de búsqueda» que se encuentra debajo de cada artículo/página en la pestaña de configuración).

El archivo robots.txt tiene un primo llamado humans.txt.

Como lo dice el sitio dedicado a este otro archivo, es un «archivo TXT que contiene información sobre las distintas personas que contribuyeron a la construcción del sitio«. Por ejemplo, desarrolladores, diseñadores web, editores, etc.

No es obligatorio, pero si encuentras útil integrarlo en WordPress, tendrás que añadirlo a la raíz de tu sitio, junto al archivo robots.txt.

¿Para qué sirve el archivo robots.txt en WordPress?

Por defecto, un sitio web será navegado e indexado normalmente por un motor de búsqueda, incluso sin la presencia de un archivo robots.txt.

Esto último, por lo tanto, no es obligatorio. Como explica Daniel Roch, especialista en SEO de WordPress, «Si quieres referenciar todas tus páginas, contenidos y medios, no uses el archivo robots.txt. No te servirá de nada«.

Pero entonces, ¿cuál puede ser la utilidad de este archivo, el resto del tiempo?

El principal beneficio es buscar en el lado de su referenciación natural (SEO). De hecho, un archivo robots.txt guarda lo que se llama presupuesto de rastreo, dice este artículo de Yoast SEO blog.

Es bastante técnico, pero para hacerlo simple: cuanto más presupuestos de rastreo tengas (el número de páginas que Google explorará en tu sitio en un momento), más probable será que tu sitio esté bien indexado en Google.

Ahora es el momento de pasar a la configuración de tu archivo. Créeme que esto es importante. Si no se optimiza correctamente, corres el riesgo de penalizar seriamente tu presencia en los motores de búsqueda.

¿Cómo crear un archivo robots.txt en WordPress?

Por defecto, WordPress crea un archivo virtual robots.txt. No es accesible en tu servidor, pero puedes consultarlo en línea.

Este archivo virtual funciona. Pero, ¿cómo modificar este robots.txt en tu sitio WordPress?

Bueno, tendrás que crear tu propio archivo para reemplazarlo.

Hay dos maneras de hacerlo:

  1. Usar un plugin
  2. Crearlo manualmente

Veamos ambas opciones con más detalle.

Crear y modificar un archivo robots txt en WordPress con el plugin Yoast SEO

Apostar que sabes de Yoast SEO, ¿verdad? Este es uno de los más descargados plugin SEO de todos los tiempos.

Aquí lo usaré para mostrarte cómo puede permitirte crear un archivo robots.txt.

Obviamente, la condición previa es que hayas instalado y activado esa extensión.

  • Comienza por ir a tu escritorio de WordPress, y selecciona Yoast SEO > Herramientas.
  • Continúa haciendo clic en Editor de archivos.
  • Si aún no tienes un archivo dedicado, haz clic en el botón para crear uno. Y recuerda grabar bien, una vez que hayas terminado. Yo, ya tenía uno en mi sitio, así que sólo podía modificarlo.

No te preocupes, te explico al final de esta parte con qué información rellenar este archivo.

Por ahora, pasamos método: haremos que tus manitas funcionen.

Cómo crear y editar un archivo robots.txt en WordPress manualmente

Tanto si utilizas un plugin dedicado como si no, también es posible añadir un archivo robots.txt en tu WordPress manualmente. Es muy sencillo, ya lo verás.

  • Primero, necesitarás un editor de texto. Entre ellos, puedo recomendarte Brackets (que al igual que WordPress es Open Source) o Sublime Text, que está disponible a un precio realmente económico. De lo contrario, tu antiguo portátil también funcionará.
  • Crea un nuevo documento y guárdalo en tu ordenador con el nombre robots.txt

El nombre debe estar siempre en minúsculas, y no olvide poner una «s» en la palabra robots (no escribas Robot.txt, pues no servirá).

  • A continuación, conéctate a tu cliente FTP. Este es un software que te permite comunicarte con tu servidor.

Personalmente, uso Filezilla. Pero también puedes recurrir a Cyberduck o Transmit.

Para más información sobre cómo usar FTP, te redirecciono al artículo Cómo instalar WordPress: la guía paso a paso.

Dónde esta el archivo robots.txt en WordPress

Tercer y último paso: agregar tu archivo a la raíz de tu sitio.

Repito, en la raíz de su sitio, y no en un subdirectorio. De lo contrario, los motores de búsqueda no lo tendrán en cuenta.

Por ejemplo, si su sitio es accesible a través de https://www.sitioweb.es/, el archivo robots.txt debe estar en https://www.sitioweb.es/robots.txt.

Esta ubicación (la raíz) puede variar de un hosting a otro. En SiteGround por ejemplo, se llama public_html. En OVH, lo encontrarás bajo el nombre de www.

Lo que debes saber para configurar el robots.txt en WordPress

Felicitaciones, tu archivo robots.txt está ahora en tu servidor. Por el momento, está vacío, pero puedes editarlo cuando quieras.

Lógicamente, tienes que preguntarte qué tipo de instrucciones poner dentro.

Antes de abordar este punto, es necesario entender la sintaxis particular de este archivo.

Consiste en uno o más conjuntos de instrucciones que «bloquean (o permiten) que un determinado crawler acceda a una ruta específica del archivo en el sitio web«, tal y como explica Google en la ayuda de la Consola de Búsqueda.

Consisten en dos instrucciones principales:

  1. User-agent: nombre de un robot de motor de búsqueda al que se aplica la instruccion.
  2. Disallow: designa un directorio o una página, relativa al dominio raíz, que no debe ser explorada por el User-agent. Recuerda que, de forma predeterminada, un robot puede explorar una página o directorio que no esté bloqueado por una instrucción Disallow.

Te sugiero que diseccionar un ejemplo muy simple para entenderlo bien.

User-agent: *
Disallow: /

En la primera línea, el asterisco * es lo que llamamos un comodín. Le dice a todos los robots de los motores de búsqueda (user-agent) que exploren tu sitio.

En la segunda línea, (Disallow) el acceso a los motores de búsqueda está prohibido a todos los directorios y páginas de tu sitio, a través de la barra /.

No es necesario que introduzcas tu nombre de dominio (ej: tudominio.com/) antes de la barra oblicua, ya que el archivo robots.txt utiliza URLs relativas.

En pocas palabras, el archivo sabe que la barra se refiere a la raíz de tu nombre de dominio.

Obviamente, el pedazo antedicho del código tiene poco interés si quisieras que tu sitio fuera explorado e indexado. Pero puede ser útil cuando estás creando tu sitio.

Si no deseas que un tipo particular de robot explore su sitio, por ejemplo Yahoo (Slurp es el nombre asociado con el robot de Yahoo), tendrás que hacer esto:

User-agent: Slurp

Disallow: /

Algunas instrucciones adicionales para modificar el robots.txt

Te hablé de User-agent y Disallow, que son las instrucciones más utilizadas.

Sin embargo hay otras instrucciones sintácticas, pero que no son tenidas en cuenta por todos los robots (por los de Google, sí). Entre ellas, encontramos:

  1. Allow: permite la exploración de un subdirectorio o de una página en un directorio no autorizado (Disallow).
  2. Sitemap: indica a los robots dónde está el mapa del sitio. Esta línea es opcional. En su lugar, te recomiendo que envíes su mapa de sitio a los motores de búsqueda a través de una herramienta dedicada, como la Consola de Búsqueda de Google.

Para estar seguro de que entiendes bien, te propongo ir un poco más allá proponiéndote 3 nuevos ejemplos.

Cómo bloquear el acceso a un directorio con robots

User-agent: *

Disallow: /wp-admin/

Pido a todos los robots que no exploren todos los contenidos del directorio wp-admin.

Cómo bloquear el acceso a una página o archivo con robots txt

#Esto es un comentario

User-agent: *

# No indexar la página de acceso al panel de administración

Disallow: /wp-login.php

# No indexar una foto concreta

Disallow: /foto.jpg

En este ejemplo, pido a todos los robots que no indexen la página de inicio de sesión de WordPress, así como una foto en particular.

También puedes ver la apariencia del símbolo # Introduce un comentario. Por lo tanto, no se tendrá en cuenta el texto subyacente.

También ten en cuenta que las instrucciones distinguen entre mayúsculas y minúsculas.

Por ejemplo, Disallow: /foto.jpg es http://www.tudominio.com/foto.jpg, pero no http://www.tudominio.com/Foto.jpg

Cómo crear diferentes instrucciones para diferentes robots

User-agent: *

Disallow: /wp-login.php

User-agent: Googlebot

Disallow: /

Las instrucciones siempre se tratan de arriba a abajo. Recuerda, siempre empiezan con la sentencia User-agent.

En la primera instrucción, le pedimos a todos los robots que no indexen la página de inicio de sesión (wp-login.php).

En la segunda instrucción, le pedimos específicamente al crawler de Google (Googlebot), que no explore todo el sitio.

Cómo permitir el acceso a un archivo en un directorio bloqueado

User-agent: *

Disallow: /wp-admin

Allow: wp-admin/widgets.php

Se utiliza la instrucción Allow. En este ejemplo, se bloquea todo el directorio wp-admin, excepto el archivo widgets.php

¿Cómo comprobar el correcto funcionamiento de su archivo robots.txt?

Para asegurarte de que tu archivo está correctamente configurado, puedes consultarlo y validarlo en la Consola de Búsqueda de Google, una herramienta gratuita e imprescindible para gestionar la referenciación de tu sitio (entre otros).

  • Conéctate a tu Tablero de Control y, en la pestaña Exploración, selecciona la herramienta de prueba de archivos Robots.txt (debes de haber agregado tu sitio web de antemano).
  • Una vez que hayas ingresado las instrucciones de tu elección en el editor provisto para ese propósito, puedes probar tu archivo.

Si todo va bien, deberías recibir el mensaje Aceptado o Bloqueado en la parte inferior del editor.

Finalmente, recuerda enviar el archivo.

¿Cómo optimizar el archivo robots.txt en WordPress?

¿Qué debes poner o no poner en mi archivo robots.txt? ¿Existe un modelo predefinido que pueda adaptarse a cada sitio?

La respuesta es: sí y no.

De hecho, cada sitio es diferente y sería difícil copiar y pegar lo que otros proponen para sus sitios. Lo más probable es que sus problemas sean diferentes de los que tu tienes en los suyos.

Sin embargo, podemos darte un archivo básico robots.txt que se adapta a la mayoría de los sitios:

User-agent: *

# Impedimos la indexación de archivos sensibles

Disallow: /wp-admin Disallow: /wp-includes

Disallow: /wp-content/plugins Disallow: /wp-content/cache

Disallow: /trackback

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.gz$

# Desindexamos la página de inicio de sesión

Disallow: /wp-login.php

A decir verdad, incluso dentro de la comunidad de WordPress, es imposible conseguir que todos estén de acuerdo. Las opiniones difieren.

Algunos, como Joost de Valk, CEO de Yoast, abogan por el minimalismo. Esta es la tendencia actual.

En esencia, creen que, dado que Google es capaz de interpretar tu sitio en su totalidad (incluyendo código CSS y Javascript, y no sólo HTML), no deberías bloquear el acceso a los archivos CSS y Javascript para que pueda ver tus páginas en su totalidad. De lo contrario, podría afectar tu SEO.

Para asegurarte, puedes utilizar el enlace del Explorador como Google en la Consola de Búsqueda. Esto te permite ver cómo un Googlebot (robot de Google) ve tu página.

Si tu sitio no tiene su apariencia habitual (por ejemplo: algunos estilos no se aplican), es probablemente porque algunas instrucciones de tu archivo robots.txt necesitan ser revisadas.

Pero volvamos a Yoast. Mira su archivo robots.txt:

Como puede ver, casi nada está bloqueado! Lo único que los robots no pueden explorar es una de sus herramientas caseras llamada Yoast Suggest.

Otros abogan por un enfoque más amplio y «seguro» de tu sitio. Aconsejan, entre otros puntos:

  1. Impedir el acceso a dos directorios clave de WordPress, como la carpeta wp-admin (donde se encuentran los elementos de administración de su sitio web) y la carpeta wp-includes (que contiene todos los archivos de WordPress).
  2. Desindexar la página de inicio de sesión (wp-login.php).
  3. Desindexar el archivo readme.html, porque contiene la versión de WordPress que estás usando.

En resumen, no es fácil encontrar tu camino a través de todas sus recomendaciones!

Lo yo te aconsejo es:

  1. Editar sólo el archivo robots.txt si sabes lo que se estás haciendo, o siguiendo algún tutorial.
  2. Mantener los cambios al mínimo si no estás seguro de lo que estás haciendo. De lo contrario, las consecuencias en tu SEO podrían resultar desafortunadas.
  3. Comprobar que el archivo no tiene errores en la Consola de Búsqueda antes de enviarlo.

Conclusión

Como habrás visto, el archivo robots.txt es una herramienta interesante para tu SEO. Permite a las arañas de los motores de búsqueda saber qué explorar y qué no explorar.

Pero debe manejarse con cuidado. Una mala configuración puede llevar a una desindexación total de tu sitio (ej: si utilizas Disallow: /). ¡Entonces ten cuidado!

Para terminar este artículo, te sugiero un resumen. A lo largo de estas líneas, he detallado en particular:

  1. Qué es el archivo robots.txt
  2. Cómo crear y editar el archivo robots.txt en WordPress
  3. Cómo modificar y optimizar tu archivo robots.txt en WordPress para SEO

Aquí tienes un tutorial en vídeo que puede resultar de utilidad.

Ahora es tu turno. Dime si usas este tipo de archivo y cómo lo configuras.

Comparte tus comentarios y aporta retroalimentación en la sección de comentarios.

Y si crees que este artículo puede ser útil para otros, compártelo en las redes sociales.


Robots.txt – 2LeVa2N

El archivo Robots.txt y la metaetiqueta Noindex son importantes para hacer SEO en una página. Esto le da el poder de decirle a Google qué páginas deben rastrear y qué páginas deben indexar: mostrarlas en los resultados de búsqueda.

Saber cómo usar estos dos y cuándo usarlos es importante para todos los SEOs ya que esto implica una relación directa entre los sitios web que estamos manejando y los rastreadores de los motores de búsqueda. Poder dirigir los rastreadores de los motores de búsqueda hacia dónde deben ir y qué páginas deben incluir en la base de datos es una gran ventaja para nosotros, y podemos usar eso para asegurarnos de que sólo las páginas importantes de nuestro sitio web son las que Google y otros motores de búsqueda rastrean e indexan. Pero antes de ahondar en los detalles de cómo y cuándo usar estos dos, primero debemos saber cuáles son y sus funciones específicas.

¿Qué es un archivo Robots.txt?

El Protocolo de Exclusión de Robots, o más comúnmente conocido como Robots.txt es un archivo que dirige los rastreadores web y robots como Googlebot y Bingbot a las páginas de sus sitios web que no deben ser rastreados.

¿Para qué sirve un archivo Robots.txt?

El archivo robots.txt es sólo una directiva de rastreo y no puede controlar la rapidez con la que un bot rastrea su sitio web y otros comportamientos del bot. Esto es sólo un conjunto de instrucciones para los robots sobre qué partes de su sitio web no se debe acceder.

También debe tener en cuenta que mientras algunos robots respetan el archivo robots.txt, otros pueden ignorarlo. Algunos robots pueden explotar los archivos de su sitio web o incluso recoger información, por lo que para bloquear completamente a los robots de malware, debe aumentar la seguridad de su sitio o proteger las páginas privadas mediante la introducción de una contraseña. Si tiene otras preguntas sobre el archivo robots.txt, consulte aquí algunas de las preguntas más frecuentes sobre robots.

¿Cómo crear un archivo Robots.txt?

Por defecto, un archivo robots.txt tendría este aspecto:

Robots txt file Notepad

Puede crear su propio archivo robots.txt en cualquier programa que tenga el tipo de archivo.txt. Puede bloquear diferentes URLs, como el blog/categorías de su sitio web o las páginas de su autor. Bloquear páginas como esta ayudaría a los robots a priorizar más las páginas importantes de su sitio web. El archivo robots.txt es una excelente manera de administrar su presupuesto de rastreo.

Directivas de rastreo de robots

User-agentEspecifica el bot de rastreo que desea bloquear para que no rastree una URL, por ejemplo, Googlebot, Bingbot, Ask, Yahoo. Aquí hay un enlace a un directorio de rastreadores web conocidos
RechazarEspecifica que una URL y todas las demás URLs que se encuentran debajo de ella deben bloquearse
PermitirEsto sólo es seguido por Googlebot. Dice que una página puede ser rastreada incluso si la página padre no está permitida
Mapa del sitioEspecifica la ubicación del mapa del sitio web de su sitio web

Uso correcto de los comodines

En el archivo robots.txt, un comodín, representado como el símbolo (*), puede utilizarse como símbolo para cualquier secuencia de caracteres.

Una directiva para todos los tipos de robots de rastreo:

Usuario-agente:*

 

El comodín también se puede utilizar para no permitir todas las URL de la página principal, excepto la página principal.

Usuario-agente:*

Rechazar: /authors/*

Rechazar: /categorías/*

 

Esto significa que todas las URLs de las páginas bajo la página principal del autor y la página de categorías están bloqueadas excepto para ellas.

 

Un buen ejemplo de un archivo robots.txt se vería así

Usuario-agente:*

Rechazar: /página de prueba/

Rechazar: /cuenta/

Rechazar: /checkout/

Rechazar: /cart/

Rechazar: /productos/página/*

Rechazar: /wp/wp-admin/

Permitir: /wp/wp-admin/admin-ajax.php

 

Mapa del sitio: yourdomainhere.com/sitemap.xml

 

Después de editar el archivo robots.txt, debe cargarlo en el directorio de nivel superior del código de su sitio web para que cuando un robot entre en su sitio web para rastrearlo, vea primero el archivo robots.txt.

¿Qué es Noindex?

Noindex es una etiqueta de meta robots que indica a los motores de búsqueda que no incluyan una página en los resultados de búsqueda.

Cómo implementar Noindex Meta Tag?

Hay tres maneras de poner una etiqueta noindex en las páginas que no quieres que los motores de búsqueda indexen:

Etiqueta Meta Robots

En la sección <cabecera> de la página, coloque el siguiente código:

<name=»robots» content=»noindex»>

 

El código puede variar dependiendo de su decisión. El código mencionado dice a todos los tipos de robots de rastreo de la indexación de una página. Alternativamente, si sólo desea no indexar una página de un bot de rastreo específico, puede colocar el nombre de ese bot en el meta nombre.

 

Para evitar que Googlebot indexe una página:

<name=»googlebot» content=»noindex»>

 

Para evitar que Bingbot indexe una página:

<name=»bingbot» content=»noindex»>

 

También puedes indicar a los robots que sigan o no sigan los enlaces que se encuentran en la página que no indicaste.

 

Para seguir los enlaces de la página:

<name=»robots» content=»noindex,follow»>

 

Para decirle a los robots que no rastreen los enlaces de la página:

<name=»robots» content=»noindex,nofollow»>

X-Robots-Tag

La etiqueta x-robots-tag le permite controlar la indexación de una página en el encabezado de respuesta HTTP de la página. La etiqueta x-robots-tag es similar a la etiqueta meta robots, pero también le permite decirle a los motores de búsqueda que no muestren tipos de archivos específicos en los resultados de búsqueda, como imágenes y otros archivos multimedia.

Para hacer esto, usted necesita tener acceso al archivo de acceso de su sitio web.php,.htaccess, o al archivo de acceso del servidor. Las directivas de la etiqueta meta robot también son aplicables a la etiqueta x-robots. Aquí hay un gran artículo sobre el X-Robots-Tag en las cabeceras HTTP.

A través de YoastSEO

Si estás usando YoastSEO en WordPress, no es necesario que coloques estos códigos manualmente. Sólo tienes que ir a la página o mensaje que quieres noindex, desplazarse hacia abajo a la interfaz de YoastSEO, ir a la configuración del mensaje haciendo clic en el icono de equipo y luego seleccione «No» en «Permitir a los motores de búsqueda para mostrar este mensaje en los resultados de búsqueda?

Yoast SEO

También puede poner una etiqueta noindex en todo el sitio para páginas como categorías, etiquetas y páginas de autor para que no tenga que ir a todas las páginas individuales de su sitio web. Para poner una etiqueta noindex, ve al propio plugin Yoast y luego ve a Search Appearance. Seleccionando’no’ bajo’Mostrar Categorías en los Resultados de Búsqueda’ se colocaría una etiqueta noindex en todas las páginas de las categorías.

Yoast Categories

Mejores prácticas

Muchas personas todavía están confundidas por estos dos. Es crítico como SEO saber cuál es la diferencia entre ambos. Esto es crucial para asegurarse de que las páginas que desea que los usuarios vean en los resultados de búsqueda son las únicas que aparecen y las páginas que desea que los robots rastreen son las únicas que se rastrean.

 

  • Si desea que una página que ya ha sido indexada, por ejemplo, por Google, se elimine en los resultados de búsqueda, asegúrese de que esa página no esté prohibida en el archivo robots.txt antes de añadir la etiqueta noindex porque el bot de Google no podrá ver la etiqueta en la página. Bloquear una página sin la etiqueta noindex primero haría que una página apareciera en los resultados de búsqueda, pero se vería así:

Uncategorized Page

  • Técnicamente no es necesario añadir una directiva de mapa de sitio al archivo robots.txt, pero en general es una buena práctica.
  • Después de actualizar el archivo robots.txt, es una buena idea comprobar si las páginas importantes están bloqueadas para que no puedan rastrearse con el Probador de Robots.txt en la Consola de Búsqueda de Google.
  • Utilice la herramienta de inspección de URL de la Consola de búsqueda de Google para ver el estado de indexación de la página.
  • También puede comprobar si las páginas no importantes están siendo indexadas por Google utilizando el informe de cobertura de la Consola de Búsqueda de Google. Otra alternativa sería utilizar el comando de búsqueda ‘site:’ de Google para mostrarle todas las páginas que se muestran en los resultados de búsqueda.

Google Search Site Command

Añadir Noindex en Robots.txt

Ha habido mucha confusión en la comunidad SEO recientemente sobre el uso de noindex en robots.txt, pero se ha dicho una y otra vez por Google que no apoyan esto, pero aún así mucha gente insiste en que sigue funcionando.

En un hilo de Twitter, Gary Illyes dijo:

«Técnicamente, robots.txt es para gatear. Los meta tags son para indexar. Durante la indexación, se aplicarían en la misma etapa, así que no hay razón para tener ambos»

Es mejor evitar hacer esto. Aunque se podría estar de acuerdo en que es eficiente, ya que no es necesario poner una etiqueta `noindex’ en páginas individuales, sino simplemente escribirlas en el archivo robots.txt, es mejor que trate estas dos cosas por separado.

La Página bloqueada puede seguir siendo indexada si está vinculada a

En un artículo de Search Engine Journal, citaron a John Mueller en una sesión de Google Hangouts. Aquí está su declaración:

«Una cosa a tener en cuenta aquí es que si estas páginas están bloqueadas por robots.txt, entonces teóricamente podría ocurrir que alguien se conecte aleatoriamente a una de estas páginas y si lo hace, podría ocurrir que indexemos esta URL sin ningún contenido porque está bloqueada por robots.txt. Así que no sabríamos que quieres tener estas páginas indexadas»

Esta declaración es enorme ya que nos da una mejor comprensión de cómo funcionan los robots de rastreo y el robots.txt. Esto significa que las páginas que bloqueó a través de robots.txt no están a salvo de la indexación, siempre y cuando alguien esté vinculado a ellas.

Para asegurarse de que una página sin contenido útil no aparezca accidentalmente en los resultados de búsqueda, John Mueller sugiere que es mejor tener una metaetiqueta de noindex en esa página incluso después de haberla bloqueado de los robots con robots.txt

Para conocer todos los pensamientos de John Mueller al respecto, consulte este sitio web de Google Webmaster Central en 2018

Llave para llevar

Hay muchos hacks de SEO por ahí, pero usted tiene que elegir los que le dará beneficios óptimos en el largo plazo. El uso del archivo robots.txt en su beneficio no sólo aumentará su visibilidad SEO, sino que también mejorará la experiencia del usuario. Robots.txt permanecerá significativo, por lo que deberá estar atento a las actualizaciones que lo afecten.

Robots.txt nunca debe ser descuidado, especialmente si usted quiere aparecer en su mejor forma en los SERPs. Refresque estas mejores prácticas si usted es un principiante en SEO o si ya ha optimizado muchos sitios. Una vez que lo hagas, vas a ver cómo te ayudará a estar aislado del resto.

Con eso, comenta abajo cómo usas las etiquetas del meta robot. ¿Cómo te ha ido hasta ahora?