El mejor robots txt para WordPress

¿Problemas con tu archivo robots txt para WordPress? ¿No sabes cómo configurarlo? ¿Necesitas uno bien optimizado? Te traemos la solución.

El archivo robots.txt es imprescindible en cualquier proyecto web, es una práctica recomendada por todos los buscadores. Con él otorgamos la información necesaria a las arañas de los buscadores, lo que deben rastrear de nuestro sitio para indexarlo. Y todos los proyectos necesitan uno si quieren estar bien posicionados en las biblias de Internet. Ya sabemos que WordPress es mucho más que un CMS pero necesita una buena optimización de su archivo robots.txt para no generar contenido duplicado. Por ejemplo, al publicar un artículo este se publica en la home, en la página de la categoría(s) seleccionada, en el propio post, en el sitemap, en la página de autor, en el archive… Todo eso para Google es contenido duplicado y más con la nueva política de Google sobre SEO llamada Panda, la nueva actualización de Google que intenta evitar este tipo de contenido. Con el robots.txt podemos indicar a los rastreadores, el contenido que queremos que se indexe y posicione. Asimismo podemos informar a las arañas qué contenido es el rastreable, es decir, indexaremos solamente lo que nos interese indexar, evitando así el tan molesto contenido duplicado que no hace nada más que penalizarnos la web y bajarla de puestos en los principales buscadores.

El mejor robots.txt posible para WordPress
Fuente: Christy Mannering

Creación del robots.txt

Una vez tenemos claro la teoría de cuán importante es el archivo robots.txt en nuestro WordPress tan solo tenemos que crearlo. Para crear un archivo robots.txt solamente tenemos que crear un archivo de texto con un editor de texto, como por ejemplo el bloc de notas y renombrarlo como robots.txt. Una vez tenemos el archivo creado, lo subiremos por FTP a la carpeta raíz (donde se encuentra también el index.php) de nuestro proyecto web. En el contenido del archivo escribiremos las sentencias necesarias para indicar a los robots qué deben rastrear y que no. Recuerda que existe más de un robot rastreando la web, unos son para la indexación de buscadores y otros son código malicioso para WordPress (la mayoría). Los hay incluso que hacen copias enteras de las webs con fines sospechosos. No os imaginaríais nunca la cantidad de robots que rastrean la web. Entre los más famosos:

  • GoogleBot: la araña de Google
  • BingBot: la araña de Bing
  • YandexBot: la araña de Yandex
  • BaiduSpider: la araña de Baidu
  • ia_archiver: la araña de Alexa Rankings

Puedes echar un vistazo a las listas de robots que existen por Internet, como por ejemplo esta:

http://www.robotstxt.org/db.html

Código del perfecto robots.txt

Como no queremos entrar en materia ya que muchos de vosotros no tenéis conocimientos de programación os brindaremos el contenido que debéis tener en vuestro fichero robots txt para WordPress. Con él, aparte de evitar el contenido duplicado para evitar penalizaciones por parte de los buscadores más conocidos de la web, también evitaréis los crawlers más peligrosos, es decir, los bots maliciosos más conocidos de la red. Así mantendremos a salvo nuestra web y la ayudaremos a posicionarse mejor.

Aquí el código que debéis poner en vuestro robots.txt si estáis usando WordPress:

User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: /*/page/
Disallow: /*/feed/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*

User-agent: Orthogaffe
Disallow: /

User-agent: UbiCrawler
Disallow: /

User-agent: DOC
Disallow: /

User-agent: Zao
Disallow: /

# Some bots are known to be trouble, particularly those designed to copy

# entire sites. Please obey robots.txt.

User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: linko
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: larbin
Disallow: /

User-agent: libwww
Disallow: /

User-agent: ZyBORG
Disallow: /

User-agent: Download Ninja
Disallow: /

User-agent: wget
Disallow: /

User-agent: grub-client
Disallow: /

Una vez editado el archivo robots.txt con esta información, solo queda guardarlo y será rastreado automáticamente. Esperamos que este artículo te haya ayudado a mejorar en el SEO de tu web.

¿Y tú? ¿Sabías que el archivo robots.txt era tan importante para el posicionamiento de una web?

Suscríbete a la newsletter





Últimos artículos

Scroll al inicio