Con el auge de la inteligencia artificial, muchos modelos de IA están rastreando internet para recopilar datos y entrenar sus algoritmos. Herramientas como ChatGPT, Google Bard, Claude, Perplexity y DeepMind analizan millones de sitios web sin pedir permiso, lo que plantea preocupaciones sobre la privacidad y el uso del contenido.
Si tienes un sitio en WordPress y quieres evitar que estos bots accedan a tu contenido, existen dos métodos efectivos: bloquearlos mediante el archivo robots.txt o con reglas avanzadas en .htaccess. En este artículo te explicamos cómo hacerlo paso a paso.
1. Bloquear los bots de IA con robots.txt en WordPress
El archivo robots.txt es una forma sencilla de indicar a los rastreadores qué partes de tu sitio pueden o no indexar. Sin embargo, este método no es infalible, ya que no todos los bots respetan las reglas de robots.txt. Aun así, es un buen primer paso para evitar que los rastreadores de IA recopilen datos de tu sitio.
Cómo editar el archivo robots.txt en WordPress
Sigue estos pasos para configurar robots.txt y bloquear los bots de inteligencia artificial en WordPress:
Accede al administrador de WordPress.
Instala y activa un plugin SEO como Rank Math SEO o Yoast SEO, que permiten modificar robots.txt fácilmente.
Ve a → SEO > Herramientas > Editor de archivos y localiza el archivo robots.txt.
Añade las siguientes reglas para bloquear los bots de IA:
# Ultimate AI Block List v1.2 20250212
# https://perishablepress.com/ultimate-ai-block-list/
User-agent: Agent GPT
User-agent: AgentGPT
User-agent: AI Article Writer
User-agent: AI Content Detector
User-agent: AI Dungeon
User-agent: AI Search Engine
User-agent: AI SEO Crawler
User-agent: AI Writer
User-agent: AI21 Labs
User-agent: AI2Bot
User-agent: AIBot
User-agent: AISearchBot
User-agent: AlexaTM
User-agent: Alpha AI
User-agent: AlphaAI
User-agent: Amazon Bedrock
User-agent: Amazon Lex
User-agent: Amazonbot
User-agent: Amelia
User-agent: anthropic-ai
User-agent: AnthropicAI
User-agent: AnyPicker
User-agent: Anyword
User-agent: Applebot
User-agent: Articoolo
User-agent: AutoGPT
User-agent: Automated Writer
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: BingAI
User-agent: Brave Leo AI
User-agent: Bytespider
User-agent: CatBoost
User-agent: CC-Crawler
User-agent: CCBot
User-agent: ChatGPT
User-agent: Chinchilla
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: ClearScope
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: Common Crawl
User-agent: commoncrawl
User-agent: Content Harmony
User-agent: Content King
User-agent: Content Optimizer
User-agent: Content Samurai
User-agent: ContentAtScale
User-agent: ContentBot
User-agent: Contentedge
User-agent: Conversion AI
User-agent: CopyAI
User-agent: Copymatic
User-agent: Copyscape
User-agent: CrawlQ AI
User-agent: Crawlspace
User-agent: crew AI
User-agent: crewAI
User-agent: DALL-E
User-agent: DataForSeoBot
User-agent: DeepAI
User-agent: DeepL
User-agent: DeepMind
User-agent: DeepSeek
User-agent: DepolarizingGPT
User-agent: DialoGPT
User-agent: Diffbot
User-agent: DuckAssistBot
User-agent: FacebookBot
User-agent: Firecrawl
User-agent: Flyriver
User-agent: Frase AI
User-agent: FriendlyCrawler
User-agent: Gemini
User-agent: Gemma
User-agent: GenAI
User-agent: Google Bard AI
User-agent: Google-CloudVertexBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPT-2
User-agent: GPT-3
User-agent: GPT-4
User-agent: GPTBot
User-agent: GPTZero
User-agent: Grammarly
User-agent: Grok
User-agent: Hemingway Editor
User-agent: Hugging Face
User-agent: Hypotenuse AI
User-agent: iaskspider
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: INK Editor
User-agent: INKforall
User-agent: IntelliSeek.ai
User-agent: Inferkit
User-agent: ISSCyberRiskCrawler
User-agent: JasperAI
User-agent: Kafkai
User-agent: Kangaroo
User-agent: Keyword Density AI
User-agent: LeftWingGPT
User-agent: LLaMA
User-agent: magpie-crawler
User-agent: MarketMuse
User-agent: Meltwater
User-agent: Meta AI
User-agent: Meta Llama
User-agent: Meta.AI
User-agent: Meta-AI
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: MetaAI
User-agent: MetaTagBot
User-agent: Mistral
User-agent: Narrative Device
User-agent: Neural Text
User-agent: NeuralSEO
User-agent: OAI-SearchBot
User-agent: OAI SearchBot
User-agent: omgili
User-agent: OmniGPT
User-agent: Open AI
User-agent: OpenAI
User-agent: OpenText AI
User-agent: Outwrite
User-agent: Page Analyzer AI
User-agent: PanguBot
User-agent: Paraphraser.io
User-agent: peer39_crawler
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: ProWritingAid
User-agent: QuillBot
User-agent: RightWingGPT
User-agent: RobotSpider
User-agent: Rytr
User-agent: SaplingAI
User-agent: Scalenut
User-agent: Scrapy
User-agent: ScriptBook
User-agent: SearchGPT
User-agent: SemrushBot
User-agent: SEO Content Machine
User-agent: SEO Robot
User-agent: Sidetrade
User-agent: Simplified AI
User-agent: SlickWrite
User-agent: Spin Rewriter
User-agent: Spinbot
User-agent: Stability
User-agent: Sudowrite
User-agent: Surfer AI
User-agent: Text Blaze
User-agent: TextCortex
User-agent: The Knowledge AI
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: Vidnami AI
User-agent: WebChatGPT
User-agent: Webzio
User-agent: Whisper
User-agent: WordAI
User-agent: Wordtune
User-agent: Writecream
User-agent: WriterZen
User-agent: Writescope
User-agent: Writesonic
User-agent: x.AI
User-agent: xAI
User-agent: YouBot
User-agent: Zero GTP
User-agent: ZimmWriter
Disallow: /
Guarda los cambios y verifica que el archivo está funcionando correctamente visitando tusitio.com/robots.txt
.
🚨 Nota: Aunque este método es fácil de implementar, no impide el acceso de los bots que ignoran robots.txt. Para una solución más efectiva, es recomendable usar .htaccess o un plugin de seguridad.
2. Bloquear bots de IA mediante .htaccess en WordPress
Si quieres bloquear completamente el acceso de los bots de IA a tu sitio, el método más efectivo es mediante el archivo .htaccess, que controla la seguridad y permisos en servidores Apache.
Cómo bloquear bots de IA con .htaccess
Accede a tu servidor a través de FTP o Plesk o cPanel.
Ubica y abre el archivo .htaccess
, que se encuentra en la raíz de tu instalación de WordPress.
Añade el siguiente código al final del archivo:
# Ultimate AI Block List v1.2 20250212
# https://perishablepress.com/ultimate-ai-block-list/
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Agent\ GPT|AgentGPT|AI\ Article\ Writer|AI\ Content\ Detector|AI\ Dungeon|AI\ SEO\ Crawler|AI\ Search\ Engine|AI\ Writer|AI21\ Labs|AIBot|AI2Bot|AISearchBot|AlexaTM|Alpha\ AI|AlphaAI|Amazon\ Bedrock) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Amazon\ Lex|Amazonbot|Amelia|anthropic-ai|AnthropicAI|AnyPicker|Anyword|Applebot|Articoolo|AutoGPT|Automated\ Writer|AwarioRssBot|AwarioSmartBot|BingAI|Brave\ Leo\ AI|Bytespider|CatBoost|CC-Crawler) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (CCBot|ChatGPT|Chinchilla|Claude-Web|ClaudeBot|ClearScope|cohere-ai|cohere-training-data-crawler|Common\ Crawl|commoncrawl|Content\ Harmony|Content\ King|Content\ Optimizer|Content\ Samurai|ContentAtScale) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (ContentBot|Contentedge|Conversion\ AI|CopyAI|Copymatic|Copyscape|Crawlspace|CrawlQ\ AI|crew\ AI|crewAI|DALL-E|DataForSeoBot|DeepAI|DeepL|DeepMind|DeepSeek|DepolarizingGPT|DialoGPT|Diffbot|DuckAssistBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (FacebookBot|Firecrawl|Flyriver|Frase\ AI|FriendlyCrawler|Gemini|Gemma|GenAI|Google\ Bard\ AI|Google-CloudVertexBot|Google-Extended|GoogleOther|GPT-2|GPT-3|GPT-4|GPTBot|GPTZero|Grammarly|Grok|Hemingway) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Hugging\ Face|Hypotenuse\ AI|iaskspider|ICC-Crawler|ImagesiftBot|img2dataset|INK\ Editor|INKforall|IntelliSeek\.ai|Inferkit|ISSCyberRiskCrawler|JasperAI|Kafkai|Kangaroo|Keyword\ Density\ AI|LeftWingGPT) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (LLaMA|magpie-crawler|MarketMuse|Meltwater|Meta\ AI|Meta\ Llama|Meta\.AI|Meta-AI|Meta-ExternalAgent|Meta-ExternalFetcher|MetaAI|MetaTagBot|Mistral|Narrative\ Device|Neural\ Text|NeuralSEO|OAI-SearchBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (OAI\ SearchBot|omgili|OmniGPT|Open\ AI|OpenAI|OpenText\ AI|Outwrite|Page\ Analyzer\ AI|PanguBot|Paraphraser\.io|peer39_crawler|PerplexityBot|PetalBot|ProWritingAid|QuillBot|RightWingGPT|RobotSpider) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Rytr|SaplingAI|Scalenut|Scrapy|ScriptBook|SearchGPT|SemrushBot|SEO\ Content\ Machine|SEO\ Robot|Sidetrade|Simplified\ AI|SlickWrite|Spin\ Rewriter|Spinbot|Stability|Sudowrite|Surfer\ AI|Text\ Blaze) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (TextCortex|The\ Knowledge\ AI|Timpibot|VelenPublicWebCrawler|Vidnami\ AI|WebChatGPT|Webzio|Whisper|WordAI|Wordtune|Writecream|WriterZen|Writescope|Writesonic|x\.AI|xAI|YouBot|Zero\ GTP|ZimmWriter) [NC]
RewriteRule (.*) - [F,L]
</IfModule>
Guarda los cambios y revisa que tu sitio web sigue funcionando correctamente.
¿Por qué usar .htaccess para bloquear bots de IA?
✅ Ventaja: Este método impide completamente que los bots accedan a cualquier contenido de tu web.
🚧 Desventaja: Solo funciona en servidores Apache. Si tu sitio usa NGINX o LiteSpeed, deberás aplicar reglas específicas en su configuración.
Conclusión
Si tienes un sitio en WordPress y deseas evitar que los bots de inteligencia artificial recopilen tu contenido, lo ideal es combinar robots.txt con reglas en .htaccess.
- Para una solución básica, configura robots.txt y bloquea los bots más conocidos.
- Para una protección avanzada, usa .htaccess para impedir completamente su acceso.
💡 Recomendación: Si prefieres evitar la edición de archivos del servidor, considera usar un plugin de seguridad como Wordfence o Blackhole for Bad Bots, que automatizan el bloqueo de rastreadores no deseados.
Con estas medidas, puedes proteger tu contenido y evitar que sea utilizado por modelos de IA sin tu consentimiento. 🚫🤖