Con el auge de la inteligencia artificial, muchos modelos de IA están rastreando internet para recopilar datos y entrenar sus algoritmos. Herramientas como ChatGPT, Google Bard, Claude, Perplexity y DeepMind analizan millones de sitios web sin pedir permiso, lo que plantea preocupaciones sobre la privacidad y el uso del contenido.
Si tienes un sitio en WordPress y quieres evitar que estos bots accedan a tu contenido, existen dos métodos efectivos: bloquearlos mediante el archivo robots.txt o con reglas avanzadas en .htaccess. En este artículo te explicamos cómo hacerlo paso a paso.
1. Bloquear los bots de IA con robots.txt en WordPress
El archivo robots.txt es una forma sencilla de indicar a los rastreadores qué partes de tu sitio pueden o no indexar. Sin embargo, este método no es infalible, ya que no todos los bots respetan las reglas de robots.txt. Aun así, es un buen primer paso para evitar que los rastreadores de IA recopilen datos de tu sitio.
Cómo editar el archivo robots.txt en WordPress
Sigue estos pasos para configurar robots.txt y bloquear los bots de inteligencia artificial en WordPress:
Accede al administrador de WordPress.
Instala y activa un plugin SEO como Rank Math SEO o Yoast SEO, que permiten modificar robots.txt fácilmente.
Ve a → SEO > Herramientas > Editor de archivos y localiza el archivo robots.txt.
Añade las siguientes reglas para bloquear los bots de IA:
# Ultimate AI Block List v1.2 20250212 # https://perishablepress.com/ultimate-ai-block-list/ User-agent: Agent GPT User-agent: AgentGPT User-agent: AI Article Writer User-agent: AI Content Detector User-agent: AI Dungeon User-agent: AI Search Engine User-agent: AI SEO Crawler User-agent: AI Writer User-agent: AI21 Labs User-agent: AI2Bot User-agent: AIBot User-agent: AISearchBot User-agent: AlexaTM User-agent: Alpha AI User-agent: AlphaAI User-agent: Amazon Bedrock User-agent: Amazon Lex User-agent: Amazonbot User-agent: Amelia User-agent: anthropic-ai User-agent: AnthropicAI User-agent: AnyPicker User-agent: Anyword User-agent: Applebot User-agent: Articoolo User-agent: AutoGPT User-agent: Automated Writer User-agent: AwarioRssBot User-agent: AwarioSmartBot User-agent: BingAI User-agent: Brave Leo AI User-agent: Bytespider User-agent: CatBoost User-agent: CC-Crawler User-agent: CCBot User-agent: ChatGPT User-agent: Chinchilla User-agent: Claude-Web User-agent: ClaudeBot User-agent: ClearScope User-agent: cohere-ai User-agent: cohere-training-data-crawler User-agent: Common Crawl User-agent: commoncrawl User-agent: Content Harmony User-agent: Content King User-agent: Content Optimizer User-agent: Content Samurai User-agent: ContentAtScale User-agent: ContentBot User-agent: Contentedge User-agent: Conversion AI User-agent: CopyAI User-agent: Copymatic User-agent: Copyscape User-agent: CrawlQ AI User-agent: Crawlspace User-agent: crew AI User-agent: crewAI User-agent: DALL-E User-agent: DataForSeoBot User-agent: DeepAI User-agent: DeepL User-agent: DeepMind User-agent: DeepSeek User-agent: DepolarizingGPT User-agent: DialoGPT User-agent: Diffbot User-agent: DuckAssistBot User-agent: FacebookBot User-agent: Firecrawl User-agent: Flyriver User-agent: Frase AI User-agent: FriendlyCrawler User-agent: Gemini User-agent: Gemma User-agent: GenAI User-agent: Google Bard AI User-agent: Google-CloudVertexBot User-agent: Google-Extended User-agent: GoogleOther User-agent: GPT-2 User-agent: GPT-3 User-agent: GPT-4 User-agent: GPTBot User-agent: GPTZero User-agent: Grammarly User-agent: Grok User-agent: Hemingway Editor User-agent: Hugging Face User-agent: Hypotenuse AI User-agent: iaskspider User-agent: ICC-Crawler User-agent: ImagesiftBot User-agent: img2dataset User-agent: INK Editor User-agent: INKforall User-agent: IntelliSeek.ai User-agent: Inferkit User-agent: ISSCyberRiskCrawler User-agent: JasperAI User-agent: Kafkai User-agent: Kangaroo User-agent: Keyword Density AI User-agent: LeftWingGPT User-agent: LLaMA User-agent: magpie-crawler User-agent: MarketMuse User-agent: Meltwater User-agent: Meta AI User-agent: Meta Llama User-agent: Meta.AI User-agent: Meta-AI User-agent: Meta-ExternalAgent User-agent: Meta-ExternalFetcher User-agent: MetaAI User-agent: MetaTagBot User-agent: Mistral User-agent: Narrative Device User-agent: Neural Text User-agent: NeuralSEO User-agent: OAI-SearchBot User-agent: OAI SearchBot User-agent: omgili User-agent: OmniGPT User-agent: Open AI User-agent: OpenAI User-agent: OpenText AI User-agent: Outwrite User-agent: Page Analyzer AI User-agent: PanguBot User-agent: Paraphraser.io User-agent: peer39_crawler User-agent: PerplexityBot User-agent: PetalBot User-agent: ProWritingAid User-agent: QuillBot User-agent: RightWingGPT User-agent: RobotSpider User-agent: Rytr User-agent: SaplingAI User-agent: Scalenut User-agent: Scrapy User-agent: ScriptBook User-agent: SearchGPT User-agent: SemrushBot User-agent: SEO Content Machine User-agent: SEO Robot User-agent: Sidetrade User-agent: Simplified AI User-agent: SlickWrite User-agent: Spin Rewriter User-agent: Spinbot User-agent: Stability User-agent: Sudowrite User-agent: Surfer AI User-agent: Text Blaze User-agent: TextCortex User-agent: The Knowledge AI User-agent: Timpibot User-agent: VelenPublicWebCrawler User-agent: Vidnami AI User-agent: WebChatGPT User-agent: Webzio User-agent: Whisper User-agent: WordAI User-agent: Wordtune User-agent: Writecream User-agent: WriterZen User-agent: Writescope User-agent: Writesonic User-agent: x.AI User-agent: xAI User-agent: YouBot User-agent: Zero GTP User-agent: ZimmWriter Disallow: /
Guarda los cambios y verifica que el archivo está funcionando correctamente visitando tusitio.com/robots.txt
.
🚨 Nota: Aunque este método es fácil de implementar, no impide el acceso de los bots que ignoran robots.txt. Para una solución más efectiva, es recomendable usar .htaccess o un plugin de seguridad.
2. Bloquear bots de IA mediante .htaccess en WordPress
Si quieres bloquear completamente el acceso de los bots de IA a tu sitio, el método más efectivo es mediante el archivo .htaccess, que controla la seguridad y permisos en servidores Apache.
Cómo bloquear bots de IA con .htaccess
Accede a tu servidor a través de FTP o Plesk o cPanel.
Ubica y abre el archivo .htaccess
, que se encuentra en la raíz de tu instalación de WordPress.
Añade el siguiente código al final del archivo:
# Ultimate AI Block List v1.2 20250212 # https://perishablepress.com/ultimate-ai-block-list/ <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (Agent\ GPT|AgentGPT|AI\ Article\ Writer|AI\ Content\ Detector|AI\ Dungeon|AI\ SEO\ Crawler|AI\ Search\ Engine|AI\ Writer|AI21\ Labs|AIBot|AI2Bot|AISearchBot|AlexaTM|Alpha\ AI|AlphaAI|Amazon\ Bedrock) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (Amazon\ Lex|Amazonbot|Amelia|anthropic-ai|AnthropicAI|AnyPicker|Anyword|Applebot|Articoolo|AutoGPT|Automated\ Writer|AwarioRssBot|AwarioSmartBot|BingAI|Brave\ Leo\ AI|Bytespider|CatBoost|CC-Crawler) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (CCBot|ChatGPT|Chinchilla|Claude-Web|ClaudeBot|ClearScope|cohere-ai|cohere-training-data-crawler|Common\ Crawl|commoncrawl|Content\ Harmony|Content\ King|Content\ Optimizer|Content\ Samurai|ContentAtScale) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (ContentBot|Contentedge|Conversion\ AI|CopyAI|Copymatic|Copyscape|Crawlspace|CrawlQ\ AI|crew\ AI|crewAI|DALL-E|DataForSeoBot|DeepAI|DeepL|DeepMind|DeepSeek|DepolarizingGPT|DialoGPT|Diffbot|DuckAssistBot) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (FacebookBot|Firecrawl|Flyriver|Frase\ AI|FriendlyCrawler|Gemini|Gemma|GenAI|Google\ Bard\ AI|Google-CloudVertexBot|Google-Extended|GoogleOther|GPT-2|GPT-3|GPT-4|GPTBot|GPTZero|Grammarly|Grok|Hemingway) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (Hugging\ Face|Hypotenuse\ AI|iaskspider|ICC-Crawler|ImagesiftBot|img2dataset|INK\ Editor|INKforall|IntelliSeek\.ai|Inferkit|ISSCyberRiskCrawler|JasperAI|Kafkai|Kangaroo|Keyword\ Density\ AI|LeftWingGPT) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (LLaMA|magpie-crawler|MarketMuse|Meltwater|Meta\ AI|Meta\ Llama|Meta\.AI|Meta-AI|Meta-ExternalAgent|Meta-ExternalFetcher|MetaAI|MetaTagBot|Mistral|Narrative\ Device|Neural\ Text|NeuralSEO|OAI-SearchBot) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (OAI\ SearchBot|omgili|OmniGPT|Open\ AI|OpenAI|OpenText\ AI|Outwrite|Page\ Analyzer\ AI|PanguBot|Paraphraser\.io|peer39_crawler|PerplexityBot|PetalBot|ProWritingAid|QuillBot|RightWingGPT|RobotSpider) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (Rytr|SaplingAI|Scalenut|Scrapy|ScriptBook|SearchGPT|SemrushBot|SEO\ Content\ Machine|SEO\ Robot|Sidetrade|Simplified\ AI|SlickWrite|Spin\ Rewriter|Spinbot|Stability|Sudowrite|Surfer\ AI|Text\ Blaze) [NC,OR] RewriteCond %{HTTP_USER_AGENT} (TextCortex|The\ Knowledge\ AI|Timpibot|VelenPublicWebCrawler|Vidnami\ AI|WebChatGPT|Webzio|Whisper|WordAI|Wordtune|Writecream|WriterZen|Writescope|Writesonic|x\.AI|xAI|YouBot|Zero\ GTP|ZimmWriter) [NC] RewriteRule (.*) - [F,L] </IfModule>
Guarda los cambios y revisa que tu sitio web sigue funcionando correctamente.
¿Por qué usar .htaccess para bloquear bots de IA?
✅ Ventaja: Este método impide completamente que los bots accedan a cualquier contenido de tu web.
🚧 Desventaja: Solo funciona en servidores Apache. Si tu sitio usa NGINX o LiteSpeed, deberás aplicar reglas específicas en su configuración.
Conclusión
Si tienes un sitio en WordPress y deseas evitar que los bots de inteligencia artificial recopilen tu contenido, lo ideal es combinar robots.txt con reglas en .htaccess.
- Para una solución básica, configura robots.txt y bloquea los bots más conocidos.
- Para una protección avanzada, usa .htaccess para impedir completamente su acceso.
💡 Recomendación: Si prefieres evitar la edición de archivos del servidor, considera usar un plugin de seguridad como Wordfence o Blackhole for Bad Bots, que automatizan el bloqueo de rastreadores no deseados.
Con estas medidas, puedes proteger tu contenido y evitar que sea utilizado por modelos de IA sin tu consentimiento. 🚫🤖