Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada.

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.com y https://administraciondesistemas.com

RewriteEngine On

# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]

Lenguaje del código: Apache (apache)

📌 Importante: asegúrate de tener habilitado el uso de .htaccess y reinicia el servicio tras aplicar cambios.

✅ Para Nginx: configuración segura en `nginx.conf`

server {
    ...

    # Bloquea agentes de scraping
    if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
        return 403;
    }

    ...
}
Lenguaje del código: PHP (php)

🧪 Verifica el bloqueo

Ejecuta:

curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.com
Lenguaje del código: JavaScript (javascript)

Y deberías obtener:

Cómo solucionar el error Internal Server Error en WordPress

6 abril 2019

FlyingPress: el plugin que lidera la optimización de WordPress con mejores resultados en Core Web Vitals

6 abril 2025

Cómo eliminar la etiqueta hreflang en URLs con la meta tag noindex en WordPress

4 mayo 2025

El frustrante error HTTP de WordPress: Por qué ocurre y cómo solucionarlo en 2025

26 junio 2025

HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

🧩 Recomendaciones extra

ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
Iptables: Para reglas a nivel de red si los intentos persisten.
Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.

Tags: bots scrapy

Comments 2

Angel says:

5 meses ago

Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.

Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]

Bloque con 403.

Un saludo.
- Editor WPDirecto says:
  
  5 meses ago
  
  Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

Cómo solucionar el error Internal Server Error en WordPress

FlyingPress: el plugin que lidera la optimización de WordPress con mejores resultados en Core Web Vitals

Cómo eliminar la etiqueta hreflang en URLs con la meta tag noindex en WordPress

El frustrante error HTTP de WordPress: Por qué ocurre y cómo solucionarlo en 2025

Editor WPDirecto

Te puede interesar...

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

Hackers explotan webs WordPress para impulsar campañas “ClickFix” de nueva generación: inyecciones JS, suplantaciones de Cloudflare y un giro inquietante con “cache smuggling”

WebP vs AVIF en 2025: qué formato elegir, cuándo y por qué (con ejemplos reales y guías de implementación)

WPO Tweaks 2.1: el “todo en uno” gratuito que acelera WordPress con un clic

Comments 2

Últimos artículos

La vulnerabilidad de la WordPress REST API ha hecho caer a miles de sitios web

Las mejores plantillas de WordPress para un estudio de tatuajes

4 plugins de WordPress para crear una landing page

Nuevo plugin de WordPress evita la pérdida accidental de menús con copias de seguridad automáticas

Cómo acelerar la carga de imágenes en WordPress: 8 tácticas clave

Menu

Información

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

✅ Para OpenLiteSpeed y Apache: .htaccess avanzado

✅ Para Nginx: configuración segura en nginx.conf

🧪 Verifica el bloqueo

Artículos relacionados

🧩 Recomendaciones extra

Te puede interesar...

Comments 2

Últimos artículos

Menu

Información

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

✅ Para Nginx: configuración segura en `nginx.conf`