El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl
, o python-requests
suelen utilizarse para recolectar contenido de forma no autorizada.
✅ Para OpenLiteSpeed y Apache: .htaccess
avanzado
# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.com y https://administraciondesistemas.com
RewriteEngine On
# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]
Lenguaje del código: Apache (apache)
📌 Importante: asegúrate de tener habilitado el uso de
.htaccess
y reinicia el servicio tras aplicar cambios.
✅ Para Nginx: configuración segura en nginx.conf
server {
...
# Bloquea agentes de scraping
if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
return 403;
}
...
}
Lenguaje del código: PHP (php)
🧪 Verifica el bloqueo
Ejecuta:
curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.com
Lenguaje del código: JavaScript (javascript)
Y deberías obtener:
HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)
🧩 Recomendaciones extra
- ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
- Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
- Iptables: Para reglas a nivel de red si los intentos persisten.
- Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.
Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.
Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]
Bloque con 403.
Un saludo.
Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.