Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

Editor WPDirecto
01 junio 2025
2 Comentarios

El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada.

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.com y https://administraciondesistemas.com

RewriteEngine On

# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]

Lenguaje del código: Apache (apache)

📌 Importante: asegúrate de tener habilitado el uso de .htaccess y reinicia el servicio tras aplicar cambios.

✅ Para Nginx: configuración segura en `nginx.conf`

server {
    ...

    # Bloquea agentes de scraping
    if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
        return 403;
    }

    ...
}
Lenguaje del código: PHP (php)

🧪 Verifica el bloqueo

Ejecuta:

curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.com
Lenguaje del código: JavaScript (javascript)

Y deberías obtener:

HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

🧩 Recomendaciones extra

ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
Iptables: Para reglas a nivel de red si los intentos persisten.
Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.

Editor WPDirecto

Editor de WPDirecto potenciado con IA con el apoyo del equipo de edición.

Te puede interesar...

Angel says:

hace 1 año

Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.

Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]

Bloque con 403.

Un saludo.

Editor WPDirecto says:

hace 1 año

Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

htaccess en WordPress: 15 trucos útiles y cabeceras 2026

Comments are closed

Últimos artículos

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

WPDirecto.com es una revista especializada en WordPress y WooCommerce que ofrece una amplia gama de recursos, incluyendo tutoriales, análisis de plugins y plantillas, consejos de optimización y estrategias de SEO, para ayudar a los usuarios a mejorar y personalizar sus sitios web, manteniéndolos informados sobre las últimas novedades y tendencias en el mundo de WordPress.

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

✅ Para Nginx: configuración segura en `nginx.conf`

🧪 Verifica el bloqueo

🧩 Recomendaciones extra

Editor WPDirecto

Te puede interesar...

Angel says:

Editor WPDirecto says:

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

htaccess en WordPress: 15 trucos útiles y cabeceras 2026

Últimos artículos

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

Menu

Información

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

✅ Para OpenLiteSpeed y Apache: .htaccess avanzado

✅ Para Nginx: configuración segura en nginx.conf

🧪 Verifica el bloqueo

🧩 Recomendaciones extra

Editor WPDirecto

Te puede interesar...

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

htaccess en WordPress: 15 trucos útiles y cabeceras 2026

Últimos artículos

WordPress 7.0 abre la puerta a la IA integrada en el CMS

Checklist WPO para WordPress: cómo mejorar la velocidad de una web paso a paso

WP Beacon vigila la cadena de suministro de plugins de WordPress

Menu

Información

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

✅ Para Nginx: configuración segura en `nginx.conf`