WordPress Directo
  • Tutoriales
  • Plugins
  • Plantillas
  • Optimización
  • SEO
  • WordPress Hosting
No Result
View All Result
WordPress Directo
  • Tutoriales
  • Plugins
  • Plantillas
  • Optimización
  • SEO
  • WordPress Hosting
No Result
View All Result
WordPress Directo
No Result
View All Result

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

Editor WPDirecto by Editor WPDirecto
3 junio 2025
in Optimización, Noticias
Reading Time: 3 mins read
2

El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada. Sin embargo, no todos los bots son maliciosos: Googlebot, por ejemplo, debe poder acceder para el SEO. Este artículo detalla cómo bloquear bots abusivos sin afectar a los rastreadores legítimos, aceptando un conjunto ampliado de IPs verificadas de Google.


✅ Para OpenLiteSpeed y Apache: .htaccess avanzado

# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.com y https://administraciondesistemas.com

RewriteEngine On

# Bloquear User-Agent vacío
RewriteCond %{HTTP_USER_AGENT} ^-?$
RewriteRule ^.* - [F,L]

# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|httpclient|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]

# Bloquear HEAD y OPTIONS (opcionales)
RewriteCond %{REQUEST_METHOD} ^(HEAD|OPTIONS)$
RewriteRule ^.* - [F,L]

# Permitir solo Googlebot desde IPs válidas conocidas
RewriteCond %{HTTP_USER_AGENT} "Googlebot" [NC]
RewriteCond %{REMOTE_ADDR} !^66\.249\.
RewriteCond %{REMOTE_ADDR} !^192\.178\.
RewriteCond %{REMOTE_ADDR} !^34\.(100|101|118|126|147|151|152|154|155|165|175|176|22|64|65|80|88|89|96)\.
RewriteRule ^.* - [F,L]
Lenguaje del código: Apache (apache)

📌 Importante: asegúrate de tener habilitado el uso de .htaccess y reinicia el servicio tras aplicar cambios.


✅ Para Nginx: configuración segura en nginx.conf

server {
    ...

    # Bloquea User-Agent vacío
    if ($http_user_agent = "") {
        return 403;
    }

    # Bloquea agentes de scraping
    if ($http_user_agent ~* (scrapy|httpclient|python-requests|curl|wget|libwww|httpunit|nutch)) {
        return 403;
    }

    # Solo permite Googlebot desde rangos IP válidos
    if ($http_user_agent ~* "Googlebot") {
        if ($remote_addr !~ ^66\.249\. &&
            $remote_addr !~ ^192\.178\. &&
            $remote_addr !~ ^34\.(100|101|118|126|147|151|152|154|155|165|175|176|22|64|65|80|88|89|96)\.) {
            return 403;
        }
    }

    ...
}
Lenguaje del código: PHP (php)

🧪 Verifica el bloqueo

Ejecuta:

curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.com
Lenguaje del código: JavaScript (javascript)

Y deberías obtener:

Artículos relacionados

Optimización en bases de datos de WordPress: Aumentando el rendimiento 🚀

29 septiembre 2023

Cómo enviar un email a un autor cuando sus artículos son publicados

2 enero 2019

¿Qué novedades trae la nueva versión de WordPress 5.1?

25 febrero 2019

Plugin que analiza el rendimiento de tus plugins en WordPress

10 abril 2012
HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

🧩 Recomendaciones extra

  • ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
  • Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
  • Iptables: Para reglas a nivel de red si los intentos persisten.
  • Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.
Tags: botsscrapy
ShareTweetSendSharePin
Editor WPDirecto

Editor WPDirecto

Editor de WPDirecto potenciado con IA con el apoyo del equipo de edición.

Te puede interesar...

Plugins

Optimiza la gestión de usuarios en WordPress con Index WP Users For Speed

4 junio 2025

En sitios web con miles de usuarios registrados, el panel de administración de WordPress...

Noticias

Automattic regresa con fuerza al núcleo de WordPress tras meses de pausa estratégica

2 junio 2025

La compañía matriz del CMS más utilizado del mundo anuncia su vuelta activa al...

Noticias

WordPress cumple 22 años entre luces y sombras: ¿celebración o señal de alarma?

30 mayo 2025

El pasado 27 de mayo se celebró el 22º aniversario del lanzamiento de la...

Plugins

Elementor lanza la Alpha del Editor V4: así será la nueva era del diseño web con WordPress

29 mayo 2025

La plataforma de creación web más popular en WordPress presenta una versión preliminar de...

Comments 2

  1. Angel says:
    2 días ago

    Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.

    Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]

    Bloque con 403.

    Un saludo.

    Responder
    • Editor WPDirecto says:
      2 días ago

      Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.

      Responder

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

No Result
View All Result
Plugin Imagify, optimizar imágenes
wordpress hosting NVME
Elegant Themes WordPress
elementor editor plugin




Últimos artículos

Cómo insertar suscriptores en una lista de Acumbamail mediante un formulario creado con Gravity Forms sin utilizar plugins

6 febrero 2020

¿Qué novedades trae la nueva versión de WordPress 5.7?

17 marzo 2021

Plugins más populares para SEO y Social Media

23 diciembre 2015

¿Por qué no encuentro el fichero htaccess en mi WordPress?

14 abril 2018

Cómo desactivar las actualizaciones automáticas en WordPress

28 mayo 2020
WordPress Directo

WPDirecto.com es una revista especializada en WordPress y WooCommerce que ofrece una amplia gama de recursos, incluyendo tutoriales, análisis de plugins y plantillas, consejos de optimización y estrategias de SEO, para ayudar a los usuarios a mejorar y personalizar sus sitios web, manteniéndolos informados sobre las últimas novedades y tendencias en el mundo de WordPress.

Menu

  • Tutoriales
  • Plugins
  • Plantillas
  • Optimización
  • SEO
  • WordPress Hosting

Información

WPDirecto es un medio de Medios y Redes:
  • Artículos patrocinados
  • Servicio de diseño web
  • Contacto
  • Acerca de MyR
  • Política de privacidad y cookies
  • Aviso Legal

© 1995-2025 Color Vivo Internet, SLU (Medios y Redes Online).. Otros contenidos se cita fuente. Infraestructura cloud servidores dedicados de Stackscale.

No Result
View All Result
  • Tutoriales
  • Plugins
  • Plantillas
  • Optimización
  • SEO
  • WordPress Hosting

© 1995-2025 Color Vivo Internet, SLU (Medios y Redes Online).. Otros contenidos se cita fuente. Infraestructura cloud servidores dedicados de Stackscale.