Sep12, 2024

Cómo manejar múltiples desafíos de reCAPTCHA de forma concurrente

Aloísio Vítor

Image Processing Expert

Cuando se realiza el raspado web, uno de los obstáculos comunes que se pueden encontrar son los desafíos de CAPTCHA. Los sitios web a menudo usan CAPTCHA para evitar que los bots accedan a su contenido. CAPTCHA (Prueba de Turing pública completamente automatizada para distinguir entre computadoras y humanos) es una técnica ampliamente utilizada para garantizar que el usuario sea humano, no un bot automatizado.

En esta guía, discutiremos los diferentes tipos de desafíos de reCAPTCHA, cómo identificarlos utilizando herramientas y, finalmente, cómo resolver múltiples desafíos de reCAPTCHA de forma concurrente usando Python y threading.

¿Qué es el raspado web?

WebScraping es el proceso de extraer datos de sitios web. A menudo se utiliza para tareas como recopilar precios de sitios web de comercio electrónico, recopilar artículos de noticias o agregar información de diversas fuentes web. El raspado implica realizar solicitudes HTTP a un sitio web y analizar los datos de la respuesta. Sin embargo, muchos sitios web utilizan CAPTCHA para evitar el acceso automatizado.

Tipos de desafíos de reCAPTCHA

reCAPTCHA v2

reCAPTCHA V2, este tipo de CAPTCHA es el más utilizado y aparece como un desafío de "casilla de verificación" etiquetado como "No soy un robot". Puede pedirle al usuario que seleccione ciertas imágenes para verificar que es humano.

reCAPTCHA v3

reCAPTCHA V3 funciona en segundo plano, calificando las interacciones del usuario para detectar un comportamiento similar al de un bot. Este sistema está diseñado para evitar interrumpir la experiencia del usuario proporcionando una puntuación al sitio web, que se puede utilizar para bloquear bots o requerir pasos de verificación adicionales.

reCAPTCHA invisible

reCAPTCHA invisible es una versión más fácil de usar de reCAPTCHA v2, donde el desafío solo aparece si el sistema sospecha un comportamiento similar al de un bot.

Identificando los tipos de CAPTCHA

Instalación

Para identificar el tipo de CAPTCHA que se utiliza en un sitio web, puede utilizar las siguientes herramientas:

Usuarios de Chrome: Instale la extensión Captcha Solver Auto Solve.
Usuarios de Firefox: Instale la versión de FireFox de Captcha Solver Auto Solver.

Configuración de Capsolver

Capsolver es un servicio que le permite resolver desafíos de CAPTCHA mediante programación. Para detectar parámetros de CAPTCHA:

Vaya a Capsolver.
Presione la tecla "F12" en su teclado para abrir las herramientas para desarrolladores en su navegador.
Navegue a la pestaña etiquetada Detector de CAPTCHA de Capsolver.

Detección de CAPTCHA

Una vez que haya configurado Capsolver, siga estos pasos para detectar parámetros de CAPTCHA:

Sin cerrar el panel de Capsolver, visite el sitio web donde desea activar el CAPTCHA.
Active el CAPTCHA manualmente.
Asegúrese de no cerrar el panel de Capsolver antes de activar el CAPTCHA.

Detección de reCAPTCHA

El detector de CAPTCHA de Capsolver puede devolver información detallada sobre reCAPTCHA:

Parámetros clave para reCAPTCHA:

URL del sitio web
Clave del sitio
pageAction
isInvisible
isEnterprise
isSRequired
isReCaptchaV3
Dominio de la API

Una vez que se detecten estos parámetros, Capsolver devolverá un objeto JSON con todos los detalles necesarios para enviar el CAPTCHA a su servicio.

Parámetros del solucionador de reCaptcha

Resolver múltiples desafíos de reCAPTCHA de forma concurrente

Cuando trabaja en proyectos de raspado web, resolver CAPTCHA puede llevar mucho tiempo, especialmente cuando necesita resolver múltiples CAPTCHA simultáneamente. Aquí se explica cómo puede automatizar la resolución de múltiples desafíos de reCAPTCHA de forma concurrente utilizando Python.

Ejemplo: resolver múltiples desafíos de reCAPTCHA v2

python Copy

import capsolver
import threading

capsolver.api_key = "Su clave de API de Capsolver"
PAGE_URL = "PAGE_URL"
PAGE_KEY = "PAGE_SITE_KEY"

def solve_recaptcha_v2():
    solution = capsolver.solve({
        "type": "ReCaptchaV2TaskProxyless",
        "websiteURL": PAGE_URL,
        "websiteKey": PAGE_KEY,
    })
    return solution

def solve_recaptcha_task(result_list, index):
    result = solve_recaptcha_v2()
    result_list[index] = result

def solve_multiple_recaptchas(num_tasks):
    threads = []
    results = [None] * num_tasks

    for i in range(num_tasks):
        thread = threading.Thread(target=solve_recaptcha_task, args=(results, i))
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()

    return results

def main():
    num_tasks = 10  # Número de tareas simultáneas
    print(f"Resolviendo {num_tasks} tareas de reCaptcha v2 simultáneamente")
    solutions = solve_multiple_recaptchas(num_tasks)
    for i, solution in enumerate(solutions):
        print(f"Solución {i+1}: {solution}")

if __name__ == "__main__":
    main()

Resolver múltiples desafíos de reCAPTCHA v3

El proceso para resolver reCAPTCHA v3 es bastante similar a v2, pero deberá ajustar el tipo de CAPTCHA en consecuencia.

python Copy

```python
import capsolver
import threading

capsolver.api_key = "Su clave de API de Capsolver"
PAGE_URL = "PAGE_URL"
PAGE_KEY = "PAGE_SITE_KEY"

def solve_recaptcha_v3():
    solution = capsolver.solve({
        "type": "ReCaptchaV3TaskProxyless",
        "websiteURL": PAGE_URL,
        "websiteKey": PAGE_KEY,
    })
    return solution

def solve_recaptcha_task(result_list, index):
    result = solve_recaptcha_v3()
    result_list[index] = result

def solve_multiple_recaptchas(num_tasks):
    threads = []
    results = [None] * num_tasks

    for i in range(num_tasks):
        thread = threading.Thread(target=solve_recaptcha_task, args=(results, i))
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()

    return results

def main():
    num_tasks = 10  # Número de tareas simultáneas
    print(f"Resolviendo {num_tasks} tareas de reCaptcha v3 simultáneamente")
    solutions = solve_multiple_recaptchas(num_tasks)
    for i, solution in enumerate(solutions):
        print(f"Solución {i+1}: {solution}")

if __name__ == "__main__":
    main()

Resolver múltiples desafíos de reCAPTCHA v3

El proceso para resolver reCAPTCHA v3 es bastante similar a v2, pero deberá ajustar el tipo de CAPTCHA en consecuencia.

python Copy

```python
import capsolver
import threading

capsolver.api_key = "Su clave de API de Capsolver"
PAGE_URL = "PAGE_URL"
PAGE_KEY = "PAGE_SITE_KEY"

def solve_recaptcha_v3():
    solution = capsolver.solve({
        "type": "ReCaptchaV3TaskProxyless",
        "websiteURL": PAGE_URL,
        "websiteKey": PAGE_KEY,
    })
    return solution

def solve_recaptcha_task(result_list, index):
    result = solve_recaptcha_v3()
    result_list[index] = result

def solve_multiple_recaptchas(num_tasks):
    threads = []
    results = [None] * num_tasks

    for i in range(num_tasks):
        thread = threading.Thread(target=solve_recaptcha_task, args=(results, i))
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()

    return results

def main():
    num_tasks = 10  # Número de tareas simultáneas
    print(f"Resolviendo {num_tasks} tareas de reCaptcha v3 simultáneamente")
    solutions = solve_multiple_recaptchas(num_tasks)
    for i, solution in enumerate(solutions):
        print(f"Solución {i+1}: {solution}")

if __name__ == "__main__":
    main()

Resolver desafíos de reCAPTCHA v3 y reCAPTCHA v2

python Copy

import capsolver

# Considere el uso de variables de entorno para información confidencial
capsolver.api_key = "Su clave de API de Capsolver"
PAGE_URL_V2 = "PAGE_URL"
PAGE_KEY_V2 = "PAGE_SITE_KEY"
PAGE_URL_V3 = "PAGE_URL"
PAGE_KEY_V3 = "PAGE_SITE_KEY"

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2TaskProxyless",
        "websiteURL": url,
        "websiteKey": key,
    })
    return solution

def solve_recaptcha_v3(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV3TaskProxyless",
        "websiteURL": url,
        "websiteKey": key,
        "minScore": 0.5  # Ajuste la puntuación mínima si es necesario
    })
    return solution

def main():
    print("Resolviendo reCaptcha v2")
    solution_v2 = solve_recaptcha_v2(PAGE_URL_V2, PAGE_KEY_V2)
    print("Solución (v2): ", solution_v2)

    print("Resolviendo reCaptcha v3")
    solution_v3 = solve_recaptcha_v3(PAGE_URL_V3, PAGE_KEY_V3)
    print("Solución (v3): ", solution_v3)

if __name__ == "__main__":
    main()

Código de bonificación

Reclame su Código de bonificación para las mejores soluciones de captcha; CapSolver: scrape. Después de canjearlo, obtendrá un bono adicional del 5% después de cada recarga, Ilimitado

Para obtener más información, lea este blog

Conclusión

Manejar múltiples desafíos de CAPTCHA es una habilidad importante para cualquiera que trabaje en el raspado web, especialmente a medida que los sitios web aumentan sus medidas de seguridad. Con herramientas como Capsolver y el poder del threading de Python, puede automatizar de manera eficiente la resolución de desafíos de CAPTCHA, asegurando procesos de raspado más fluidos para sus proyectos.

Cómo manejar múltiples desafíos de reCAPTCHA de forma concurrente

¿Qué es el raspado web?

Tipos de desafíos de reCAPTCHA

reCAPTCHA v2

reCAPTCHA v3

reCAPTCHA invisible

Identificando los tipos de CAPTCHA

Instalación

Configuración de Capsolver

Detección de CAPTCHA

Detección de reCAPTCHA

Resolver múltiples desafíos de reCAPTCHA de forma concurrente

Ejemplo: resolver múltiples desafíos de reCAPTCHA v2

Resolver múltiples desafíos de reCAPTCHA v3

Resolver múltiples desafíos de reCAPTCHA v3

Resolver desafíos de reCAPTCHA v3 y reCAPTCHA v2

Código de bonificación

Conclusión

Cómo manejar múltiples desafíos de reCAPTCHA de forma concurrente

¿Qué es el raspado web?

Tipos de desafíos de reCAPTCHA

reCAPTCHA v2

reCAPTCHA v3

reCAPTCHA invisible

Identificando los tipos de CAPTCHA

Instalación

Configuración de Capsolver

Detección de CAPTCHA

Detección de reCAPTCHA

Resolver múltiples desafíos de reCAPTCHA de forma concurrente

Ejemplo: resolver múltiples desafíos de reCAPTCHA v2

Resolver múltiples desafíos de reCAPTCHA v3

Resolver múltiples desafíos de reCAPTCHA v3

Resolver desafíos de reCAPTCHA v3 y reCAPTCHA v2

Código de bonificación

Conclusión

Ver más

¿Clave de sitio o token inválido? Causas y guía de solución

Cómo resolver reCAPTCHA v2 Python y API

Cómo automatizar la resolución de reCAPTCHA para plataformas de benchmarking de IA

Cómo solucionar problemas comunes de reCAPTCHA en el scraping web