CAPSOLVER
Blog
Como usar Hrequests para Web Scraping

Como usar Hrequests para Web Scraping

Logo of CapSolver

Lucas Mitchell

Automation Engineer

04-Sep-2024

Como usar Hrequests para Web Scraping

Web scraping é uma maneira poderosa de extrair informações de sites, mas geralmente é um desafio quando os sites implementam captchas, limitação de taxa ou proxies para bloquear raspadores indesejados. Neste guia, apresentaremos o hrequests, uma biblioteca de web scraping de alto desempenho, e o guiaremos por seu uso básico, incluindo uma demonstração para raspar um site usando hrequests em combinação com o Capsolver para contornar os desafios do ReCaptcha.

O que é hrequests?

hrequests é uma biblioteca HTTP Python moderna, construída para velocidade e flexibilidade, projetada para lidar com tarefas pesadas de web scraping. Essencialmente, é uma versão aprimorada de solicitações, com uma ênfase mais forte no tratamento de solicitações com mais controle, especialmente em ambientes que exigem manipulação adicional de proxy ou captcha.

A biblioteca oferece vários recursos:

  • Suporte a Asyncio para fazer solicitações simultâneas.
  • Gerenciamento de sessão para reutilizar conexões de forma eficiente.
  • Suporte a proxy para lidar com solicitações por trás de proxies.
  • Suporte de limitação de taxa para evitar ser bloqueado.
  • Suporte de resolução de captcha por meio de serviços externos.

Pré-requisitos

Antes de mergulhar no uso do hrequests, certifique-se de que os seguintes itens estão instalados:

bash Copy
pip install hrequests capsolver

Certifique-se também de ter uma chave de API Capsolver para resolver captchas se o site que você está raspando exigir isso. Para obter instruções de configuração detalhadas, visite a página do hrequests no GitHub.

Começando com hrequests

Aqui está um exemplo básico de como usar o hrequests para raspar uma página da web:

python Copy
import hrequests

# URL da página da web que queremos raspar
url = 'https://example.com'

# Faça uma simples solicitação GET
response = hrequests.get(url)

# Imprima o código de status
python Copy
print(f"Código de Status: {response.status_code}")

# Imprime o conteúdo da página
print(f"Conteúdo da Página: {response.text}")

Este script básico faz uma solicitação GET para a URL fornecida e imprime o código de status e o conteúdo da página. No entanto, muitos sites são mais complexos e exigem tratamento adicional, como rotação de proxy, falsificação de agente de usuário ou resolução de captcha.

Lidando com captchas com Capsolver e hrequests

Nesta seção, exploraremos como integrar o Capsolver com hrequests para contornar captchas. O Capsolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo ReCaptcha V2, que é comumente usado em sites.

Demonstraremos como resolver o ReCaptcha V2 usando o Capsolver e, em seguida, raspar o conteúdo de uma página que requer a resolução do captcha primeiro.

Exemplo: Resolvendo ReCaptcha V2 com Capsolver

python Copy
import capsolver
import hrequests
import os

# Considere usar variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Sua Chave de API Capsolver")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("Resolvendo reCaptcha v2")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("Solução: ", solution)

    # Agora que resolvemos o captcha, podemos prosseguir com a raspagem
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }

    # Enviando uma solicitação GET com a solução de captcha
    response = hrequests.get(
        PAGE_URL, 
        headers=headers, 
        data={"g-recaptcha-response": solution},
python Copy
proxies = {"http": PROXY, "https": PROXY}
    )

    # Verificando o status e imprimindo o conteúdo da página
    if response.status_code == 200:
        print("Página recuperada com sucesso!")
        print(response.text)
    else:
        print(f"Falha ao recuperar a página. Código de status: {response.status_code}")

if __name__ == "__main__":
    main()

Sinta-se à vontade para estender este script para atender às suas necessidades de raspagem e experimentar recursos adicionais oferecidos pelo hrequests. Sempre certifique-se de que suas atividades de raspagem respeitem os termos de serviço do site e as diretrizes legais.

Feliz raspagem!

Declaração de Conformidade: As informações fornecidas neste blog são apenas para fins informativos. A CapSolver está comprometida em cumprir todas as leis e regulamentos aplicáveis. O uso da rede CapSolver para atividades ilegais, fraudulentas ou abusivas é estritamente proibido e será investigado. Nossas soluções de resolução de captcha melhoram a experiência do usuário enquanto garantem 100% de conformidade ao ajudar a resolver dificuldades de captcha durante a coleta de dados públicos. Incentivamos o uso responsável de nossos serviços. Para mais informações, visite nossos Termos de Serviço e Política de Privacidade.

Mais

Bloqueios de IP em 2026: Como Funcionam e Formas Práticas para Bypassar os Bloqueios
Bloqueios de IP em 2026: Como Funcionam e Métodos Práticos para Contornar Eles

Aprenda como burlar o banimento de IP em 2026 com nosso guia abrangente. Descubra técnicas modernas de bloqueio de IP e soluções práticas como proxies residenciais e solucionadores de CAPTCHA.

web scraping
Logo of CapSolver

Adélia Cruz

26-Jan-2026

Maxun com Integração CapSolver
Como resolver Captcha no Maxun com Integração do CapSolver

Um guia prático para integrar o CapSolver com o Maxun para raspagem de web realista. Aprenda como lidar com reCAPTCHA, Cloudflare Turnstile e sites protegidos por CAPTCHA usando fluxos de trabalho de pré-autenticação e robô.

web scraping
Logo of CapSolver

Adélia Cruz

21-Jan-2026

Melhores Ferramentas de Extração de Dados para Usar em 2026 (Comparação Completa)
Melhores Ferramentas de Extração de Dados para Usar em 2026 (Comparação Completa)

Descubra as melhores ferramentas de extração de dados para 2026. Compare as principais plataformas de raspagem de web, ETL e com inteligência artificial para automatizar sua coleta de dados e fluxos de trabalho de IA.

Logo of CapSolver

Adélia Cruz

21-Jan-2026

Browser4 com Integração do CapSolver
Como resolver Captcha no Browser4 com integração do CapSolver

Automação do Browser4 de alto throughput combinada com o CapSolver para lidar com desafios de CAPTCHA na extração de dados da web em larga escala.

web scraping
Logo of CapSolver

Adélia Cruz

21-Jan-2026

Melhores 7 Ferramentas de Agentes de IA
Melhores 7 Ferramentas de Agentes de IA para Automação da Web em 2026

Descubra os Melhores 7 Ferramentas de Agentes de IA para Automação Web em 2026. Revisamos CrewAI, MultiOn e mais, classificando-as pelo desempenho em ambientes reais e resiliência para agentes de IA em produção.

ai
Logo of CapSolver

Adélia Cruz

20-Jan-2026

Resolva captchas ilimitados com o melhor solucionador de captchas
Resolva Captchas Ilimitados com o Melhor Solucionador de Captcha

Aprenda a resolver sem problemas captchas ilimitados com o melhor solver de captchas, um guia detalhado sobre como configurar e automatizar soluções de captchas de forma eficaz

reCAPTCHA
Logo of CapSolver

Sora Fujimoto

20-Jan-2026