Como usar Hrequests para Web Scraping

Lucas Mitchell
Automation Engineer
04-Sep-2024
Como usar Hrequests para Web Scraping

Web scraping é uma maneira poderosa de extrair informações de sites, mas geralmente é um desafio quando os sites implementam captchas, limitação de taxa ou proxies para bloquear raspadores indesejados. Neste guia, apresentaremos o hrequests, uma biblioteca de web scraping de alto desempenho, e o guiaremos por seu uso básico, incluindo uma demonstração para raspar um site usando hrequests em combinação com o Capsolver para contornar os desafios do ReCaptcha.
O que é hrequests?
hrequests é uma biblioteca HTTP Python moderna, construída para velocidade e flexibilidade, projetada para lidar com tarefas pesadas de web scraping. Essencialmente, é uma versão aprimorada de solicitações, com uma ênfase mais forte no tratamento de solicitações com mais controle, especialmente em ambientes que exigem manipulação adicional de proxy ou captcha.
A biblioteca oferece vários recursos:
- Suporte a Asyncio para fazer solicitações simultâneas.
- Gerenciamento de sessão para reutilizar conexões de forma eficiente.
- Suporte a proxy para lidar com solicitações por trás de proxies.
- Suporte de limitação de taxa para evitar ser bloqueado.
- Suporte de resolução de captcha por meio de serviços externos.
Pré-requisitos
Antes de mergulhar no uso do hrequests, certifique-se de que os seguintes itens estão instalados:
bash
pip install hrequests capsolver
Certifique-se também de ter uma chave de API Capsolver para resolver captchas se o site que você está raspando exigir isso. Para obter instruções de configuração detalhadas, visite a página do hrequests no GitHub.
Começando com hrequests
Aqui está um exemplo básico de como usar o hrequests para raspar uma página da web:
python
import hrequests
# URL da página da web que queremos raspar
url = 'https://example.com'
# Faça uma simples solicitação GET
response = hrequests.get(url)
# Imprima o código de status
python
print(f"Código de Status: {response.status_code}")
# Imprime o conteúdo da página
print(f"Conteúdo da Página: {response.text}")
Este script básico faz uma solicitação GET para a URL fornecida e imprime o código de status e o conteúdo da página. No entanto, muitos sites são mais complexos e exigem tratamento adicional, como rotação de proxy, falsificação de agente de usuário ou resolução de captcha.
Lidando com captchas com Capsolver e hrequests
Nesta seção, exploraremos como integrar o Capsolver com hrequests para contornar captchas. O Capsolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo ReCaptcha V2, que é comumente usado em sites.
Demonstraremos como resolver o ReCaptcha V2 usando o Capsolver e, em seguida, raspar o conteúdo de uma página que requer a resolução do captcha primeiro.
Exemplo: Resolvendo ReCaptcha V2 com Capsolver
python
import capsolver
import hrequests
import os
# Considere usar variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Sua Chave de API Capsolver")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("Resolvendo reCaptcha v2")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("Solução: ", solution)
# Agora que resolvemos o captcha, podemos prosseguir com a raspagem
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
# Enviando uma solicitação GET com a solução de captcha
response = hrequests.get(
PAGE_URL,
headers=headers,
data={"g-recaptcha-response": solution},
python
proxies = {"http": PROXY, "https": PROXY}
)
# Verificando o status e imprimindo o conteúdo da página
if response.status_code == 200:
print("Página recuperada com sucesso!")
print(response.text)
else:
print(f"Falha ao recuperar a página. Código de status: {response.status_code}")
if __name__ == "__main__":
main()
Sinta-se à vontade para estender este script para atender às suas necessidades de raspagem e experimentar recursos adicionais oferecidos pelo hrequests. Sempre certifique-se de que suas atividades de raspagem respeitem os termos de serviço do site e as diretrizes legais.
Feliz raspagem!
Declaração de Conformidade: As informações fornecidas neste blog são apenas para fins informativos. A CapSolver está comprometida em cumprir todas as leis e regulamentos aplicáveis. O uso da rede CapSolver para atividades ilegais, fraudulentas ou abusivas é estritamente proibido e será investigado. Nossas soluções de resolução de captcha melhoram a experiência do usuário enquanto garantem 100% de conformidade ao ajudar a resolver dificuldades de captcha durante a coleta de dados públicos. Incentivamos o uso responsável de nossos serviços. Para mais informações, visite nossos Termos de Serviço e Política de Privacidade.
Mais

CAPTCHA de IA Funcionada por Grandes Modelos: Por que É Mais Adequada para Cenários Empresariais
Como os modelos visuais de IA estão redefinindo o reconhecimento de CAPTCHA e por que solucionadores de nível corporativo precisam de dados, escala e treinamento personalizado.

Adélia Cruz
13-Mar-2026

WebMCP vs MCP: Qual é a diferença para Agentes de IA?
Explore as diferenças principais entre WebMCP e MCP para agentes de IA, compreendendo seus papéis na automação da web e na interação com dados estruturados. Aprenda como esses protocolos moldam o futuro das capacidades dos agentes de IA.

Emma Foster
13-Mar-2026

OpenClaw vs. Nanobot: Escolhendo Seu Agente de IA para Automação
Compare OpenClaw e Nanobot, dois frameworks de agentes de IA líderes, para automação eficiente. Descubra suas características, desempenho e como o CapSolver melhora suas capacidades.

Anh Tuan
11-Mar-2026

Como resolver CAPTCHA em OpenClaw – Guia passo a passo com a extensão CapSolver
Aprenda como resolver CAPTCHA no OpenClaw usando a extensão do Chrome CapSolver para automatização de navegador de IA sem interrupções.

Adélia Cruz
06-Mar-2026

Automação PicoClaw: Um Guia para a Integração da API CapSolver
Aprenda a integrar o CapSolver com o PicoClaw para resolução automática de CAPTCHA em hardware de borda ultra-leve de $10.

Adélia Cruz
02-Mar-2026

Como resolver Captcha no Nanobot com CapSolver
Automatize a resolução de CAPTCHA com o Nanobot e o CapSolver. Use o Playwright para resolver reCAPTCHA e o Cloudflare de forma autônoma.

Adélia Cruz
02-Mar-2026

