Como usar o ScrapeGraph AI para Web Scraping

Aloísio Vítor
Image Processing Expert
04-Sep-2024
Como Usar o ScrapeGraph AI para Web Scraping
O que é o ScrapeGraph AI?
ScrapeGraph AI é uma biblioteca Python de web scraping que utiliza LLMs e lógica baseada em grafos para construir pipelines de scraping para sites e documentos locais (incluindo XML, HTML, JSON, Markdown e mais). Basta especificar os dados que você deseja extrair, e a biblioteca cuidará do resto!
A biblioteca oferece vários recursos:
- Suporte a vários LLMs: GPT, Gemini, Groq, Azure, Hugging Face
- Modelos locais: Ollama.
- Suporte a proxy para lidar com solicitações atrás de proxies.
Pré-requisitos
Antes de mergulhar no uso do ScrapeGraph AI, certifique-se de ter o seguinte instalado:
bash
pip install scrapegraphai capsolver
playwright install
Começando com o ScrapeGraph AI
Aqui está um exemplo básico de como usar o ScrapeGraph AI com o OpenAI para raspar uma página da web:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liste todas as citações com sua descrição",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Aqui está um exemplo básico de como usar o ScrapeGraph AI com LLM Local (Ollama) para raspar uma página da web:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama precisa que o formato seja especificado explicitamente
# "base_url": "http://localhost:11434", # define o URL do ollama arbitrariamente
},
"verbose": True,
"headless": False
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liste todas as citações com sua descrição",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Lidando com Captchas com CapSolver e ScrapeGraph AI
Nesta seção, exploraremos como integrar o Capsolver com o ScrapeGraph AI para contornar captchas. CapSolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo o ReCaptcha V2, que é comumente usado em sites.
Demonstraremos a resolução do ReCaptcha V2 usando o Capsolver e, em seguida, faremos o scraping do conteúdo de uma página que exige a resolução do captcha primeiro.
Código Bônus
Pegue seu Código Bônus para as melhores soluções de captcha; CapSolver: scrape. Após resgatá-lo, você receberá um bônus extra de 5% após cada recarga, Ilimitado

Exemplo: Resolvendo ReCaptcha V2 com Capsolver e ScrapeGraph AI
python
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# Considere o uso de variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("Resolvendo reCaptcha v2")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("Solução: ", solution)
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Encontre a descrição de cada citação.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Conclusão
Com o ScrapeGraph AI, você pode raspar sites de forma eficiente, enquanto lida com as complexidades de proxies e captchas. Combiná-lo com o Capsolver permite que você contorne os desafios do ReCaptcha V2 sem problemas, permitindo acesso a conteúdo que, de outra forma, seria difícil de raspar.
Sinta-se à vontade para estender este script para atender às suas necessidades de scraping e experimentar recursos adicionais oferecidos pelo ScrapeGraph AI. Sempre certifique-se de que suas atividades de scraping respeitem os termos de serviço do site e as diretrizes legais.
Feliz scraping!
Declaração de Conformidade: As informações fornecidas neste blog são apenas para fins informativos. A CapSolver está comprometida em cumprir todas as leis e regulamentos aplicáveis. O uso da rede CapSolver para atividades ilegais, fraudulentas ou abusivas é estritamente proibido e será investigado. Nossas soluções de resolução de captcha melhoram a experiência do usuário enquanto garantem 100% de conformidade ao ajudar a resolver dificuldades de captcha durante a coleta de dados públicos. Incentivamos o uso responsável de nossos serviços. Para mais informações, visite nossos Termos de Serviço e Política de Privacidade.
Mais

Como resolver reCAPTCHA v2 no Relevance AI com integração da CapSolver
Construa uma ferramenta da Relevance AI para resolver reCAPTCHA v2 usando o CapSolver. Automatize os envios de formulários via API sem automação de navegador.

Adélia Cruz
03-Feb-2026

Ferramentas de Raspagem de Dados Instantâneas: Métodos Rápidos para Extrair Dados da Web Sem Código
Descubra as melhores ferramentas de raspagem de dados instantâneas para 2026. Aprenda formas rápidas de extrair dados da web sem código usando as melhores extensões e APIs para extração automatizada.

Emma Foster
28-Jan-2026

Top 9 Frameworks de Agentes de IA em 2026
Descubra os 9 principais frameworks de agentes de IA para 2026, incluindo CrewAI, AutoGen e LangGraph. Aprenda como escolher o melhor framework para orquestração de agentes multi e desenvolvimento de agentes autônomos, e descubra ferramentas essenciais para interação web no mundo real.

Sora Fujimoto
26-Jan-2026

Uso do Navegador vs Browserbase: Qual Ferramenta de Automação de Navegador é Melhor para Agentes de IA?
Compare o uso do navegador vs Browserbase para automação de agentes de IA. Descubra funcionalidades, preços e como resolver CAPTCHAs com o CapSolver para fluxos de trabalho sem interrupções.

Adélia Cruz
26-Jan-2026

Bloqueios de IP em 2026: Como Funcionam e Métodos Práticos para Contornar Eles
Aprenda como burlar o banimento de IP em 2026 com nosso guia abrangente. Descubra técnicas modernas de bloqueio de IP e soluções práticas como proxies residenciais e solucionadores de CAPTCHA.

Adélia Cruz
26-Jan-2026

Como resolver Captcha no Maxun com Integração do CapSolver
Um guia prático para integrar o CapSolver com o Maxun para raspagem de web realista. Aprenda como lidar com reCAPTCHA, Cloudflare Turnstile e sites protegidos por CAPTCHA usando fluxos de trabalho de pré-autenticação e robô.

Adélia Cruz
21-Jan-2026

