CAPSOLVER
Blog
Como usar o ScrapeGraph AI para Web Scraping

Como usar o ScrapeGraph AI para Web Scraping

Logo of CapSolver

Aloísio Vítor

Image Processing Expert

04-Sep-2024

Como Usar o ScrapeGraph AI para Web Scraping

O que é o ScrapeGraph AI?

ScrapeGraph AI é uma biblioteca Python de web scraping que utiliza LLMs e lógica baseada em grafos para construir pipelines de scraping para sites e documentos locais (incluindo XML, HTML, JSON, Markdown e mais). Basta especificar os dados que você deseja extrair, e a biblioteca cuidará do resto!

A biblioteca oferece vários recursos:

  • Suporte a vários LLMs: GPT, Gemini, Groq, Azure, Hugging Face
  • Modelos locais: Ollama.
  • Suporte a proxy para lidar com solicitações atrás de proxies.

Pré-requisitos

Antes de mergulhar no uso do ScrapeGraph AI, certifique-se de ter o seguinte instalado:

bash Copy
pip install scrapegraphai capsolver

playwright install

Começando com o ScrapeGraph AI

Aqui está um exemplo básico de como usar o ScrapeGraph AI com o OpenAI para raspar uma página da web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liste todas as citações com sua descrição",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Aqui está um exemplo básico de como usar o ScrapeGraph AI com LLM Local (Ollama) para raspar uma página da web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.1",
        "temperature": 0,
        "format": "json",  # Ollama precisa que o formato seja especificado explicitamente
        # "base_url": "http://localhost:11434", # define o URL do ollama arbitrariamente
    },
    "verbose": True,
    "headless": False
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liste todas as citações com sua descrição",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Lidando com Captchas com CapSolver e ScrapeGraph AI

Nesta seção, exploraremos como integrar o Capsolver com o ScrapeGraph AI para contornar captchas. CapSolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo o ReCaptcha V2, que é comumente usado em sites.

Demonstraremos a resolução do ReCaptcha V2 usando o Capsolver e, em seguida, faremos o scraping do conteúdo de uma página que exige a resolução do captcha primeiro.

Código Bônus

Pegue seu Código Bônus para as melhores soluções de captcha; CapSolver: scrape. Após resgatá-lo, você receberá um bônus extra de 5% após cada recarga, Ilimitado

Exemplo: Resolvendo ReCaptcha V2 com Capsolver e ScrapeGraph AI

python Copy
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph

# Considere o uso de variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("Resolvendo reCaptcha v2")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("Solução: ", solution)

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Encontre a descrição de cada citação.",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Conclusão

Com o ScrapeGraph AI, você pode raspar sites de forma eficiente, enquanto lida com as complexidades de proxies e captchas. Combiná-lo com o Capsolver permite que você contorne os desafios do ReCaptcha V2 sem problemas, permitindo acesso a conteúdo que, de outra forma, seria difícil de raspar.

Sinta-se à vontade para estender este script para atender às suas necessidades de scraping e experimentar recursos adicionais oferecidos pelo ScrapeGraph AI. Sempre certifique-se de que suas atividades de scraping respeitem os termos de serviço do site e as diretrizes legais.

Feliz scraping!

Declaração de Conformidade: As informações fornecidas neste blog são apenas para fins informativos. A CapSolver está comprometida em cumprir todas as leis e regulamentos aplicáveis. O uso da rede CapSolver para atividades ilegais, fraudulentas ou abusivas é estritamente proibido e será investigado. Nossas soluções de resolução de captcha melhoram a experiência do usuário enquanto garantem 100% de conformidade ao ajudar a resolver dificuldades de captcha durante a coleta de dados públicos. Incentivamos o uso responsável de nossos serviços. Para mais informações, visite nossos Termos de Serviço e Política de Privacidade.

Mais

Relevância AI com CapSolver
Como resolver reCAPTCHA v2 no Relevance AI com integração da CapSolver

Construa uma ferramenta da Relevance AI para resolver reCAPTCHA v2 usando o CapSolver. Automatize os envios de formulários via API sem automação de navegador.

web scraping
Logo of CapSolver

Adélia Cruz

03-Feb-2026

Ferramentas de Raspagem de Dados Instantâneas: Formas Rápidas de Extrair Dados da Web Sem Código
Ferramentas de Raspagem de Dados Instantâneas: Métodos Rápidos para Extrair Dados da Web Sem Código

Descubra as melhores ferramentas de raspagem de dados instantâneas para 2026. Aprenda formas rápidas de extrair dados da web sem código usando as melhores extensões e APIs para extração automatizada.

web scraping
Logo of CapSolver

Emma Foster

28-Jan-2026

Top 9 Frameworks de Agente de IA em 2026
Top 9 Frameworks de Agentes de IA em 2026

Descubra os 9 principais frameworks de agentes de IA para 2026, incluindo CrewAI, AutoGen e LangGraph. Aprenda como escolher o melhor framework para orquestração de agentes multi e desenvolvimento de agentes autônomos, e descubra ferramentas essenciais para interação web no mundo real.

AI
Logo of CapSolver

Sora Fujimoto

26-Jan-2026

Uso do Navegador vs Browserbase: Qual Ferramenta de Automação de Navegador é Melhor para Agentes de IA?
Uso do Navegador vs Browserbase: Qual Ferramenta de Automação de Navegador é Melhor para Agentes de IA?

Compare o uso do navegador vs Browserbase para automação de agentes de IA. Descubra funcionalidades, preços e como resolver CAPTCHAs com o CapSolver para fluxos de trabalho sem interrupções.

AI
Logo of CapSolver

Adélia Cruz

26-Jan-2026

Bloqueios de IP em 2026: Como Funcionam e Formas Práticas para Bypassar os Bloqueios
Bloqueios de IP em 2026: Como Funcionam e Métodos Práticos para Contornar Eles

Aprenda como burlar o banimento de IP em 2026 com nosso guia abrangente. Descubra técnicas modernas de bloqueio de IP e soluções práticas como proxies residenciais e solucionadores de CAPTCHA.

web scraping
Logo of CapSolver

Adélia Cruz

26-Jan-2026

Maxun com Integração CapSolver
Como resolver Captcha no Maxun com Integração do CapSolver

Um guia prático para integrar o CapSolver com o Maxun para raspagem de web realista. Aprenda como lidar com reCAPTCHA, Cloudflare Turnstile e sites protegidos por CAPTCHA usando fluxos de trabalho de pré-autenticação e robô.

web scraping
Logo of CapSolver

Adélia Cruz

21-Jan-2026