ProdutosIntegraçõesRecursosDocumentaçãoPreços
Começar agora

© 2026 CapSolver. All rights reserved.

Contacte-nos

Slack: lola@capsolver.com

Produtos

  • reCAPTCHA v2
  • reCAPTCHA v3
  • Cloudflare Turnstile
  • Cloudflare Challenge
  • AWS WAF
  • Extensão de Navegador
  • Mais tipos de CAPTCHA

Integrações

  • Selenium
  • Playwright
  • Puppeteer
  • n8n
  • Parceiros
  • Ver todas as integrações

Recursos

  • Programa de Referenciação
  • Documentação
  • Referência da API
  • Blog
  • FAQ
  • Glossário
  • Estado

Legal

  • Termos de Serviço
  • Política de Privacidade
  • Política de Reembolso
  • Não vender os meus dados pessoais
Blog/All/Como usar o ScrapeGraph AI para Web Scraping
Sep05, 2024

Como usar o ScrapeGraph AI para Web Scraping

Aloísio Vítor

Aloísio Vítor

Image Processing Expert

Como Usar o ScrapeGraph AI para Web Scraping

O que é o ScrapeGraph AI?

ScrapeGraph AI é uma biblioteca Python de web scraping que utiliza LLMs e lógica baseada em grafos para construir pipelines de scraping para sites e documentos locais (incluindo XML, HTML, JSON, Markdown e mais). Basta especificar os dados que você deseja extrair, e a biblioteca cuidará do resto!

A biblioteca oferece vários recursos:

  • Suporte a vários LLMs: GPT, Gemini, Groq, Azure, Hugging Face
  • Modelos locais: Ollama.
  • Suporte a proxy para lidar com solicitações atrás de proxies.

Pré-requisitos

Antes de mergulhar no uso do ScrapeGraph AI, certifique-se de ter o seguinte instalado:

bash Copy
pip install scrapegraphai capsolver

playwright install

Começando com o ScrapeGraph AI

Aqui está um exemplo básico de como usar o ScrapeGraph AI com o OpenAI para raspar uma página da web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liste todas as citações com sua descrição",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Aqui está um exemplo básico de como usar o ScrapeGraph AI com LLM Local (Ollama) para raspar uma página da web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.1",
        "temperature": 0,
        "format": "json",  # Ollama precisa que o formato seja especificado explicitamente
        # "base_url": "http://localhost:11434", # define o URL do ollama arbitrariamente
    },
    "verbose": True,
    "headless": False
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liste todas as citações com sua descrição",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Lidando com Captchas com CapSolver e ScrapeGraph AI

Nesta seção, exploraremos como integrar o Capsolver com o ScrapeGraph AI para contornar captchas. CapSolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo o ReCaptcha V2, que é comumente usado em sites.

Demonstraremos a resolução do ReCaptcha V2 usando o Capsolver e, em seguida, faremos o scraping do conteúdo de uma página que exige a resolução do captcha primeiro.

Código Bônus

Pegue seu Código Bônus para as melhores soluções de captcha; CapSolver: scrape. Após resgatá-lo, você receberá um bônus extra de 5% após cada recarga, Ilimitado

Exemplo: Resolvendo ReCaptcha V2 com Capsolver e ScrapeGraph AI

python Copy
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph

# Considere o uso de variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("Resolvendo reCaptcha v2")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("Solução: ", solution)

# Define a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Encontre a descrição de cada citação.",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Conclusão

Com o ScrapeGraph AI, você pode raspar sites de forma eficiente, enquanto lida com as complexidades de proxies e captchas. Combiná-lo com o Capsolver permite que você contorne os desafios do ReCaptcha V2 sem problemas, permitindo acesso a conteúdo que, de outra forma, seria difícil de raspar.

Sinta-se à vontade para estender este script para atender às suas necessidades de scraping e experimentar recursos adicionais oferecidos pelo ScrapeGraph AI. Sempre certifique-se de que suas atividades de scraping respeitem os termos de serviço do site e as diretrizes legais.

Feliz scraping!

Ver mais

May 06, 2026

Como resolver o desafio do AWS WAF sem um navegador: Um guia técnico

Aprenda como resolver desafios do AWS WAF e CAPTCHAs sem um navegador. Utilize a API do CapSolver para gerar tokens e contornar códigos de status 405.

Adélia Cruz
Adélia Cruz
Apr 30, 2026

Web Scraping no Linux: Ferramentas, Configuração & Guia Prático

Configure a raspagem de web no Linux com Python, proxies e tratamento de CAPTCHA. Um guia prático para desenvolvedores que aborda Scrapy, Playwright, CapSolver e pipelines de dados.

Adélia Cruz
Adélia Cruz

Índice

Apr 30, 2026

Erro do Cloudflare 1020: Acesso Negado em Web Scraping & Proteção WAF

Aprenda o que causa o erro 1020 Acesso Negado do Cloudflare, como o Firewall de Aplicação Web e a detecção de bots funcionam e como os desenvolvedores podem reduzir falsos positivos em fluxos de trabalho de automação legítimos.

Adélia Cruz
Adélia Cruz
Apr 29, 2026

Melhores Extensões de Resolvedor Automático de CAPTCHA para Chrome em 2026

Descubra as melhores extensões do Chrome para resolver CAPTCHA automaticamente em 2026. Compare o CapSolver, o NopeCHA e o SolveCaptcha por velocidade, tipos suportados e privacidade para encontrar a opção certa.

Adélia Cruz
Adélia Cruz