
Aloísio Vítor
Image Processing Expert
ScrapeGraph AI é uma biblioteca Python de web scraping que utiliza LLMs e lógica baseada em grafos para construir pipelines de scraping para sites e documentos locais (incluindo XML, HTML, JSON, Markdown e mais). Basta especificar os dados que você deseja extrair, e a biblioteca cuidará do resto!
A biblioteca oferece vários recursos:
Antes de mergulhar no uso do ScrapeGraph AI, certifique-se de ter o seguinte instalado:
pip install scrapegraphai capsolver
playwright install
import json
from scrapegraphai.graphs import SmartScraperGraph
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liste todas as citações com sua descrição",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
import json
from scrapegraphai.graphs import SmartScraperGraph
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama precisa que o formato seja especificado explicitamente
# "base_url": "http://localhost:11434", # define o URL do ollama arbitrariamente
},
"verbose": True,
"headless": False
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liste todas as citações com sua descrição",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Nesta seção, exploraremos como integrar o Capsolver com o ScrapeGraph AI para contornar captchas. CapSolver é um serviço externo que ajuda a resolver vários tipos de captchas, incluindo o ReCaptcha V2, que é comumente usado em sites.
Demonstraremos a resolução do ReCaptcha V2 usando o Capsolver e, em seguida, faremos o scraping do conteúdo de uma página que exige a resolução do captcha primeiro.
Pegue seu Código Bônus para as melhores soluções de captcha; CapSolver: scrape. Após resgatá-lo, você receberá um bônus extra de 5% após cada recarga, Ilimitado

import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# Considere o uso de variáveis de ambiente para informações confidenciais
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("Resolvendo reCaptcha v2")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("Solução: ", solution)
# Define a configuração para o pipeline de scraping
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Encontre a descrição de cada citação.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Com o ScrapeGraph AI, você pode raspar sites de forma eficiente, enquanto lida com as complexidades de proxies e captchas. Combiná-lo com o Capsolver permite que você contorne os desafios do ReCaptcha V2 sem problemas, permitindo acesso a conteúdo que, de outra forma, seria difícil de raspar.
Sinta-se à vontade para estender este script para atender às suas necessidades de scraping e experimentar recursos adicionais oferecidos pelo ScrapeGraph AI. Sempre certifique-se de que suas atividades de scraping respeitem os termos de serviço do site e as diretrizes legais.
Feliz scraping!
Um quadro de decisão para escolher um solucionador de CAPTCHA para infraestrutura de agente, focado em mapeamento de desafios, vinculação de sessão, observabilidade, controles de taxa e uso responsável.

Um guia prático de avaliação para escolher uma API de CAPTCHA para agentes de IA em 2026, focado em cobertura de tarefas documentadas, contratos de polling, validação de tokens e controles operacionais.
