产品集成资源文档定价
立即开始

© 2026 CapSolver. All rights reserved.

联系我们

Slack: lola@capsolver.com

产品

  • reCAPTCHA v2
  • reCAPTCHA v3
  • Cloudflare Turnstile
  • Cloudflare Challenge
  • AWS WAF
  • 浏览器插件
  • 更多验证码类型

集成

  • Selenium
  • Playwright
  • Puppeteer
  • n8n
  • 合作伙伴
  • 查看所有集成

资源

  • 推荐返佣系统
  • 官方文档
  • API 参考
  • 博客
  • 常见问题 (FAQ)
  • 术语表
  • 系统状态

法律声明

  • 服务条款
  • 隐私政策
  • 退款政策
  • 请勿出售我的信息
博客/All/如何使用 ScrapeGraph AI 进行网页抓取
Sep05, 2024

如何使用 ScrapeGraph AI 进行网页抓取

Anh Tuan

Anh Tuan

Data Science Expert

如何使用 ScrapeGraph AI 进行网页抓取

什么是 ScrapeGraph AI?

ScrapeGraph AI 是一个 Python 网页抓取库,它利用大型语言模型 (LLM) 和基于图的逻辑来构建用于网站和本地文档(包括 XML、HTML、JSON、Markdown 等)的抓取管道。只需指定要提取的数据,该库将处理其余工作!

该库提供了以下几个功能:

  • 支持多种 LLM: GPT、Gemini、Groq、Azure、Hugging Face
  • 本地模型: Ollama。
  • 代理支持 用于处理代理后面的请求。

先决条件

在深入使用 ScrapeGraph AI 之前,请确保你已安装以下内容:

bash Copy
pip install scrapegraphai capsolver

playwright install

ScrapeGraph AI 入门

以下是如何使用 ScrapeGraph AI 与 OpenAI 抓取网页的基本示例:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# 定义抓取管道的配置
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
    prompt="列出所有带描述的引用",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# 运行管道
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

以下是如何使用 ScrapeGraph AI 与本地 LLM (Ollama) 抓取网页的基本示例:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# 定义抓取管道的配置
graph_config = {
    "llm": {
        "model": "ollama/llama3.1",
        "temperature": 0,
        "format": "json",  # Ollama 需要显式指定格式
        # "base_url": "http://localhost:11434", # 任意设置 ollama URL
    },
python Copy
"verbose": True,
    "headless": False
}

# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
    prompt="列出所有带描述的引言",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# 运行管道
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

使用 Capsolver 和 ScrapeGraph AI 处理验证码

在本节中,我们将探索如何将 Capsolver 集成到 ScrapeGraph AI 中以绕过验证码。CapSolver 是一项外部服务,可帮助解决各种类型的验证码,包括 ReCaptcha V2,它通常在网站上使用。

我们将演示如何使用 Capsolver 解决 ReCaptcha V2,然后抓取需要先解决验证码才能访问的页面的内容。

奖励代码

领取您的奖励代码,获取顶级验证码解决方案;CapSolver:scrape。兑换后,您每次充值都将获得额外 5% 的奖励,无限次数。

示例:使用 Capsolver 和 ScrapeGraph AI 解决 ReCaptcha V2

python Copy
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph

# 考虑使用环境变量存储敏感信息
```python
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("正在解决 reCaptcha v2")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("解决方案:", solution)

# 定义抓取管道的配置
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(

prompt="查找每个引用的描述。",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

结论

使用 ScrapeGraph AI,您可以高效地抓取网站,同时处理代理和验证码的复杂性。将其与 Capsolver 相结合,可以无缝地绕过 ReCaptcha V2 挑战,从而访问原本难以抓取的内容。

您可以随意扩展此脚本以满足您的抓取需求,并尝试 ScrapeGraph AI 提供的其他功能。始终确保您的抓取活动遵守网站服务条款和法律准则。

祝您抓取愉快!

查看更多

May 06, 2026

如何在无需浏览器的情况下解决AWS WAF挑战:技术指南

学习如何在无需浏览器的情况下解决 AWS WAF 挑战和验证码。使用 CapSolver 的 API 生成令牌并绕过 405 状态码。

Ethan Collins
Ethan Collins
Apr 30, 2026

在Linux上进行网页爬虫:工具、设置与实用指南

在Linux上使用Python、代理和验证码处理设置网络爬虫。涵盖Scrapy、Playwright、CapSolver和数据流水线的实用开发者指南。

Ethan Collins
Ethan Collins

目录

Apr 30, 2026

Cloudflare 错误 1020:访问被拒绝 在网络爬虫 & WAF 防护

了解Cloudflare错误1020访问被拒绝的触发原因,Web应用防火墙和机器人检测的工作原理,以及开发人员如何减少合法自动化工作流程中的误报。

Ethan Collins
Ethan Collins
Apr 29, 2026

2026年最佳Chrome自动验证码破解工具

发现2026年最好的自动CAPTCHA求解器Chrome扩展程序。按速度、支持的类型和隐私比较CapSolver、NopeCHA和SolveCaptcha,以找到最适合的。

Ethan Collins
Ethan Collins