CAPSOLVER
博客
2025年如何解决网页抓取中的验证码问题

2025年如何解决网页抓取中的验证码问题

Logo of CapSolver

Sora Fujimoto

AI Solutions Architect

23-Jan-2025

2025年,验证码依然困扰着我们

(作者:为了避免你们点击一万个交通信号灯而操碎了心的那个人)

网站变得更聪明了。验证码现在会分析一切:

  • 你的鼠标移动轨迹。
  • 你的浏览器指纹。
  • 你解决谜题的速度(机器人太高效了)。
    browser fingerprint
    但不用担心——Capsolver 的API和扩展程序也得到了改进。

认识你新的好朋友:Capsolver

选择你的解决方案:

  • API: 适用于想要完全控制的程序员。
  • 扩展程序: 适用于想要点击“解决”然后喝咖啡的人类。
    支持的验证码:

✅ reCAPTCHA v2/v3
✅ Cloudflare Turnstile
✅ hCaptcha
✅ AWS WAF
✅ 基于文本的验证码


方法一:使用 Capsolver 的 API(适用于程序员)

步骤 1:获取你的 API 密钥

  1. Capsolver 注册。
  2. 仪表盘 获取你的 clientKey

步骤 2:通过 3 个 API 调用来解决 reCAPTCHA

bash 复制代码
# 提交任务
POST https://api.capsolver.com/createTask
{
  "clientKey": "YOUR_API_KEY",
  "task": {
    "type": "ReCaptchaV2TaskProxyless",
    "websiteURL": "https://example.com",
    "websiteKey": "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-"
  }
}

# 获取结果(重复直到 "status": "ready")
POST https://api.capsolver.com/getTaskResult
{
  "clientKey": "YOUR_API_KEY",
  "taskId": "61138bb6-19fb-11ec-a9c8-0242ac110006"
}

# 在你的爬虫中使用 token (gRecaptchaResponse)!

方法二:神奇的浏览器扩展程序

适用于普通人:

适用于自动化高手:

  1. 从 GitHub 下载:
  2. 修改 config.js
    javascript 复制代码
    {
      // 你从 Capsolver 获取的 API 密钥
      apiKey: "YOUR_API_KEY",
    
      // 切换验证码类型
      enabledForRecaptcha: true,
      enabledForCloudflare: true,
      enabledForAWS: true,
      enabledForTextCaptcha: true
    }
  3. 加载到 Puppeteer/Playwright:
    javascript 复制代码
    const browser = await puppeteer.launch({
      args: ['--load-extension=./capsolver-extension']
    });

Config.js:秘密武器

关键设置:

  • enabledForCloudflare: true: 用于 Turnstile 验证码。
  • enabledForRecaptcha: true: Google 的经典验证码。
  • enabledForAWS: true: Amazon 的隐蔽验证码。
  • enabledForTextCaptcha: true: 老式的“输入这些字母”谜题。

专业提示: 如果你不确定网站使用的是哪种验证码,请全部启用。


真实世界的代码示例

使用 Capsolver API 的 Python 爬虫:

python 复制代码
import requests

def solve_recaptcha():
    task_url = "https://api.capsolver.com/createTask"
    task_data = {
        "clientKey": "YOUR_API_KEY",
        "task": {
            "type": "ReCaptchaV2TaskProxyless",
            "websiteURL": "https://example.com",
            "websiteKey": "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-"
        }
    }
    response = requests.post(task_url, json=task_data).json()
    task_id = response["taskId"]

    # 轮询结果
    while True:
        result = requests.post("https://api.capsolver.com/getTaskResult", json={"clientKey": "YOUR_API_KEY", "taskId": task_id}).json()
        if result["status"] == "ready":
            return result["solution"]["gRecaptchaResponse"]

“为什么不起作用?!” 故障排除指南

  • 问题: “没有验证码被解决!”
    • 解决方法: 检查 config.js——你启用了正确的验证码类型了吗?
  • 问题: “API 返回 '无效的 API 密钥'!”
  • 问题: “Cloudflare 仍然阻止我!”
    • 解决方法: 旋转代理,旋转指纹并降低你的爬虫速度。

祝你爬取愉快——愿验证码永远对你友好! 😎

合规声明: 本博客提供的信息仅供参考。CapSolver 致力于遵守所有适用的法律和法规。严禁以非法、欺诈或滥用活动使用 CapSolver 网络,任何此类行为将受到调查。我们的验证码解决方案在确保 100% 合规的同时,帮助解决公共数据爬取过程中的验证码难题。我们鼓励负责任地使用我们的服务。如需更多信息,请访问我们的服务条款和隐私政策。

更多

AI赋能的图像识别:基础知识及解决方案
AI赋能的图像识别:基础知识及解决方案

告别图片验证码难题——CapSolver视觉引擎快速、智能、轻松解决!

Logo of CapSolver

Ethan Collins

25-Apr-2025

最佳网页抓取用户代理及使用方法
最佳网页抓取用户代理及使用方法

网络爬虫最佳用户代理指南及其有效使用技巧,避免被检测。探讨用户代理的重要性、类型以及如何在无缝且不被检测的情况下实现它们以进行网络爬取。

Logo of CapSolver

Ethan Collins

07-Mar-2025

如何解决Cloudflare JS挑战以进行网页抓取和自动化
如何解决Cloudflare JS挑战以进行网页抓取和自动化

学习如何解决Cloudflare的JavaScript挑战,实现无缝网页抓取和自动化。探索有效的策略,包括使用无头浏览器、代理轮换以及利用CapSolver的高级验证码解决能力。

Logo of CapSolver

Ethan Collins

05-Mar-2025

什么是验证码?验证码可以追踪你吗?
什么是验证码?验证码可以追踪你吗?

你是否好奇验证码是什么以及为什么网站会让你解答它们?学习验证码的工作原理、它们是否会追踪你以及它们对网络安全为何至关重要。此外,了解如何使用CapSolver轻松绕过验证码以进行网页抓取和自动化。

Logo of CapSolver

Ethan Collins

05-Mar-2025

Cloudflare TLS指纹识别:它是什麽以及如何解决
Cloudflare TLS指纹识别:它是啥以及如何解决

了解Cloudflare如何使用TLS指纹识别技术进行安全防护,以及它如何检测和阻止机器人,并探索针对网页抓取和自动化浏览任务的有效解决方法。

Logo of CapSolver

Ethan Collins

28-Feb-2025

为什么我总是被要求验证我不是机器人?
为什么我总是被要求验证我不是机器人?

了解谷歌为何提示您验证自己不是机器人的原因,并探索使用CapSolver API高效解决验证码难题的解决方案。

Logo of CapSolver

Ethan Collins

27-Feb-2025