
Emma Foster
Machine Learning Engineer

您是否在您的网络爬虫中遇到过CAPTCHA?许多网站使用CAPTCHA系统(最常见的是reCAPTCHA)来防止自动化访问。但是,本文将指导您使用Playwright(一种强大的浏览器自动化工具)和CapSolver(一个设计用于自动解决CAPTCHA问题的人工智能服务)来解决reCAPTCHA挑战。
Playwright 是一个用于浏览器自动化的开源Node.js库。它支持多个浏览器,如Chromium、Firefox和WebKit,使其成为开发者的多功能工具。Playwright以其可靠性、速度以及处理复杂网页交互的能力而著称,包括处理动态内容、填写表单以及处理弹出窗口。
是否在频繁失败的情况下解决恼人的CAPTCHA?
体验使用CapSolver AI驱动的自动化Web解锁技术,无缝解决CAPTCHA问题!
领取顶级CAPTCHA解决方案的优惠码 CapSolver: WEBS。兑换后,每次充值将额外获得5%的奖励,次数不限。

reCAPTCHA是Google设计的CAPTCHA系统,用于区分人类用户和机器人。它通常会向用户展示一些任务,比如识别图片或简单地勾选一个标有“我不是机器人”的框。虽然这些任务对人类来说很简单,但对机器人来说却是一个显著的挑战,这正是其设计初衷。
reCAPTCHA有多个版本,每个版本都有其独特的方式来区分人类和机器人:
在本博客中,我们将重点解决reCAPTCHA V2和V3,这两者广泛用于区分真实用户和机器人。reCAPTCHA V2通常会显示一个标有“我不是机器人”的复选框,而reCAPTCHA V3可能以一个隐形徽章的形式出现,在不打断用户体验的情况下执行其检查。以下是reCAPTCHA的实际演示:

Playwright能够模拟多个浏览器中的真实用户交互,使其成为网络爬虫的理想选择。它可以处理复杂的场景,如填写表单、导航页面以及与动态内容的交互。然而,当网站使用reCAPTCHA时,仅凭Playwright无法解决这一挑战——这就是CapSolver的用武之地。
CapSolver 支持多种 CAPTCHA 挑战,包括 reCAPTCHA v2、v3 等,提供全面的支持。量身定制的解决方案确保顺畅应对最先进的安全系统。
CapSolver的主要功能包括:
要使用Playwright解决reCAPTCHA挑战,您需要安装playwright-recaptcha库。此库要求在系统中安装FFmpeg,这是转录reCAPTCHA v2音频挑战所必需的。
您可以根据操作系统使用以下命令安装所需的库和FFmpeg:
库安装:
pip install playwright-recaptcha
FFmpeg安装:
Debian:
apt-get install ffmpeg
MacOS:
brew install ffmpeg
Windows:
winget install ffmpeg
注意: 确保
ffmpeg和ffprobe二进制文件位于系统的PATH中,以便pydub可以定位它们。
一旦安装了必要的工具,您可以将CapSolver集成到您的网络爬虫项目中,以自动处理reCAPTCHA挑战。以下是使用Python执行此操作的示例:
# pip install requests
import requests
import time
# TODO: 设置您的配置
api_key = "YOUR_API_KEY" # 您的capSolver API密钥
site_key = "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-" # 目标站点的站点密钥
site_url = "https://www.google.com/recaptcha/api2/demo" # 目标站点的页面URL
def capsolver():
payload = {
"clientKey": api_key,
"task": {
"type": 'ReCaptchaV2TaskProxyLess',
"websiteKey": site_key,
"websiteURL": site_url
}
}
res = requests.post("https://api.capsolver.com/createTask", json=payload)
resp = res.json()
task_id = resp.get("taskId")
if not task_id:
print("创建任务失败:", res.text)
return
print(f"获得任务ID: {task_id} / 获取结果中...")
while True:
time.sleep(3) # 延迟
payload = {"clientKey": api_key, "taskId": task_id}
res = requests.post("https://api.capsolver.com/getTaskResult", json=payload)
resp = res.json()
status = resp.get("status")
if status == "ready":
return resp.get("solution", {}).get('gRecaptchaResponse')
if status == "failed" or resp.get("errorId"):
print("解决失败!响应:", res.text)
return
token = capsolver()
print(token)
# pip install requests
import requests
import time
# TODO: 设置您的配置
api_key = "YOUR_API_KEY" # 您的capSolver API密钥
site_key = "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_kl-" # 目标站点的站点密钥
site_url = "https://www.google.com" # 目标站点的页面URL
def capsolver():
payload = {
"clientKey": api_key,
"task": {
"
type": 'ReCaptchaV3TaskProxyLess',
"websiteKey": site_key,
"websiteURL": site_url
}
}
res = requests.post("https://api.capsolver.com/createTask", json=payload)
resp = res.json()
task_id = resp.get("taskId")
if not task_id:
print("创建任务失败:", res.text)
return
print(f"获得任务ID: {task_id} / 获取结果中...")
while True:
time.sleep(3) # 延迟
payload = {"clientKey": api_key, "taskId": task_id}
res = requests.post("https://api.capsolver.com/getTaskResult", json=payload)
resp = res.json()
status = resp.get("status")
if status == "ready":
return resp.get("solution", {}).get('gRecaptchaResponse')
if status == "failed" or resp.get("errorId"):
print("解决失败!响应:", res.text)
return
token = capsolver()
print(token)
虽然CapSolver是一个非常强大的工具,但仍有一些最佳实践可以帮助您提高CAPTCHA解决过程的效率:
在处理现代网络爬虫时,CAPTCHA系统是一个主要的挑战。然而,通过结合使用Playwright和CapSolver,您可以有效地绕过reCAPTCHA挑战,并继续抓取数据。本文提供了一个详细的指南,以帮助您设置和集成这些工具到您的工作流程中。祝您爬虫愉快!