CAPSOLVER
博客
如何使用 Puppeteer 解决 Cloudflare 问题

使用 Puppeteer 解决 Cloudflare 问题

Logo of CapSolver

Anh Tuan

Data Science Expert

28-Aug-2024

如何使用 Puppeteer 解决 Cloudflare

简介

Cloudflare 是一项强大的服务,为网站提供安全性和性能增强。它通过实施各种安全机制来保护网站免受各种威胁,包括 DDoS 攻击和恶意机器人。虽然这些保护措施对网站所有者有利,但它们会给参与网页抓取和自动化的开发人员带来重大挑战。Cloudflare 的防御措施通常包括 CAPTCHA、JavaScript 挑战和浏览器检查,所有这些都是为了阻止自动脚本。对于那些使用 Puppeteer 等工具来自动化任务的人来说,这些障碍可能是重大障碍。在本指南中,我们将逐步介绍如何使用 Puppeteer 有效地绕过和解决 Cloudflare 的保护措施,使您能够继续进行自动化项目而不会被打断。

使用 Puppeteer 解决 Cloudflare 的分步指南

第 1 步:设置 Puppeteer

首先,您需要设置 Puppeteer,这是一个 Node.js 库,提供一个高级 API 来控制 Chrome 或 Chromium。此工具广泛用于自动化任务、测试和抓取网站。

从使用 npm 安装 Puppeteer 开始:

bash 复制代码
npm install puppeteer

安装完成后,您可以编写一个简单的脚本,启动一个浏览器实例并导航到受 Cloudflare 保护的网站:

javascript 复制代码
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({ headless: false });
  const page = await browser.newPage();
  await page.goto('https://example.com'); // 替换为您的目标 URL
  await page.screenshot({ path: 'before-cf.png' });

  // 处理 Cloudflare 保护措施的后续步骤

  await browser.close();
})();

这段脚本会启动浏览器,导航到指定的 URL 并截取屏幕截图。然而,仅仅访问网站可能会触发 Cloudflare 的安全检查,因此需要采取额外的步骤来处理它们。

第 2 步:处理 Cloudflare 的 JavaScript 挑战

Cloudflare 经常使用 JavaScript 挑战来验证请求是否来自合法浏览器。这些挑战通常包括运行需要几秒钟才能完成的 JavaScript 代码。Puppeteer 可以通过等待必要的脚本执行来轻松地处理这些检查:

javascript 复制代码
await page.waitForTimeout(10000); // 等待 10 秒以进行 Cloudflare 的验证
await page.screenshot({ path: 'after-cf.png' });

这种方法适用于基本的检查,但如果 Cloudflare 部署了更复杂的挑战,例如 CAPTCHA,则需要更高级的解决方案。这就是 CapSolver 发挥作用的地方。

CapSolver 集成:增强 Puppeteer 以绕过 Cloudflare

CapSolver 是一种旨在自动解决 CAPTCHA 和其他类似挑战的服务,在处理 Cloudflare 的高级防护措施时尤其有用。通过将 CapSolver 集成到你的 Puppeteer 脚本中,可以自动解决这些挑战,使你的脚本能够持续运行而不会中断。

以下是如何将 CapSolver 与 Puppeteer 集成:

javascript 复制代码
const puppeteer = require('puppeteer');
const axios = require('axios');

const clientKey = '你的客户端密钥在此处'; // 用你的 CapSolver 客户端密钥替换
const websiteURL = 'https://example.com'; // 用你的目标网站 URL 替换
const websiteKey = '你的网站密钥在此处'; // 用 CapSolver 提供的网站密钥替换

async function createTask() {
  const response = await axios.post('https://api.capsolver.com/createTask', {
    clientKey: clientKey,
    task: {
      type: "AntiTurnstileTaskProxyLess",
      websiteURL: websiteURL,
      websiteKey: websiteKey
    }
  }, {
javascript 复制代码
headers: {
      'Content-Type': 'application/json',
      'Pragma': 'no-cache'
    }
  });

  return response.data.taskId;
}

async function getTaskResult(taskId) {
  console.log(taskId);
  let response;

  while (true) {
    response = await axios.post('https://api.capsolver.com/getTaskResult', {
      clientKey: clientKey,
      taskId: taskId
    }, {
      headers: {
        'Content-Type': 'application/json'
      }
    });

    if (response.data.status === 'ready') {
      return response.data.solution;
    }

    console.log('Status not ready, checking again in 5 seconds...');
    await new Promise(resolve => setTimeout(resolve, 5000));
  }
}

(async () => {
  const taskId = await createTask();
  const result = await getTaskResult(taskId);
  console.log(result);
  let solution = result.token;

  const browser = await puppeteer.launch({ headless: false });
  const page = await browser.newPage();
  await page.goto(websiteURL);
  await page.waitForSelector('input[name="cf-turnstile-response"]');
  await page.evaluate(solution => {
    document.querySelector('input[name="cf-turnstile-response"]').value = solution;
  }, solution);
  await page.screenshot({ path: 'example.png' });
})();

针对从事自动化和网页抓取任务的开发人员和数据工程师而言,绕过 Cloudflare 的安全措施可能是一项重大挑战。尽管 Puppeteer 提供了应对基本挑战所需的工具,但集成 CapSolver 能够让您无缝克服更复杂的障碍,例如 CAPTCHA。这种组合确保您的脚本能够顺利运行,即使是在受 Cloudflare 保护的网站上也是如此。

要开始使用 CapSolver 并提高自动化任务的效率,请确保使用我们的奖励代码 WEBS 以获得更多价值。有了合适的工具和策略,您可以绕过 Cloudflare 的防御并让您的项目保持正轨。

合规声明: 本博客提供的信息仅供参考。CapSolver 致力于遵守所有适用的法律和法规。严禁以非法、欺诈或滥用活动使用 CapSolver 网络,任何此类行为将受到调查。我们的验证码解决方案在确保 100% 合规的同时,帮助解决公共数据爬取过程中的验证码难题。我们鼓励负责任地使用我们的服务。如需更多信息,请访问我们的服务条款和隐私政策。

更多