CAPSOLVER
Blog
Cách thay đổi User Agent để giải quyết Cloudflare

Cách thay đổi User Agent để giải quyết Cloudflare

Logo of CapSolver

Aloísio Vítor

Image Processing Expert

14-Jan-2025

Tại sao User Agent quan trọng để vượt qua Cloudflare

User Agent là gì?
User Agent (UA) là một chuỗi được trình duyệt hoặc client của bạn gửi đi để tự nhận dạng với server. Nó thường bao gồm các chi tiết như tên trình duyệt, phiên bản, hệ điều hành và loại thiết bị. Ví dụ:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36.

Cloudflare phân tích chuỗi này để phát hiện bot. Nếu UA của bạn khớp với các công cụ tự động hóa đã biết (ví dụ: Python-Requests hoặc HeadlessChrome), bạn sẽ kích hoạt hệ thống chống bot của Cloudflare.

Bước từng bước: Thay đổi User Agent của bạn

  1. Xác định User Agent mà mục tiêu mong đợi
    Trước khi tùy chỉnh, hãy kiểm tra xem người dùng thực của trang web đang sử dụng User Agent nào. Các công cụ như WhatIsMyBrowser hoặc công cụ dành cho nhà phát triển trình duyệt (tab Network > Headers) có thể giúp ích. Ví dụ: nếu trang web phổ biến với người dùng Chrome, hãy bắt chước UA của họ.

  2. Thiết lập User Agent tùy chỉnh trong Code của bạn
    Dưới đây là cách sửa đổi UA trong các ngôn ngữ lập trình phổ biến:

Python (Thư viện Requests)

python Copy
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

response = requests.get('https://example.com', headers=headers)

JavaScript (Node.js với Axios)

javascript Copy
const axios = require('axios');

axios.get('https://example.com', {
  headers: {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
  }
});

Sử dụng Headless Browsers (Puppeteer)

javascript Copy
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36');
  await page.goto('https://example.com');
})();
  1. Xoay vòng User Agents
    Sử dụng cùng một UA liên tục vẫn có thể bị phát hiện. Xoay vòng UA từ một danh sách đã xác định trước để bắt chước người dùng đa dạng. Các công cụ như Fake UserAgent đơn giản hóa điều này:
python Copy
from fake_useragent import UserAgent
import requests

ua = UserAgent()
headers = {'User-Agent': ua.random}
response = requests.get('https://example.com', headers=headers)

Những sai lầm thường gặp cần tránh

  1. Sử dụng User Agents lỗi thời
    Cloudflare duy trì danh sách các UA đáng ngờ. Tránh các chuỗi gắn liền với các phiên bản trình duyệt cũ (ví dụ: Chrome/58.0.3029.110 từ năm 2017).

  2. Bỏ qua dấu vân tay của Headless Browser
    Ngay cả với UA hợp lệ, các trình duyệt headless vẫn để lộ tín hiệu tự động hóa (ví dụ: thiếu các plugin như navigator.plugins). Sử dụng các plugin bí mật như puppeteer-extra-plugin-stealth.

  3. Quên xoay vòng IP
    Kết hợp xoay vòng UA với proxy dân cư để tránh bị chặn dựa trên IP. Proxy tĩnh hoặc proxy dính hoạt động tốt nhất để duy trì tính nhất quán của phiên.

  4. Kết hợp với dấu vân tay TLS
    Cloudflare kiểm tra các mẫu bắt tay TLS. Các thư viện như curl_cffi (Python) hoặc tls-client (JavaScript) bắt chước dấu vân tay TLS của trình duyệt thực, giảm nguy cơ bị phát hiện.

Suy nghĩ cuối cùng
Thay đổi User Agent của bạn là một cách đơn giản nhưng mạnh mẽ để vượt qua Cloudflare, nhưng nó không phải là hoàn hảo. Kết hợp nó với xoay vòng IP, dấu vân tay TLS và các công cụ chống phát hiện để có kết quả mạnh mẽ.

Chúc bạn thu thập dữ liệu vui vẻ! 🤖

Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.

Thêm

Các User Agent Tốt Nhất để Scrape Web & Cách Sử Dụng Chúng
Các User Agent Tốt Nhất để Scrape Web & Cách Sử Dụng Chúng

Hướng dẫn về các user agent tốt nhất để scrape web và cách sử dụng hiệu quả để tránh bị phát hiện. Khám phá tầm quan trọng của user agent, các loại và cách triển khai chúng để scrape web liền mạch và không bị phát hiện.

Logo of CapSolver

Anh Tuan

07-Mar-2025

Cách giải quyết thử thách Cloudflare JS để thu thập dữ liệu web và tự động hóa
Cách giải quyết thử thách Cloudflare JS để thu thập dữ liệu web và tự động hóa

Tìm hiểu cách giải quyết thử thách JavaScript của Cloudflare để thu thập dữ liệu web và tự động hóa liền mạch. Khám phá các chiến lược hiệu quả, bao gồm sử dụng trình duyệt không đầu, luân phiên proxy, và tận dụng khả năng giải quyết CAPTCHA nâng cao của CapSolver.

Cloudflare
Logo of CapSolver

Anh Tuan

05-Mar-2025

Dấu vân tay TLS của Cloudflare: Nó là gì và cách giải quyết
Dấu vân tay TLS của Cloudflare: Nó là gì và cách giải quyết

Tìm hiểu về việc Cloudflare sử dụng dấu vân tay TLS để bảo mật, cách nó phát hiện và chặn bot, và khám phá các phương pháp hiệu quả để giải quyết vấn đề này cho các tác vụ thu thập dữ liệu web và duyệt web tự động.

Cloudflare
Logo of CapSolver

Anh Tuan

28-Feb-2025

Tại sao tôi cứ bị yêu cầu xác minh rằng tôi không phải là người máy?
Tại sao tôi cứ bị yêu cầu xác minh rằng tôi không phải là người máy?

Tìm hiểu lý do tại sao Google yêu cầu bạn xác minh rằng bạn không phải là robot và khám phá các giải pháp như sử dụng API của CapSolver để giải quyết các thử thách CAPTCHA một cách hiệu quả.

Logo of CapSolver

Anh Tuan

27-Feb-2025

Cách trích xuất dữ liệu từ trang web được bảo vệ bởi Cloudflare
Cách trích xuất dữ liệu từ trang web được bảo vệ bởi Cloudflare

Trong hướng dẫn này, chúng ta sẽ khám phá các kỹ thuật đạo đức và hiệu quả để trích xuất dữ liệu từ các trang web được bảo vệ bởi Cloudflare.

Cloudflare
Logo of CapSolver

Anh Tuan

20-Feb-2025

Tại sao các trang web lại nghĩ tôi là bot? Và cách giải quyết chúng
Tại sao các trang web lại nghĩ tôi là bot? Và cách giải quyết chúng

Hiểu tại sao các trang web đánh dấu bạn là bot và cách tránh bị phát hiện. Các tác nhân chính bao gồm các thử thách CAPTCHA, IP đáng ngờ và hành vi trình duyệt bất thường.

Logo of CapSolver

Anh Tuan

20-Feb-2025