CAPSOLVER
Blog
Làm thế nào để trích xuất các vị trí công việc mà không bị chặn?

Làm thế nào để trích xuất các vị trí công việc mà không bị chặn

Logo of CapSolver

Lucas Mitchell

Automation Engineer

17-Apr-2026

TL;Dr:

  • Xoay vòng IP nhà ở: Sử dụng IP nhà ở chất lượng cao để tránh bị đánh dấu bởi các bảng việc làm như Indeed hoặc LinkedIn.
  • Giả lập dấu vân tay trình duyệt: Đồng bộ dấu vân tay TLS và tiêu đề HTTP với các hồ sơ trình duyệt thực tế bằng công cụ như curl_cffi.
  • Xử lý CAPTCHA tự động: Tích hợp người giải CAPTCHA đáng tin cậy như CapSolver để xử lý các thách thức Cloudflare Turnstile và reCAPTCHA.
  • Tôn trọng robots.txt và giới hạn tốc độ: Triển khai khoảng cách ngẫu nhiên và tuân thủ các hướng dẫn quét dữ liệu có đạo đức để duy trì truy cập lâu dài.

Giới thiệu

Việc quét dữ liệu các vị trí công việc đã trở thành nền tảng cho các công ty tuyển dụng, nhà nghiên cứu thị trường và các nền tảng tổng hợp việc làm. Tuy nhiên, các bảng việc làm lớn đã triển khai các biện pháp bảo mật tiên tiến có thể dừng việc thu thập dữ liệu của bạn chỉ trong vài giây. Nếu bạn từng gặp phải việc chặn IP ngay lập tức hoặc vòng kiểm tra vô tận khi cố gắng quét các vị trí công việc, bạn không phải là người duy nhất. Thách thức nằm ở việc làm cho các tập lệnh tự động của bạn không thể phân biệt được với hành vi lướt web của con người. Hướng dẫn này cung cấp một lộ trình kỹ thuật toàn diện để giúp bạn quét các vị trí công việc hiệu quả trong khi duy trì mức độ phát hiện thấp.

Tại sao các bảng việc làm chặn các công cụ quét của bạn

Các nền tảng việc làm như Indeed, Glassdoor và LinkedIn đầu tư rất nhiều vào bảo mật để bảo vệ dữ liệu độc quyền của họ và đảm bảo ổn định cho trang web. Họ chủ yếu sử dụng bốn lớp phát hiện để xác định và chặn các công cụ quét.

Đánh giá danh tiếng IP và giới hạn tốc độ

Hầu hết các bảng việc làm theo dõi số lượng yêu cầu đến từ một địa chỉ IP duy nhất. Nếu bạn vượt quá ngưỡng nhất định, IP của bạn sẽ bị chặn tạm thời hoặc vĩnh viễn. Các IP trung tâm dữ liệu đặc biệt dễ bị tổn thương vì chúng dễ dàng được xác định là thuộc về các trang trại máy chủ thay vì người dùng thực tế.

Nhận dạng dấu vân tay trình duyệt và TLS

Các hệ thống chống bot hiện đại như Cloudflare và DataDome không chỉ xem xét User-Agent của bạn. Họ phân tích giao thức TLS (Transport Layer Security) và kiểm tra các bộ mã hóa và mở rộng cụ thể. Nếu tập lệnh Python của bạn sử dụng thư viện requests mặc định, dấu vân tay JA3 của nó sẽ ngay lập tức cho thấy rằng nó là một bot.

Phân tích hành vi

Người dùng thực tế không nhấp vào liên kết mỗi 0,5 giây hoặc di chuyển theo các mô hình tuyến tính hoàn hảo. Các công cụ quét có hành vi giống robot - như khoảng thời gian yêu cầu cố định hoặc thiếu việc tải CSS/ảnh - sẽ nhanh chóng bị các động cơ phân tích hành vi phát hiện.

CAPTCHA và thách thức JavaScript

Khi một trang nghi ngờ nhưng không chắc chắn, nó sẽ kích hoạt một thách thức. Điều này có thể là kiểm tra thực thi JavaScript đơn giản hoặc CAPTCHA phức tạp. Nếu không có cách tự động giải quyết, quy trình quét của bạn sẽ dừng hoàn toàn.

Các kỹ thuật thiết yếu để quét việc làm không bị phát hiện

Để xây dựng một công cụ quét bền bỉ, bạn phải đối phó với từng lớp phát hiện bằng các biện pháp kỹ thuật cụ thể.

1. Triển khai xoay vòng IP nhà ở

Sử dụng một IP duy nhất là cách nhanh nhất để bị chặn. Thay vào đó, bạn nên sử dụng một nhóm IP nhà ở. Khác với các IP trung tâm dữ liệu, các IP nhà ở được cấp bởi các nhà cung cấp dịch vụ internet (ISP) cho các hộ gia đình thực tế, khiến chúng khó phân biệt hơn với lưu lượng hợp lệ.

Loại IP Rủi ro phát hiện Chi phí Trường hợp sử dụng tốt nhất
Trung tâm dữ liệu Cao Thấp Các trang web an toàn thấp, kiểm tra
Nhà ở Thấp Trung bình Indeed, LinkedIn, Google Jobs
Di động (4G/5G) Rất thấp Cao Các hệ thống chống bot mạnh mẽ

Khi bạn quét các vị trí công việc, hãy đảm bảo nhà cung cấp IP của bạn hỗ trợ xoay vòng tự động. Điều này đảm bảo rằng mỗi yêu cầu - hoặc mỗi phiên - xuất phát từ một vị trí địa lý và IP khác nhau.

2. Thành thạo việc giả lập dấu vân tay TLS

Như đã đề cập trước đó, các thư viện tiêu chuẩn như requests hoặc urllib có dấu vân tay TLS riêng biệt. Để giải quyết vấn đề này, bạn nên sử dụng curl_cffi, cho phép tập lệnh của bạn giả lập giao thức TLS của trình duyệt thực tế như Chrome hoặc Firefox.

python Copy
from curl_cffi import requests

# Giả lập dấu vân tay TLS của Chrome 120
response = requests.get(
    "https://www.indeed.com/jobs?q=software+engineer",
    impersonate="chrome120",
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
        "Accept-Language": "en-US,en;q=0.9",
    }
)
print(response.status_code)

Bằng cách đồng bộ User-Agent của bạn với hồ sơ TLS tương ứng, bạn sẽ giảm đáng kể khả năng bị chặn bởi Cloudflare hoặc Akamai.

3. Xử lý CAPTCHA với CapSolver

Ngay cả với tiêu đề và IP hoàn hảo, bạn sẽ eventually gặp phải một thách thức. Các bảng việc làm thường sử dụng Cloudflare Turnstile hoặc reCAPTCHA để xác minh người dùng. Giải quyết chúng thủ công là không khả thi ở quy mô lớn. Đây là lúc CapSolver trở thành một phần thiết yếu trong hệ thống tự động của bạn.

CapSolver cung cấp API liền mạch để giải các loại CAPTCHA khác nhau. Ví dụ, nếu bạn gặp phải thách thức Cloudflare Turnstile khi sử dụng API Google Jobs hoặc quét Indeed, bạn có thể sử dụng triển khai chính thức sau:

python Copy
import requests
import time

api_key = "YOUR_CAPSOLVER_API_KEY"
site_key = "0x4XXXXXXXXXXXXXXXXX"  # Được tìm thấy trong HTML của trang đích
site_url = "https://www.target-job-board.com"

def solve_turnstile():
    payload = {
        "clientKey": api_key,
        "task": {
            "type": 'AntiTurnstileTaskProxyLess',
            "websiteKey": site_key,
            "websiteURL": site_url
        }
    }
    res = requests.post("https://api.capsolver.com/createTask", json=payload)
    task_id = res.json().get("taskId")
    
    if not task_id:
        return None

    while True:
        time.sleep(1)
        result_res = requests.post("https://api.capsolver.com/getTaskResult", json={"clientKey": api_key, "taskId": task_id})
        result = result_res.json()
        if result.get("status") == "ready":
            return result.get("solution", {}).get('token')
        if result.get("status") == "failed":
            return None

token = solve_turnstile()

Tích hợp vào quy trình làm việc của bạn đảm bảo rằng công cụ quét có thể tiếp tục nhiệm vụ mà không cần can thiệp của con người, duy trì hiệu quả của luồng dữ liệu của bạn.

Nhận mã thưởng CapSolver của bạn

Tăng ngân sách tự động hóa của bạn ngay lập tức!
Sử dụng mã thưởng CAP26 khi nạp tiền vào tài khoản CapSolver để nhận thêm 5% thưởng cho mỗi lần nạp tiền — không giới hạn.
Nhận mã thưởng ngay bây giờ trong Bảng điều khiển CapSolver

4. Tối ưu hóa tiêu đề yêu cầu và_REFERER

Một sai lầm phổ biến là gửi các yêu cầu "trần" (không có tiêu đề). Các trình duyệt thực tế luôn gửi tiêu đề Referer và các tiêu đề Sec-CH-UA (Thông tin khách hàng). Khi bạn quét các vị trí công việc, luôn đặt REFERER thành trang chủ của trang hoặc trang kết quả tìm kiếm trước đó.

  • User-Agent: Sử dụng chuỗi gần đây, phổ biến.
  • Referer: https://www.google.com/ hoặc tên miền của trang.
  • Accept-Encoding: gzip, deflate, br (đảm bảo mã của bạn có thể giải nén các định dạng này).

Tóm tắt so sánh: Chiến lược quét

Chiến lược Hiệu quả Công sức triển khai Được khuyến nghị cho
Python Requests cơ bản Rất thấp Thấp Các blog cá nhân không được bảo vệ
Trình duyệt ẩn (Selenium) Trung bình Trung bình Các trang có JavaScript nặng
Trình duyệt ẩn + IP trung tâm Cao Cao Indeed, Glassdoor, LinkedIn
API quét web Rất cao Thấp Trích xuất dữ liệu việc làm quy mô doanh nghiệp

Xem xét đạo đức và pháp lý

Mặc dù thành công kỹ thuật là quan trọng, bạn cũng phải ưu tiên quét dữ liệu có đạo đức. Luôn kiểm tra tệp robots.txt của trang và điều khoản dịch vụ. Theo hướng dẫn từ Tổ chức Truyền thông Thế giới (W3C), thu thập dữ liệu có đạo đức bao gồm việc tôn trọng sức khỏe của máy chủ đích bằng cách không làm quá tải nó với các yêu cầu quá mức. Ngoài ra, Tổ chức Tiền tuyến Điện tử nhấn mạnh rằng việc quét dữ liệu công khai thường được bảo vệ, nhưng bạn nên tránh truy cập thông tin cá nhân của người dùng hoặc vượt qua tường đăng nhập mà không có sự cho phép.

Kết luận

Việc quét các vị trí công việc mà không bị chặn đòi hỏi một cách tiếp cận đa lớp. Bằng cách kết hợp xoay vòng IP nhà ở, nhận dạng dấu vân tay TLS và giải CAPTCHA tự động thông qua CapSolver, bạn có thể xây dựng hệ thống bền bỉ mô phỏng hành vi của con người. Hãy nhớ rằng, bối cảnh quét web liên tục thay đổi; việc cập nhật xu hướng quản lý bảo mật mới là chìa khóa để duy trì lợi thế cạnh tranh của bạn.

Câu hỏi thường gặp

1. Việc quét dữ liệu các vị trí công việc có hợp pháp không?

Thông thường, việc quét các vị trí công việc công khai là hợp pháp ở nhiều khu vực, miễn là bạn không vi phạm Đạo luật Lừa đảo Máy tính và Trộm cắp (CFAA) hoặc luật bản quyền. Luôn tham vấn luật sư cho các trường hợp cụ thể.

2. Bạn nên xoay IP của mình bao nhiêu lần?

Đối với các trang web an toàn cao như Indeed, tốt nhất là xoay IP cho mỗi yêu cầu hoặc mỗi vài phút để tránh phát hiện mô hình.

3. Bạn có thể quét LinkedIn mà không cần tài khoản không?

LinkedIn rất hạn chế. Mặc dù một số hồ sơ công khai và việc làm có thể được xem, nhưng hầu hết dữ liệu đều bị khóa bằng tường đăng nhập. Việc quét qua tường đăng nhập mang rủi ro pháp lý và kỹ thuật cao hơn.

4. Tại sao trình duyệt ẩn của bạn vẫn bị bắt?

Các trình duyệt ẩn tiêu chuẩn như Puppeteer hoặc Selenium để lại "dấu vân tay" như navigator.webdriver = true. Bạn nên sử dụng các tiện ích mở rộng như stealth để ẩn các thuộc tính này.

5. Cách tốt nhất để tránh bị chặn IP là gì?

Cách hiệu quả nhất để tránh bị chặn IP là kết hợp IP nhà ở và khoảng thời gian yêu cầu ngẫu nhiên (jitter).

Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.

Thêm

Công việc Nhận diện Hình ảnh AI
Làm thế nào AI nhận diện hình ảnh hoạt động? | Hướng dẫn kỹ thuật

Khám phá cách AI nhận diện hình ảnh hoạt động. Học về mạng nơ-ron tích chập, xử lý pixel và các ứng dụng thực tế trong hướng dẫn kỹ thuật toàn diện này.

Logo of CapSolver

Anh Tuan

17-Apr-2026

Cách trích xuất các vị trí công việc mà không bị chặn
Làm thế nào để trích xuất các vị trí công việc mà không bị chặn

Học các kỹ thuật tốt nhất để trích xuất danh sách việc làm mà không bị chặn. Nắm vững việc quét dữ liệu từ Indeed, API Google Jobs và API quét web với CapSolver.

Logo of CapSolver

Lucas Mitchell

17-Apr-2026

Tại sao Chrome Chặn Các Trang Web: An Ninh so với Truy Cập Tự Động Được Giải Thích
Tại sao Chrome chặn trang web: Giải thích về An ninh so với Truy cập Tự động hóa

Hiểu tại sao Chrome chặn trang web, từ các tính năng bảo mật như Safe Browsing và kiểm tra SSL đến các lỗi phổ biến như ERR_CONNECTION_REFUSED. Học cách những yếu tố này ảnh hưởng đến tự động hóa và các chiến lược truy cập hợp pháp, bao gồm giải CAPTCHA với CapSolver.

Logo of CapSolver

Ethan Collins

17-Apr-2026

Giải thích về Điểm số reCAPTCHA: Khoảng giá trị, Ý nghĩa và Cách Cải thiện Điểm số
Giải thích về Điểm số reCAPTCHA: Phạm vi, Ý nghĩa và Cách cải thiện nó

Hiểu khoảng điểm reCAPTCHA v3 (0.0 đến 1.0), ý nghĩa của nó và cách cải thiện điểm số của bạn. Học cách xử lý điểm số thấp và tối ưu hóa trải nghiệm người dùng.

Logo of CapSolver

Rajinder Singh

16-Apr-2026

Giải quyết Cloudflare Turnstile trong Tự động hóa dữ liệu phương tiện
Cách giải quyết Cloudflare Turnstile trong tự động hóa dữ liệu phương tiện

Học cách xử lý Cloudflare Turnstile trong tự động hóa dữ liệu xe và hồ sơ công cộng. Sử dụng CapSolver và n8n để tự động hóa việc thu thập hồ sơ một cách hiệu quả.

Logo of CapSolver

Anh Tuan

16-Apr-2026

reCAPTCHA Khóa trang hoặc Token Không hợp lệ? Nguyên nhân & Hướng dẫn Sửa chữa
Lỗi reCAPTCHA: Khóa trang web hoặc Token không hợp lệ? Nguyên nhân và Hướng dẫn khắc phục

Đang gặp phải lỗi "reCAPTCHA Invalid Site Key" hoặc "token reCAPTCHA không hợp lệ"? Khám phá các nguyên nhân phổ biến, các giải pháp từng bước và mẹo khắc phục sự cố để giải quyết các vấn đề xác minh reCAPTCHA thất bại. Học cách sửa lỗi xác minh reCAPTCHA, vui lòng thử lại.

reCAPTCHA
Logo of CapSolver

Aloísio Vítor

16-Apr-2026