
Anh Tuan
Data Science Expert

TL;DR
Lỗi Cloudflare 1020 là một trong những rào cản phổ biến nhất mà các nhà phát triển và kỹ sư dữ liệu gặp phải khi quét web và thực hiện các quy trình tự động hóa. Lỗi này có nghĩa là một quy tắc tường lửa ứng dụng web của Cloudflare đã từ chối truy cập tài nguyên được yêu cầu. Việc hiểu tại sao WAF Cloudflare kích hoạt khối này - và cách phản ứng một cách có trách nhiệm - là điều cần thiết đối với bất kỳ ai xây dựng các luồng tự động hóa tương tác với các trang web được bảo vệ. Hướng dẫn này giải thích cơ chế đằng sau lỗi Cloudflare 1020, các quy tắc WAF gây ra lỗi, cách chủ trang web cấu hình chặn IP và phát hiện bot, cũng như những gì các nhà phát triển hợp lệ có thể làm để giảm bớt sự cố trong quy trình của họ.
Lỗi Cloudflare 1020 là một thông báo từ chối truy cập ở cấp độ HTTP khi yêu cầu của người truy cập khớp với một quy tắc tường lửa được cấu hình bởi chủ trang web. Trang lỗi thường đọc: "Truy cập bị từ chối — Lỗi 1020."
Đây không phải là lỗi của nền tảng Cloudflare. Đó là một quyết định chính sách do chủ trang web đưa ra. Theo tài liệu chính thức của Cloudflare về lỗi 1020, khối luôn liên quan đến một quy tắc tường lửa cụ thể, và chỉ chủ trang web mới có thể sửa đổi hoặc xóa nó.
Lỗi này thuộc gia đình lỗi 1xxx của Cloudflare, bao gồm các phản hồi bảo mật và kiểm soát truy cập. Khác với lỗi 403 Forbidden từ máy chủ gốc, lỗi 1020 được chặn và hiển thị hoàn toàn bởi mạng biên của Cloudflare trước khi yêu cầu đến được gốc.
Tường lửa ứng dụng web của Cloudflare hoạt động ở mạng biên. Nó kiểm tra mọi yêu cầu đến dựa trên một tập hợp các quy tắc trước khi chuyển lưu lượng đến máy chủ gốc.
Loại quy tắc thường kích hoạt lỗi 1020:
Accept, Accept-Language hoặc Referer mà trình duyệt thực tế gửi có thể đánh dấu yêu cầu là không phải người dùng.Theo Báo cáo Radar 2024 của Cloudflare, một tỷ lệ đáng kể lưu lượng internet toàn cầu đã bị giảm thiểu như có thể là độc hại trong suốt năm 2024 — với dữ liệu của chính Cloudflare chỉ ra hàng tỷ yêu cầu bị chặn trên mạng của họ. Quy mô này giải thích tại sao các quy tắc WAF của Cloudflare được cấu hình một cách nghiêm ngặt — các chủ trang web đang bảo vệ mình khỏi một lượng lớn đáng kể lưu lượng tự động không mong muốn.
Khi một hạn chế quét kích hoạt lỗi 1020, nguyên nhân gốc thường thuộc một trong các danh mục sau:
| Nguyên nhân | Tại sao nó kích hoạt khối |
|---|---|
| Địa chỉ IP trung tâm dữ liệu | Điểm tin cậy thấp; liên quan đến tự động hóa |
| Thiếu tiêu đề trình duyệt | Yêu cầu trông không phải người dùng đối với kiểm tra WAF |
| IP VPN hoặc proxy chung | IP bị đánh dấu trong cơ sở dữ liệu đe dọa của Cloudflare |
| Tần suất yêu cầu cao | Phù hợp với các quy tắc giới hạn tần suất |
| Không thực thi JavaScript | Thử thách được quản lý không hoàn thành |
| Cookie cũ hoặc thiếu | Xác minh phiên thất bại |
| Chữ ký TLS lỗi thời | Không khớp với hồ sơ TLS trình duyệt được kỳ vọng |
Tường lửa Cloudflare đánh giá các tín hiệu này cùng nhau. Một sự bất thường đơn lẻ có thể không kích hoạt khối, nhưng sự kết hợp — như một IP trung tâm dữ liệu gửi yêu cầu mà không có cookie ở tần suất cao — gần như chắc chắn sẽ.
Từ góc nhìn của chủ trang web, lỗi Cloudflare 1020 là một tính năng, không phải là lỗi. Bảng điều khiển Cloudflare cung cấp nhiều công cụ để cấu hình kiểm soát truy cập:
Quy tắc Tường lửa (bây giờ là Quy tắc Tường lửa Tùy chỉnh): Chủ trang web viết các quy tắc dựa trên biểu thức bằng Công cụ Tập quy tắc của Cloudflare. Một quy tắc có thể chặn tất cả các yêu cầu nơi ip.src.asnum khớp với ASN của nhà cung cấp đám mây đã biết, hoặc nơi http.user_agent chứa "python-requests."
Quy tắc Truy cập IP: Giao diện đơn giản để chặn hoặc cho phép các IP cụ thể, phạm vi IP, quốc gia hoặc ASNs. Đây là nguồn phổ biến nhất của lỗi 1020 cho các nhà quét sử dụng proxy trung tâm dữ liệu.
Chế độ Chống Bot và Chế độ Chống Bot Nâng cao: Các cài đặt được quản lý tự động thách thức hoặc chặn các yêu cầu mà mô hình học máy của Cloudflare phân loại là tự động. Chế độ Chống Bot Nâng cao, có sẵn trên các gói Pro và cao hơn, đặc biệt nghiêm ngặt với các công cụ quét.
Nhật ký Sự kiện Tường lửa: Khi lỗi 1020 xảy ra, chủ trang web có thể xem quy tắc chính xác đã kích hoạt khối trong phần Sự kiện Tường lửa của bảng điều khiển Cloudflare. Nhật ký này hiển thị ID quy tắc, biểu thức khớp và hành động được thực hiện — giúp dễ dàng kiểm tra và điều chỉnh quy tắc.
Nếu bạn là chủ trang web thấy lỗi 1020 không mong muốn ảnh hưởng đến người dùng hợp lệ, xem lại nhật ký Sự kiện Tường lửa là bước đầu tiên đúng đắn. Bạn cũng có thể kiểm tra hướng dẫn mã lỗi Cloudflare trên blog của CapSolver để có cái nhìn tổng quan hơn về gia đình lỗi 1xxx của Cloudflare.
Nếu luồng tự động hóa của bạn gặp lỗi Cloudflare 1020, mục tiêu là làm cho các yêu cầu trông giống như lưu lượng trình duyệt thực tế nhất có thể — không phải để vượt qua bảo mật, mà để tránh kích hoạt các quy tắc được thiết kế cho bot độc hại.
IP trung tâm dữ liệu là nguyên nhân phổ biến nhất gây ra chặn IP. Proxy cư dân định tuyến yêu cầu qua các nhà cung cấp ISP thực tế, có điểm tin cậy cao hơn trong cơ sở dữ liệu đe dọa của Cloudflare. Đây là thay đổi quan trọng nhất bạn có thể thực hiện.
Một trình duyệt thực tế gửi một tập hợp tiêu đề nhất định với mỗi yêu cầu. Tự động hóa của bạn nên bao gồm ít nhất:
User-Agent — chuỗi trình duyệt hiện tại, thực tếAccept — khớp với nội dung phân tích của trình duyệtAccept-Language — giá trị địa phương thực tếAccept-Encoding — gzip, deflate, brReferer — nếu phù hợp, URL tham chiếu hợp lýChậm lại. Người dùng thực tế không gửi hàng chục yêu cầu mỗi giây. Thêm độ trễ ngẫu nhiên giữa các yêu cầu — ngay cả 1–3 giây — sẽ giảm đáng kể khả năng chạm vào các quy tắc giới hạn tần suất.
Duy trì một kho cookie liên tục qua các yêu cầu. Phát hiện bot của Cloudflare dựa một phần vào liên tục của phiên. Một khách hàng bỏ qua cookie giữa các yêu cầu sẽ trông tự động.
Cấu hình WAF Cloudflare nâng cao kiểm tra chữ ký TLS (JA3/JA4). Các thư viện như curl_cffi trong Python có thể mô phỏng các hồ sơ TLS trình duyệt cụ thể. Đối với một triển khai thực tế, xem hướng dẫn CapSolver về quét web với curl_cffi.
Nếu bạn có trường hợp hợp lệ — theo dõi giá, nghiên cứu học thuật, công cụ truy cập — liên hệ trực tiếp với chủ trang web luôn là con đường bền vững nhất. Nhiều trang web sẽ cho phép IP cụ thể hoặc cung cấp API chính thức.
Ngay cả khi khối 1020 được giải quyết, các trang web được bảo vệ bởi Cloudflare thường hiển thị thử thách Turnstile như bước xác minh bổ sung. Cloudflare Turnstile là một lựa chọn CAPTCHA bảo vệ quyền riêng tư thay thế, xác minh ý định của con người mà không yêu cầu người dùng giải các câu đố hình ảnh.
Trong các quy trình tự động hóa, các thử thách Turnstile có thể làm gián đoạn luồng thu thập dữ liệu. Đây là lúc CapSolver trở nên quan trọng. CapSolver là một dịch vụ giải CAPTCHA dựa trên AI, hỗ trợ Turnstile của Cloudflare một cách tự động, trả về các token hợp lệ một cách chương trình để quy trình tự động hóa của bạn tiếp tục mà không cần can thiệp thủ công.
Giải pháp Turnstile của CapSolver hoạt động qua một lời gọi API đơn giản. Dựa trên tài liệu chính thức của CapSolver, đây là cách tích hợp:
Bước 1: Tạo nhiệm vụ
POST https://api.capsolver.com/createTask
{
"clientKey": "YOUR_API_KEY",
"task": {
"type": "AntiTurnstileTaskProxyLess",
"websiteURL": "https://example.com",
"websiteKey": "YOUR_TURNSTILE_SITEKEY"
}
}
Bước 2: Kiểm tra kết quả
POST https://api.capsolver.com/getTaskResult
{
"clientKey": "YOUR_API_KEY",
"taskId": "TASK_ID_FROM_STEP_1"
}
Bước 3: Sử dụng token
Phản hồi bao gồm trường token. Gửi token này trong trường cf-turnstile-response để hoàn thành thử thách.
Cách tiếp cận này giữ cho luồng tự động hóa của bạn hoạt động mà không cần môi trường trình duyệt đầy đủ. CapSolver được thiết kế để giao hàng token với độ trễ thấp, làm cho nó thực tế cho các quy trình có lưu lượng cao.
Để tìm hiểu sâu hơn về cách xử lý các thử thách Cloudflare trong Python cụ thể, blog CapSolver đề cập đến xử lý thử thách Cloudflare trong Python với các chi tiết triển khai bổ sung.
Việc sử dụng dịch vụ giải CAPTCHA phải tuân thủ các điều khoản dịch vụ của trang đích và luật pháp có liên quan. CapSolver được thiết kế cho các trường hợp sử dụng tự động hóa hợp lệ — kiểm tra, truy cập và thu thập dữ liệu được ủy quyền.
Nhận Mã Ưu Đãi CapSolver
Tăng ngân sách tự động hóa của bạn ngay lập tức!
Sử dụng mã ưu đãi CAP26 khi nạp tiền vào tài khoản CapSolver để nhận thêm 5% ưu đãi cho mỗi lần nạp — không giới hạn.
Nhận mã ưu đãi ngay bây giờ trong Bảng điều khiển CapSolver
Được rồi, hãy phân biệt lỗi 1020 với các lỗi Cloudflare liên quan:
| Mã lỗi | Ý nghĩa | Ai kiểm soát nó |
|---|---|---|
| 1020 | Yêu cầu bị chặn bởi quy tắc tường lửa | Chủ trang web |
| 1006 / 1007 / 1008 | IP bị cấm bởi Cloudflare hoặc chủ trang web | Cloudflare / chủ trang web |
| 1010 | Kiểm tra tính toàn vẹn trình duyệt thất bại | Chủ trang web |
| 403 (gốc) | Máy chủ gốc từ chối yêu cầu | Máy chủ gốc |
| 503 | Cloudflare không thể truy cập gốc | Cloudflare / gốc |
Lỗi 1020 luôn là quy tắc do chủ trang web cấu hình. Bài viết blog về Báo cáo Radar 2024 của Cloudflare ghi nhận rằng các quy tắc WAF đã chặn hàng tỷ yêu cầu trong năm, phản ánh mức độ mà các nhà quản trị trang web phụ thuộc vào các cấu hình tường lửa tùy chỉnh. Để có bối cảnh về các mã lỗi liên quan, blog CapSolver cũng đề cập đến các lỗi Cloudflare 1006, 1007 và 1008.
Lỗi Cloudflare 1020 là một sự từ chối truy cập có chủ đích được thực thi bởi các quy tắc tường lửa ứng dụng web mà chủ trang web đã cấu hình. Đối với các nhà phát triển, con đường tiếp theo là hiểu các tín hiệu nào kích hoạt phát hiện bot — đánh giá IP, bất thường tiêu đề, tần suất yêu cầu, mã hóa TLS — và xây dựng tự động hóa tránh những tín hiệu này thông qua hành vi có trách nhiệm, giống như trình duyệt.
Khi thử thách CAPTCHA như Cloudflare Turnstile hoặc các thử thách khác xuất hiện như một phần của hệ thống bảo vệ, CapSolver cung cấp cách tiếp cận đáng tin cậy, dựa trên API để xử lý chúng một cách tự động. Dù bạn đang xây dựng luồng dữ liệu, quy trình RPA hoặc bộ kiểm tra tự động, việc tích hợp một giải pháp CAPTCHA đáng tin cậy sẽ loại bỏ một trong những điểm lỗi phổ biến nhất trong các môi trường được bảo vệ bởi Cloudflare.
Nếu bạn thường xuyên làm việc với các trang web được bảo vệ bởi Cloudflare, hãy khám phá các giải pháp Cloudflare của CapSolver để xem toàn bộ phạm vi các loại thử thách được hỗ trợ.
Câu hỏi 1: Tôi có thể sửa lỗi Cloudflare 1020 bằng cách xóa bộ nhớ đệm trình duyệt không?
Đôi khi. Nếu khối được kích hoạt bởi cookie bị hỏng hoặc phiên lỗi thời, xóa bộ nhớ đệm và cookie trình duyệt có thể giải quyết vấn đề. Tuy nhiên, nếu khối dựa trên địa chỉ IP của bạn hoặc quy tắc tường lửa nghiêm ngặt, xóa bộ nhớ đệm sẽ không có tác dụng. Nguyên nhân cơ bản quyết định cách sửa.
Câu hỏi 2: Lỗi Cloudflare 1020 có nghĩa là tôi bị cấm vĩnh viễn không?
Không hẳn. Các khối dựa trên IP có thể là tạm thời, đặc biệt nếu chúng liên quan đến các quy tắc giới hạn tần suất thay vì danh sách đen IP cố định. Chuyển sang địa chỉ IP khác — hoặc chờ khối hết hạn — thường khôi phục truy cập. Các khối vĩnh viễn ít phổ biến và thường được dành cho các IP có lịch sử hoạt động độc hại kéo dài.
Câu hỏi 3: Chủ trang web làm thế nào để xác định quy tắc tường lửa nào đang gây ra lỗi 1020?
Nhật ký Sự kiện Tường lửa trên bảng điều khiển Cloudflare ghi lại mọi quy tắc được kích hoạt, bao gồm ID quy tắc, các thuộc tính yêu cầu được khớp và hành động được thực hiện. Chủ trang web có thể lọc theo khoảng thời gian và ID quy tắc để xác định cấu hình chính xác gây ra việc chặn không mong muốn.
Câu hỏi 4: Liệu có thể nhận được lỗi 1020 ngay cả khi sử dụng trình duyệt hợp pháp không?
Có. Nếu địa chỉ IP của bạn nằm trong một proxy chung hoặc VPN đã bị ghi nhận, hoặc nếu khoảng địa chỉ IP của nhà cung cấp dịch vụ internet (ISP) của bạn đã bị chủ trang web chặn, một trình duyệt thông thường vẫn sẽ nhận được lỗi 1020. Việc chặn được đánh giá ở cấp độ IP và yêu cầu, không phải ở cấp độ trình duyệt.
Câu hỏi 5: Sự khác biệt giữa Tường lửa Ứng dụng Web (WAF) của Cloudflare và Cloudflare Turnstile là gì?
Tường lửa Ứng dụng Web (WAF) của Cloudflare là một hệ thống dựa trên quy tắc, chặn hoặc yêu cầu xác minh các yêu cầu dựa trên các chính sách bảo mật. Cloudflare Turnstile là một thử thách thay thế CAPTCHA, xác minh ý định của con người thông qua các tín hiệu hành vi. Một trang web có thể sử dụng cả hai: WAF chặn ngay lập tức lưu lượng độc hại rõ ràng (dẫn đến lỗi 1020), trong khi Turnstile đưa ra một thử thách mềm hơn cho các yêu cầu mơ hồ. Cả hai đều là một phần của bộ công cụ phát hiện bot và hạn chế quét của Cloudflare.
Học cách khắc phục lỗi Cloudflare Error 1005 bị từ chối truy cập khi quét dữ liệu. Khám phá các giải pháp như proxy nhà ở, dấu vân tay trình duyệt và CapSolver cho CAPTCHA. Tối ưu hóa việc trích xuất dữ liệu.

Khám phá cách xử lý hiệu quả Cloudflare Turnstile trong các quy trình AI bằng các kỹ thuật che giấu của Playwright và CapSolver để giải captcha đáng tin cậy. Học các chiến lược tích hợp thực tế và các phương pháp tốt nhất để tự động hóa không gián đoạn.
