
Anh Tuan
Data Science Expert

Các tác nhân bị giới hạn tốc độ cần kiểm soát giao thông trước khi cần thêm các mẹo trình duyệt. Một mã 429, mã 403, trang CAPTCHA và chuyển hướng im lặng đều chỉ ra các lớp thất bại khác nhau, do đó việc sửa chữa bắt đầu bằng kỷ luật mã trạng thái. CapSolver hữu ích khi quy trình được ủy quyền đạt được thách thức được hỗ trợ sau khi nhịp độ hợp lý, nhưng không nên che giấu quá tải, lạm dụng tài khoản hoặc thiếu quyền. Đối với các tác nhân AI bị giới hạn tốc độ và bị chặn, hãy ghi lại điểm cuối, tài khoản, tuyến đường proxy, số lượng yêu cầu, khoảng thời gian thử lại, tiêu đề phản hồi và hành động lập kế hoạch đã gây ra sự từ chối. Sau đó di chuyển việc giới hạn tốc độ vào bộ lập lịch, không phải quyết định cuối cùng của mô hình. Kết quả là tỷ lệ bị chặn thấp hơn và trách nhiệm rõ ràng hơn.
Xem 429 và 403 là các tín hiệu vận hành khác nhau. HTTP 429 cho biết khách hàng đã gửi quá nhiều yêu cầu trong một khoảng thời gian, trong khi HTTP 403 có nghĩa là máy chủ hiểu yêu cầu và từ chối nó. Định nghĩa của HTTP 429 Quá nhiều yêu cầu và HTTP 403 Không được phép cung cấp cơ sở rõ ràng cho phân loại nhật ký. Nếu nhóm gom cả hai kết quả dưới nhãn "bị chặn", việc sửa chữa trở nên ồn ào: một kỹ sư làm chậm yêu cầu, người khác xoay chuyển tuyến đường, và tác nhân tiếp tục lặp lại kế hoạch giống nhau.
Tạo một phân loại trạng thái cho các tác nhân AI bị giới hạn tốc độ và bị chặn. Một mã 429 nên ghi lại host, điểm cuối, tài khoản, tuyến đường, tiêu đề thử lại và số lượng yêu cầu gần đây. Một mã 403 nên ghi lại trạng thái ủy quyền, trạng thái tài khoản, tuyến đường, đường dẫn, dấu hiệu trang CAPTCHA và lớp phản hồi. Một trang CAPTCHA nên ghi lại liệu nó theo sau các yêu cầu nhanh hay xuất hiện trong lần tiếp xúc đầu tiên. Các danh mục này cho phép các đường sửa chữa riêng biệt.
Đừng để người lập kế hoạch quyết định rằng mọi từ chối đều xứng đáng với lần thử lại. Công cụ trình duyệt nên trả về rate_limited, forbidden, challenge_detected hoặc auth_required như các trạng thái cấu trúc. Thay đổi này giữ cho các tác nhân AI bị giới hạn tốc độ và bị chặn không chuyển đổi thời gian chờ nhỏ thành khóa lớn hơn.
Thời gian thử lại nên được điều khiển bởi phản hồi của máy chủ khi máy chủ cung cấp nó. Trường phản hồi Retry-After xác định trường phản hồi có thể cho biết khách hàng khi nào nên thử lại. Nếu nó xuất hiện, hàng đợi nên tôn trọng nó chính xác trừ khi có chính sách nội bộ nghiêm ngặt hơn. Nếu nó không xuất hiện, hãy sử dụng thời gian chờ cục bộ thận trọng dựa trên mật độ thất bại gần đây, chi phí điểm cuối và ưu tiên kinh doanh.
Một thời gian chờ tốt có phạm vi. Một trang sản phẩm có thể cần độ trễ theo host, trong khi hành động viết cần dừng lại theo tài khoản. Các trang tìm kiếm, trang đăng nhập, đường dẫn thanh toán và các điểm cuối giống API không nên chia sẻ một bộ đếm thử lại chung. Các tác nhân AI bị giới hạn tốc độ và bị chặn trở nên dễ vận hành hơn khi mỗi hành động có chi phí rõ ràng. Một lần đọc có thể tốn 1 đơn vị, một lần tìm kiếm có thể tốn nhiều hơn, và một lần gửi biểu mẫu thất bại có thể tiêu hao toàn bộ ngân sách chạy.
Ngôn ngữ về chất lượng proxy của CapSolver giúp các nhóm tách biệt chất lượng tuyến đường khỏi nhịp độ. Một tuyến đường có danh tiếng kém có thể thất bại ngay lập tức, nhưng một tuyến đường tốt vẫn có thể nhận được 429 nếu tác nhân vượt quá nhịp độ mong đợi của trang. Lần sửa chữa đầu tiên là tôn trọng thời gian chờ, không phải thay đổi danh tính trong phiên.
Ngân sách ngăn các vòng lặp mô hình trở thành sự cố giao thông. Xác định số lượng tối đa theo host, nhóm điểm cuối, tài khoản, tuyến đường và lần chạy nhiệm vụ. Bao gồm cả yêu cầu điều hướng và gọi nền khi có thể vì các trang hiện đại có thể kích hoạt nhiều tài nguyên và yêu cầu API sau một hành động hiển thị. Khi các tác nhân AI bị giới hạn tốc độ và bị chặn không có ngân sách, một bước lập kế hoạch không chắc chắn có thể làm mới, tìm kiếm, mở trang chi tiết, quay lại và lặp lại cho đến khi mục tiêu từ chối tất cả giao thông.
Đặt ngân sách trước khi trình duyệt bắt đầu. Bộ lập lịch nên biết bao nhiêu lần chạy có thể vào host, bao nhiêu trang mỗi lần chạy có thể truy cập, bao nhiêu hành động viết được phép và bao nhiêu từ chối kết thúc công việc. Lớp trình duyệt vẫn có thể quan sát tín hiệu, nhưng nó không nên là bộ giới hạn duy nhất. Sử dụng hướng dẫn kiểm soát giới hạn tốc độ như lời nhắc an ninh rằng các lần thử lặp lại là tín hiệu rủi ro, ngay cả khi mỗi yêu cầu riêng lẻ trông nhỏ.
Ngân sách nên hiển thị trong nhật ký. Ghi lại chi phí đã lên kế hoạch, chi phí đã sử dụng, chi phí còn lại và lý do nhiệm vụ dừng lại. Điều này khiến các tác nhân AI bị giới hạn tốc độ và bị chặn dự đoán được đủ để các nhóm vận hành dự báo năng lực và các nhóm tuân thủ xem xét giới hạn truy cập.
Nhận Mã Ưu đãi CapSolver của Bạn
Tăng ngân sách tự động hóa của bạn ngay lập tức!
Sử dụng mã ưu đãi CAP26 khi nạp tiền tài khoản CapSolver để nhận thêm 5% ưu đãi cho mỗi lần nạp — không giới hạn.
Nhận mã ngay bây giờ trong Bảng điều khiển CapSolver
Hàng đợi giới hạn tốc độ hoạt động tốt nhất ở thượng nguồn. Nếu mười tác nhân khởi chạy trình duyệt và sau đó chờ bên trong luồng trang, mục tiêu đã thấy cú bùng nổ giao thông. Đặt hàng đợi trước khi tạo trình duyệt, giải quyết DNS, đăng nhập và điều hướng trang. Gán độ đồng thời theo host và nhóm tài khoản. Cấp các hành động có rủi ro cao, như vòng lặp tìm kiếm hoặc gửi biểu mẫu, các làn đường nhỏ hơn so với các trang chi tiết chỉ đọc.
Sử dụng thùng token hoặc thùng rò rỉ để nhịp độ dự đoán. Thêm độ dao động để nhiều công việc không khởi động cùng một lúc sau thời gian chờ. Đảm bảo các lần đọc ổn định và loại bỏ các công việc trùng lặp trước khi chúng tiêu thụ năng lực trình duyệt. Nếu một tác nhân muốn cùng một trang hai lần trong một nhiệm vụ, trả lại quan sát đã lưu trữ trừ khi có thay đổi trạng thái thực sự được kỳ vọng. Các biện pháp này giảm tải và làm giảm khả năng các tác nhân AI bị giới hạn tốc độ và bị chặn kích hoạt từ chối toàn trang.
Cuộc thảo luận về các biện pháp chặn quét web https://www.capsolver.com/blog/web-scraping/web-scraping-without-getting-blocked hữu ích nhất khi được dịch thành chính sách hàng đợi: ít yêu cầu lặp lại hơn, quyền sở hữu tuyến đường rõ ràng hơn và điều kiện dừng cho sự từ chối. Thiết kế hàng đợi không chỉ là công việc hiệu suất. Nó là một phần của tự động hóa có trách nhiệm.
Việc thay đổi proxy không nên được sử dụng như một phản xạ. Một tuyến đường yêu cầu, tài khoản, bộ cookie, họ người dùng và vị trí địa lý cần hợp lý cùng nhau. Nếu một tài khoản đã đăng nhập xuất hiện từ nhiều khu vực trong một nhiệm vụ, hoặc nếu tuyến đường thay đổi giữa việc render và gửi thách thức, trang có thể tăng cường xác minh. Các tác nhân AI bị giới hạn tốc độ và bị chặn thường thất bại vì chính sách tuyến đường và chính sách tài khoản được thiết kế bởi các nhóm khác nhau.
Tạo bảng ma trận cho nhóm tài khoản, khu vực được phép, bộ proxy được phép, phiên đồng thời tối đa và quy tắc thời gian chờ. Đánh giá hiệu suất proxy với phương pháp lặp lại như thiết kế benchmark proxy của CapSolver, nhưng không coi thành công benchmark là quyền để tăng khối lượng. Chính sách truy cập công khai vẫn quan trọng, và Thỏa thuận Loại bỏ Robot là cơ sở hữu ích cho quản trị bot.
Khi CAPTCHA xuất hiện sau khi nhịp độ hợp lý và quy trình được ủy quyền, CapSolver có thể được đặt như bước thách thức được kiểm soát. Nếu 403 xuất hiện trước bất kỳ mẫu yêu cầu hợp lý nào, hãy sửa quyền truy cập, trạng thái tài khoản hoặc chính sách mục tiêu trước. Sự phân biệt này giữ cho các tác nhân AI bị giới hạn tốc độ và bị chặn không che giấu sự từ chối bằng các lần thử lại thêm.
Kiểm soát tốc độ nên bắt đầu trước khi bất kỳ phiên trình duyệt nào được khởi động. Một hàng đợi có thể quyết định xem một nhiệm vụ có được phép bắt đầu hay không dựa trên ngân sách host, ngân sách tài khoản, ngân sách tuyến đường và chi phí điểm cuối. Điều này mạnh hơn việc yêu cầu tác nhân trình duyệt chậm lại sau khi nó đã mở tab và bắt đầu điều hướng. Đối với các tác nhân AI bị giới hạn tốc độ và bị chặn, lịch trình trước khi khởi động ngăn mô hình tạo ra các đợt bùng nổ vô tình.
Thiết kế hàng đợi xung quanh ưu tiên kinh doanh. Một nhiệm vụ giám sát có thể chờ sau một nhiệm vụ kiểm tra thanh toán. Một nhiệm vụ nặng tìm kiếm có thể chạy với giới hạn độ đồng thời nhỏ hơn so với một lần đọc trang chi tiết đơn lẻ. Một nhiệm vụ thất bại nên trả lại ngân sách chưa sử dụng thay vì thử lại mù quáng. Khi một host bắt đầu trả về 429, hàng đợi nên làm mát host đó toàn cục, không chỉ lần chạy tác nhân duy nhất đã quan sát phản hồi đó. Điều này biến giới hạn tốc độ từ lỗi trình duyệt thành quyết định lập lịch bình thường.
Tín hiệu tài khoản, tuyến đường và điểm cuối tương tác với nhau. Một tài khoản đáng tin cậy trên tuyến đường không ổn định có thể thất bại. Một tuyến đường sạch sẽ với tài khoản bị lạm dụng có thể thất bại. Một điểm cuối chi phí thấp có thể vẫn khỏe mạnh trong khi các điểm cuối đăng nhập, tìm kiếm hoặc gửi biểu mẫu đã bị áp lực. Các tác nhân AI bị giới hạn tốc độ và bị chặn cần phân tích kết hợp các chiều này thay vì xoay từng lớp một.
Tạo bảng điều khiển vận hành nhỏ. Theo dõi yêu cầu, 429, 403, trang thách thức, thời gian chờ trung bình, số lần thử lại, thành công cuối cùng, lớp ID tài khoản, lớp tuyến đường và nhóm điểm cuối. Chỉ số hữu ích không chỉ là số lượng bị chặn; đó là tỷ lệ nhiệm vụ hoàn thành so với sự kiện xác minh. Nếu xác minh tăng nhanh hơn công việc hoàn thành, dừng lại và kiểm tra kế hoạch. Một hệ thống có trách nhiệm nên giảm áp lực khi tín hiệu xấu đi, không phải chi tiêu ngân sách tự động hóa để ép cùng con đường.
Hồi phục nên nằm trong mã, không phải trong tâm trạng của tác nhân. Xác định độ trễ lần thử lại đầu tiên, số lần thử lại tối đa, khoảng dao động, phạm vi thời gian chờ và điều kiện dừng bên ngoài lời nhắc. Tác nhân có thể báo lý do nó cần lần thử lại, nhưng bộ lập lịch nên quyết định xem lần thử lại có được phép hay không. Điều này ngăn một phản hồi mô hình thuyết phục ghi đè tín hiệu của trang yêu cầu khách hàng chậm lại rõ ràng.
Làm cho lý do dừng hiện thị trong đầu ra nhiệm vụ cuối cùng. Một lần chạy bị dừng nên nói thời gian chờ host, ngân sách tài khoản đã hết, từ chối điểm cuối hoặc ủy quyền không rõ ràng thay vì thất bại mơ hồ. Cách diễn đạt này giúp người vận hành phân biệt sự kiềm chế lành mạnh từ tự động hóa bị hỏng. Đối với các tác nhân AI bị giới hạn tốc độ và bị chặn, dừng sạch sẽ là hành vi an toàn thành công, không phải nhiệm vụ thất bại.
Phục hồi nên diễn ra từ từ. Khi thời gian chờ kết thúc, bắt đầu với một yêu cầu chi phí thấp, sau đó là một lô nhỏ, chỉ quay lại khối lượng bình thường nếu tín hiệu từ chối vẫn thấp. Không tiếp tục toàn bộ danh sách chờ một lúc. Một hàng đợi giải phóng mọi nhiệm vụ bị tạm dừng cùng lúc có thể tạo lại cùng mẫu 429 trong vài giây.
Viết quy tắc phục hồi bên cạnh quy tắc tạm dừng. Bao gồm ai có thể ghi đè nó, các điểm cuối nào được loại trừ và cách đo lường thành công. Điều này giữ cho các tác nhân AI bị giới hạn tốc độ và bị chặn không dao động giữa quá tải và phục hồi cả ngày.
Việc sửa các tác nhân AI bị giới hạn tốc độ và bị chặn bắt đầu bằng phân loại. Tách biệt 429 khỏi 403, tôn trọng Retry-After, áp dụng ngân sách yêu cầu, giới hạn tốc độ trước khi khởi động trình duyệt và giữ cho chính sách proxy và tài khoản nhất quán. Xử lý thách thức nên xảy ra sau các biện pháp này, không phải trước chúng.
Khi tự động hóa được phép vẫn đạt được các thách thức CAPTCHA được hỗ trợ dưới ngân sách yêu cầu hợp lý, kiểm tra bước đó với CapSolver và giữ các chỉ số từ chối riêng biệt khỏi các chỉ số giải quyết.
Kiểm tra mã trạng thái HTTP và tiêu đề phản hồi, sau đó nhóm sự kiện theo điểm cuối, tài khoản, tuyến đường và hành động lập kế hoạch. Điều này ngăn 429 và 403 được sửa chữa theo cùng một cách.
Có, khi tiêu đề hiện diện và hợp lệ. Chính sách nội bộ có thể chờ lâu hơn, nhưng nó không nên thử lại sớm hơn thời gian chờ được máy chủ nêu ra.
Đôi khi chất lượng tuyến đường quan trọng, nhưng một proxy mới sẽ không sửa khối lượng quá mức, quyền truy cập thiếu, tài khoản bị khóa hoặc hành vi phiên không nhất quán.
Đặt throttling chính trong bộ lập lịch hoặc hàng đợi trước khi khởi động trình duyệt. Công cụ trình duyệt vẫn nên phát hiện các trạng thái từ chối và dừng người lập kế hoạch.
CapSolver liên quan khi một quy trình được ủy quyền đạt được CAPTCHA được hỗ trợ sau khi các biện pháp kiểm soát nhịp độ, quyền, tài khoản và tuyến đường đã được thực hiện.
Hướng dẫn kiến trúc công cụ dành cho các tác nhân MCP bị chặn bởi CAPTCHA, tập trung vào mô hình trạng thái, chuyển tiếp trình duyệt, bộ nhớ phiên, hạn mức thử lại và chính sách truy cập an toàn.

Một hướng dẫn tập trung vào nhận dạng sinh trắc học cho các đại diện AI, bao gồm tính nhất quán môi trường trình duyệt, tín hiệu WebDriver, tính nhất quán TLS, thời gian tương tác và xác minh dấu vết.
