
Anh Tuan
Data Science Expert

Khi AI agent của bạn gặp phải bức tường CAPTCHA, toàn bộ quy trình sẽ bị gián đoạn. Việc điều hướng dừng lại, các biểu mẫu không thể gửi đi và việc trích xuất dữ liệu thất bại — tất cả đều do một thử thách được thiết kế để chặn truy cập tự động. Vercel Agent Browser là một CLI nhanh, nguyên bản bằng Rust cho tự động hóa trình duyệt không giao diện, được xây dựng đặc biệt cho AI agent. Nó có tính năng chọn phần tử ưu tiên truy cập, định vị ngữ nghĩa và luồng làm việc chụp ảnh nhanh tối ưu cho LLM. Tuy nhiên, giống như bất kỳ công cụ tự động hóa trình duyệt nào, nó cũng bị mắc kẹt bởi CAPTCHA.
CapSolver thay đổi hoàn toàn điều này. Bằng cách tải tiện ích mở rộng CapSolver Chrome vào Agent Browser sử dụng cờ --extension tích hợp, CAPTCHA sẽ được giải tự động và vô hình trong nền. Không cần giải thủ công. Không cần điều phối API phức tạp. Các lệnh CLI của bạn tiếp tục chạy như thể CAPTCHA chưa từng tồn tại.
Điều tuyệt vời nhất? Agent Browser hỗ trợ tiện ích mở rộng trong cả chế độ có giao diện và không giao diện — khác với Playwright, yêu cầu chế độ có giao diện để tiện ích mở rộng. Điều này có nghĩa là các quy trình sản xuất, CI/CD và triển khai serverless của bạn đều hoạt động mà không cần yêu cầu hiển thị. Trí tuệ nhân tạo của bạn tập trung vào điều mà nó làm tốt nhất — điều hướng trang, trích xuất dữ liệu và tự động hóa quy trình — trong khi CapSolver xử lý CAPTCHA một cách im lặng.
Vercel Agent Browser là một CLI tự động hóa trình duyệt không giao diện được xây dựng bằng Rust để tối ưu hiệu suất. Được phát triển bởi Vercel Labs, nó cung cấp giao diện dòng lệnh điều khiển Chrome mà không cần Playwright hoặc Node.js cho trình điều khiển trình duyệt. Thiết kế ưu tiên truy cập sử dụng các định vị ngữ nghĩa và tham chiếu chụp ảnh — khiến nó trở thành công cụ lý tưởng cho AI agent cần tương tác với các trang web.
--headless=new của Chrome.--json.Agent Browser hoạt động trên bất kỳ trang nào — bao gồm nội dung đã xác thực, SPAs động và các trang được bảo vệ bằng CAPTCHA — khiến nó trở thành lựa chọn lý tưởng cho quy trình AI agent, thu thập dữ liệu và kiểm thử tự động.
CapSolver là một dịch vụ giải CAPTCHA được thúc đẩy bởi AI, tự động giải các thách thức CAPTCHA đa dạng. Với thời gian phản hồi nhanh và khả năng tương thích rộng, CapSolver tích hợp liền mạch vào các quy trình tự động hóa.
Hầu hết các tích hợp giải CAPTCHA yêu cầu bạn viết mã mẫu: tạo nhiệm vụ, kiểm tra kết quả, chèn token vào các trường ẩn. Đó là cách tiếp cận tiêu chuẩn với các đoạn mã Playwright hoặc Puppeteer thô.
Agent Browser + tiện ích mở rộng CapSolver tiếp cận hoàn toàn khác:
| Cách truyền thống (dựa trên mã) | Agent Browser + tiện ích mở rộng CapSolver |
|---|---|
| Viết lớp dịch vụ CapSolver | Thêm cờ --extension vào lệnh của bạn |
Gọi createTask() / getTaskResult() |
Tiện ích mở rộng xử lý mọi thứ tự động |
| Chèn token thông qua đánh giá JavaScript | Việc chèn token là vô hình |
| Xử lý lỗi, thử lại, thời gian chờ trong mã | Tiện ích mở rộng quản lý thử lại nội bộ |
| Mã khác nhau cho mỗi loại CAPTCHA | Hoạt động cho tất cả các loại tự động |
| Yêu cầu chế độ có giao diện cho tiện ích mở rộng | Hoạt động trong cả chế độ có giao diện và không giao diện |
Điểm mấu chốt: Tiện ích mở rộng CapSolver chạy bên trong phiên Chrome của Agent Browser. Khi Agent Browser điều hướng đến trang có CAPTCHA, tiện ích mở rộng phát hiện nó, giải nó trong nền và chèn token — tất cả trước khi lệnh tiếp theo được thực thi. Tự động hóa của bạn vẫn sạch sẽ, tập trung và không có CAPTCHA.
Trước khi thiết lập tích hợp, hãy đảm bảo bạn có:
npm install -g agent-browser)Lưu ý: Khác với các công cụ dựa trên Playwright, Agent Browser hỗ trợ tiện ích mở rộng trong cả chế độ có giao diện và không giao diện. Không cần Xvfb hoặc màn hình ảo trên máy chủ.
npm install -g agent-browser
agent-browser install # Tải Chrome từ Chrome for Testing (chỉ lần đầu tiên)
Các phương pháp cài đặt thay thế:
# macOS qua Homebrew
brew install agent-browser
agent-browser install
# Qua Cargo (Rust)
cargo install agent-browser
agent-browser install
Trên Linux, bao gồm các phụ thuộc hệ thống:
agent-browser install --with-deps
Tải xuống tiện ích mở rộng CapSolver Chrome và giải nén nó vào một thư mục chuyên dụng:
CapSolver.Browser.Extension-chrome-v1.17.0.zipmkdir -p ~/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d ~/capsolver-extension/
ls ~/capsolver-extension/manifest.json
Bạn nên thấy manifest.json — điều này xác nhận tiện ích mở rộng ở đúng vị trí.
Mở tệp cấu hình tiện ích mở rộng tại ~/capsolver-extension/assets/config.js và thay giá trị apiKey bằng khóa của bạn:
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', // ← khóa của bạn ở đây
useCapsolver: true,
// ... phần còn lại của cấu hình
};
Bạn có thể lấy khóa API từ bảng điều khiển CapSolver.
Việc tải tiện ích mở rộng chỉ cần một cờ — --extension:
agent-browser --extension ~/capsolver-extension open https://example.com/protected-page
Đó là tất cả. Tiện ích mở rộng CapSolver hiện đang hoạt động bên trong trình duyệt và sẽ tự động giải bất kỳ CAPTCHA nào nó gặp phải.
Đối với chế độ có giao diện (để xem trực quan trình duyệt):
agent-browser --extension ~/capsolver-extension --headed open https://example.com/protected-page
Trong chế độ có giao diện, điều hướng đến chrome://extensions để xem tiện ích mở rộng CapSolver được liệt kê và kích hoạt:
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
Trong chế độ không giao diện, kiểm tra nhật ký trình duyệt của CapSolver:
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser console
Sau khi cài đặt xong, sử dụng CapSolver với Agent Browser rất đơn giản — chỉ cần thêm cờ --extension và lệnh chờ.
Không viết logic đặc biệt cho CAPTCHA. Chỉ cần thêm lệnh chờ sau khi điều hướng đến trang được bảo vệ bằng CAPTCHA, và để tiện ích mở rộng thực hiện công việc của nó.
# Điều hướng đến trang với tiện ích mở rộng CapSolver đã được tải
agent-browser --extension ~/capsolver-extension open https://example.com/contact
# Lấy bản chụp để khám phá các phần tử biểu mẫu
agent-browser snapshot -i
# Đầu ra:
# - hộp văn bản "Tên" [ref=e1]
# - hộp văn bản "Email" [ref=e2]
# - hộp văn bản "Thông điệp" [ref=e3]
# - nút "Gửi" [ref=e4]
# Điền vào biểu mẫu
agent-browser fill @e1 "John Doe"
agent-browser fill @e2 "john@example.com"
agent-browser fill @e3 "Xin chào, tôi có một câu hỏi về dịch vụ của bạn."
# Chờ CapSolver giải CAPTCHA
agent-browser wait 30000
# Gửi — token CAPTCHA đã được chèn
agent-browser click @e4
# Điều hướng đến trang đăng nhập
agent-browser --extension ~/capsolver-extension open https://example.com/login
# Lấy các phần tử tương tác
agent-browser snapshot -i
# Điền thông tin đăng nhập
agent-browser find label "Email" fill "me@example.com"
agent-browser find label "Mật khẩu" fill "mypassword123"
# Chờ Turnstile được giải
agent-browser wait 20000
# Nhấp vào đăng nhập — Turnstile đã được xử lý
agent-browser find role button click --name "Đăng nhập"
# Điều hướng đến trang được bảo vệ
agent-browser --extension ~/capsolver-extension open https://example.com/data
# Chờ CAPTCHA được giải
agent-browser wait 30000
# Trích xuất nội dung trang bằng bản chụp
agent-browser snapshot --json
# Hoặc lấy văn bản phần tử cụ thể
agent-browser get text "body" --json
Agent Browser hỗ trợ nối lệnh để tự động hóa hiệu quả:
# Mở, chờ CAPTCHA, điền biểu mẫu và gửi — tất cả trong một dòng
agent-browser --extension ~/capsolver-extension open https://example.com/contact && \
agent-browser wait 30000 && \
agent-browser snapshot -i && \
agent-browser fill @e1 "John Doe" && \
agent-browser fill @e2 "john@example.com" && \
agent-browser click @e3
Đối với các quy trình AI agent, sử dụng --json để có đầu ra có thể đọc được bởi máy tính:
#!/bin/bash
EXTENSION=~/capsolver-extension
# Mở trang với tiện ích mở rộng
agent-browser --extension "$EXTENSION" open https://example.com/protected
# Chờ CAPTCHA được giải
agent-browser wait 30000
# Lấy bản chụp dưới dạng JSON cho xử lý AI
SNAPSHOT=$(agent-browser snapshot -i --json)
# Phân tích tham chiếu và tương tác
agent-browser click @e2
agent-browser get text "body" --json
| Loại CAPTCHA | Thời gian giải thường | Thời gian chờ được khuyến nghị |
|---|---|---|
| reCAPTCHA v2 (hộp kiểm) | 5-15 giây | 30-60 giây |
| reCAPTCHA v2 (ẩn) | 5-15 giây | 30 giây |
| reCAPTCHA v3 | 3-10 giây | 20-30 giây |
| Cloudflare Turnstile | 3-10 giây | 20-30 giây |
Lưu ý: Khi không chắc, hãy sử dụng 30 giây. Tốt hơn là chờ lâu hơn một chút thay vì gửi quá sớm. Thời gian bổ sung không ảnh hưởng đến kết quả.
Đây là những gì xảy ra khi Agent Browser chạy với tiện ích mở rộng CapSolver được tải:
Lệnh của Agent Browser của bạn
───────────────────────────────────────────────────
agent-browser --extension ──► Chrome khởi động với tiện ích mở rộng
~/capsolver-extension
open https://...
│
▼
┌─────────────────────────────┐
│ Trang có widget CAPTCHA │
│ │
│ Tiện ích mở rộng CapSolver: │
│ 1. Script nội dung phát hiện │
│ CAPTCHA trên trang │
│ 2. Worker dịch vụ gọi API │
│ CapSolver │
│ 3. Token nhận được │
│ 4. Token chèn vào trường ẩn │
└─────────────────────────────┘
│
▼
agent-browser wait 30000 Tiện ích mở rộng giải CAPTCHA...
│
▼
agent-browser snapshot -i Agent Browser đọc các phần tử
agent-browser click @e2 Biểu mẫu gửi với token hợp lệ
│
▼
"Xác minh thành công!"
Khi Agent Browser khởi động Chrome với cờ --extension:
--headless=new trong chế độ không giao diện, hỗ trợ tiện ích mở rộng Manifest V3)Dưới đây là cài đặt hoàn chỉnh với tất cả các tùy chọn cấu hình cho tích hợp Agent Browser + CapSolver:
agent-browser \
--extension ~/capsolver-extension \
--headed \
--session-name my-session \
open https://example.com
# Thiết lập đường dẫn tiện ích mở rộng dưới dạng biến môi trường (tránh lặp lại cờ --extension)
export AGENT_BROWSER_EXTENSIONS=~/capsolver-extension
# Bây giờ mọi lệnh tự động tải tiện ích mở rộng
agent-browser open https://example.com
agent-browser wait 30000
agent-browser snapshot -i
agent-browser.json)Tạo tệp agent-browser.json trong thư mục dự án của bạn để cài đặt mặc định bền vững:
{
"extension": ["~/capsolver-extension"],
"sessionName": "my-project",
"headed": false
}
| Tùy chọn | Mô tả |
|---|---|
--extension <path> |
Đường dẫn đến thư mục tiện ích mở rộng CapSolver đã giải nén chứa manifest.json. Có thể lặp lại để thêm nhiều tiện ích mở rộng. |
--headed |
Hiển thị cửa sổ trình duyệt để gỡ lỗi trực quan. Tiện ích mở rộng hoạt động trong cả hai chế độ. |
--session-name <name> |
Tự động lưu/khôi phục cookie và localStorage khi khởi động lại trình duyệt. |
--profile <path> |
Thư mục hồ sơ trình duyệt bền vững (cookie, IndexedDB, bộ nhớ đệm). |
AGENT_BROWSER_EXTENSIONS |
Tùy chọn biến môi trường thay thế cho cờ --extension. Các đường dẫn phân tách bằng dấu phẩy cho nhiều tiện ích mở rộng. |
Khóa API của CapSolver được cấu hình trực tiếp trong tệp assets/config.js của phần mở rộng (xem Bước 3 ở trên). |
Triệu chứng: CAPTCHAs không được giải tự động.
Nguyên nhân có thể xảy ra:
manifest.json tồn tại trong thư mục đã chỉ địnhGiải pháp: Xác minh đường dẫn và kiểm tra xem mở rộng có được tải hay không:
# Xác minh manifest tồn tại
ls ~/capsolver-extension/manifest.json
# Kiểm tra ở chế độ có giao diện để xác nhận trực quan
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
Nguyên nhân có thể xảy ra:
Gỡ lỗi bằng nhật ký console:
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser wait 30000
agent-browser console # Kiểm tra các thông báo từ CapSolver
Triệu chứng: agent-browser không thể tìm thấy tệp thực thi Chrome.
Giải pháp: Chạy lệnh cài đặt để tải xuống Chrome cho Testing:
agent-browser install
Hoặc chỉ định đường dẫn đến tệp thực thi Chrome tùy chỉnh:
agent-browser --executable-path /path/to/chrome open https://example.com
Bạn có thể tải nhiều mở rộng bằng cách lặp lại cờ --extension:
agent-browser \
--extension ~/capsolver-extension \
--extension ~/another-extension \
open https://example.com
Sử dụng biến môi trường AGENT_BROWSER_EXTENSIONS. Thiết lập một lần trong tệp hồ sơ shell hoặc cấu hình CI, và mọi lệnh agent-browser sẽ tự động tải CapSolver mà không cần lặp lại cờ.
Luôn sử dụng thời gian chờ hợp lý. Thời gian chờ nhiều hơn luôn an toàn hơn. CAPTCHA thường được giải trong 5-20 giây, nhưng độ trễ mạng, thách thức phức tạp hoặc thử lại có thể làm tăng thời gian. 30-60 giây là khoảng thời gian lý tưởng.
Giữ các kịch bản tự động hóa sạch sẽ. Không thêm logic đặc biệt cho CAPTCHA vào các lệnh của bạn. Phần mở rộng xử lý mọi thứ — các kịch bản của bạn nên tập trung vào điều hướng, tương tác và trích xuất dữ liệu.
Theo dõi số dư CapSolver của bạn. Mỗi lần giải CAPTCHA đều tốn điểm. Kiểm tra số dư của bạn tại capsolver.com/dashboard thường xuyên để tránh gián đoạn.
Sử dụng tính năng duy trì phiên cho các lần truy cập lặp lại. Sử dụng --session-name hoặc --profile để duy trì cookie giữa các lần chạy. Điều này có thể giảm tần suất CAPTCHA vì trang web có thể nhận diện phiên quay lại.
Tận dụng chế độ không đầu cuối trong sản xuất. Khác với các giải pháp dựa trên Playwright, Agent Browser hỗ trợ mở rộng trong chế độ không đầu cuối. Không cần Xvfb hoặc màn hình ảo trên máy chủ — chỉ cần chạy lệnh trực tiếp.
Tích hợp Vercel Agent Browser + CapSolver mang đến khả năng giải CAPTCHA ẩn cho CLI tự động hóa trình duyệt nhanh nhất và tối ưu hóa bằng AI hiện có. Thay vì viết mã xử lý CAPTCHA phức tạp, bạn chỉ cần:
--extension ~/capsolver-extension vào các lệnh Agent Browser của bạnPhần mở rộng Chrome CapSolver sẽ xử lý phần còn lại — phát hiện CAPTCHA, giải chúng thông qua API CapSolver và chèn các token vào trang. Các lệnh Agent Browser của bạn không bao giờ cần biết đến CAPTCHA.
Và khác với các giải pháp dựa trên Playwright yêu cầu chế độ có đầu cuối và màn hình ảo, Agent Browser hỗ trợ mở rộng trong chế độ không đầu cuối ngay từ đầu — đây là cách đơn giản nhất để đạt được tự động hóa không CAPTCHA trong môi trường sản xuất.
Sẵn sàng bắt đầu chưa? Đăng ký tại CapSolver và sử dụng mã thưởng AGENTBROWSER để nhận thêm 6% cho lần nạp tiền đầu tiên!

Không. Phần mở rộng CapSolver hoạt động hoàn toàn ở nền trong phiên Chrome của Agent Browser. Chỉ cần thêm agent-browser wait 30000 trước khi gửi biểu mẫu, phần mở rộng sẽ tự động xử lý phát hiện, giải và chèn token.
Có! Đây là lợi thế lớn so với các giải pháp dựa trên Playwright. Agent Browser sử dụng chế độ --headless=new của Chrome, hỗ trợ các mở rộng Manifest V3. Không cần Xvfb hoặc màn hình ảo.
Không. Agent Browser là một tệp nhị phân Rust độc lập. Bạn chỉ cần Node.js cho bước npm install. Dịch vụ trình duyệt chạy natively mà không cần môi trường JavaScript.
CapSolver hỗ trợ reCAPTCHA v2 (hộp kiểm và ẩn), reCAPTCHA v3, Cloudflare Turnstile, AWS WAF CAPTCHA và nhiều hơn nữa. Phần mở rộng tự động phát hiện loại CAPTCHA và giải chúng tương ứng.
CapSolver cung cấp giá cả cạnh tranh dựa trên loại CAPTCHA và khối lượng. Truy cập capsolver.com để xem giá hiện tại.
Có. Agent Browser là phần mềm mã nguồn mở dưới giấy phép Apache 2.0. CLI và tất cả tính năng đều miễn phí. Truy cập kho lưu trữ GitHub để biết thêm chi tiết.
Đối với đa số CAPTCHA, 30-60 giây là đủ. Thời gian giải thực tế thường là 5-20 giây, nhưng thêm thời gian dự phòng đảm bảo độ tin cậy. Khi không chắc, hãy sử dụng 30 giây qua agent-browser wait 30000.
Tuyệt đối. Agent Browser được xây dựng đặc biệt cho các trợ lý AI (có một số lựa chọn để so sánh). Sử dụng --json để nhận đầu ra có thể đọc được bằng máy, quy trình snapshot-ref để chọn phần tử một cách xác định, và chuỗi lệnh để tự động hóa đa bước hiệu quả. Phần mở rộng CapSolver chạy một cách minh bạch cùng các lệnh của trợ lý của bạn.
Khám phá cách cơ sở hạ tầng tự động hóa AI được cung cấp bởi Mô hình Ngôn ngữ lớn (LLM) đột phá trong việc nhận diện CAPTCHA, nâng cao hiệu quả quy trình kinh doanh và giảm thiểu sự can thiệp thủ công. Tối ưu hóa các quy trình tự động của bạn với các giải pháp xác minh tiên tiến.

Hãy học cách mở rộng thu thập dữ liệu cho việc huấn luyện mô hình LLM bằng cách giải CAPTCHAs quy mô lớn. Khám phá các chiến lược tự động để xây dựng các bộ dữ liệu chất lượng cao cho các mô hình AI.
