
Adélia Cruz
Neural Network Developer

Cuando tu agente de IA encuentra un muro de CAPTCHA, todo el flujo de trabajo se rompe. La navegación se detiene, los formularios no se pueden enviar y la extracción de datos falla, todo porque un desafío diseñado para bloquear el acceso automatizado. Vercel Agent Browser es un CLI rápido de Rust nativo para automatización de navegadores sin cabeza construido específicamente para agentes de IA. Cuenta con selección de elementos con enfoque en accesibilidad, localizadores semánticos y un flujo de trabajo de instantáneas de referencia optimizado para LLMs. Pero como cualquier herramienta de automatización de navegadores, se atasca con CAPTCHAs.
CapSolver cambia esto por completo. Al cargar la extensión de Chrome de CapSolver en Agent Browser usando la bandera integrada --extension, los CAPTCHAs se resuelven automáticamente e invisiblemente en segundo plano. Sin resolver manualmente. Sin orquestación compleja de API. Tus comandos de CLI continúan ejecutándose como si el CAPTCHA nunca hubiera existido.
Lo mejor de todo es que Agent Browser admite extensiones en modo con interfaz gráfica y sin interfaz gráfica — a diferencia de Playwright, que requiere modo con interfaz gráfica para extensiones. Esto significa que tus pipelines de producción, flujos de CI/CD y despliegues sin servidor funcionan con cero requisitos de visualización. Tu agente se enfoca en lo que hace mejor — navegar páginas, extraer datos y automatizar flujos — mientras CapSolver maneja los CAPTCHAs en silencio.
Vercel Agent Browser es un CLI de automatización de navegadores sin cabeza construido en Rust para un rendimiento máximo. Desarrollado por Vercel Labs, proporciona una interfaz de línea de comandos que controla Chrome sin requerir Playwright o Node.js para el daemon del navegador. Su diseño con enfoque en accesibilidad utiliza localizadores semánticos y referencias de instantáneas — lo que lo convierte en la herramienta ideal para agentes de IA que necesitan interactuar con páginas web.
--headless=new de Chrome.--json.Agent Browser funciona en cualquier página — incluyendo contenido autenticado, SPAs dinámicas y sitios con CAPTCHA — lo que lo hace ideal para flujos de trabajo de agentes de IA, recolección de datos y pruebas automatizadas.
CapSolver es un servicio de resolución de CAPTCHA impulsado por IA que resuelve automáticamente diversos desafíos de CAPTCHA. Con tiempos de respuesta rápidos y amplia compatibilidad, CapSolver se integra sin problemas en flujos de trabajo automatizados.
La mayoría de las integraciones de resolución de CAPTCHA requieren que escribas código repetitivo: crear tareas, consultar resultados, inyectar tokens en campos ocultos. Ese es el enfoque estándar con scripts de Playwright o Puppeteer.
Agent Browser + CapSolver toma un enfoque fundamentalmente diferente:
| Tradicional (basado en código) | Agent Browser + CapSolver Extension |
|---|---|
| Escribir una clase de servicio de CapSolver | Agregar la bandera --extension a tu comando |
Llamar a createTask() / getTaskResult() |
La extensión maneja todo automáticamente |
| Inyectar tokens mediante evaluación de JavaScript | La inyección de tokens es invisible |
| Manejar errores, reintentos, tiempos de espera en código | La extensión gestiona reintentos internamente |
| Código diferente para cada tipo de CAPTCHA | Funciona para todos los tipos automáticamente |
| Modo con interfaz gráfica requerido para extensiones | Funciona en modo con interfaz gráfica Y sin interfaz gráfica |
La clave principal: La extensión de CapSolver se ejecuta dentro de la instancia de Chrome de Agent Browser. Cuando Agent Browser navega a una página con un CAPTCHA, la extensión lo detecta, lo resuelve en segundo plano y inyecta el token — todo antes de que se ejecute tu siguiente comando. Tu automatización permanece limpia, enfocada y libre de CAPTCHA.
Antes de configurar la integración, asegúrate de tener:
npm install -g agent-browser)Nota: A diferencia de herramientas basadas en Playwright, Agent Browser admite extensiones en modo con interfaz gráfica y sin interfaz gráfica. No se requiere Xvfb o visualización virtual en servidores.
npm install -g agent-browser
agent-browser install # Descargar Chrome desde Chrome for Testing (solo la primera vez)
Métodos alternativos de instalación:
# macOS con Homebrew
brew install agent-browser
agent-browser install
# A través de Cargo (Rust)
cargo install agent-browser
agent-browser install
En Linux, incluye dependencias del sistema:
agent-browser install --with-deps
Descarga la extensión de Chrome de CapSolver y extraela a un directorio dedicado:
CapSolver.Browser.Extension-chrome-v1.17.0.zipmkdir -p ~/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d ~/capsolver-extension/
ls ~/capsolver-extension/manifest.json
Deberías ver manifest.json — esto confirma que la extensión está en el lugar correcto.
Abre el archivo de configuración de la extensión en ~/capsolver-extension/assets/config.js y reemplaza el valor de apiKey con el tuyo:
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', // ← aquí tu clave
useCapsolver: true,
// ... resto de la configuración
};
Puedes obtener tu clave de API desde tu dashboard de CapSolver.
Cargar la extensión es una sola bandera — --extension:
agent-browser --extension ~/capsolver-extension open https://example.com/protected-page
Eso es todo. La extensión de CapSolver ahora está activa dentro del navegador y resolverá automáticamente cualquier CAPTCHA que encuentre.
Para modo con interfaz gráfica (para ver visualmente el navegador):
agent-browser --extension ~/capsolver-extension --headed open https://example.com/protected-page
En modo con interfaz gráfica, navega a chrome://extensions para ver la extensión de CapSolver listada y activa:
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
En modo sin interfaz gráfica, revisa el consola del navegador para mensajes de registro de CapSolver:
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser console
Una vez que la configuración esté completa, usar CapSolver con Agent Browser es sencillo — solo agrega la bandera --extension y un comando de espera.
No escribas lógica específica para CAPTCHA. Solo agrega una espera después de navegar a páginas protegidas por CAPTCHA, y deja que la extensión haga su trabajo.
# Navegar a la página con la extensión de CapSolver cargada
agent-browser --extension ~/capsolver-extension open https://example.com/contact
# Obtener una instantánea para descubrir elementos del formulario
agent-browser snapshot -i
# Salida:
# - caja de texto "Nombre" [ref=e1]
# - caja de texto "Correo electrónico" [ref=e2]
# - caja de texto "Mensaje" [ref=e3]
# - botón "Enviar" [ref=e4]
# Rellenar el formulario
agent-browser fill @e1 "John Doe"
agent-browser fill @e2 "john@example.com"
agent-browser fill @e3 "Hola, tengo una pregunta sobre sus servicios."
# Esperar a que CapSolver resuelva el CAPTCHA
agent-browser wait 30000
# Enviar — el token de CAPTCHA ya está inyectado
agent-browser click @e4
# Navegar a la página de inicio de sesión
agent-browser --extension ~/capsolver-extension open https://example.com/login
# Obtener elementos interactivos
agent-browser snapshot -i
# Rellenar credenciales
agent-browser find label "Correo electrónico" fill "me@example.com"
agent-browser find label "Contraseña" fill "mypassword123"
# Esperar a que Turnstile se resuelva
agent-browser wait 20000
# Hacer clic en iniciar sesión — Turnstile ya está resuelto
agent-browser find role button click --name "Iniciar sesión"
# Navegar a la página protegida
agent-browser --extension ~/capsolver-extension open https://example.com/data
# Esperar a que cualquier desafío de CAPTCHA se resuelva
agent-browser wait 30000
# Extraer contenido de la página usando instantánea
agent-browser snapshot --json
# O obtener texto de un elemento específico
agent-browser get text "body"
Agent Browser admite la encadenación de comandos para automatización eficiente:
# Abrir, esperar por CAPTCHA, rellenar formulario y enviar — todo en una línea
agent-browser --extension ~/capsolver-extension open https://example.com/contact && \
agent-browser wait 30000 && \
agent-browser snapshot -i && \
agent-browser fill @e1 "John Doe" && \
agent-browser fill @e2 "john@example.com" && \
agent-browser click @e3
Para pipelines de agentes de IA, usa --json para salida legible por máquinas:
#!/bin/bash
EXTENSION=~/capsolver-extension
# Abrir página con extensión
agent-browser --extension "$EXTENSION" open https://example.com/protected
# Esperar a que CAPTCHA se resuelva
agent-browser wait 30000
# Obtener instantánea como JSON para procesamiento por IA
SNAPSHOT=$(agent-browser snapshot -i --json)
# Analizar referencias e interactuar
agent-browser click @e2
agent-browser get text "body" --json
| Tipo de CAPTCHA | Tiempo de resolución típico | Tiempo de espera recomendado |
|---|---|---|
| reCAPTCHA v2 (casilla) | 5-15 segundos | 30-60 segundos |
| reCAPTCHA v2 (invisible) | 5-15 segundos | 30 segundos |
| reCAPTCHA v3 | 3-10 segundos | 20-30 segundos |
| Cloudflare Turnstile | 3-10 segundos | 20-30 segundos |
Consejo: Si dudas, usa 30 segundos. Es mejor esperar un poco más que enviar demasiado pronto. El tiempo adicional no afecta el resultado.
Esto es lo que ocurre cuando Agent Browser se ejecuta con la extensión de CapSolver cargada:
Tus Comandos de Agent Browser
───────────────────────────────────────────────────
agent-browser --extension ──► Chrome se inicia con la extensión
~/capsolver-extension
open https://...
│
▼
┌─────────────────────────────┐
│ Página con widget de CAPTCHA │
│ │
│ Extensión de CapSolver: │
│ 1. El script de contenido detecta │
│ CAPTCHA en la página │
│ 2. El servicio trabajador llama │
│ a la API de CapSolver │
│ 3. Token recibido │
│ 4. Token inyectado en campo │
│ de formulario oculto │
└─────────────────────────────┘
│
▼
agent-browser wait 30000 La extensión resuelve el CAPTCHA...
│
▼
agent-browser snapshot -i Agent Browser lee elementos
agent-browser click @e2 El formulario se envía CON token válido
│
▼
"Verificación exitosa!"
Cuando Agent Browser inicia Chrome con la bandera --extension:
--headless=new en modo sin interfaz gráfica, que admite extensiones de Manifest V3)Aquí está una configuración completa con todas las opciones de configuración para la integración de Agent Browser + CapSolver:
agent-browser \
--extension ~/capsolver-extension \
--headed \
--session-name my-session \
open https://example.com
# Establecer la ruta de la extensión como variable de entorno (evita repetir --extension)
export AGENT_BROWSER_EXTENSIONS=~/capsolver-extension
# Ahora cada comando carga automáticamente la extensión
agent-browser open https://example.com
agent-browser wait 30000
agent-browser snapshot -i
agent-browser.json)Crea un agent-browser.json en tu directorio de proyecto para configuraciones predeterminadas persistentes:
{
"extension": ["~/capsolver-extension"],
"sessionName": "my-project",
"headed": false
}
| Opción | Descripción |
|---|---|
--extension <ruta> |
Ruta al directorio de la extensión de CapSolver desempaquetada que contiene manifest.json. Repetible para múltiples extensiones. |
--headed |
Mostrar la ventana del navegador para depuración visual. Las extensiones funcionan en ambos modos. |
--session-name <nombre> |
Guardar/restaurar automáticamente cookies y localStorage entre reinicios del navegador. |
--profile <ruta> |
Directorio de perfil persistente del navegador (cookies, IndexedDB, caché). |
AGENT_BROWSER_EXTENSIONS |
Alternativa a la bandera --extension mediante variable de entorno. Rutas separadas por comas para múltiples extensiones. |
La clave de API de CapSolver se configura directamente en el archivo assets/config.js de la extensión (véase el Paso 3 anterior). |
Síntoma: Los CAPTCHAs no se resuelven automáticamente.
Posibles causas:
manifest.json exista en el directorio especificadoSolución: Verifique la ruta y asegúrese de que la extensión se cargue:
# Verificar que el manifest exista
ls ~/capsolver-extension/manifest.json
# Probar en modo con interfaz para confirmar visualmente
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
Posibles causas:
Depurar con registros de consola:
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser wait 30000
agent-browser console # Verifique mensajes de CapSolver
Síntoma: agent-browser no puede encontrar un ejecutable de Chrome.
Solución: Ejecute el comando de instalación para descargar Chrome para Pruebas:
agent-browser install
O indique un ejecutable de Chrome personalizado:
agent-browser --executable-path /ruta/a/chrome open https://example.com
Puede cargar múltiples extensiones repitiendo la bandera --extension:
agent-browser \
--extension ~/capsolver-extension \
--extension ~/otra-extensión \
open https://example.com
Use la variable de entorno AGENT_BROWSER_EXTENSIONS. Establézcala una vez en su perfil de shell o configuración de CI, y cada comando agent-browser cargará automáticamente CapSolver sin repetir la bandera.
Siempre use tiempos de espera generosos. Más tiempo de espera siempre es más seguro. El CAPTCHA generalmente se resuelve en 5-20 segundos, pero la latencia de red, desafíos complejos o reintentos pueden agregar tiempo. 30-60 segundos es el punto óptimo.
Mantenga sus scripts de automatización limpios. No agregue lógica específica para CAPTCHA a sus comandos. La extensión maneja todo — sus scripts deben enfocarse únicamente en navegación, interacción y extracción de datos.
Monitoree su saldo de CapSolver. Cada resolución de CAPTCHA cuesta créditos. Verifique su saldo en capsolver.com/dashboard regularmente para evitar interrupciones.
Use persistencia de sesión para visitas repetidas. Use --session-name o --profile para preservar cookies entre ejecuciones. Esto puede reducir la frecuencia de CAPTCHA ya que el sitio podría reconocer sesiones recurrentes.
Aproveche el modo sin cabeza en producción. A diferencia de Playwright, Agent Browser soporta extensiones en modo sin cabeza. No es necesario Xvfb o pantallas virtuales en servidores — simplemente ejecute sus comandos directamente.
La integración de Vercel Agent Browser + CapSolver trae la resolución de CAPTCHA invisible al CLI de automatización de navegador más rápido y optimizado con IA disponible. En lugar de escribir código complejo para manejar CAPTCHAs, simplemente:
--extension ~/capsolver-extension a sus comandos de Agent BrowserLa extensión Chrome de CapSolver maneja el resto — detecta CAPTCHAs, los resuelve mediante la API de CapSolver y inyecta tokens en la página. Sus comandos de Agent Browser nunca necesitan saber sobre CAPTCHAs en absoluto.
Y a diferencia de soluciones basadas en Playwright que requieren modo con interfaz y pantallas virtuales, Agent Browser soporta extensiones en modo sin cabeza de forma predeterminada — lo que lo hace el camino más sencillo para automatización sin CAPTCHA en producción.
¿Listo para comenzar? Regístrese en CapSolver y use el código de bonificación AGENTBROWSER para obtener un 6% adicional en su primer recarga!

No. La extensión CapSolver funciona completamente en segundo plano dentro de la instancia de Chrome de Agent Browser. Simplemente agregue agent-browser wait 30000 antes de enviar formularios, y la extensión maneja automáticamente la detección, resolución e inyección de tokens.
¡Sí! Esta es una ventaja importante frente a soluciones basadas en Playwright. Agent Browser usa el modo --headless=new de Chrome, que soporta extensiones de Manifest V3. No se requiere Xvfb o pantallas virtuales.
No. Agent Browser es un binario Rust independiente. Solo necesita Node.js para el paso npm install. El daemon del navegador se ejecuta nativamente sin ningún entorno de ejecución de JavaScript.
CapSolver soporta reCAPTCHA v2 (casilla e invisible), reCAPTCHA v3, Cloudflare Turnstile, AWS WAF CAPTCHA y más. La extensión detecta automáticamente el tipo de CAPTCHA y lo resuelve en consecuencia.
CapSolver ofrece precios competitivos basados en el tipo de CAPTCHA y volumen. Visite capsolver.com para ver los precios actuales.
Sí. Agent Browser es de código abierto bajo la licencia Apache 2.0. La CLI y todas sus funcionalidades son gratuitas para usar. Visite el repositorio de GitHub para más detalles.
Para la mayoría de los CAPTCHAs, 30-60 segundos es suficiente. El tiempo real de resolución suele ser de 5-20 segundos, pero agregar un buffer adicional asegura la confiabilidad. Cuando haya dudas, use 30 segundos mediante agent-browser wait 30000.
Absolutamente. Agent Browser fue construido específicamente para agentes de IA (hay algunas opciones para comparar). Use --json para salida legible por máquinas, el flujo de trabajo de snapshot-ref para selección de elementos determinista y la concatenación de comandos para automatización eficiente de múltiples pasos. La extensión CapSolver se ejecuta transparentemente junto con los comandos de su agente.
Descubre cómo la infraestructura de automatización de IA impulsada por LLM revoluciona el reconocimiento de CAPTCHA, mejorando la eficiencia de los procesos de negocio y reduciendo la intervención manual. Optimiza tus operaciones automatizadas con soluciones avanzadas de verificación.

Aprende a escalar la recopilación de datos para el entrenamiento de modelos de lenguaje grandes resolviendo CAPTCHAs a gran escala. Descubre estrategias automatizadas para construir conjuntos de datos de alta calidad para modelos de IA.
