Cómo resolver CAPTCHA con Vercel Agent Browser – Guía paso a paso usando CapSolver

Adélia Cruz
Neural Network Developer
18-Mar-2026

Cuando tu agente de IA encuentra un muro de CAPTCHA, todo el flujo de trabajo se rompe. La navegación se detiene, los formularios no se pueden enviar y la extracción de datos falla, todo porque un desafío diseñado para bloquear el acceso automatizado. Vercel Agent Browser es un CLI rápido de Rust nativo para automatización de navegadores sin cabeza construido específicamente para agentes de IA. Cuenta con selección de elementos con enfoque en accesibilidad, localizadores semánticos y un flujo de trabajo de instantáneas de referencia optimizado para LLMs. Pero como cualquier herramienta de automatización de navegadores, se atasca con CAPTCHAs.
CapSolver cambia esto por completo. Al cargar la extensión de Chrome de CapSolver en Agent Browser usando la bandera integrada --extension, los CAPTCHAs se resuelven automáticamente e invisiblemente en segundo plano. Sin resolver manualmente. Sin orquestación compleja de API. Tus comandos de CLI continúan ejecutándose como si el CAPTCHA nunca hubiera existido.
Lo mejor de todo es que Agent Browser admite extensiones en modo con interfaz gráfica y sin interfaz gráfica — a diferencia de Playwright, que requiere modo con interfaz gráfica para extensiones. Esto significa que tus pipelines de producción, flujos de CI/CD y despliegues sin servidor funcionan con cero requisitos de visualización. Tu agente se enfoca en lo que hace mejor — navegar páginas, extraer datos y automatizar flujos — mientras CapSolver maneja los CAPTCHAs en silencio.
¿Qué es Vercel Agent Browser?
Vercel Agent Browser es un CLI de automatización de navegadores sin cabeza construido en Rust para un rendimiento máximo. Desarrollado por Vercel Labs, proporciona una interfaz de línea de comandos que controla Chrome sin requerir Playwright o Node.js para el daemon del navegador. Su diseño con enfoque en accesibilidad utiliza localizadores semánticos y referencias de instantáneas — lo que lo convierte en la herramienta ideal para agentes de IA que necesitan interactuar con páginas web.
Características clave
- CLI nativo de Rust: Herramienta rápida de un solo binario sin dependencias de tiempo de ejecución para el daemon del navegador.
- Flujo de trabajo de instantáneas de referencia: Obten un árbol de accesibilidad con referencias de elementos, luego interactúa por referencia — determinista, rápido y amigable para IA.
- Localizadores semánticos: Encuentra elementos por rol ARIA, contenido de texto, etiqueta, campo de entrada o texto alternativo — sin selectores CSS frágiles.
- Soporte para extensiones en modo sin interfaz gráfica: Carga extensiones de Chrome en modo con interfaz gráfica y sin interfaz gráfica mediante
--headless=newde Chrome. - Gestión de sesiones: Sesiones aisladas, perfiles persistentes, almacenamiento de estado cifrado y bodega de autenticación para gestión de credenciales.
- Modo de salida JSON: Salida legible por máquinas para pipelines de agentes con
--json. - Proveedores de nube: Soporte integrado para Browserless, Browserbase, Browser Use, Kernel y simulador de iOS.
- Seguridad: Listas de dominios permitidos, políticas de acción, límites de contenido y puertas de confirmación para despliegues seguros de agentes de IA.
Agent Browser funciona en cualquier página — incluyendo contenido autenticado, SPAs dinámicas y sitios con CAPTCHA — lo que lo hace ideal para flujos de trabajo de agentes de IA, recolección de datos y pruebas automatizadas.
¿Qué es CapSolver?
CapSolver es un servicio de resolución de CAPTCHA impulsado por IA que resuelve automáticamente diversos desafíos de CAPTCHA. Con tiempos de respuesta rápidos y amplia compatibilidad, CapSolver se integra sin problemas en flujos de trabajo automatizados.
Tipos de CAPTCHA compatibles
- reCAPTCHA v2 (casilla y invisible)
- reCAPTCHA v3 y v3 Enterprise
- Cloudflare Turnstile
- Cloudflare 5-second Challenge
- AWS WAF CAPTCHA
- Más
¿Por qué esta integración es diferente?
La mayoría de las integraciones de resolución de CAPTCHA requieren que escribas código repetitivo: crear tareas, consultar resultados, inyectar tokens en campos ocultos. Ese es el enfoque estándar con scripts de Playwright o Puppeteer.
Agent Browser + CapSolver toma un enfoque fundamentalmente diferente:
| Tradicional (basado en código) | Agent Browser + CapSolver Extension |
|---|---|
| Escribir una clase de servicio de CapSolver | Agregar la bandera --extension a tu comando |
Llamar a createTask() / getTaskResult() |
La extensión maneja todo automáticamente |
| Inyectar tokens mediante evaluación de JavaScript | La inyección de tokens es invisible |
| Manejar errores, reintentos, tiempos de espera en código | La extensión gestiona reintentos internamente |
| Código diferente para cada tipo de CAPTCHA | Funciona para todos los tipos automáticamente |
| Modo con interfaz gráfica requerido para extensiones | Funciona en modo con interfaz gráfica Y sin interfaz gráfica |
La clave principal: La extensión de CapSolver se ejecuta dentro de la instancia de Chrome de Agent Browser. Cuando Agent Browser navega a una página con un CAPTCHA, la extensión lo detecta, lo resuelve en segundo plano y inyecta el token — todo antes de que se ejecute tu siguiente comando. Tu automatización permanece limpia, enfocada y libre de CAPTCHA.
Requisitos previos
Antes de configurar la integración, asegúrate de tener:
- Vercel Agent Browser instalado (
npm install -g agent-browser) - Una cuenta de CapSolver con clave de API (regístrate aquí)
- Node.js 16+ (para la instalación con npm)
Nota: A diferencia de herramientas basadas en Playwright, Agent Browser admite extensiones en modo con interfaz gráfica y sin interfaz gráfica. No se requiere Xvfb o visualización virtual en servidores.
Configuración paso a paso
Paso 1: Instalar Agent Browser
bash
npm install -g agent-browser
agent-browser install # Descargar Chrome desde Chrome for Testing (solo la primera vez)
Métodos alternativos de instalación:
bash
# macOS con Homebrew
brew install agent-browser
agent-browser install
# A través de Cargo (Rust)
cargo install agent-browser
agent-browser install
En Linux, incluye dependencias del sistema:
bash
agent-browser install --with-deps
Paso 2: Descargar la extensión de Chrome de CapSolver
Descarga la extensión de Chrome de CapSolver y extraela a un directorio dedicado:
- Ve a la versión 1.17.0 de la extensión de CapSolver para Chrome
- Descarga
CapSolver.Browser.Extension-chrome-v1.17.0.zip - Extrae el zip:
bash
mkdir -p ~/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d ~/capsolver-extension/
- Verifica que la extracción funcionó:
bash
ls ~/capsolver-extension/manifest.json
Deberías ver manifest.json — esto confirma que la extensión está en el lugar correcto.
Paso 3: Configurar tu clave de API de CapSolver
Abre el archivo de configuración de la extensión en ~/capsolver-extension/assets/config.js y reemplaza el valor de apiKey con el tuyo:
javascript
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', // ← aquí tu clave
useCapsolver: true,
// ... resto de la configuración
};
Puedes obtener tu clave de API desde tu dashboard de CapSolver.
Paso 4: Iniciar Agent Browser con la extensión de CapSolver
Cargar la extensión es una sola bandera — --extension:
bash
agent-browser --extension ~/capsolver-extension open https://example.com/protected-page
Eso es todo. La extensión de CapSolver ahora está activa dentro del navegador y resolverá automáticamente cualquier CAPTCHA que encuentre.
Para modo con interfaz gráfica (para ver visualmente el navegador):
bash
agent-browser --extension ~/capsolver-extension --headed open https://example.com/protected-page
Paso 5: Verificar que la extensión esté cargada
En modo con interfaz gráfica, navega a chrome://extensions para ver la extensión de CapSolver listada y activa:
bash
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
En modo sin interfaz gráfica, revisa el consola del navegador para mensajes de registro de CapSolver:
bash
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser console
Cómo usarlo
Una vez que la configuración esté completa, usar CapSolver con Agent Browser es sencillo — solo agrega la bandera --extension y un comando de espera.
La regla dorada
No escribas lógica específica para CAPTCHA. Solo agrega una espera después de navegar a páginas protegidas por CAPTCHA, y deja que la extensión haga su trabajo.
Ejemplo 1: Envío de formulario detrás de reCAPTCHA
bash
# Navegar a la página con la extensión de CapSolver cargada
agent-browser --extension ~/capsolver-extension open https://example.com/contact
# Obtener una instantánea para descubrir elementos del formulario
agent-browser snapshot -i
# Salida:
# - caja de texto "Nombre" [ref=e1]
# - caja de texto "Correo electrónico" [ref=e2]
# - caja de texto "Mensaje" [ref=e3]
# - botón "Enviar" [ref=e4]
# Rellenar el formulario
agent-browser fill @e1 "John Doe"
agent-browser fill @e2 "[email protected]"
agent-browser fill @e3 "Hola, tengo una pregunta sobre sus servicios."
# Esperar a que CapSolver resuelva el CAPTCHA
agent-browser wait 30000
# Enviar — el token de CAPTCHA ya está inyectado
agent-browser click @e4
Ejemplo 2: Página de inicio de sesión con Cloudflare Turnstile
bash
# Navegar a la página de inicio de sesión
agent-browser --extension ~/capsolver-extension open https://example.com/login
# Obtener elementos interactivos
agent-browser snapshot -i
# Rellenar credenciales
agent-browser find label "Correo electrónico" fill "[email protected]"
agent-browser find label "Contraseña" fill "mypassword123"
# Esperar a que Turnstile se resuelva
agent-browser wait 20000
# Hacer clic en iniciar sesión — Turnstile ya está resuelto
agent-browser find role button click --name "Iniciar sesión"
Ejemplo 3: Extracción de datos de páginas protegidas
bash
# Navegar a la página protegida
agent-browser --extension ~/capsolver-extension open https://example.com/data
# Esperar a que cualquier desafío de CAPTCHA se resuelva
agent-browser wait 30000
# Extraer contenido de la página usando instantánea
agent-browser snapshot --json
# O obtener texto de un elemento específico
agent-browser get text "body"
Ejemplo 4: Comandos encadenados (en una sola línea)
Agent Browser admite la encadenación de comandos para automatización eficiente:
bash
# Abrir, esperar por CAPTCHA, rellenar formulario y enviar — todo en una línea
agent-browser --extension ~/capsolver-extension open https://example.com/contact && \
agent-browser wait 30000 && \
agent-browser snapshot -i && \
agent-browser fill @e1 "John Doe" && \
agent-browser fill @e2 "[email protected]" && \
agent-browser click @e3
Ejemplo 5: Flujo de trabajo con salida JSON
Para pipelines de agentes de IA, usa --json para salida legible por máquinas:
bash
#!/bin/bash
EXTENSION=~/capsolver-extension
# Abrir página con extensión
agent-browser --extension "$EXTENSION" open https://example.com/protected
# Esperar a que CAPTCHA se resuelva
agent-browser wait 30000
# Obtener instantánea como JSON para procesamiento por IA
SNAPSHOT=$(agent-browser snapshot -i --json)
# Analizar referencias e interactuar
agent-browser click @e2
agent-browser get text "body" --json
Tiempos de espera recomendados
| Tipo de CAPTCHA | Tiempo de resolución típico | Tiempo de espera recomendado |
|---|---|---|
| reCAPTCHA v2 (casilla) | 5-15 segundos | 30-60 segundos |
| reCAPTCHA v2 (invisible) | 5-15 segundos | 30 segundos |
| reCAPTCHA v3 | 3-10 segundos | 20-30 segundos |
| Cloudflare Turnstile | 3-10 segundos | 20-30 segundos |
Consejo: Si dudas, usa 30 segundos. Es mejor esperar un poco más que enviar demasiado pronto. El tiempo adicional no afecta el resultado.
Cómo funciona en segundo plano
Esto es lo que ocurre cuando Agent Browser se ejecuta con la extensión de CapSolver cargada:
Tus Comandos de Agent Browser
───────────────────────────────────────────────────
agent-browser --extension ──► Chrome se inicia con la extensión
~/capsolver-extension
open https://...
│
▼
┌─────────────────────────────┐
│ Página con widget de CAPTCHA │
│ │
│ Extensión de CapSolver: │
│ 1. El script de contenido detecta │
│ CAPTCHA en la página │
│ 2. El servicio trabajador llama │
│ a la API de CapSolver │
│ 3. Token recibido │
│ 4. Token inyectado en campo │
│ de formulario oculto │
└─────────────────────────────┘
│
▼
agent-browser wait 30000 La extensión resuelve el CAPTCHA...
│
▼
agent-browser snapshot -i Agent Browser lee elementos
agent-browser click @e2 El formulario se envía CON token válido
│
▼
"Verificación exitosa!"
Cómo carga la extensión
Cuando Agent Browser inicia Chrome con la bandera --extension:
- Chrome se inicia con la extensión de CapSolver cargada (usando
--headless=newen modo sin interfaz gráfica, que admite extensiones de Manifest V3) - La extensión se activa — su servicio trabajador comienza y los scripts de contenido se inyectan en cada página
- En páginas con CAPTCHAs — el script de contenido detecta el widget, llama a la API de CapSolver y inyecta el token de solución en la página
- Agent Browser opera normalmente — las instantáneas, clics y extracción de datos funcionan como de costumbre, con CAPTCHAs ya resueltos
Referencia de configuración completa
Aquí está una configuración completa con todas las opciones de configuración para la integración de Agent Browser + CapSolver:
Banderas de CLI
bash
agent-browser \
--extension ~/capsolver-extension \
--headed \
--session-name my-session \
open https://example.com
Variables de entorno
bash
# Establecer la ruta de la extensión como variable de entorno (evita repetir --extension)
export AGENT_BROWSER_EXTENSIONS=~/capsolver-extension
# Ahora cada comando carga automáticamente la extensión
agent-browser open https://example.com
agent-browser wait 30000
agent-browser snapshot -i
Archivo de configuración (agent-browser.json)
Crea un agent-browser.json en tu directorio de proyecto para configuraciones predeterminadas persistentes:
json
{
"extension": ["~/capsolver-extension"],
"sessionName": "my-project",
"headed": false
}
Opciones de configuración
| Opción | Descripción |
|---|---|
--extension <ruta> |
Ruta al directorio de la extensión de CapSolver desempaquetada que contiene manifest.json. Repetible para múltiples extensiones. |
--headed |
Mostrar la ventana del navegador para depuración visual. Las extensiones funcionan en ambos modos. |
--session-name <nombre> |
Guardar/restaurar automáticamente cookies y localStorage entre reinicios del navegador. |
--profile <ruta> |
Directorio de perfil persistente del navegador (cookies, IndexedDB, caché). |
AGENT_BROWSER_EXTENSIONS |
Alternativa a la bandera --extension mediante variable de entorno. Rutas separadas por comas para múltiples extensiones. |
La clave de API de CapSolver se configura directamente en el archivo assets/config.js de la extensión (véase el Paso 3 anterior). |
Solución de problemas
La extensión no se carga
Síntoma: Los CAPTCHAs no se resuelven automáticamente.
Posibles causas:
- Ruta de extensión incorrecta: asegúrese de que
manifest.jsonexista en el directorio especificado - Extensión no compatible: use la versión de Chrome de la extensión CapSolver (no Firefox)
Solución: Verifique la ruta y asegúrese de que la extensión se cargue:
bash
# Verificar que el manifest exista
ls ~/capsolver-extension/manifest.json
# Probar en modo con interfaz para confirmar visualmente
agent-browser --extension ~/capsolver-extension --headed open chrome://extensions
CAPTCHA no resuelto (Formulario falla)
Posibles causas:
- Tiempo de espera insuficiente — Aumente a 60 segundos
- Clave de API inválida — Verifique su panel de CapSolver
- Saldo insuficiente — Recargue su cuenta de CapSolver
- Extensión no cargada — Vea "La extensión no se carga" anteriormente
Depurar con registros de consola:
bash
agent-browser --extension ~/capsolver-extension open https://example.com
agent-browser wait 30000
agent-browser console # Verifique mensajes de CapSolver
Chrome no encontrado
Síntoma: agent-browser no puede encontrar un ejecutable de Chrome.
Solución: Ejecute el comando de instalación para descargar Chrome para Pruebas:
bash
agent-browser install
O indique un ejecutable de Chrome personalizado:
bash
agent-browser --executable-path /ruta/a/chrome open https://example.com
Múltiples extensiones
Puede cargar múltiples extensiones repitiendo la bandera --extension:
bash
agent-browser \
--extension ~/capsolver-extension \
--extension ~/otra-extensión \
open https://example.com
Buenas prácticas
-
Use la variable de entorno
AGENT_BROWSER_EXTENSIONS. Establézcala una vez en su perfil de shell o configuración de CI, y cada comandoagent-browsercargará automáticamente CapSolver sin repetir la bandera. -
Siempre use tiempos de espera generosos. Más tiempo de espera siempre es más seguro. El CAPTCHA generalmente se resuelve en 5-20 segundos, pero la latencia de red, desafíos complejos o reintentos pueden agregar tiempo. 30-60 segundos es el punto óptimo.
-
Mantenga sus scripts de automatización limpios. No agregue lógica específica para CAPTCHA a sus comandos. La extensión maneja todo — sus scripts deben enfocarse únicamente en navegación, interacción y extracción de datos.
-
Monitoree su saldo de CapSolver. Cada resolución de CAPTCHA cuesta créditos. Verifique su saldo en capsolver.com/dashboard regularmente para evitar interrupciones.
-
Use persistencia de sesión para visitas repetidas. Use
--session-nameo--profilepara preservar cookies entre ejecuciones. Esto puede reducir la frecuencia de CAPTCHA ya que el sitio podría reconocer sesiones recurrentes. -
Aproveche el modo sin cabeza en producción. A diferencia de Playwright, Agent Browser soporta extensiones en modo sin cabeza. No es necesario Xvfb o pantallas virtuales en servidores — simplemente ejecute sus comandos directamente.
Conclusión
La integración de Vercel Agent Browser + CapSolver trae la resolución de CAPTCHA invisible al CLI de automatización de navegador más rápido y optimizado con IA disponible. En lugar de escribir código complejo para manejar CAPTCHAs, simplemente:
- Descargue la extensión CapSolver y configure su clave de API
- Agregue
--extension ~/capsolver-extensiona sus comandos de Agent Browser - Agregue un comando de espera antes de interactuar con formularios protegidos por CAPTCHA
La extensión Chrome de CapSolver maneja el resto — detecta CAPTCHAs, los resuelve mediante la API de CapSolver y inyecta tokens en la página. Sus comandos de Agent Browser nunca necesitan saber sobre CAPTCHAs en absoluto.
Y a diferencia de soluciones basadas en Playwright que requieren modo con interfaz y pantallas virtuales, Agent Browser soporta extensiones en modo sin cabeza de forma predeterminada — lo que lo hace el camino más sencillo para automatización sin CAPTCHA en producción.
¿Listo para comenzar? Regístrese en CapSolver y use el código de bonificación AGENTBROWSER para obtener un 6% adicional en su primer recarga!

Preguntas frecuentes
¿Necesito escribir código específico para CAPTCHA?
No. La extensión CapSolver funciona completamente en segundo plano dentro de la instancia de Chrome de Agent Browser. Simplemente agregue agent-browser wait 30000 antes de enviar formularios, y la extensión maneja automáticamente la detección, resolución e inyección de tokens.
¿Puedo ejecutar esto en modo sin cabeza?
¡Sí! Esta es una ventaja importante frente a soluciones basadas en Playwright. Agent Browser usa el modo --headless=new de Chrome, que soporta extensiones de Manifest V3. No se requiere Xvfb o pantallas virtuales.
¿Necesito Playwright o Node.js?
No. Agent Browser es un binario Rust independiente. Solo necesita Node.js para el paso npm install. El daemon del navegador se ejecuta nativamente sin ningún entorno de ejecución de JavaScript.
¿Qué tipos de CAPTCHA soporta CapSolver?
CapSolver soporta reCAPTCHA v2 (casilla e invisible), reCAPTCHA v3, Cloudflare Turnstile, AWS WAF CAPTCHA y más. La extensión detecta automáticamente el tipo de CAPTCHA y lo resuelve en consecuencia.
¿Cuánto cuesta CapSolver?
CapSolver ofrece precios competitivos basados en el tipo de CAPTCHA y volumen. Visite capsolver.com para ver los precios actuales.
¿Es gratis Vercel Agent Browser?
Sí. Agent Browser es de código abierto bajo la licencia Apache 2.0. La CLI y todas sus funcionalidades son gratuitas para usar. Visite el repositorio de GitHub para más detalles.
¿Cuánto tiempo debo esperar para que se resuelva el CAPTCHA?
Para la mayoría de los CAPTCHAs, 30-60 segundos es suficiente. El tiempo real de resolución suele ser de 5-20 segundos, pero agregar un buffer adicional asegura la confiabilidad. Cuando haya dudas, use 30 segundos mediante agent-browser wait 30000.
¿Puedo usar esto con agentes de IA?
Absolutamente. Agent Browser fue construido específicamente para agentes de IA (hay algunas opciones para comparar). Use --json para salida legible por máquinas, el flujo de trabajo de snapshot-ref para selección de elementos determinista y la concatenación de comandos para automatización eficiente de múltiples pasos. La extensión CapSolver se ejecuta transparentemente junto con los comandos de su agente.
Aviso de Cumplimiento: La información proporcionada en este blog es solo para fines informativos. CapSolver se compromete a cumplir con todas las leyes y regulaciones aplicables. El uso de la red de CapSolver para actividades ilegales, fraudulentas o abusivas está estrictamente prohibido y será investigado. Nuestras soluciones para la resolución de captcha mejoran la experiencia del usuario mientras garantizan un 100% de cumplimiento al ayudar a resolver las dificultades de captcha durante el rastreo de datos públicos. Fomentamos el uso responsable de nuestros servicios. Para obtener más información, visite nuestros Términos de Servicio y Política de Privacidad.
Máse

Cómo resolver CAPTCHA con Vercel Agent Browser – Guía paso a paso usando CapSolver
Aprende a integrar CapSolver con Agent Browser para manejar CAPTCHAs y construir flujos de trabajo de automatización de IA confiables.

Adélia Cruz
18-Mar-2026

Integración de CapSolver con Web MCP: Una guía para agentes autónomos
Mejora las capacidades de automatización web de tu agente de IA. Esta guía detalla cómo integrar CapSolver para una resolución eficiente de captchas dentro del marco Web MCP, garantizando operaciones confiables y conformes.

Sora Fujimoto
17-Mar-2026

CAPTCHA IA impulsada por grandes modelos: ¿Por qué es más adecuada para escenarios empresariales?
Cómo los modelos visuales de IA están transformando el reconocimiento de CAPTCHA y por qué las soluciones empresariales necesitan datos, escala y entrenamiento personalizado.

Aloísio Vítor
13-Mar-2026

WebMCP vs MCP: ¿Cuál es la diferencia para los agentes de inteligencia artificial?
Explora las diferencias clave entre WebMCP y MCP para agentes de IA, entendiendo sus roles en la automatización web y la interacción con datos estructurados. Aprende cómo estos protocolos moldean el futuro de las capacidades de los agentes de IA.

Nikolai Smirnov
13-Mar-2026

OpenClaw vs. Nanobot: Elegir tu Agente de IA para la automatización
Compara OpenClaw y Nanobot, dos marcos de agentes de inteligencia artificial líderes, para una automatización eficiente. Descubre sus características, rendimiento y cómo CapSolver mejora sus capacidades.

Emma Foster
11-Mar-2026

Cómo resolver CAPTCHA en OpenClaw – Guía paso a paso con la extensión CapSolver
Aprende a resolver CAPTCHA en OpenClaw usando la extensión Chrome CapSolver para una automatización de navegador de IA sin problemas.

Adélia Cruz
06-Mar-2026

