
Lucas Mitchell
Automation Engineer

Los desafíos de CAPTCHA, como Google reCAPTCHA, son utilizados comúnmente por los sitios web para bloquear bots y evitar el acceso automatizado a su contenido. Para omitir estos desafíos programáticamente, puede usar servicios como Capsolver que ofrecen soluciones basadas en API para resolver estos CAPTCHA.
En esta guía, le mostraremos cómo:
En C#, la clase HttpClient se usa comúnmente para enviar solicitudes HTTP y recibir respuestas de sitios web. Puede combinar esto con un analizador HTML como HtmlAgilityPack para extraer datos de las páginas web.
Install-Package HtmlAgilityPack
Install-Package Newtonsoft.Json
Vamos a raspar citas del sitio web Quotes to Scrape usando HttpClient y HtmlAgilityPack.
using System;
using System.Net.Http;
using System.Threading.Tasks;
using HtmlAgilityPack;
class Program
{
private static readonly HttpClient client = new HttpClient();
static async Task Main(string[] args)
{
string url = "http://quotes.toscrape.com/";
// Enviar una solicitud GET a la página
HttpResponseMessage response = await client.GetAsync(url);
if (response.IsSuccessStatusCode)
{
// Analizar el contenido de la página usando HtmlAgilityPack
string pageContent = await response.Content.ReadAsStringAsync();
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(pageContent);
// Encontrar todas las citas en la página
var quotes = htmlDoc.DocumentNode.SelectNodes("//span[@class='text']");
// Imprimir cada cita
foreach (var quote in quotes)
{
Console.WriteLine(quote.InnerText);
}
}
else
{
Console.WriteLine($"No se pudo recuperar la página. Código de estado: {response.StatusCode}");
}
}
}
text.Cuando un sitio web utiliza reCAPTCHA v3 & reCaptcha v2 para la seguridad, puede resolver el CAPTCHA usando la API de Capsolver. A continuación, se muestra cómo puede integrar Capsolver con HttpClient para resolver desafíos de reCAPTCHA.
Install-Package Newtonsoft.Json
En esta sección, demostraremos cómo resolver desafíos de reCAPTCHA v2 usando la API de Capsolver y HttpClient.
using System;
using System.Net.Http;
using System.Text;
using System.Threading.Tasks;
using Newtonsoft.Json.Linq;
class Program
{
private static readonly string apiUrl = "https://api.capsolver.com";
private static readonly string clientKey = "YOUR_API_KEY"; // Reemplace con su clave de API de Capsolver
static async Task Main(string[] args)
{
try
{
// Paso 1: Crear una tarea para resolver reCAPTCHA v3
string taskId = await CreateTask();
Console.WriteLine("ID de la tarea: " + taskId);
// Paso 2: Recuperar el resultado de la tarea
string taskResult = await GetTaskResult(taskId);
Console.WriteLine("Resultado de la tarea (token CAPTCHA): " + taskResult);
}
catch (Exception ex)
{
Console.WriteLine("Error: " + ex.Message);
}
}
// Método para crear una nueva tarea de resolución de CAPTCHA
private static async Task<string> CreateTask()
{
using (HttpClient client = new HttpClient())
{
// Carga de la solicitud
var requestBody = new
{
clientKey = clientKey,
task = new
{
type = "ReCaptchaV2TaskProxyLess", // Tipo de tarea para reCAPTCHA v3 sin proxy
websiteURL = "", // La URL del sitio web para resolver el CAPTCHA
websiteKey = "" // Clave del sitio reCAPTCHA
}
};
// Enviar la solicitud para crear la tarea
var content = new StringContent(Newtonsoft.Json.JsonConvert.SerializeObject(requestBody), Encoding.UTF8, "application/json");
HttpResponseMessage response = await client.PostAsync($"{apiUrl}/createTask", content);
string responseContent = await response.Content.ReadAsStringAsync();
if (!response.IsSuccessStatusCode)
{
throw new Exception("No se pudo crear la tarea: " + responseContent);
}
JObject jsonResponse = JObject.Parse(responseContent);
if (jsonResponse["errorId"].ToString() != "0")
{
throw new Exception("Error al crear la tarea: " + jsonResponse["errorDescription"]);
}
// Devolver el ID de la tarea para ser usado en el siguiente paso
return jsonResponse["taskId"].ToString();
}
}
// Método para recuperar el resultado de una tarea de resolución de CAPTCHA
private static async Task<string> GetTaskResult(string taskId)
{
using (HttpClient client = new HttpClient())
{
// Carga de la solicitud
var requestBody = new
{
clientKey = clientKey,
taskId = taskId
};
var content = new StringContent(Newtonsoft.Json.JsonConvert.SerializeObject(requestBody), Encoding.UTF8, "application/json");
// Consultar por el resultado de la tarea cada 5 segundos
while (true)
{
HttpResponseMessage response = await client.PostAsync($"{apiUrl}/getTaskResult", content);
string responseContent = await response.Content.ReadAsStringAsync();
if (!response.IsSuccessStatusCode)
{
throw new Exception("No se pudo obtener el resultado de la tarea: " + responseContent);
}
JObject jsonResponse = JObject.Parse(responseContent);
if (jsonResponse["errorId"].ToString() != "0")
{
throw new Exception("Error al obtener el resultado de la tarea: " + jsonResponse["errorDescription"]);
}
// Si la tarea está lista, devolver el token CAPTCHA
if (jsonResponse["status"].ToString() == "ready")
{
return jsonResponse["solution"]["gRecaptchaResponse"].ToString();
}
// Esperar 5 segundos antes de volver a verificar
Console.WriteLine("La tarea todavía se está procesando, esperando 5 segundos...");
await Task.Delay(5000);
}
}
}
}
Método CreateTask:
/createTask de Capsolver para crear una nueva tarea para resolver un desafío de reCAPTCHA v2.clientKey, websiteURL, websiteKey y especifica el tipo de tarea como ReCaptchaV2TaskProxyLess.taskId, que se usará para recuperar el resultado de la tarea.Método GetTaskResult:
/getTaskResult para verificar el resultado de la tarea creada anteriormente.status: ready).gRecaptchaResponse, que se puede utilizar para omitir el CAPTCHA.En esta sección, demostraremos cómo resolver desafíos de reCAPTCHA v3 usando la API de Capsolver y HttpClient.
using System;
using System.Net.Http;
using System.Text;
using System.Threading.Tasks;
using Newtonsoft.Json.Linq;
class Program
{
private static readonly string apiUrl = "https://api.capsolver.com";
private static readonly string clientKey = "YOUR_API_KEY"; // Reemplace con su clave de API de Capsolver
static async Task Main(string[] args)
{
try
{
// Paso 1: Crear una tarea para resolver reCAPTCHA v3
string taskId = await CreateTask();
Console.WriteLine("ID de la tarea: " + taskId);
// Paso 2: Recuperar el resultado de la tarea
string taskResult = await GetTaskResult(taskId);
Console.WriteLine("Resultado de la tarea (token CAPTCHA): " + taskResult);
}
catch (Exception ex)
{
Console.WriteLine("Error: " + ex.Message);
}
}
// Método para crear una nueva tarea de resolución de CAPTCHA
private static async Task<string> CreateTask()
{
using (HttpClient client = new HttpClient())
{
// Carga de la solicitud
var requestBody = new
{
clientKey = clientKey,
task = new
{
type = "ReCaptchaV3TaskProxyLess", // Tipo de tarea para reCAPTCHA v3 sin proxy
websiteURL = "", // La URL del sitio web para resolver el CAPTCHA
websiteKey = "" // Clave del sitio reCAPTCHA
}
};
// Enviar la solicitud para crear la tarea
var content = new StringContent(Newtonsoft.Json.JsonConvert.SerializeObject(requestBody), Encoding.UTF8, "application/json");
HttpResponseMessage response = await client.PostAsync($"{apiUrl}/createTask", content);
string responseContent = await response.Content.ReadAsStringAsync();
if (!response.IsSuccessStatusCode)
{
throw new Exception("No se pudo crear la tarea: " + responseContent);
}
JObject jsonResponse = JObject.Parse(responseContent);
if (jsonResponse["errorId"].ToString() != "0")
{
throw new Exception("Error al crear la tarea: " + jsonResponse["errorDescription"]);
}
// Devolver el ID de la tarea para ser usado en el siguiente paso
return jsonResponse["taskId"].ToString();
}
}
// Método para recuperar el resultado de una tarea de resolución de CAPTCHA
private static async Task<string> GetTaskResult(string taskId)
{
using (HttpClient client = new HttpClient())
{
// Carga de la solicitud
var requestBody = new
{
clientKey = clientKey,
taskId = taskId
};
var content = new StringContent(Newtonsoft.Json.JsonConvert.SerializeObject(requestBody), Encoding.UTF8, "application/json");
// Consultar por el resultado de la tarea cada 5 segundos
while (true)
{
HttpResponseMessage response = await client.PostAsync($"{apiUrl}/getTaskResult", content);
string responseContent = await response.Content.ReadAsStringAsync();
if (!response.IsSuccessStatusCode)
{
throw new Exception("No se pudo obtener el resultado de la tarea: " + responseContent);
}
JObject jsonResponse = JObject.Parse(responseContent);
if (jsonResponse["errorId"].ToString() != "0")
{
throw new Exception("Error al obtener el resultado de la tarea: " + jsonResponse["errorDescription"]);
}
// Si la tarea está lista, devolver el token CAPTCHA
if (jsonResponse["status"].ToString() == "ready")
{
return jsonResponse["solution"]["gRecaptchaResponse"].ToString();
}
// Esperar 5 segundos antes de volver a verificar
Console.WriteLine("La tarea todavía se está procesando, esperando 5 segundos...");
await Task.Delay(5000);
}
}
}
}
Método CreateTask:
/createTask de Capsolver para crear una nueva tarea para resolver un desafío de reCAPTCHA v3.clientKey, websiteURL, websiteKey y especifica el tipo de tarea como ReCaptchaV3TaskProxyLess.taskId, que se usará para recuperar el resultado de la tarea.Método GetTaskResult:
/getTaskResult para verificar el resultado de la tarea creada anteriormente.status: ready).gRecaptchaResponse, que se puede utilizar para omitir el CAPTCHA.Cuando se utilizan herramientas de web scraping en C#, siempre siga estas mejores prácticas:
robots.txt: Asegúrese de que el sitio web permita el web scraping comprobando el archivo robots.txt.User-Agent, a sus solicitudes HTTP.Al usar HttpClient para el web scraping y Capsolver para la resolución de CAPTCHA, puede automatizar efectivamente las interacciones con los sitios web que emplean desafíos de CAPTCHA. Siempre asegúrese de que sus actividades de web scraping cumplan con los términos de servicio y los requisitos legales del sitio web de destino.
¡Feliz raspado!
Esta guía integra el web scraping usando HtmlAgilityPack y demuestra cómo manejar los desafíos de reCAPTCHA con Capsolver, usando solo HttpClient en C#.
Aprende a manejar el reCAPTCHA durante el scraping de comercio electrónico con flujos de trabajo compatibles, diagnósticos, ejemplos de CapSolver y controles de riesgo prácticos.

Aprende cómo funciona la extracción de datos impulsada por IA desde el web scraping y la resolución de CAPTCHA hasta la limpieza de HTML, el parsing de LLM y la generación de JSON estructurado. Explora estrategias de bypass contra los anti-bot, marcos de extracción semántica como AXE y pipelines de web scraping con IA escalables.
