Webスクレイピングにlibcurlを使う方法

Sora Fujimoto
AI Solutions Architect
22-Oct-2024

Webスクレイピングは、ウェブサイトからデータを抽出するための強力なテクニックであり、価格情報の収集、コンテンツ更新の監視、または大規模データセットの収集などのタスクを自動化できます。 C++でWebスクレイピングを実行するための最も人気のあるライブラリの1つは、libcurlです。libcurlは、無料でオープンソースのクライアント側URL転送ライブラリです。 HTTP、HTTPS、FTPなど、複数のプロトコルをサポートしているため、Webコンテンツを取得するための理想的な選択肢です。
libcurlの概要
libcurlは、HTTPリクエストを行うための強力なCライブラリであり、HTTP、HTTPS、FTPなど、さまざまなプロトコルをサポートしています。 C++アプリケーションでWebリクエストを実行するために広く使用されている柔軟なツールです。
機能:
- 複数プロトコルサポート:HTTP、HTTPS、FTP、FTPS、SMTPなど。
- 非同期サポート:複数リクエストを同時に管理するための
CURLM
経由。 - エラー処理:詳細なエラーメッセージとステータスコードを提供します。
- 認証:基本、ダイジェスト、NTLM、ネゴシエートなどをサポートします。
- Cookieとセッション:Cookieとセッション情報を簡単に管理できます。
前提条件
libcurlを使用する前に、次のことを行う必要があります。
- システムにlibcurlをインストールする。
- C++コードに
curl/curl.h
ヘッダーを含める。
Linuxにlibcurlをインストールするには、次のようにします。
bash
sudo apt-get install libcurl4-openssl-dev
基本的な例:GETリクエストの実行
C++でlibcurlを使用して簡単なGETリクエストを実行する方法は次のとおりです。
cpp
#include <iostream>
#include <curl/curl.h>
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main() {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if(curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/get");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
if(res != CURLE_OK) {
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
} else {
std::cout << "Response: " << readBuffer << std::endl;
}
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
Webスクレイピングの例:APIからのJSONデータの取得
APIからデータを取得して結果を出力する例を次に示します。
cpp
#include <iostream>
#include <curl/curl.h>
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main() {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if(curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://jsonplaceholder.typicode.com/posts");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
if(res != CURLE_OK) {
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
} else {
std::cout << "Response: " << readBuffer << std::endl;
}
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
libcurlを使用したプロキシの処理
libcurlを使用してプロキシサーバーを経由してリクエストをルーティングするには、次のようにします。
cpp
#include <iostream>
#include <curl/curl.h>
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main() {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if(curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/ip");
curl_easy_setopt(curl, CURLOPT_PROXY, "http://proxyserver:8080");
curl_easy_setopt(curl, CURLOPT_PROXYUSERPWD, "username:password");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
if(res != CURLE_OK) {
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
} else {
std::cout << "Response: " << readBuffer << std::endl;
}
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
libcurlを使用したCookieの処理
libcurlは、COOKIEFILE
オプションを有効にすることでCookieを管理できます。
cpp
#include <iostream>
#include <curl/curl.h>
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main() {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if(curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/cookies/set?name=value");
curl_easy_setopt(curl, CURLOPT_COOKIEFILE, "");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
if(res != CURLE_OK) {
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
} else {
std::cout << "Response: " << readBuffer << std::endl;
}
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
詳細な使い方:カスタムヘッダーとPOSTリクエスト
カスタムヘッダーを送信したり、libcurlを使用してPOSTリクエストを実行するには、次のようにします。
cpp
#include <iostream>
#include <curl/curl.h>
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main() {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if(curl) {
struct curl_slist* headers = nullptr;
headers = curl_slist_append(headers, "User-Agent: Mozilla/5.0");
headers = curl_slist_append(headers, "Accept-Language: en-US,en;q=0.5");
curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/post");
curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
curl_easy_setopt(curl, CURLOPT_POSTFIELDS, "username=testuser&password=testpass");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
if(res != CURLE_OK) {
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
} else {
std::cout << "Response: " << readBuffer << std::endl;
}
curl_slist_free_all(headers);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
例:CapSolverとlibcurlを使用したReCaptcha V3の解決(C++)
この例では、CapSolverを使用して、C++のlibcurlライブラリでReCaptcha V3を解決する方法を示します。 CapSolver APIを使用すると、ReCaptchaタスクと簡単にやり取りし、ソリューションを取得できます。
開始する前に、次の前提条件を満たしていることを確認してください。
- システムにlibcurlがインストールされている(Linuxの場合は
sudo apt-get install libcurl4-openssl-dev
でインストール)。 - CapSolver APIキー(コードの
"YourKey"
を実際のキーに置き換えてください)。

CapSolverを使用してReCaptcha V3を解決する手順を以下に示します。
ステップ1:タスクの作成
最初の手順は、CapSolverのAPIにリクエストを送信して、ReCaptchaを解決するためのタスクを作成することです。 タスクには、ウェブサイトのURL、サイトキー(ターゲットページから取得)、特定のページアクションなどの詳細が含まれます。
cpp
#include <iostream>
#include <string>
#include <curl/curl.h>
#include <json/json.h>
const std::string CAPSOLVER_KEY = "YourKey";
const std::string PAGE_URL = "https://antcpt.com/score_detector";
const std::string PAGE_KEY = "6LcR_okUAAAAAPYrPe-HK_0RULO1aZM15ENyM-Mf";
const std::string PAGE_ACTION = "homepage";
static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
std::string createTask(const std::string& url, const std::string& key, const std::string& action) {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://api.capsolver.com/createTask");
curl_easy_setopt(curl, CURLOPT_POST, 1L);
// JSONペイロードはタスクの作成用
Json::Value payload;
payload["clientKey"] = CAPSOLVER_KEY;
payload["task"]["type"] = "ReCaptchaV3TaskProxyLess";
payload["task"]["websiteURL"] = url;
payload["task"]["websiteKey"] = key;
payload["task"]["pageAction"] = action;
Json::StreamWriterBuilder writer;
std::string requestData = Json::writeString(writer, payload);
curl_easy_setopt(curl, CURLOPT_POSTFIELDS, requestData.c_str());
struct curl_slist* headers = nullptr;
headers = curl_slist_append(headers, "Content-Type: application/json");
curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
res = curl_easy_perform(curl);
curl_slist_free_all(headers);
curl_easy_cleanup(curl);
}
return readBuffer;
}
この関数は、必要なタスクの詳細を含むPOSTリクエストをCapSolver APIに送信し、taskId
を含むレスポンスを返します。
ステップ2:CAPTCHAソリューションの取得
タスクが作成されたら、CapSolverのAPIをクエリして、タスクの結果を取得する必要があります。結果には、ReCaptchaチャレンジをバイパスするためのトークンが含まれます。
cpp
std::string getTaskResult(const std::string& taskId) {
CURL* curl;
CURLcode res;
std::string readBuffer;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://api.capsolver.com/getTaskResult");
curl_easy_setopt(curl, CURLOPT_POST, 1L);
// JSONペイロードはタスク結果の取得用
Json::Value payload;
payload["clientKey"] = CAPSOLVER_KEY;
payload["taskId"] = taskId;
Json::StreamWriterBuilder writer;
std::string requestData = Json::writeString(writer, payload);
curl_easy_setopt(curl, CURLOPT_POSTFIELDS, requestData.c_str());
struct curl_slist* headers = nullptr;
headers = curl_slist_append(headers, "Content-Type: application/json");
curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
do {
readBuffer.clear();
res = curl_easy_perform(curl);
std::this_thread::sleep_for(std::chrono::seconds(5));
} while (readBuffer.find("\"status\":\"ready\"") == std::string::npos);
curl_slist_free_all(headers);
curl_easy_cleanup(curl);
}
return readBuffer;
}
この関数は、タスクが準備完了になるまでステータスを繰り返し確認し、準備完了になったらReCaptchaソリューションを返します。
ステップ3:まとめ
最後に、両方の関数をメインコードに統合する方法を次に示します。
cpp
int main() {
std::cout << "CAPTCHAタスクの作成..." << std::endl;
std::string taskResponse = createTask(PAGE_URL, PAGE_KEY, PAGE_ACTION);
Json::CharReaderBuilder reader;
Json::Value jsonResponse;
std::string errors;
std::istringstream taskStream(taskResponse);
std::string taskId;
if (Json::parseFromStream(reader, taskStream, &jsonResponse, &errors)) {
taskId = jsonResponse["taskId"].asString();
std::cout << "タスクID: " << taskId << std::endl;
std::cout << "CAPTCHA結果の取得..." << std::endl;
std::string resultResponse = getTaskResult(taskId);
Json::Value resultJson;
std::istringstream resultStream(resultResponse);
Json::parseFromStream(reader, resultStream, &resultJson, &errors);
std::string token = resultJson["solution"]["gRecaptchaResponse"].asString();
std::cout << "トークンソリューション: " << token << std::endl;
} else {
std::cerr << "タスクレスポンスの解析エラー: " << errors << std::endl;
}
return 0;
}
このコードは、次のことを実行します。
- CapSolverでReCaptchaタスクを作成します。
- タスクが完了するまで待ちます。
- ReCaptchaトークンソリューションを取得して出力します。
ボーナスコード
CapSolver:scrapeで最高のCAPTCHAソリューションのボーナスコードを取得してください。 コードを引き換えると、各チャージ後に5%のボーナスが追加で獲得され、何回でも使用できます。

まとめ
libcurlを使用すると、C++アプリケーションでHTTPリクエストを簡単に処理できます。 CapSolverと統合することで、ReCaptcha V3などのCAPTCHAを解決し、その結果をリクエストで使用できます。
コンプライアンス免責事項: このブログで提供される情報は、情報提供のみを目的としています。CapSolverは、すべての適用される法律および規制の遵守に努めています。CapSolverネットワークの不法、詐欺、または悪用の目的での使用は厳格に禁止され、調査されます。私たちのキャプチャ解決ソリューションは、公共データのクローリング中にキャプチャの問題を解決する際に100%のコンプライアンスを確保しながら、ユーザーエクスペリエンスを向上させます。私たちは、サービスの責任ある使用を奨励します。詳細については、サービス利用規約およびプライバシーポリシーをご覧ください。
もっと見る

Webスクレイピングに最適なユーザーエージェントと使用方法
ウェブスクレイピングにおける最良のユーザーエージェントガイドと、検知回避のための効果的な使用方法。ユーザーエージェントの重要性、種類、シームレスで検知されないウェブスクレイピングのための使用方法を解説します。

Sora Fujimoto
07-Mar-2025

Webスクレイピングと自動化のためのCloudflare JSチャレンジの解決方法
CloudflareのJavaScriptチャレンジを解決し、シームレスなウェブスクレイピングと自動化を実現する方法を学びましょう。ヘッドレスブラウザ、プロキシローテーション、そしてCapSolverの先進的なCAPTCHA解決機能の活用など、効果的な戦略を発見してください。

Sora Fujimoto
05-Mar-2025

Cloudflare TLSフィンガープリンティング:概要と解決策
CloudflareのTLSフィンガープリンティングによるセキュリティへの活用、ボットの検出とブロック方法、ならびにWebスクレイピングや自動ブラウジングタスクにおける解決策を学びましょう。

Sora Fujimoto
28-Feb-2025

なぜ私は何度もロボットでないことの確認を求められるのですか?
Googleがロボットではないことを確認するよう促す理由を学び、CapSolverのAPIを使用してCAPTCHAチャレンジを効率的に解決するなどのソリューションを探ります。

Sora Fujimoto
25-Feb-2025

Cloudflare保護ウェブサイトからのデータ抽出方法
このガイドでは、Cloudflareで保護されたウェブサイトからデータを抽出するための倫理的で効果的な手法を探ります。

Sora Fujimoto
20-Feb-2025

ウェブサイトはなぜ私をボットだと思うのか?そして解決策は?
ウェブサイトがあなたをボットとフラグ付けする理由と、検出を回避する方法を理解する。主なトリガーには、CAPTCHAチャレンジ、疑わしいIPアドレス、および異常なブラウザの動作が含まれます。

Sora Fujimoto
20-Feb-2025