Oct21, 2024

Webスクレイピングにlibcurlを使う方法

Sora Fujimoto

AI Solutions Architect

Webスクレイピングは、ウェブサイトからデータを抽出するための強力なテクニックであり、価格情報の収集、コンテンツ更新の監視、または大規模データセットの収集などのタスクを自動化できます。 C++でWebスクレイピングを実行するための最も人気のあるライブラリの1つは、libcurlです。libcurlは、無料でオープンソースのクライアント側URL転送ライブラリです。 HTTP、HTTPS、FTPなど、複数のプロトコルをサポートしているため、Webコンテンツを取得するための理想的な選択肢です。

libcurlの概要

libcurlは、HTTPリクエストを行うための強力なCライブラリであり、HTTP、HTTPS、FTPなど、さまざまなプロトコルをサポートしています。 C++アプリケーションでWebリクエストを実行するために広く使用されている柔軟なツールです。

機能：

複数プロトコルサポート：HTTP、HTTPS、FTP、FTPS、SMTPなど。
非同期サポート：複数リクエストを同時に管理するためのCURLM経由。
エラー処理：詳細なエラーメッセージとステータスコードを提供します。
認証：基本、ダイジェスト、NTLM、ネゴシエートなどをサポートします。
Cookieとセッション：Cookieとセッション情報を簡単に管理できます。

前提条件

libcurlを使用する前に、次のことを行う必要があります。

システムにlibcurlをインストールする。
C++コードにcurl/curl.hヘッダーを含める。

Linuxにlibcurlをインストールするには、次のようにします。

bash Copy

sudo apt-get install libcurl4-openssl-dev

基本的な例：GETリクエストの実行

C++でlibcurlを使用して簡単なGETリクエストを実行する方法は次のとおりです。

cpp Copy

#include <iostream>
#include <curl/curl.h>

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();
    
    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/get");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::cout << "Response: " << readBuffer << std::endl;
        }

        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();
    
    return 0;
}

Webスクレイピングの例：APIからのJSONデータの取得

APIからデータを取得して結果を出力する例を次に示します。

cpp Copy

#include <iostream>
#include <curl/curl.h>

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();

    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://jsonplaceholder.typicode.com/posts");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::cout << "Response: " << readBuffer << std::endl;
        }

        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();
    
    return 0;
}

libcurlを使用したプロキシの処理

libcurlを使用してプロキシサーバーを経由してリクエストをルーティングするには、次のようにします。

cpp Copy

#include <iostream>
#include <curl/curl.h>

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();

    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/ip");
        curl_easy_setopt(curl, CURLOPT_PROXY, "http://proxyserver:8080");
        curl_easy_setopt(curl, CURLOPT_PROXYUSERPWD, "username:password");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::cout << "Response: " << readBuffer << std::endl;
        }

        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();
    
    return 0;
}

libcurlを使用したCookieの処理

libcurlは、COOKIEFILEオプションを有効にすることでCookieを管理できます。

cpp Copy

#include <iostream>
#include <curl/curl.h>

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();

    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/cookies/set?name=value");
        curl_easy_setopt(curl, CURLOPT_COOKIEFILE, "");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::cout << "Response: " << readBuffer << std::endl;
        }

        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();
    
    return 0;
}

詳細な使い方：カスタムヘッダーとPOSTリクエスト

カスタムヘッダーを送信したり、libcurlを使用してPOSTリクエストを実行するには、次のようにします。

cpp Copy

#include <iostream>
#include <curl/curl.h>

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;
    
    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();

    if(curl) {
        struct curl_slist* headers = nullptr;
        headers = curl_slist_append(headers, "User-Agent: Mozilla/5.0");
        headers = curl_slist_append(headers, "Accept-Language: en-US,en;q=0.5");

        curl_easy_setopt(curl, CURLOPT_URL, "https://httpbin.org/post");
        curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
        curl_easy_setopt(curl, CURLOPT_POSTFIELDS, "username=testuser&password=testpass");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::cout << "Response: " << readBuffer << std::endl;
        }

        curl_slist_free_all(headers);
        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();

    return 0;
}

例：CapSolverとlibcurlを使用したReCaptcha V3の解決（C++）

この例では、CapSolverを使用して、C++のlibcurlライブラリでReCaptcha V3を解決する方法を示します。 CapSolver APIを使用すると、ReCaptchaタスクと簡単にやり取りし、ソリューションを取得できます。

開始する前に、次の前提条件を満たしていることを確認してください。

システムにlibcurlがインストールされている（Linuxの場合はsudo apt-get install libcurl4-openssl-devでインストール）。
CapSolver APIキー（コードの "YourKey"を実際のキーに置き換えてください）。

CapSolverを使用してReCaptcha V3を解決する手順を以下に示します。

ステップ1：タスクの作成

最初の手順は、CapSolverのAPIにリクエストを送信して、ReCaptchaを解決するためのタスクを作成することです。タスクには、ウェブサイトのURL、サイトキー（ターゲットページから取得）、特定のページアクションなどの詳細が含まれます。

cpp Copy

#include <iostream>
#include <string>
#include <curl/curl.h>
#include <json/json.h>

const std::string CAPSOLVER_KEY = "YourKey";
const std::string PAGE_URL = "https://antcpt.com/score_detector";
const std::string PAGE_KEY = "6LcR_okUAAAAAPYrPe-HK_0RULO1aZM15ENyM-Mf";
const std::string PAGE_ACTION = "homepage";

static size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

std::string createTask(const std::string& url, const std::string& key, const std::string& action) {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl = curl_easy_init();
    if (curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://api.capsolver.com/createTask");
        curl_easy_setopt(curl, CURLOPT_POST, 1L);

        // JSONペイロードはタスクの作成用
        Json::Value payload;
        payload["clientKey"] = CAPSOLVER_KEY;
        payload["task"]["type"] = "ReCaptchaV3TaskProxyLess";
        payload["task"]["websiteURL"] = url;
        payload["task"]["websiteKey"] = key;
        payload["task"]["pageAction"] = action;

        Json::StreamWriterBuilder writer;
        std::string requestData = Json::writeString(writer, payload);

        curl_easy_setopt(curl, CURLOPT_POSTFIELDS, requestData.c_str());

        struct curl_slist* headers = nullptr;
        headers = curl_slist_append(headers, "Content-Type: application/json");
        curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);
        curl_slist_free_all(headers);
        curl_easy_cleanup(curl);
    }
    return readBuffer;
}

この関数は、必要なタスクの詳細を含むPOSTリクエストをCapSolver APIに送信し、taskIdを含むレスポンスを返します。

ステップ2：CAPTCHAソリューションの取得

タスクが作成されたら、CapSolverのAPIをクエリして、タスクの結果を取得する必要があります。結果には、ReCaptchaチャレンジをバイパスするためのトークンが含まれます。

cpp Copy

std::string getTaskResult(const std::string& taskId) {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;

    curl = curl_easy_init();
    if (curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://api.capsolver.com/getTaskResult");
        curl_easy_setopt(curl, CURLOPT_POST, 1L);

        // JSONペイロードはタスク結果の取得用
        Json::Value payload;
        payload["clientKey"] = CAPSOLVER_KEY;
        payload["taskId"] = taskId;

        Json::StreamWriterBuilder writer;
        std::string requestData = Json::writeString(writer, payload);

        curl_easy_setopt(curl, CURLOPT_POSTFIELDS, requestData.c_str());

        struct curl_slist* headers = nullptr;
        headers = curl_slist_append(headers, "Content-Type: application/json");
        curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        do {
            readBuffer.clear();
            res = curl_easy_perform(curl);
            std::this_thread::sleep_for(std::chrono::seconds(5));
        } while (readBuffer.find("\"status\":\"ready\"") == std::string::npos);

        curl_slist_free_all(headers);
        curl_easy_cleanup(curl);
    }
    return readBuffer;
}

この関数は、タスクが準備完了になるまでステータスを繰り返し確認し、準備完了になったらReCaptchaソリューションを返します。

ステップ3：まとめ

最後に、両方の関数をメインコードに統合する方法を次に示します。

cpp Copy

int main() {
    std::cout << "CAPTCHAタスクの作成..." << std::endl;
    std::string taskResponse = createTask(PAGE_URL, PAGE_KEY, PAGE_ACTION);

    Json::CharReaderBuilder reader;
    Json::Value jsonResponse;
    std::string errors;
    std::istringstream taskStream(taskResponse);
    std::string taskId;

    if (Json::parseFromStream(reader, taskStream, &jsonResponse, &errors)) {
        taskId = jsonResponse["taskId"].asString();
        std::cout << "タスクID: " << taskId << std::endl;

        std::cout << "CAPTCHA結果の取得..." << std::endl;
        std::string resultResponse = getTaskResult(taskId);

        Json::Value resultJson;
        std::istringstream resultStream(resultResponse);
        Json::parseFromStream(reader, resultStream, &resultJson, &errors);

        std::string token = resultJson["solution"]["gRecaptchaResponse"].asString();
        std::cout << "トークンソリューション: " << token << std::endl;
    } else {
        std::cerr << "タスクレスポンスの解析エラー: " << errors << std::endl;
    }

    return 0;
}

このコードは、次のことを実行します。

CapSolverでReCaptchaタスクを作成します。
タスクが完了するまで待ちます。
ReCaptchaトークンソリューションを取得して出力します。

ボーナスコード

CapSolver：scrapeで最高のCAPTCHAソリューションのボーナスコードを取得してください。コードを引き換えると、各チャージ後に5％のボーナスが追加で獲得され、何回でも使用できます。

まとめ

libcurlを使用すると、C++アプリケーションでHTTPリクエストを簡単に処理できます。 CapSolverと統合することで、ReCaptcha V3などのCAPTCHAを解決し、その結果をリクエストで使用できます。

Web ScrapingJul 22, 2026

サイテクニカルSEOレグレッション監視: 自動化パイプライン

技術的SEOの回帰モニタリングをバージョン付きのベースライン、セマンティックな差分、検証済みアラート、およびオプションの認証済みCAPTCHA復元ステップを用いて構築してください。

Sora Fujimoto

CloudflareJul 22, 2026

MCP CAPTCHAソルバー：Cloudflare Turnstile 統合ガイド

ポリシー制限付きのMCP Cloudflare TurnstileワークフローをCapSolver、制限付きリトライ、ロギングをマスキングしたセッションチェック、および結果の検証を含むように構築してください。

Webスクレイピングにlibcurlを使う方法

libcurlの概要

前提条件

基本的な例：GETリクエストの実行

Webスクレイピングの例：APIからのJSONデータの取得

libcurlを使用したプロキシの処理

libcurlを使用したCookieの処理

詳細な使い方：カスタムヘッダーとPOSTリクエスト

例：CapSolverとlibcurlを使用したReCaptcha V3の解決（C++）

ステップ1：タスクの作成

ステップ2：CAPTCHAソリューションの取得

ステップ3：まとめ

ボーナスコード

まとめ

もっと見る

サイテクニカルSEOレグレッション監視: 自動化パイプライン

MCP CAPTCHAソルバー：Cloudflare Turnstile 統合ガイド

Webスクレイピングにlibcurlを使う方法

libcurlの概要

前提条件

基本的な例：GETリクエストの実行

Webスクレイピングの例：APIからのJSONデータの取得

libcurlを使用したプロキシの処理

libcurlを使用したCookieの処理

詳細な使い方：カスタムヘッダーとPOSTリクエスト

例：CapSolverとlibcurlを使用したReCaptcha V3の解決（C++）

ステップ1：タスクの作成

ステップ2：CAPTCHAソリューションの取得

ステップ3：まとめ

ボーナスコード

まとめ

もっと見る

サイテクニカルSEOレグレッション監視: 自動化パイプライン

MCP CAPTCHAソルバー：Cloudflare Turnstile 統合ガイド

LangChain CAPTCHAソルバーエージェントツール: CapSolverの復旧ワークフローを構築する reCAPTCHAとTurnstile用

Scrapy Cloudflare Turnstile ソルバーのガイド: セッションの引き継ぎミドルウェア with CapSolver