WebスクレイピングにおけるCAPTCHA問題の解決方法

ブログ

All

ブログ

All

WebスクレイピングにおけるCAPTCHA問題の解決方法

Sora Fujimoto

AI Solutions Architect

14-Feb-2025

CAPTCHAは、Webスクレイピングと自動化における最大の課題の1つです。CAPTCHAは人間ユーザーとボットを区別するための防御メカニズムとして機能しますが、正当な自動化タスクに取り組んでいる開発者にとっても大きな障害となります。CAPTCHAの仕組みと、CAPTCHAを解決するための最良の戦略を理解することは、堅牢なスクレイパーを構築するために不可欠です。

1. CAPTCHAとは何か？

CAPTCHA（Completely Automated Public Turing test to tell Computers and Humans Apart）は、実際の人間ユーザーと自動化されたボットを区別するために設計されたセキュリティメカニズムです。ウェブサイトは、スパム、ブルートフォース攻撃、自動データスクレイピングから身を守るためにCAPTCHAを使用します。CAPTCHAの背後にある考え方は、歪んだテキストを識別したり、画像内のオブジェクトを認識したりするなどの特定のタスクは、人間にとっては簡単ですが、機械にとっては難しいということです。

CAPTCHAが使用される理由

ウェブサイトは、いくつかの重要な理由からCAPTCHAを実装しています。

自動化された不正行為の防止: CAPTCHAは、ボットが偽アカウントを作成したり、スパムを送信したり、大規模にデータをスクレイピングしたりするのを防ぎます。
セキュリティの強化: 多くのプラットフォームは、ログインページへのブルートフォース攻撃をブロックするためにCAPTCHAを使用しています。
貴重なデータの保護: プレミアムコンテンツ（ニュース、研究論文など）を保存するウェブサイトは、大量のスクレイピングを防ぐためにCAPTCHAを使用しています。
DDoS攻撃の軽減: 一部のセキュリティサービスは、ボット駆動型のサービス拒否攻撃をフィルタリングするためにCAPTCHAを使用しています。

CAPTCHAの仕組み

CAPTCHAは、人間が自然に持っているが、ボットが複製するのが難しい認知能力または視覚認識能力を必要とする課題を提示することによって機能します。検証プロセスは通常、次の手順に従います。

CAPTCHAのトリガー: ウェブサイトは、IPレピュテーション、ブラウザフィンガープリンティング、リクエストの動作、その他のリスク要因に基づいて着信トラフィックを分析します。システムが疑わしいアクティビティを検出すると、CAPTCHAがトリガーされます。
課題の提示: パズルを解いたり、画像内のオブジェクトを識別したり、歪んだテキストを認識したりするなど、課題が表示されます。
ユーザーの応答: ユーザーは課題を完了し、回答を送信します。
検証と決定: システムは回答を評価します。期待される基準と一致する場合、ユーザーは検証され、アクセスが許可されます。そうでない場合は、別のCAPTCHAチャレンジが表示される場合があります。

AIの発展に伴い、**GoogleのreCAPTCHA v3やCloudflare Turnstile**などの一部のCAPTCHAは、目に見えるユーザーの操作を必要としません。代わりに、ブラウジング動作を分析し、リスクスコアを割り当て、ほとんどの正当なユーザーがチャレンジを解決せずに通過できるようにします。

CAPTCHAはボットを効果的にロックしますが、正当なWebスクレイパー、研究者、自動化開発者にも課題をもたらします。そのため、業界の多くは、セキュリティガイドラインを遵守しながら、これらの制限を効率的に解決するためのCAPTCHA解決策を探しています。

2. 一般的なCAPTCHAの種類

ウェブサイトは、ボットから身を守るためにさまざまな種類のCAPTCHAを使用しており、それぞれ異なる課題を設計しています。

1. テキストベースのCAPTCHA

ユーザーは、歪んだ文字や数字を解読する必要があります。このタイプは広く使用されてきましたが、高度なOCRテクノロジーに対して脆弱です。

2. 画像ベースのCAPTCHA

ユーザーは、信号機やバスなどの特定のオブジェクトを画像のグリッドから選択するように求められます。ボットは画像認識に苦労しますが、改善されています。

3. スライダーCAPTCHA

ユーザーは、パズルピースを適切な場所に移動する必要があります。これは細かい運動能力をテストするため、ボットが模倣するのは困難です。

4. 音声CAPTCHA

視覚障害のあるユーザー向けに設計されており、これらのCAPTCHAは、書き写す必要がある歪んだ音声を提供します。アクセシビリティに役立ちますが、理解するのが難しい場合があります。

5. 行動ベースのCAPTCHA

これらのCAPTCHAは、マウスの動きやタイピング速度などのユーザーの行動を追跡して、ユーザーが人間かどうかを判断します。ボットはこれらのパターンを簡単に複製できません。

6. リスクベースのCAPTCHA（例：reCAPTCHA v3、Cloudflare Turnstile）

これらはユーザーの行動を評価し、リスクスコアを割り当てます。スコアが高い場合、ユーザーはチャレンジを見ることがない場合がありますが、低い場合は、追加の検証が必要になる場合があります。

各タイプは、Webスクレイピングに対して独自の課題を提示し、解決するために異なる手法が必要です。

CAPTCHA解決へのアプローチ

1. CAPTCHA解決サービスの使用

社内CAPTCHAソルバーを構築することは可能ですが、多大な時間、リソース、計算能力が必要です。代替案としては、AIと人間の作業者を活用して迅速なソリューションを提供するサードパーティのCAPTCHA解決サービスを使用することです。

**CapSolver**などのサービスは、Webスクレイピングスクリプトとシームレスに統合できるAPIベースのソリューションを提供します。これらのサービスは、reCAPTCHA、および画像CAPTCHAを処理し、CAPTCHAを手動で解決する複雑さを軽減します。

最高のCAPTCHAソリューションのためのボーナスコードを請求してください。CapSolver：CAPT。これを引き換えると、各チャージ後に追加で5％のボーナスが得られます。無制限

APIベースのソルバーをSeleniumスクリプトに統合する方法の例を以下に示します。

python Copy

import requests

def solve_captcha(api_key, site_key, url):
    response = requests.post("https://api.capsolver.com/solve", json={
        "apiKey": api_key,
        "siteKey": site_key,
        "url": url
    })
    return response.json().get("code")

captcha_token = solve_captcha("YOUR_API_KEY", "SITE_KEY", "https://example.com")
print("Captcha Solved Token:", captcha_token)

2. テキストCAPTCHAに対する光学文字認識（OCR）

OCRベースのアプローチには、画像処理技術を使用してCAPTCHAからテキストを抽出することが含まれます。**Tesseract OCR**などの一般的なライブラリを使用できますが、歪みとノイズを処理するには、広範なトレーニングが必要なことがよくあります。

python Copy

import pytesseract
from PIL import Image

image = Image.open("captcha_image.png")
text = pytesseract.image_to_string(image)
print("Extracted Captcha Text:", text)

OCRは単純なCAPTCHAで機能する場合がありますが、最新のCAPTCHAは、ノイズ、難読化、敵対的テクニックを使用して、OCRを無効にします。

3. 画像ベースのCAPTCHAのための機械学習

画像認識を必要とするCAPTCHAの場合、ラベル付けされたデータセットでトレーニングされた深層学習モデルが役立ちます。TensorFlowとPyTorchを使用して、CAPTCHAのパターンを認識できるCNNモデルを構築できます。

ただし、効果的なモデルをトレーニングするには、ラベル付けされたCAPTCHAの大規模なデータセットが必要であり、個々のユーザーにとっては非現実的です。

4. 画像処理によるスライダーCAPTCHAの解決

スライダーCAPTCHAは、背景画像のギャップを検出することに依存しています。OpenCVは、これらのギャップを特定し、スライダーの動きを自動化するのに役立ちます。

python Copy

import cv2
import numpy as np

def find_gap(image_path):
    image = cv2.imread(image_path, 0)
    edges = cv2.Canny(image, 50, 150)
    contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    for cnt in contours:
        x, y, w, h = cv2.boundingRect(cnt)
        if w > 30:  # Assuming a significant gap
            return x
    return None

ギャップが検出されたら、SeleniumまたはPlaywrightを使用してドラッグアクションを自動化できます。

5. 行動CAPTCHAのための人間のようなインタラクションの使用

一部のCAPTCHAは、マウスの動きやキーストロークなどのユーザーの行動を分析します。これらを解決するには、自動化されたスクリプトでアクションにランダム性を導入することで、人間の行動を模倣する必要があります。

python Copy

from selenium.webdriver.common.action_chains import ActionChains
import random, time

def human_like_drag(driver, element, target_x):
    action = ActionChains(driver)
    action.click_and_hold(element)
    current_x = 0
    while current_x < target_x:
        move_by = random.randint(1, 5)
        action.move_by_offset(move_by, 0)
        time.sleep(random.uniform(0.02, 0.1))
        current_x += move_by
    action.release().perform()

まとめ

CAPTCHAの解決は、CAPTCHAの種類に応じて異なるアプローチを必要とする複雑なタスクです。OCRと機械学習は役立ちますが、CAPTCHAの難読化技術によって制限されることがよくあります。人間の行動は行動上の課題には有効ですが、大規模に維持するのは困難です。

ほとんどのWebスクレイピングタスクでは、信頼できるCAPTCHA解決サービスを使用するのが最も効率的なオプションです。**CapSolver**などのソリューションは、CAPTCHA処理を自動化する使いやすいAPIを提供し、開発者がCAPTCHAの解決ではなくデータ抽出に集中できるようにします。

コンプライアンス免責事項：このブログで提供される情報は、情報提供のみを目的としています。CapSolverは、すべての適用される法律および規制の遵守に努めています。CapSolverネットワークの不法、詐欺、または悪用の目的での使用は厳格に禁止され、調査されます。私たちのキャプチャ解決ソリューションは、公共データのクローリング中にキャプチャの問題を解決する際に100%のコンプライアンスを確保しながら、ユーザーエクスペリエンスを向上させます。私たちは、サービスの責任ある使用を奨励します。詳細については、サービス利用規約およびプライバシーポリシーをご覧ください。