
Ethan Collins
Pattern Recognition Specialist

Jika Anda pernah mencoba web scraping, Anda mungkin pernah menemukan CAPTCHA—tes "buktikan Anda manusia" yang menjengkelkan yang memblokir permintaan otomatis. Dalam panduan ini, saya akan membagikan strategi yang dapat ditindaklanjuti untuk meminimalkan gangguan CAPTCHA dan menunjukkan cara mengatasinya ketika muncul. Mari selami!
CAPTCHA dirancang untuk memblokir bot, yang berarti scraper Anda mungkin ditandai jika:
Tips Pro: Mulailah dengan meniru perilaku manusia: perlambat permintaan Anda, putar user agent, dan gunakan proxy. Tetapi jika CAPTCHA masih muncul, Anda memerlukan solusi yang lebih kuat.
Ketika penghindaran tidak cukup, layanan seperti Capsolver dapat mengotomatiskan pemecahan CAPTCHA. Begini cara kerjanya:
# pip install requests
import requests
import time
api_key = "YOUR_API_KEY" # Ganti dengan kunci Capsolver Anda
site_key = "" # Dari situs target
site_url = "" # URL target Anda
def solve_captcha():
payload = {
"clientKey": api_key,
"task": {
"type": "ReCaptchaV2TaskProxyLess",
"websiteKey": site_key,
"websiteURL": site_url
}
}
response = requests.post("https://api.capsolver.com/createTask", json=payload)
task_id = response.json().get("taskId")
# Ambil hasilnya
while True:
time.sleep(3)
result = requests.post("https://api.capsolver.com/getTaskResult", json={"clientKey": api_key, "taskId": task_id})
status = result.json().get("status")
if status == "ready":
return result.json()["solution"]["gRecaptchaResponse"]
elif status == "failed":
print("Gagal memecahkan CAPTCHA")
return None
captcha_token = solve_captcha()
print(f"Token CAPTCHA yang telah dipecahkan: {captcha_token}")
Cara kerjanya:
Kesulitan dengan kegagalan berulang untuk sepenuhnya memecahkan captcha saat melakukan webscraping?
Klaim Kode Bonus Anda untuk solusi captcha terbaik -CapSolver: CAPTCHA. Setelah menukarkannya, Anda akan mendapatkan bonus tambahan 5% setelah setiap pengisian ulang, Tidak Terbatas
Tidak semua situs menggunakan CAPTCHA. Mari kita scrape books.toscrape.com, sandbox bebas CAPTCHA:
import requests
from bs4 import BeautifulSoup
url = "http://books.toscrape.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# Ekstrak judul dan harga buku
for book in soup.select("article.product_pod"):
title = book.h3.a["title"]
price = book.select(".price_color")[0].get_text()
print(f"Judul: {title}, Harga: {price}")
Mengapa ini berhasil:
Situs ini tidak memiliki tindakan anti-bot, tetapi selalu periksa robots.txt situs web sebelum melakukan scraping.
Sebelum memecahkan CAPTCHA, Anda perlu mengetahui jenisnya (misalnya, reCAPTCHA v2, hCaptcha). Gunakan alat seperti Panduan Identifikasi CAPTCHA Capsolver untuk:
sitekey atau pageurl.Contoh parameter untuk reCAPTCHA v2:
websiteKey: "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-"websiteURL: URL halaman target Anda.time.sleep().User-Agent dan Accept-Language browser.Mereka menggunakan campuran AI dan pekerja manusia untuk memecahkan CAPTCHA dan mengembalikan token untuk otomatisasi.
Sebagian besar jenis umum (reCAPTCHA, hCaptcha) dapat dipecahkan, tetapi yang canggih memerlukan metode yang lebih canggih.
CAPTCHA adalah rintangan, tetapi bukan jalan buntu. Gabungkan praktik scraping yang cerdas dengan alat seperti Capsolver untuk meminimalkan gangguan. Selamat scraping! 🚀
Bangun API solver eCAPTCHA v2/v3 menggunakan CapSolver dan n8n. Pelajari cara mengotomatisasi penyelesaian token, mengirimkannya ke website, dan mengekstrak data yang dilindungi tanpa coding.

Temukan AI terbaik untuk menyelesaikan teka-teki gambar. Pelajari bagaimana Engine Visi CapSolver dan API ImageToText mengotomasi tantangan visual kompleks dengan akurasi tinggi.
