CAPSOLVER
Blog
Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Logo of CapSolver

Ethan Collins

Pattern Recognition Specialist

07-Mar-2025

Saat melakukan web scraping, menggunakan user agent yang salah dapat menyebabkan pemblokiran instan. Situs web sering bergantung pada user agent untuk membedakan antara pengguna nyata dan bot. Untuk menghindari deteksi, sangat penting untuk menggunakan user agent yang terformat dengan baik dan sering diperbarui dalam proyek web scraping Anda.

Dalam panduan ini, Anda akan menemukan:

  • Apa itu user agent dan mengapa itu penting untuk web scraping
  • Sebuah daftar user agent terbaik untuk scraping
  • Cara mengatur dan memutar user agent di Python
  • Praktik terbaik tambahan untuk mencegah pemblokiran

Mari selami! 🚀

Apa Itu User Agent?

User Agent (UA) adalah string yang dikirim dalam header permintaan HTTP yang mengidentifikasi browser, sistem operasi, dan detail lainnya. Server web menggunakan informasi ini untuk merender konten yang sesuai untuk perangkat pengguna.

Contoh String User Agent:

plaintext Copy
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36

Uraian:

  • Mozilla/5.0 – Keluarga browser
  • (Windows NT 10.0; Win64; x64) – Detail sistem operasi
  • AppleWebKit/537.36 (KHTML, like Gecko) – Mesin rendering
  • Chrome/123.0.0.0 – Versi browser
  • Safari/537.36 – Kerangka kerja kompatibilitas

Dengan memodifikasi user agent, Anda dapat membuat web scraper Anda tampak seperti browser nyata, mengurangi risiko deteksi.

Mengapa User Agent Penting untuk Web Scraping

Sebagian besar situs web ** menganalisis user agent** untuk menyaring lalu lintas bot. Jika scraper Anda mengirimkan user agent yang tidak valid atau usang, ia mungkin akan diblokir secara instan.

Dengan menggunakan user agent yang sesuai, Anda dapat:

  • Meniru browser nyata dan menyatu dengan lalu lintas normal.
  • Melewati perlindungan anti-bot yang memeriksa library scraping default.
  • Meningkatkan tingkat keberhasilan permintaan dan menghindari CAPTCHA atau larangan IP.

Namun, menggunakan hanya satu user agent berulang kali masih dapat memicu sistem anti-bot. Inilah sebabnya mengapa memutar user agent sangat penting.

User Agent Terbaik untuk Web Scraping (Daftar Terbaru)

Berikut adalah daftar yang telah dikurasi dari user agent yang efektif untuk web scraping:

User Agent Google Chrome:

plaintext Copy
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36

User Agent Mozilla Firefox:

plaintext Copy
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0
Mozilla/5.0 (Macintosh; Intel Mac OS X 14.4; rv:124.0) Gecko/20100101 Firefox/124.0
Mozilla/5.0 (X11; Linux i686; rv:124.0) Gecko/20100101 Firefox/124.0

Browser Lain:

plaintext Copy
Mozilla/5.0 (Macintosh; Intel Mac OS X 14_4_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Safari/605.1.15
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.2420.81

đź’ˇ Tip: Anda dapat memeriksa user agent Anda sendiri dengan mengunjungi WhatIsMyUserAgent.

Cara Mengatur User Agent Kustom di Python

Banyak situs web menerapkan mekanisme deteksi bot yang memblokir permintaan dengan header user-agent yang hilang atau salah. Di bagian ini, mari kita gunakan berbagai cara untuk mengatur dan memutar user agent secara efisien.

1. Menggunakan Library requests

Cara paling sederhana untuk menentukan user agent adalah dengan memodifikasi header permintaan menggunakan library requests yang populer.

Contoh: Mengatur User Agent Statis

python Copy
import requests

# Tentukan header dengan User-Agent kustom
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}

# Kirim permintaan dengan User-Agent kustom
response = requests.get("https://httpbin.org/headers", headers=headers)

# Cetak header respons
print(response.text)

Output:

json Copy
{
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
  }
}

Ini mengkonfirmasi bahwa server menerima dan mengenali string user agent dengan benar.

2. Memutar User Agent untuk Anonimitas yang Lebih Baik

Menggunakan satu user agent berulang kali dapat menyebabkan pemblokiran. Untuk menghindari hal ini, putar user agent menggunakan daftar yang telah ditentukan.

Contoh: Memutar User Agent dengan random

python Copy
import requests
import random

# Daftar user agent yang berbeda
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0"
]

# Pilih user agent secara acak
headers = {"User-Agent": random.choice(user_agents)}

# Kirim permintaan dengan user agent yang dipilih secara acak
response = requests.get("https://httpbin.org/headers", headers=headers)

print(response.text)

Dengan memutar user agent, scraper Anda tampak lebih seperti manusia dan mengurangi kemungkinan deteksi.

3. Menggunakan fake_useragent untuk Pembuatan User Agent Dinamis

Alih-alih mempertahankan daftar statis, Anda dapat menghasilkan user agent secara dinamis menggunakan library fake_useragent.

Instalasi:

sh Copy
pip install fake-useragent

Contoh: Menghasilkan User Agent Acak

python Copy
from fake_useragent import UserAgent
import requests

# Buat objek UserAgent
ua = UserAgent()

# Hasilkan user agent acak
headers = {"User-Agent": ua.random}

# Kirim permintaan dengan user agent yang dihasilkan secara dinamis
response = requests.get("https://httpbin.org/headers", headers=headers)

print(response.text)

Metode ini menyediakan berbagai macam user agent sambil tetap memperbaruinya.

4. Mengatur User Agent Kustom di Selenium

Saat menggunakan Selenium untuk web scraping, pengaturan user agent memerlukan modifikasi opsi browser.

Contoh: Mengatur User Agent di Chrome

python Copy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Konfigurasikan opsi Chrome
chrome_options = Options()
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36")

# Mulai browser dengan user agent kustom
driver = webdriver.Chrome(options=chrome_options)

# Buka halaman uji untuk memverifikasi user agent
driver.get("https://httpbin.org/headers")

# Ekstrak dan cetak konten halaman
print(driver.page_source)

driver.quit()

Dengan menggunakan alat otomatisasi browser seperti Selenium, Anda dapat mensimulasikan perilaku pengguna nyata dan melewati langkah-langkah anti-bot tingkat lanjut.

5. Memverifikasi User Agent Anda

Untuk memastikan user agent Anda diatur dengan benar, gunakan metode berikut:

  1. Periksa header respons dari https://httpbin.org/headers
  2. Gunakan alat pengembang browser (F12 > Network > Headers) untuk memeriksa permintaan
  3. Gunakan logging untuk mengkonfirmasi rotasi user agent di scraper

Contoh: Logging User Agent dalam Loop

python Copy
import requests
import random
import time

# Daftar user agent
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0"
]

# Loop melalui permintaan
for i in range(5):
    user_agent = random.choice(user_agents)
    headers = {"User-Agent": user_agent}

    response = requests.get("https://httpbin.org/headers", headers=headers)
    print(f"Permintaan {i+1} - User-Agent: {user_agent}")

    time.sleep(2)  # Tambahkan penundaan untuk menghindari pembatasan kecepatan

Script ini mencatat user agent yang berbeda selama beberapa permintaan, membantu Anda men-debug strategi rotasi.

Cara Memutar User Agent dalam Skala Besar

Alih-alih menggunakan satu user agent statis, lebih baik memutarnya secara dinamis untuk menghindari deteksi. Berikut cara Anda dapat memutar user agent di Python:

python Copy
import requests
import random

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
]

headers = {"User-Agent": random.choice(user_agents)}
response = requests.get("https://httpbin.org/headers", headers=headers)
print(response.text)

Script ini memilih secara acak user agent dari daftar, membuat scraper Anda lebih sulit dideteksi.

Praktik Terbaik Tambahan untuk Menghindari Pemblokiran

Bahkan dengan user agent terbaik, web scraping membutuhkan teknik tambahan untuk tetap tidak terdeteksi:

  • Gunakan proxy untuk menghindari larangan IP.
  • Terapkan penundaan & interval acak di antara permintaan.
  • Putar header dan pola permintaan untuk meniru perilaku manusia.
  • Hindari scraping yang berlebihan untuk mencegah pemicuan batas kecepatan.
  • Pantau kode respons untuk mendeteksi pemblokiran dan beradaptasi sesuai kebutuhan.

Bahkan dengan rotasi user-agent dan proxy dan semua kiat tersebut, situs web mungkin masih menerapkan teknik deteksi tingkat lanjut, seperti fingerprinting, tantangan JavaScript, dan verifikasi Captcha. Di sinilah CapSolver berperan.

CapSolver berspesialisasi dalam menyelesaikan tantangan Capttcha, memastikan web scraping tanpa gangguan. Dengan mengintegrasikan CapSolver, Anda dapat secara otomatis menyelesaikan CAPTCHA dan menjaga scraper Anda tetap berjalan lancar

Klaim Kode Bonus Anda untuk solusi captcha terbaik - CapSolver: CAPTCHA. Setelah menukarkannya, Anda akan mendapatkan bonus tambahan 5% setelah setiap pengisian ulang, Tidak Terbatas

Kesimpulan

Menggunakan user agent yang tepat adalah langkah penting dalam web scraping. Dalam panduan ini, kami membahas:
âś… Apa itu user agent dan cara kerjanya
âś… Sebuah daftar user agent yang efektif untuk scraping
âś… Cara mengatur dan memutar user agent di Python
âś… Praktik terbaik tambahan untuk tetap tidak terdeteksi

Dengan menggabungkan rotasi user agent dengan teknik anti-deteksi lainnya, Anda dapat berhasil melakukan scraping data tanpa diblokir.

FAQ

1. Apa itu user agent dalam web scraping?
User agent adalah string yang mengidentifikasi browser atau perangkat lunak klien ke server web. Dalam web scraping, ini digunakan untuk meniru aktivitas pengguna nyata dan menghindari deteksi.

2. Apakah web scraping untuk penggunaan pribadi ilegal?
Web scraping umumnya legal untuk penggunaan pribadi, tetapi Anda harus menghormati ketentuan layanan situs web dan menghindari scraping data sensitif atau yang dilindungi hak cipta.

3. Apa tujuan rotasi user agent dalam web scraping?
Rotasi user agent membantu menghindari deteksi dan pemblokiran dengan membuat permintaan tampak berasal dari browser atau perangkat yang berbeda.

4. Bagaimana saya dapat mencegah pemblokiran saat melakukan web scraping?
Untuk menghindari pemblokiran, gunakan rotasi IP, pemecahan CAPTCHA, penundaan antara permintaan, dan pastikan kepatuhan dengan robots.txt situs.

5. Dapatkah web scraping memengaruhi kinerja situs web?
Ya, scraping terlalu sering dapat membebani server situs web. Penting untuk melakukan scraping secara bertanggung jawab dengan permintaan yang terbatas.

Pernyataan Kepatuhan: Informasi yang diberikan di blog ini hanya untuk tujuan informasi. CapSolver berkomitmen untuk mematuhi semua hukum dan peraturan yang berlaku. Penggunaan jaringan CapSolver untuk kegiatan ilegal, penipuan, atau penyalahgunaan sangat dilarang dan akan diselidiki. Solusi penyelesaian captcha kami meningkatkan pengalaman pengguna sambil memastikan kepatuhan 100% dalam membantu menyelesaikan kesulitan captcha selama pengambilan data publik. Kami mendorong penggunaan layanan kami secara bertanggung jawab. Untuk informasi lebih lanjut, silakan kunjungi Syarat Layanan dan Kebijakan Privasi.

Lebih lanjut

Pengenalan Gambar Berbasis AI: Dasar-Dasar dan Cara Mengatasinya
Pengenalan Gambar Berbasis AI: Dasar-Dasar dan Cara Mengatasinya

Ucapkan selamat tinggal pada kesulitan CAPTCHA gambar – CapSolver Vision Engine menyelesaikannya dengan cepat, cerdas, dan tanpa kerumitan!

Logo of CapSolver

Ethan Collins

25-Apr-2025

Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya
Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Panduan untuk user agent terbaik untuk web scraping dan penggunaan efektifnya untuk menghindari deteksi. Jelajahi pentingnya user agent, jenis-jenisnya, dan cara mengimplementasikannya untuk web scraping yang lancar dan tidak terdeteksi.

Logo of CapSolver

Ethan Collins

07-Mar-2025

Cara Mengatasi Tantangan Cloudflare JS untuk Web Scraping dan Otomatisasi
Cara Mengatasi Tantangan Cloudflare JS untuk Web Scraping dan Otomatisasi

Pelajari cara mengatasi Tantangan JavaScript Cloudflare untuk web scraping dan otomatisasi yang lancar. Temukan strategi efektif, termasuk menggunakan browser tanpa kepala, rotasi proxy, dan memanfaatkan kemampuan pemecahan CAPTCHA tingkat lanjut CapSolver.

Cloudflare
Logo of CapSolver

Ethan Collins

05-Mar-2025

Sidik Jari TLS Cloudflare: Apa Itu dan Cara Mengatasinya
Sidik Jari TLS Cloudflare: Apa Itu dan Cara Mengatasinya

Pelajari tentang penggunaan TLS fingerprinting Cloudflare untuk keamanan, bagaimana cara mendeteksi dan memblokir bot, dan jelajahi metode efektif untuk mengatasinya dalam tugas web scraping dan penelusuran otomatis.

Cloudflare
Logo of CapSolver

Ethan Collins

28-Feb-2025

Mengapa saya terus diminta untuk memverifikasi bahwa saya bukan robot?
Mengapa saya terus diminta untuk memverifikasi bahwa saya bukan robot?

Pelajari mengapa Google meminta Anda untuk memverifikasi bahwa Anda bukan robot dan jelajahi solusi seperti menggunakan API CapSolver untuk menyelesaikan tantangan CAPTCHA secara efisien.

Logo of CapSolver

Ethan Collins

27-Feb-2025

Mengapa Situs Web Mengira Saya Bot? Dan Cara Mengatasinya
Mengapa Situs Web Mengira Saya Bot? Dan Cara Mengatasinya

Pahami mengapa situs web menandai Anda sebagai bot dan cara menghindari deteksi. Pemicu utama meliputi tantangan CAPTCHA, IP yang mencurigakan, dan perilaku browser yang tidak biasa.

Logo of CapSolver

Ethan Collins

20-Feb-2025