
Anh Tuan
Data Science Expert
एक User Agent (UA) एक स्ट्रिंग है जो आपके ब्राउज़र या क्लाइंट द्वारा सर्वर को अपनी पहचान बताने के लिए भेजी जाती है। इसमें आम तौर पर ब्राउज़र का नाम, संस्करण, ऑपरेटिंग सिस्टम और डिवाइस का प्रकार जैसी जानकारी शामिल होती है। उदाहरण के लिए:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36।
Cloudflare इस स्ट्रिंग का विश्लेषण करके बॉट्स का पता लगाता है। अगर आपका UA ज्ञात ऑटोमेशन टूल्स (जैसे, Python-Requests या HeadlessChrome) से मेल खाता है, तो आप Cloudflare के एंटी-बॉट सिस्टम को ट्रिगर करेंगे।
कस्टमाइज़ करने से पहले, देखें कि साइट के वास्तविक उपयोगकर्ता किस User Agent का उपयोग कर रहे हैं। WhatIsMyBrowser या ब्राउज़र डेवलपर टूल (नेटवर्क टैब > हेडर्स) जैसे टूल मदद कर सकते हैं। उदाहरण के लिए, यदि साइट Chrome उपयोगकर्ताओं के साथ लोकप्रिय है, तो उनके UA की नकल करें।
यहाँ लोकप्रिय प्रोग्रामिंग भाषाओं में UA को संशोधित करने का तरीका बताया गया है:
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
response = requests.get('https://example.com', headers=headers)
const axios = require('axios');
axios.get('https://example.com', {
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
});
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36');
await page.goto('https://example.com');
})();
बार-बार एक ही UA का उपयोग करने से आपको अभी भी चिह्नित किया जा सकता है। विविध उपयोगकर्ताओं की नकल करने के लिए पूर्वनिर्धारित सूची से UA घुमाएँ। Fake UserAgent जैसे टूल इसे आसान बनाते हैं:
from fake_useragent import UserAgent
import requests
ua = UserAgent()
headers = {'User-Agent': ua.random}
response = requests.get('https://example.com', headers=headers)
पुराने User Agent का उपयोग करना
Cloudflare संदिग्ध UA की सूचियाँ रखता है। पुराने ब्राउज़र संस्करणों (जैसे, 2017 से Chrome/58.0.3029.110) से जुड़ी स्ट्रिंग्स से बचें।
हेडलेस ब्राउज़र फिंगरप्रिंट को अनदेखा करना
एक मान्य UA के साथ भी, हेडलेस ब्राउज़र ऑटोमेशन सिग्नल (जैसे, navigator.plugins जैसे लापता प्लगइन्स) लीक करते हैं। puppeteer-extra-plugin-stealth जैसे स्टील्थ प्लगइन्स का उपयोग करें।
IP रोटेशन को भूलना
IP-आधारित ब्लॉक से बचने के लिए रेसिडेंशियल प्रॉक्सी के साथ UA रोटेशन को जोड़ें। सत्र स्थिरता बनाए रखने के लिए स्थिर या चिपचिपे प्रॉक्सी सबसे अच्छे काम करते हैं।
TLS फिंगरप्रिंटिंग के साथ मिलाएं
Cloudflare TLS हैंडशेक पैटर्न की जांच करता है। curl_cffi (Python) या tls-client (JavaScript) जैसी लाइब्रेरी वास्तविक ब्राउज़र TLS फिंगरप्रिंट की नकल करती हैं, जिससे पता लगाने का जोखिम कम होता है।
अपना User Agent बदलना Cloudflare को बायपास करने का एक सरल लेकिन शक्तिशाली तरीका है, लेकिन यह अचूक नहीं है। मजबूत परिणामों के लिए इसे IP रोटेशन, TLS फिंगरप्रिंटिंग और एंटी-डिटेक्शन टूल्स के साथ मिलाएँ।
हैप्पी स्क्रैपिंग! 🤖
जानें कि ईकॉमर्स स्क्रैपिंग के दौरान रेकैपचा कैसे प्रबंधित करें, संगत कार्य प्रवाह, डायग्नोस्टिक्स, कैपसॉल्वर उदाहरण और व्यावहारिक जोखिम नियंत्रण के साथ।

जानें कैसे AI-संचालित डेटा निष्कर्षण वेब स्क्रैपिंग और CAPTCHA हल करने से लेकर HTML साफ करना, LLM पार्सिंग, और संरचित JSON जनरेशन तक काम करता है। एंटी-बॉट बचाने के तरीके, अर्थपूर्ण निष्कर्षण फ्रेमवर्क जैसे कि AXE, और स्केलेबल AI वेब स्क्रैपिंग पाइपलाइन्स का अन्वेषण करें।
