बॉटराइट और पाइथॉन के साथ 2025 में वेब स्क्रैपिंग

Anh Tuan
Data Science Expert
14-Nov-2024

शायद आप सोच रहे होंगे कि BotRight का उपयोग करके कैप्चा को कैसे हल किया जाए, इसका उपयोग करके एक साधारण स्क्रेपर या इससे भी बेहतर, एक उन्नत स्क्रेपर कैसे बनाया जाए!
ठीक है, तो यह आपका ट्यूटोरियल है!
Botright का परिचय
BotRight का परिचय
BotRight वेब स्वचालन के लिए एक उन्नत Python लाइब्रेरी है, जिसे विशेष रूप से वेबसाइटों पर बॉट पहचान प्रणालियों की बढ़ती जटिलताओं को नेविगेट करने के लिए डिज़ाइन किया गया है। बुनियादी स्वचालन टूल के विपरीत, BotRight साधारण इंटरैक्शन से परे जाता है, सूक्ष्म नियंत्रण प्रदान करके जो स्वचालित ब्राउज़िंग को अत्यधिक मानव जैसा बनाता है। मानव व्यवहार सिमुलेशन पर यह जोर वेबसाइटों तक पहुँचने के लिए महत्वपूर्ण है जो आम तौर पर बॉट को ब्लॉक या सीमित कर देती हैं।
Selenium WebDriver के शीर्ष पर निर्मित, BotRight एक उच्च-स्तरीय API प्रदान करता है जो जटिल ब्राउज़र इंटरैक्शन को सरल कमांड में सारांशित करता है, जिससे शुरुआती और उन्नत दोनों उपयोगकर्ता निम्न-स्तरीय ब्राउज़र कमांड को प्रबंधित करने की आवश्यकता के बिना परिष्कृत स्क्रेपर और स्वचालन स्क्रिप्ट विकसित कर सकते हैं। यह साधारण डेटा संग्रह से लेकर जटिल, बहु-चरण वेब कार्यों तक, जो बॉट-डिटेक्शन एल्गोरिदम के खिलाफ लचीलापन की मांग करते हैं, तक की परियोजनाओं के लिए एक उत्कृष्ट विकल्प बनाता है।
BotRight क्यों चुनें?
BotRight कई विशेषताएँ प्रदान करता है जो इसे स्वचालन परिदृश्य में अलग बनाती हैं:
-
मानव जैसी इंटरैक्शन: BotRight का डिज़ाइन वास्तविक उपयोगकर्ता क्रियाओं का अनुकरण करने पर केंद्रित है, जैसे चिकने माउस मूवमेंट, प्राकृतिक टाइपिंग पैटर्न और समय में देरी। ये व्यवहार पता लगाने के जोखिम को कम करते हैं और सामग्री तक अधिक विश्वसनीय पहुँच प्रदान करते हैं जो आम तौर पर वास्तविक उपयोगकर्ताओं तक ही सीमित होती है।
-
ब्राउज़र स्टेट पर्सिस्टेंस: ब्राउज़र प्रोफाइल का समर्थन करके, BotRight आपको कई स्वचालन रन में सत्र की स्थिति बनाए रखने की अनुमति देता है। यह सुविधा उन कार्यों के लिए विशेष रूप से उपयोगी है जिन्हें लॉगिन स्थिरता की आवश्यकता होती है या जहाँ विशिष्ट कुकीज़ और कैश अवस्थाओं को संरक्षित किया जाना चाहिए।
-
उपयोग में आसानी: अपनी उन्नत क्षमताओं के बावजूद, BotRight उल्लेखनीय रूप से उपयोगकर्ता के अनुकूल है। इसका API जटिल स्वचालन कार्यों को सुव्यवस्थित करने के लिए संरचित है, Selenium सेटअप के साथ आने वाले अधिकांश तकनीकी ओवरहेड को दूर करता है। शुरुआती जल्दी से शुरुआत कर सकते हैं, जबकि विशेषज्ञ अत्यधिक अनुकूलित समाधान बनाने के लिए BotRight की लचीलेपन का लाभ उठा सकते हैं।
-
जटिल वर्कफ़्लो के लिए स्केलेबिलिटी: BotRight अधिक उन्नत कार्यों के अनुकूल होता है, जिसमें AJAX-संचालित साइटों को संभालना, पेजिनेटेड डेटा एक्सट्रैक्शन का प्रबंधन करना, CAPTCHA को हल करना, और बहुत कुछ शामिल है। CapSolver जैसे CAPTCHA सॉल्वर के साथ जोड़ा गया, BotRight वर्कफ़्लो को संभाल सकता है जिसके लिए CAPTCHA बाईपास की आवश्यकता होती है, जिससे आप अत्यधिक संरक्षित वेबसाइटों को भी स्वचालित कर सकते हैं।
-
एकीकृत एक्सटेंशन और प्लगइन्स: BotRight स्वचालन क्षमताओं को बढ़ाने के लिए विभिन्न एक्सटेंशन और प्लगइन्स को शामिल करने का समर्थन करता है। उदाहरण के लिए, BotRight के भीतर CapSolver जैसे टूल का उपयोग करने से CAPTCHA चुनौतियों का प्रबंधन करने में मदद मिलती है, जिससे स्क्रैपिंग या स्वचालन के लिए वेबसाइटों की एक विस्तृत श्रृंखला खुल जाती है।
Botright सेट अप करना
शुरू करने से पहले, सुनिश्चित करें कि आपके सिस्टम पर Python 3.7 या उच्चतर स्थापित है। Botright सेट अप करने के लिए इन चरणों का पालन करें:
-
Botright स्थापित करें:
bashpip install botright
-
वेबड्राइवर मैनेजर स्थापित करें:
Botright ब्राउज़र ड्राइवरों को प्रबंधित करने के लिए
webdriver_manager
पैकेज पर निर्भर करता है।bashpip install webdriver-manager
-
स्थापना सत्यापित करें:
एक नई Python फ़ाइल बनाएँ और Botright आयात करें ताकि यह सुनिश्चित हो सके कि यह सही ढंग से स्थापित है।
pythonfrom botright import Botright
यदि कोई त्रुटि नहीं होती है, तो Botright सही ढंग से स्थापित है।
बुनियादी स्क्रेपर बनाना
आइए Botright का उपयोग करके quotes.toscrape.com से डेटा खुरचने के लिए सरल स्क्रिप्ट बनाएँ।
उद्धरण खुरचना
स्क्रिप्ट: scrape_quotes.py
python
from botright import Botright
def scrape_quotes():
with Botright() as bot:
bot.get("https://quotes.toscrape.com/")
quotes = bot.find_elements_by_css_selector("div.quote")
for quote in quotes:
text = quote.find_element_by_css_selector("span.text").text
author = quote.find_element_by_css_selector("small.author").text
print(f"\"{text}\" - {author}")
if __name__ == "__main__":
scrape_quotes()
स्क्रिप्ट चलाएँ:
bash
python scrape_quotes.py
आउटपुट:
“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” - Albert Einstein
...
व्याख्या:
- हम उचित सेटअप और टूटने को सुनिश्चित करने के लिए
Botright
को एक संदर्भ प्रबंधक के रूप में उपयोग करते हैं। - हम
bot.get()
का उपयोग करके वेबसाइट पर नेविगेट करते हैं। - हम सभी उद्धरण तत्वों को ढूंढते हैं और पाठ और लेखक निकालते हैं।
पेजिनेशन को संभालना
स्क्रिप्ट: scrape_quotes_pagination.py
python
from botright import Botright
def scrape_all_quotes():
with Botright() as bot:
bot.get("https://quotes.toscrape.com/")
while True:
quotes = bot.find_elements_by_css_selector("div.quote")
for quote in quotes:
text = quote.find_element_by_css_selector("span.text").text
author = quote.find_element_by_css_selector("small.author").text
print(f"\"{text}\" - {author}")
# Check if there is a next page
next_button = bot.find_elements_by_css_selector('li.next > a')
if next_button:
next_button[0].click()
else:
break
if __name__ == "__main__":
scrape_all_quotes()
व्याख्या:
- हम यह जाँचकर पृष्ठों के माध्यम से लूप करते हैं कि क्या "अगला" बटन उपलब्ध है।
- हम तत्वों का पता लगाने के लिए
find_elements_by_css_selector
का उपयोग करते हैं। - अगले पृष्ठ पर नेविगेट करने के लिए हम "अगला" बटन पर क्लिक करते हैं।
गतिशील सामग्री खुरचना
स्क्रिप्ट: scrape_dynamic_content.py
python
from botright import Botright
import time
def scrape_tags():
with Botright() as bot:
bot.get("https://quotes.toscrape.com/")
# Click on the 'Top Ten tags' link to load tags dynamically
bot.click('a[href="/tag/"]')
# Wait for the dynamic content to load
time.sleep(2)
tags = bot.find_elements_by_css_selector("span.tag-item > a")
for tag in tags:
tag_name = tag.text
print(f"Tag: {tag_name}")
if __name__ == "__main__":
scrape_tags()
व्याख्या:
- हम लिंक पर क्लिक करके टैग पृष्ठ पर नेविगेट करते हैं।
- हम
time.sleep()
का उपयोग करके गतिशील सामग्री लोड होने की प्रतीक्षा करते हैं। - हम टैग निकालते हैं और प्रिंट करते हैं।
फ़ॉर्म सबमिट करना और लॉग इन करना
स्क्रिप्ट: scrape_with_login.py
python
from botright import Botright
def login_and_scrape():
with Botright() as bot:
bot.get("https://quotes.toscrape.com/login")
# Fill in the login form
bot.type('input#username', 'testuser')
bot.type('input#password', 'testpass')
bot.click("input[type='submit']")
# Verify login by checking for a logout link
if bot.find_elements_by_css_selector('a[href="/logout"]'):
print("Logged in successfully!")
# Now scrape the quotes
bot.get("https://quotes.toscrape.com/")
quotes = bot.find_elements_by_css_selector("div.quote")
for quote in quotes:
text = quote.find_element_by_css_selector("span.text").text
author = quote.find_element_by_css_selector("small.author").text
print(f"\"{text}\" - {author}")
else:
print("Login failed.")
if __name__ == "__main__":
login_and_scrape()
व्याख्या:
- हम लॉगिन पृष्ठ पर नेविगेट करते हैं और क्रेडेंशियल भरते हैं।
- हम लॉगआउट लिंक की उपस्थिति की जाँच करके लॉगिन को सत्यापित करते हैं।
- फिर हम लॉग इन उपयोगकर्ताओं के लिए उपलब्ध सामग्री को खुरचने के लिए आगे बढ़ते हैं।
नोट: चूँकि quotes.toscrape.com
प्रदर्शन के लिए किसी भी उपयोगकर्ता नाम और पासवर्ड की अनुमति देता है, हम डमी क्रेडेंशियल का उपयोग कर सकते हैं।
Botright में CapSolver एकीकृत करना
जबकि quotes.toscrape.com में CAPTCHA नहीं है, कई वास्तविक दुनिया की वेबसाइटों में ऐसा है। ऐसे मामलों के लिए तैयार होने के लिए, हम CapSolver ब्राउज़र एक्सटेंशन का उपयोग करके Botright स्क्रिप्ट में CapSolver को एकीकृत करने का प्रदर्शन करेंगे।
CapSolver एक्सटेंशन डाउनलोड करना
-
एक्सटेंशन डाउनलोड करें:
- CapSolver GitHub रिलीज़ पृष्ठ पर जाएँ।
- नवीनतम संस्करण डाउनलोड करें, उदा.,
capsolver-chrome-extension-v0.2.3.zip
। - इसे अपनी प्रोजेक्ट की रूट में एक निर्देशिका में अनज़िप करें, उदा.,
./capsolver_extension
।
CapSolver एक्सटेंशन को कॉन्फ़िगर करना
-
config.json
का पता लगाएँ:- पथ:
capsolver_extension/assets/config.json
- पथ:
-
config.json
संपादित करें:json{ "apiKey": "YOUR_CAPSOLVER_API_KEY", "enabledForcaptcha": true, "captchaMode": "token", "enabledForRecaptchaV2": true, "reCaptchaV2Mode": "token", "solveInvisibleRecaptcha": true, "verbose": false }
"YOUR_CAPSOLVER_API_KEY"
को अपनी वास्तविक CapSolver API कुंजी से बदलें।- आपके द्वारा अपेक्षित CAPTCHA प्रकारों के आधार पर
enabledForcaptcha
और/याenabledForRecaptchaV2
कोtrue
पर सेट करें। - स्वचालित समाधान के लिए मोड को
"token"
पर सेट करें।
Botright में CapSolver एक्सटेंशन लोड करना
Botright में CapSolver एक्सटेंशन का उपयोग करने के लिए, हमें ब्राउज़र को शुरू होने पर एक्सटेंशन लोड करने के लिए कॉन्फ़िगर करना होगा।
नोट: Botright आपको ब्राउज़र विकल्पों को अनुकूलित करने की अनुमति देता है, जिसमें एक्सटेंशन जोड़ना भी शामिल है।
संशोधित स्क्रिप्ट:
python
from botright import Botright
from selenium.webdriver.chrome.options import Options
import os
def create_bot_with_capsolver():
# Path to the CapSolver extension folder
extension_path = os.path.abspath('capsolver_extension')
# Configure Chrome options
options = Options()
options.add_argument(f"--load-extension={extension_path}")
options.add_argument("--disable-gpu")
options.add_argument("--no-sandbox")
# Initialize Botright with custom options
bot = Botright(options=options)
return bot
व्याख्या:
Options
आयात करें:selenium.webdriver.chrome.options
से, Chrome विकल्प सेट करने के लिए।
- Chrome विकल्प कॉन्फ़िगर करें:
- CapSolver एक्सटेंशन जोड़ने के लिए
options.add_argument()
का उपयोग करें।
- CapSolver एक्सटेंशन जोड़ने के लिए
- विकल्पों के साथ Botright इनिशियलाइज़ करें:
Botright
का उदाहरण बनाते समयoptions
को पास करें।
CapSolver एकीकरण के साथ उदाहरण स्क्रिप्ट
हम Google के reCAPTCHA डेमो जैसी reCAPTCHA वाली साइट पर नेविगेट करके एकीकरण का प्रदर्शन करेंगे।
स्क्रिप्ट: scrape_with_capsolver_extension.py
python
from botright import Botright
from selenium.webdriver.chrome.options import Options
import os
import time
def solve_captcha_and_scrape():
# Path to the CapSolver extension folder
extension_path = os.path.abspath('capsolver_extension')
# Configure Chrome options
options = Options()
options.add_argument(f"--load-extension={extension_path}")
options.add_argument("--disable-gpu")
options.add_argument("--no-sandbox")
# Initialize Botright with custom options
with Botright(options=options) as bot:
bot.get("https://www.google.com/recaptcha/api2/demo")
# Wait for the CAPTCHA to be solved by CapSolver
print("Waiting for CAPTCHA to be solved...")
# Adjust sleep time based on average solving time
time.sleep(15)
# Verify if CAPTCHA is solved by checking the page content
if "Verification Success" in bot.page_source:
print("CAPTCHA solved successfully!")
else:
print("CAPTCHA not solved yet or failed.")
if __name__ == "__main__":
solve_captcha_and_scrape()
व्याख्या:
- Chrome विकल्प सेट करें:
- ब्राउज़र सत्र में CapSolver एक्सटेंशन शामिल करें।
- विकल्पों के साथ Botright इनिशियलाइज़ करें:
Botright
इंस्टेंस बनाते समयoptions
पास करें।
- लक्षित साइट पर नेविगेट करें:
- reCAPTCHA वाली साइट पर नेविगेट करने के लिए
bot.get()
का उपयोग करें।
- reCAPTCHA वाली साइट पर नेविगेट करने के लिए
- CAPTCHA हल होने की प्रतीक्षा करें:
- CapSolver एक्सटेंशन स्वचालित रूप से CAPTCHA को हल करेगा।
- प्रतीक्षा करने के लिए
time.sleep()
का उपयोग करें; समय को आवश्यकतानुसार समायोजित करें।
- CAPTCHA समाधान सत्यापित करें:
- यह पुष्टि करने के लिए पृष्ठ सामग्री की जांच करें कि क्या CAPTCHA हल हो गया था।
महत्वपूर्ण नोट्स:
- एक्सटेंशन पथ:
- सुनिश्चित करें कि
extension_path
आपके CapSolver एक्सटेंशन फ़ोल्डर को सही ढंग से इंगित करता है।
- सुनिश्चित करें कि
- प्रतीक्षा समय:
- समाधान समय भिन्न हो सकता है;
time.sleep()
को आवश्यकतानुसार समायोजित करें।
- समाधान समय भिन्न हो सकता है;
- ड्राइवर प्रबंधन:
- Botright आंतरिक रूप से WebDriver का प्रबंधन करता है;
options
पास करने से ड्राइवर अनुकूलित होता है।
- Botright आंतरिक रूप से WebDriver का प्रबंधन करता है;
- अनुपालन:
- सुनिश्चित करें कि आप उस वेबसाइट की सेवा की शर्तों का पालन करते हैं जिसे आप खुरच रहे हैं।
स्क्रिप्ट चलाना:
bash
python scrape_with_capsolver_extension.py
बोनस कोड
CapSolver पर शीर्ष कैप्चा समाधान के लिए अपना बोनस कोड क्लेम करें: scrape। इसे रिडीम करने के बाद, आपको प्रत्येक रिचार्ज के बाद, असीमित बार 5% अतिरिक्त बोनस मिलेगा।

निष्कर्ष
CapSolver ब्राउज़र एक्सटेंशन का उपयोग करके Botright में CapSolver को एकीकृत करके, आप अपनी वेब स्क्रैपिंग परियोजनाओं में CAPTCHA समाधान को स्वचालित कर सकते हैं। यह CAPTCHA द्वारा संरक्षित साइटों से भी निर्बाध डेटा निष्कर्षण सुनिश्चित करता है।
मुख्य takeaways:
- Botright मानव जैसी इंटरैक्शन के साथ वेब स्वचालन को सरल बनाता है।
- CapSolver ब्राउज़र एक्सटेंशन को Botright स्क्रिप्ट में एकीकृत किया जा सकता है।
- एक्सटेंशन और ब्राउज़र विकल्पों का उचित कॉन्फ़िगरेशन महत्वपूर्ण है।
अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।
अधिक

वेब स्क्रैपिंग में इमेज CAPTCHAs को कैसे हल करें: 2025 के लिए एक संपूर्ण गाइड
2025 में CapSolver के साथ प्रभावी ढंग से इमेज CAPTCHA को हल करना सीखें

Rajinder Singh
23-Jan-2025

reCAPTCHA पहचान क्या है? शुरुआती लोगों के लिए एक मार्गदर्शिका
reCAPTCHA इमेज ग्रिड से जूझ रहे हैं? जानें कि कैसे Capsolver का AI-संचालित पहचान 'सभी का चयन करें' चुनौतियों को तुरंत हल करता है। API एकीकरण, ब्राउज़र एक्सटेंशन और 95%+ सटीकता के साथ CAPTCHA को स्वचालित करने के लिए प्रो टिप्स जानें

Rajinder Singh
23-Jan-2025

2025 में वेब स्क्रैपिंग करते समय Cloudflare चुनौती को कैसे बायपास करें
2025 में निर्बाध वेब स्क्रैपिंग के लिए Cloudflare Challenge और Turnstile को कैसे बायपास करें, यह जानें। Capsolver इंटीग्रेशन, TLS फ़िंगरप्रिंटिंग टिप्स और CAPTCHA नर्क से बचने के लिए सामान्य त्रुटियों के समाधान खोजें। समय बचाएँ और अपने डेटा निष्कर्षण को स्केल करें।

Emma Foster
23-Jan-2025

एक्सटेंशन द्वारा क्लाउडफ्लेयर टर्नस्टाइल CAPTCHA कैसे हल करें
Capsolver के एक्सटेंशन से Cloudflare Turnstile CAPTCHA को कैसे बायपास करें, यह जानें। Chrome, Firefox और Puppeteer जैसे ऑटोमेशन टूल्स के लिए इंस्टॉलेशन गाइड।

Ethan Collins
23-Jan-2025

reCAPTCHA Site Key क्या है और यह कैसे प्राप्त करें?
reCAPTCHA Site Key को मैन्युअली या Capsolver जैसे टूल्स से कैसे ढूँढें, सामान्य समस्याओं को कैसे ठीक करें और डेवलपर्स और वेब स्क्रैपिंग के लिए CAPTCHA सॉल्विंग को कैसे ऑटोमेट करें, यह जानें।

Anh Tuan
23-Jan-2025

2025 में reCAPTCHA पहचान के लिए शीर्ष 5 कैप्चा सॉल्वर
2025 के शीर्ष 5 CAPTCHA सॉल्वरों का अन्वेषण करें, जिसमें तेज़ reCAPTCHA पहचान के लिए AI-संचालित CapSolver भी शामिल है। यहाँ गति, मूल्य और सटीकता की तुलना करें

Anh Tuan
23-Jan-2025