CAPSOLVER
ब्लॉग
2025 में Botright और Python के साथ वेब स्क्रैपिंग

बॉटराइट और पाइथॉन के साथ 2025 में वेब स्क्रैपिंग

Logo of CapSolver

Anh Tuan

Data Science Expert

14-Nov-2024

शायद आप सोच रहे होंगे कि BotRight का उपयोग करके कैप्चा को कैसे हल किया जाए, इसका उपयोग करके एक साधारण स्क्रेपर या इससे भी बेहतर, एक उन्नत स्क्रेपर कैसे बनाया जाए!
ठीक है, तो यह आपका ट्यूटोरियल है!

Botright का परिचय

BotRight का परिचय

BotRight वेब स्वचालन के लिए एक उन्नत Python लाइब्रेरी है, जिसे विशेष रूप से वेबसाइटों पर बॉट पहचान प्रणालियों की बढ़ती जटिलताओं को नेविगेट करने के लिए डिज़ाइन किया गया है। बुनियादी स्वचालन टूल के विपरीत, BotRight साधारण इंटरैक्शन से परे जाता है, सूक्ष्म नियंत्रण प्रदान करके जो स्वचालित ब्राउज़िंग को अत्यधिक मानव जैसा बनाता है। मानव व्यवहार सिमुलेशन पर यह जोर वेबसाइटों तक पहुँचने के लिए महत्वपूर्ण है जो आम तौर पर बॉट को ब्लॉक या सीमित कर देती हैं।

Selenium WebDriver के शीर्ष पर निर्मित, BotRight एक उच्च-स्तरीय API प्रदान करता है जो जटिल ब्राउज़र इंटरैक्शन को सरल कमांड में सारांशित करता है, जिससे शुरुआती और उन्नत दोनों उपयोगकर्ता निम्न-स्तरीय ब्राउज़र कमांड को प्रबंधित करने की आवश्यकता के बिना परिष्कृत स्क्रेपर और स्वचालन स्क्रिप्ट विकसित कर सकते हैं। यह साधारण डेटा संग्रह से लेकर जटिल, बहु-चरण वेब कार्यों तक, जो बॉट-डिटेक्शन एल्गोरिदम के खिलाफ लचीलापन की मांग करते हैं, तक की परियोजनाओं के लिए एक उत्कृष्ट विकल्प बनाता है।

BotRight क्यों चुनें?

BotRight कई विशेषताएँ प्रदान करता है जो इसे स्वचालन परिदृश्य में अलग बनाती हैं:

  1. मानव जैसी इंटरैक्शन: BotRight का डिज़ाइन वास्तविक उपयोगकर्ता क्रियाओं का अनुकरण करने पर केंद्रित है, जैसे चिकने माउस मूवमेंट, प्राकृतिक टाइपिंग पैटर्न और समय में देरी। ये व्यवहार पता लगाने के जोखिम को कम करते हैं और सामग्री तक अधिक विश्वसनीय पहुँच प्रदान करते हैं जो आम तौर पर वास्तविक उपयोगकर्ताओं तक ही सीमित होती है।

  2. ब्राउज़र स्टेट पर्सिस्टेंस: ब्राउज़र प्रोफाइल का समर्थन करके, BotRight आपको कई स्वचालन रन में सत्र की स्थिति बनाए रखने की अनुमति देता है। यह सुविधा उन कार्यों के लिए विशेष रूप से उपयोगी है जिन्हें लॉगिन स्थिरता की आवश्यकता होती है या जहाँ विशिष्ट कुकीज़ और कैश अवस्थाओं को संरक्षित किया जाना चाहिए।

  3. उपयोग में आसानी: अपनी उन्नत क्षमताओं के बावजूद, BotRight उल्लेखनीय रूप से उपयोगकर्ता के अनुकूल है। इसका API जटिल स्वचालन कार्यों को सुव्यवस्थित करने के लिए संरचित है, Selenium सेटअप के साथ आने वाले अधिकांश तकनीकी ओवरहेड को दूर करता है। शुरुआती जल्दी से शुरुआत कर सकते हैं, जबकि विशेषज्ञ अत्यधिक अनुकूलित समाधान बनाने के लिए BotRight की लचीलेपन का लाभ उठा सकते हैं।

  4. जटिल वर्कफ़्लो के लिए स्केलेबिलिटी: BotRight अधिक उन्नत कार्यों के अनुकूल होता है, जिसमें AJAX-संचालित साइटों को संभालना, पेजिनेटेड डेटा एक्सट्रैक्शन का प्रबंधन करना, CAPTCHA को हल करना, और बहुत कुछ शामिल है। CapSolver जैसे CAPTCHA सॉल्वर के साथ जोड़ा गया, BotRight वर्कफ़्लो को संभाल सकता है जिसके लिए CAPTCHA बाईपास की आवश्यकता होती है, जिससे आप अत्यधिक संरक्षित वेबसाइटों को भी स्वचालित कर सकते हैं।

  5. एकीकृत एक्सटेंशन और प्लगइन्स: BotRight स्वचालन क्षमताओं को बढ़ाने के लिए विभिन्न एक्सटेंशन और प्लगइन्स को शामिल करने का समर्थन करता है। उदाहरण के लिए, BotRight के भीतर CapSolver जैसे टूल का उपयोग करने से CAPTCHA चुनौतियों का प्रबंधन करने में मदद मिलती है, जिससे स्क्रैपिंग या स्वचालन के लिए वेबसाइटों की एक विस्तृत श्रृंखला खुल जाती है।


Botright सेट अप करना

शुरू करने से पहले, सुनिश्चित करें कि आपके सिस्टम पर Python 3.7 या उच्चतर स्थापित है। Botright सेट अप करने के लिए इन चरणों का पालन करें:

  1. Botright स्थापित करें:

    bash Copy
    pip install botright
  2. वेबड्राइवर मैनेजर स्थापित करें:

    Botright ब्राउज़र ड्राइवरों को प्रबंधित करने के लिए webdriver_manager पैकेज पर निर्भर करता है।

    bash Copy
    pip install webdriver-manager
  3. स्थापना सत्यापित करें:

    एक नई Python फ़ाइल बनाएँ और Botright आयात करें ताकि यह सुनिश्चित हो सके कि यह सही ढंग से स्थापित है।

    python Copy
    from botright import Botright

    यदि कोई त्रुटि नहीं होती है, तो Botright सही ढंग से स्थापित है।


बुनियादी स्क्रेपर बनाना

आइए Botright का उपयोग करके quotes.toscrape.com से डेटा खुरचने के लिए सरल स्क्रिप्ट बनाएँ।

उद्धरण खुरचना

स्क्रिप्ट: scrape_quotes.py

python Copy
from botright import Botright

def scrape_quotes():
    with Botright() as bot:
        bot.get("https://quotes.toscrape.com/")
        quotes = bot.find_elements_by_css_selector("div.quote")
        for quote in quotes:
            text = quote.find_element_by_css_selector("span.text").text
            author = quote.find_element_by_css_selector("small.author").text
            print(f"\"{text}\" - {author}")

if __name__ == "__main__":
    scrape_quotes()

स्क्रिप्ट चलाएँ:

bash Copy
python scrape_quotes.py

आउटपुट:

Copy
“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” - Albert Einstein
...

व्याख्या:

  • हम उचित सेटअप और टूटने को सुनिश्चित करने के लिए Botright को एक संदर्भ प्रबंधक के रूप में उपयोग करते हैं।
  • हम bot.get() का उपयोग करके वेबसाइट पर नेविगेट करते हैं।
  • हम सभी उद्धरण तत्वों को ढूंढते हैं और पाठ और लेखक निकालते हैं।

पेजिनेशन को संभालना

स्क्रिप्ट: scrape_quotes_pagination.py

python Copy
from botright import Botright

def scrape_all_quotes():
    with Botright() as bot:
        bot.get("https://quotes.toscrape.com/")
        while True:
            quotes = bot.find_elements_by_css_selector("div.quote")
            for quote in quotes:
                text = quote.find_element_by_css_selector("span.text").text
                author = quote.find_element_by_css_selector("small.author").text
                print(f"\"{text}\" - {author}")

            # Check if there is a next page
            next_button = bot.find_elements_by_css_selector('li.next > a')
            if next_button:
                next_button[0].click()
            else:
                break

if __name__ == "__main__":
    scrape_all_quotes()

व्याख्या:

  • हम यह जाँचकर पृष्ठों के माध्यम से लूप करते हैं कि क्या "अगला" बटन उपलब्ध है।
  • हम तत्वों का पता लगाने के लिए find_elements_by_css_selector का उपयोग करते हैं।
  • अगले पृष्ठ पर नेविगेट करने के लिए हम "अगला" बटन पर क्लिक करते हैं।

गतिशील सामग्री खुरचना

स्क्रिप्ट: scrape_dynamic_content.py

python Copy
from botright import Botright
import time

def scrape_tags():
    with Botright() as bot:
        bot.get("https://quotes.toscrape.com/")
        # Click on the 'Top Ten tags' link to load tags dynamically
        bot.click('a[href="/tag/"]')
        # Wait for the dynamic content to load
        time.sleep(2)
        tags = bot.find_elements_by_css_selector("span.tag-item > a")
        for tag in tags:
            tag_name = tag.text
            print(f"Tag: {tag_name}")

if __name__ == "__main__":
    scrape_tags()

व्याख्या:

  • हम लिंक पर क्लिक करके टैग पृष्ठ पर नेविगेट करते हैं।
  • हम time.sleep() का उपयोग करके गतिशील सामग्री लोड होने की प्रतीक्षा करते हैं।
  • हम टैग निकालते हैं और प्रिंट करते हैं।

फ़ॉर्म सबमिट करना और लॉग इन करना

स्क्रिप्ट: scrape_with_login.py

python Copy
from botright import Botright

def login_and_scrape():
    with Botright() as bot:
        bot.get("https://quotes.toscrape.com/login")
        # Fill in the login form
        bot.type('input#username', 'testuser')
        bot.type('input#password', 'testpass')
        bot.click("input[type='submit']")

        # Verify login by checking for a logout link
        if bot.find_elements_by_css_selector('a[href="/logout"]'):
            print("Logged in successfully!")

            # Now scrape the quotes
            bot.get("https://quotes.toscrape.com/")
            quotes = bot.find_elements_by_css_selector("div.quote")
            for quote in quotes:
                text = quote.find_element_by_css_selector("span.text").text
                author = quote.find_element_by_css_selector("small.author").text
                print(f"\"{text}\" - {author}")
        else:
            print("Login failed.")

if __name__ == "__main__":
    login_and_scrape()

व्याख्या:

  • हम लॉगिन पृष्ठ पर नेविगेट करते हैं और क्रेडेंशियल भरते हैं।
  • हम लॉगआउट लिंक की उपस्थिति की जाँच करके लॉगिन को सत्यापित करते हैं।
  • फिर हम लॉग इन उपयोगकर्ताओं के लिए उपलब्ध सामग्री को खुरचने के लिए आगे बढ़ते हैं।

नोट: चूँकि quotes.toscrape.com प्रदर्शन के लिए किसी भी उपयोगकर्ता नाम और पासवर्ड की अनुमति देता है, हम डमी क्रेडेंशियल का उपयोग कर सकते हैं।


Botright में CapSolver एकीकृत करना

जबकि quotes.toscrape.com में CAPTCHA नहीं है, कई वास्तविक दुनिया की वेबसाइटों में ऐसा है। ऐसे मामलों के लिए तैयार होने के लिए, हम CapSolver ब्राउज़र एक्सटेंशन का उपयोग करके Botright स्क्रिप्ट में CapSolver को एकीकृत करने का प्रदर्शन करेंगे।

CapSolver एक्सटेंशन डाउनलोड करना

  1. एक्सटेंशन डाउनलोड करें:

    • CapSolver GitHub रिलीज़ पृष्ठ पर जाएँ।
    • नवीनतम संस्करण डाउनलोड करें, उदा., capsolver-chrome-extension-v0.2.3.zip
    • इसे अपनी प्रोजेक्ट की रूट में एक निर्देशिका में अनज़िप करें, उदा., ./capsolver_extension

CapSolver एक्सटेंशन को कॉन्फ़िगर करना

  1. config.json का पता लगाएँ:

    • पथ: capsolver_extension/assets/config.json
  2. config.json संपादित करें:

    json Copy
    {
      "apiKey": "YOUR_CAPSOLVER_API_KEY",
      "enabledForcaptcha": true,
      "captchaMode": "token",
      "enabledForRecaptchaV2": true,
      "reCaptchaV2Mode": "token",
      "solveInvisibleRecaptcha": true,
      "verbose": false
    }
    • "YOUR_CAPSOLVER_API_KEY" को अपनी वास्तविक CapSolver API कुंजी से बदलें।
    • आपके द्वारा अपेक्षित CAPTCHA प्रकारों के आधार पर enabledForcaptcha और/या enabledForRecaptchaV2 को true पर सेट करें।
    • स्वचालित समाधान के लिए मोड को "token" पर सेट करें।

Botright में CapSolver एक्सटेंशन लोड करना

Botright में CapSolver एक्सटेंशन का उपयोग करने के लिए, हमें ब्राउज़र को शुरू होने पर एक्सटेंशन लोड करने के लिए कॉन्फ़िगर करना होगा।

नोट: Botright आपको ब्राउज़र विकल्पों को अनुकूलित करने की अनुमति देता है, जिसमें एक्सटेंशन जोड़ना भी शामिल है।

संशोधित स्क्रिप्ट:

python Copy
from botright import Botright
from selenium.webdriver.chrome.options import Options
import os

def create_bot_with_capsolver():
    # Path to the CapSolver extension folder
    extension_path = os.path.abspath('capsolver_extension')

    # Configure Chrome options
    options = Options()
    options.add_argument(f"--load-extension={extension_path}")
    options.add_argument("--disable-gpu")
    options.add_argument("--no-sandbox")

    # Initialize Botright with custom options
    bot = Botright(options=options)
    return bot

व्याख्या:

  • Options आयात करें:
    • selenium.webdriver.chrome.options से, Chrome विकल्प सेट करने के लिए।
  • Chrome विकल्प कॉन्फ़िगर करें:
    • CapSolver एक्सटेंशन जोड़ने के लिए options.add_argument() का उपयोग करें।
  • विकल्पों के साथ Botright इनिशियलाइज़ करें:
    • Botright का उदाहरण बनाते समय options को पास करें।

CapSolver एकीकरण के साथ उदाहरण स्क्रिप्ट

हम Google के reCAPTCHA डेमो जैसी reCAPTCHA वाली साइट पर नेविगेट करके एकीकरण का प्रदर्शन करेंगे।

स्क्रिप्ट: scrape_with_capsolver_extension.py

python Copy
from botright import Botright
from selenium.webdriver.chrome.options import Options
import os
import time

def solve_captcha_and_scrape():
    # Path to the CapSolver extension folder
    extension_path = os.path.abspath('capsolver_extension')

    # Configure Chrome options
    options = Options()
    options.add_argument(f"--load-extension={extension_path}")
    options.add_argument("--disable-gpu")
    options.add_argument("--no-sandbox")

    # Initialize Botright with custom options
    with Botright(options=options) as bot:
        bot.get("https://www.google.com/recaptcha/api2/demo")

        # Wait for the CAPTCHA to be solved by CapSolver
        print("Waiting for CAPTCHA to be solved...")
        # Adjust sleep time based on average solving time
        time.sleep(15)

        # Verify if CAPTCHA is solved by checking the page content
        if "Verification Success" in bot.page_source:
            print("CAPTCHA solved successfully!")
        else:
            print("CAPTCHA not solved yet or failed.")

if __name__ == "__main__":
    solve_captcha_and_scrape()

व्याख्या:

  • Chrome विकल्प सेट करें:
    • ब्राउज़र सत्र में CapSolver एक्सटेंशन शामिल करें।
  • विकल्पों के साथ Botright इनिशियलाइज़ करें:
    • Botright इंस्टेंस बनाते समय options पास करें।
  • लक्षित साइट पर नेविगेट करें:
    • reCAPTCHA वाली साइट पर नेविगेट करने के लिए bot.get() का उपयोग करें।
  • CAPTCHA हल होने की प्रतीक्षा करें:
    • CapSolver एक्सटेंशन स्वचालित रूप से CAPTCHA को हल करेगा।
    • प्रतीक्षा करने के लिए time.sleep() का उपयोग करें; समय को आवश्यकतानुसार समायोजित करें।
  • CAPTCHA समाधान सत्यापित करें:
    • यह पुष्टि करने के लिए पृष्ठ सामग्री की जांच करें कि क्या CAPTCHA हल हो गया था।

महत्वपूर्ण नोट्स:

  • एक्सटेंशन पथ:
    • सुनिश्चित करें कि extension_path आपके CapSolver एक्सटेंशन फ़ोल्डर को सही ढंग से इंगित करता है।
  • प्रतीक्षा समय:
    • समाधान समय भिन्न हो सकता है; time.sleep() को आवश्यकतानुसार समायोजित करें।
  • ड्राइवर प्रबंधन:
    • Botright आंतरिक रूप से WebDriver का प्रबंधन करता है; options पास करने से ड्राइवर अनुकूलित होता है।
  • अनुपालन:
    • सुनिश्चित करें कि आप उस वेबसाइट की सेवा की शर्तों का पालन करते हैं जिसे आप खुरच रहे हैं।

स्क्रिप्ट चलाना:

bash Copy
python scrape_with_capsolver_extension.py

बोनस कोड

CapSolver पर शीर्ष कैप्चा समाधान के लिए अपना बोनस कोड क्लेम करें: scrape। इसे रिडीम करने के बाद, आपको प्रत्येक रिचार्ज के बाद, असीमित बार 5% अतिरिक्त बोनस मिलेगा।

निष्कर्ष

CapSolver ब्राउज़र एक्सटेंशन का उपयोग करके Botright में CapSolver को एकीकृत करके, आप अपनी वेब स्क्रैपिंग परियोजनाओं में CAPTCHA समाधान को स्वचालित कर सकते हैं। यह CAPTCHA द्वारा संरक्षित साइटों से भी निर्बाध डेटा निष्कर्षण सुनिश्चित करता है।

मुख्य takeaways:

  • Botright मानव जैसी इंटरैक्शन के साथ वेब स्वचालन को सरल बनाता है।
  • CapSolver ब्राउज़र एक्सटेंशन को Botright स्क्रिप्ट में एकीकृत किया जा सकता है।
  • एक्सटेंशन और ब्राउज़र विकल्पों का उचित कॉन्फ़िगरेशन महत्वपूर्ण है।

अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।

अधिक

वेब स्क्रैपिंग में इमेज CAPTCHAs को कैसे हल करें: 2025 के लिए एक संपूर्ण गाइड
वेब स्क्रैपिंग में इमेज CAPTCHAs को कैसे हल करें: 2025 के लिए एक संपूर्ण गाइड

2025 में CapSolver के साथ प्रभावी ढंग से इमेज CAPTCHA को हल करना सीखें

Logo of CapSolver

Rajinder Singh

23-Jan-2025

reCAPTCHA पहचान क्या है? शुरुआती लोगों के लिए एक मार्गदर्शिका
reCAPTCHA पहचान क्या है? शुरुआती लोगों के लिए एक मार्गदर्शिका

reCAPTCHA इमेज ग्रिड से जूझ रहे हैं? जानें कि कैसे Capsolver का AI-संचालित पहचान 'सभी का चयन करें' चुनौतियों को तुरंत हल करता है। API एकीकरण, ब्राउज़र एक्सटेंशन और 95%+ सटीकता के साथ CAPTCHA को स्वचालित करने के लिए प्रो टिप्स जानें

Logo of CapSolver

Rajinder Singh

23-Jan-2025

2025 में वेब स्क्रैपिंग करते समय Cloudflare चुनौती को कैसे बायपास करें
2025 में वेब स्क्रैपिंग करते समय Cloudflare चुनौती को कैसे बायपास करें

2025 में निर्बाध वेब स्क्रैपिंग के लिए Cloudflare Challenge और Turnstile को कैसे बायपास करें, यह जानें। Capsolver इंटीग्रेशन, TLS फ़िंगरप्रिंटिंग टिप्स और CAPTCHA नर्क से बचने के लिए सामान्य त्रुटियों के समाधान खोजें। समय बचाएँ और अपने डेटा निष्कर्षण को स्केल करें।

Logo of CapSolver

Emma Foster

23-Jan-2025

एक्सटेंशन द्वारा क्लाउडफ्लेयर टर्नस्टाइल CAPTCHA कैसे हल करें
एक्सटेंशन द्वारा क्लाउडफ्लेयर टर्नस्टाइल CAPTCHA कैसे हल करें

Capsolver के एक्सटेंशन से Cloudflare Turnstile CAPTCHA को कैसे बायपास करें, यह जानें। Chrome, Firefox और Puppeteer जैसे ऑटोमेशन टूल्स के लिए इंस्टॉलेशन गाइड।

Logo of CapSolver

Ethan Collins

23-Jan-2025

reCAPTCHA साइट कुंजी क्या है और इसे कैसे ढूंढें?
reCAPTCHA Site Key क्या है और यह कैसे प्राप्त करें?

reCAPTCHA Site Key को मैन्युअली या Capsolver जैसे टूल्स से कैसे ढूँढें, सामान्य समस्याओं को कैसे ठीक करें और डेवलपर्स और वेब स्क्रैपिंग के लिए CAPTCHA सॉल्विंग को कैसे ऑटोमेट करें, यह जानें।

Logo of CapSolver

Anh Tuan

23-Jan-2025

2025 में reCAPTCHA पहचान के लिए शीर्ष 5 कैप्चा सॉल्वर
2025 में reCAPTCHA पहचान के लिए शीर्ष 5 कैप्चा सॉल्वर

2025 के शीर्ष 5 CAPTCHA सॉल्वरों का अन्वेषण करें, जिसमें तेज़ reCAPTCHA पहचान के लिए AI-संचालित CapSolver भी शामिल है। यहाँ गति, मूल्य और सटीकता की तुलना करें

Logo of CapSolver

Anh Tuan

23-Jan-2025