CAPSOLVER
ब्लॉग
2024 में पुप्पेटीयर और नोडजेएस के साथ वेब स्क्रैपिंग कैसे करें | पुप्पेटीयर ट्यूटोरियल

वेब स्क्रैपिंग कैसे करें पुपेटीयर और नोड जेएस के साथ | पुपेटीयर ट्यूटोरियल

Logo of CapSolver

Rajinder Singh

Deep Learning Researcher

12-Nov-2025

वेब स्क्रैपिंग वेबसाइटों से डेटा निकालने के लिए एक शक्तिशाली तकनीक है। इस ट्यूटोरियल में, हम पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग कैसे करें, इसका अध्ययन करेंगे, जो वेब विकास परिदृश्य में लोकप्रिय तकनीक हैं। पुप्पेटीअर एक नोड.जे.एस प per लाइब्रेरी है जो हेडलेस क्रोम या क्रोमियम ब्राउजर के नियंत्रण के लिए एक उच्च-स्तरीय एपीआई प्रदान करती है। यह हमें ब्राउजर कार्यों के स्वचालन, वेब पेज के माध्यम से नेविगेशन और आवश्यक डेटा निकालने की अनुमति देता है। नोड.जे.एस के साथ पुप्पेटीअर के संयोजन से, हम विश्वसनीय और दक्ष वेब स्क्रैपिंग समाधान बना सकते हैं। चलिए पुप्पेटीअर के साथ वेबसाइटों के डेटा निकालने के चरणों में डूबते हैं।

पुप्पेटीअर क्या है?

पुप्पेटीअर एक आधुनिक फ्रेमवर्क है जो गूगल क्रोम के साथ हेडलेस ब्राउज़र परीक्षण करने में परीक्षकों को सक्षम करता है। पुप्पेटीअर परीक्षण के साथ, परीक्षक वेब पेज के साथ जावास्क्रिप्ट आदेशों के साथ अंतरक्रिया कर सकते हैं, जैसे कि लिंक पर क्लिक करना, फॉर्म भरना, और बटन भेजना।

गूगल द्वारा विकसित, पुप्पेटीअर एक नोड.जे.एस प per लाइब्रेरी है जो डेवटूल्स प्रोटोकॉल के माध्यम से हेडलेस क्रोम के समायोजन के साथ बिना किसी बाधा के नियंत्रण प्रदान करती है। यह एक विस्तृत उच्च-स्तरीय एपीआई प्रदान करता है जो स्वचालित परीक्षण, वेबसाइट के फीचर विकास, डीबगिंग, तत्व जांच, और कार्यक्षमता प्रोफाइलिंग के लिए उपयोगी है।

पुप्पेटीअर के साथ, आप (हेडलेस) क्रोमियम या क्रोम का उपयोग करके वेबसाइटों को खोल सकते हैं, फॉर्म भर सकते हैं, बटन क्लिक कर सकते हैं, डेटा निकाल सकते हैं और आमतौर पर कंप्यूटर का उपयोग करते समय कोई भी कार्य कर सकते हैं। इससे पुप्पेटीअर वेब स्क्रैपिंग के लिए एक वास्तविक रूप से शक्तिशाली उपकरण बन जाता है, लेकिन वेब पर जटिल वर्कफ़्लो के स्वचालन के लिए भी। आधुनिक वेब विकास वातावरण में परीक्षकों और विकासकर्ताओं के लिए पुप्पेटीअर और इसकी क्षमताओं के स्पष्ट ज्ञान के बराबर मूल्यवान है।

पुप्पेटीअर का उपयोग करके वेब स्क्रैपिंग के लिए फायदे क्या हैं?

एक्सियस और चीरियो जावास्क्रिप्ट के साथ स्क्रैपिंग के लिए एक अच्छा विकल्प हैं। हालांकि, यह दो समस्याओं के साथ आता है: डायनामिक सामग्री के ब्राउज़िंग और एंटी-स्क्रैपिंग सॉफ्टवेयर। चूंकि पुप्पेटीअर एक हेडलेस ब्राउज़र है, इसलिए डायनामिक सामग्री के डेटा निकालने में कोई समस्या नहीं होती।
पुप्पेटीअर के उपयोग के लिए कई महत्वपूर्ण फायदे भी हैं:

  1. हेडलेस ब्राउज़र स्वचालन: पुप्पेटीअर के साथ, आप हेडलेस क्रोम ब्राउज़र को प्रोग्रामेटिक रूप से नियंत्रित कर सकते हैं, जो ब्राउज़र कार्यों के स्वचालन की अनुमति देता है, जैसे कि क्लिक करना, स्क्रॉल करना, फॉर्म भरना, और डेटा निकालना, बिना किसी दृश्यमान ब्राउज़र खिड़की के।

  2. पूर्ण क्रोम कार्यक्षमता और DOM मैनिपुलेशन: पुप्पेटीअर क्रोम के पूर्ण कार्यक्षमता के लिए एक्सेस प्रदान करता है, जो जावास्क्रिप्ट-भारी सामग्री के साथ आधुनिक वेबसाइटों के डेटा निकालने के लिए उपयुक्त है। आप पृष्ठ तत्वों के साथ सरलता से अंतरक्रिया कर सकते हैं, विशेषताओं को संशोधित कर सकते हैं, और कार्यों जैसे कि बटन पर क्लिक करना या फॉर्म भेजना कर सकते हैं।

  3. उपयोगकर्ता अंतरक्रिया के समान अनुकरण और घटना अंतर्दृष्टि: पुप्पेटीअर आपको उपयोगकर्ता अंतरक्रिया के साथ-साथ नेटवर्क अनुरोधों और प्रतिक्रियाओं के अंतर्दृष्टि के समान अनुकरण करने की अनुमति देता है। इससे उपयोगकर्ता इनपुट की आवश्यकता वाले पृष्ठों के डेटा निकालने या AJAX या वेबसॉकेट अनुरोधों के माध्यम से डायनामिक रूप से लोड करे गए पृष्ठों के डेटा निकालने के लिए संभव होता है।

  4. कार्यक्षमता और डीबगिंग क्षमताएं: पुप्पेटीअर के अनुकूलित क्रोम इंजन द्वारा डेटा निकालने की दक्षता सुनिश्चित की जाती है, और इसके डेवटूल्स के साथ एकीकरण विस्तृत डीबगिंग और परीक्षण क्षमताओं की पेशकश करता है। आप वेब पृष्ठों के डीबगिंग, कंसोल संदेशों को लॉग कर सकते हैं, नेटवर्क गतिविधि का ट्रेस कर सकते हैं, और कार्यक्षमता मीट्रिक्स का विश्लेषण कर सकते हैं।

अगले गाइड में, मैं पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग की प्रक्रिया का अध्ययन करूंगा, साथ ही वेब स्क्रैपिंग के दौरान एक महत्वपूर्ण चुनौती का सामना करने के लिए, CapSolver के साथ एक आधुनिक CAPTCHA हल करने वाला समाधान एम्बेड करूंगा।

बोनस कोड

शीर्ष CAPTCHA समाधान के लिए एक बोनस कोड; CapSolver : WEBS। इसे रीडीम करने के बाद, प्रत्येक भरोसे के बाद आपको 5% अतिरिक्त बोनस मिलेगा, असीमित

पुप्पेटीअर के साथ CapSolver का उपयोग करके वेब स्क्रैपिंग के दौरान CAPTCHA हल करें

लक्ष्य वेब स्क्रैपिंग के दौरान recaptcha-demo.appspot.com पर स्थित CAPTCHA हल करना होगा।

CAPTCHA फॉर्म

ट्यूटोरियल के दौरान, हम ऊपर के CAPTCHA को हल करने के लिए निम्नलिखित कदम उठाएंगे:

  1. आवश्यक निर्भरताओं के स्थापना करें।
  2. CAPTCHA फॉर्म के साइट की चाबी का पता लगाएं।
  3. CapSolver की स्थापना करें।
  4. CAPTCHA हल करें।

आवश्यक निर्भरताओं के स्थापना करें

शुरू करने के लिए, हमें इस ट्यूटोरियल के लिए निम्नलिखित निर्भरताओं के स्थापना करने की आवश्यकता है:

  • capsolver-python: CapSolver API के साथ आसान एम्बेडिंग के लिए आधिकारिक पायथन SDK।
  • pyppeteer: pyppeteer पुप्पेटीअर के पायथन संस्करण है।

इन निर्भरताओं के स्थापना करने के लिए निम्नलिखित आदेश चलाएं:

Copy
python -m pip install pyppeteer capsolver-python

अब, main.py नाम का एक फ़ाइल बनाएं जहां हम CAPTCHA हल करने के लिए पायथन कोड लिखेंगे।

bash Copy
touch main.py

CAPTCHA फॉर्म के साइट की चाबी प्राप्त करें

साइट की चाबी गूगल द्वारा प्रदान किया गया एक अद्वितीय पहचानकर्ता है जो प्रत्येक CAPTCHA को अद्वितीय रूप से पहचानता है।

CAPTCHA हल करने के लिए, आपको इस साइट की चाबी को CapSolver के साथ भेजना आवश्यक है।

चलिए CAPTCHA फॉर्म के साइट की चाबी का पता लगाएं।

  1. CAPTCHA फॉर्म पर जाएं।
CAPTCHA फॉर्म
  1. Ctrl/Cmd + Shift + I दबाकर क्रोम डेव टूल्स खोलें।
  2. Elements टैब पर जाएं और data-sitekey खोजें। विशेषता के मान की प्रतिलिपि बनाएं।
साइट की चाबी
  1. आगे के अनुभाग में जब हम CAPTCHA को CapSolver पर भेजेंगे, तो इसे सुरक्षित जगह पर संग्रहीत करें।

CapSolver की स्थापना करें

CapSolver के साथ CAPTCHA हल करने के लिए, आपको CapSolver खाता बनाना, खाते में धन जमा करना, और एक API कुंजी प्राप्त करना आवश्यक है। अपने CapSolver खाते की स्थापना करने के लिए निम्नलिखित कदम पालें:

  1. CapSolver पर अपना खाता बनाएं।

  2. पेपैल, क्रिप्टो करेंसी या अन्य सूचीबद्ध भुगतान विधियों के माध्यम से अपने CapSolver खाते में धन जमा करें। ध्यान रखें कि न्यूनतम जमा राशि $6 है, और अतिरिक्त कर लागू होते हैं।

  3. अब, CapSolver द्वारा प्रदान की गई API कुंजी की प्रतिलिपि बनाएं और बाद में उपयोग के लिए सुरक्षित रखें।

CAPTCHA हल करें

अब, हम CapSolver के साथ CAPTCHA हल करने के लिए आगे बढ़ेंगे। समग्र प्रक्रिया तीन चरणों में शामिल है:

  1. pyppeteer के साथ ब्राउज़र लॉन्च करें और CAPTCHA पेज पर जाएं।
  2. CapSolver के साथ CAPTCHA हल करें।
  3. CAPTCHA प्रतिक्रिया भेजें।

इन चरणों को समझने के लिए निम्नलिखित कोड स्निपेट पढ़ें।
ब्राउज़र लॉन्च करें और CAPTCHA पेज पर जाएं:

python Copy
# ब्राउज़र लॉन्च करें।
browser = await launch({'headless': False})

# लक्ष्य पृष्ठ लोड करें।
captcha_page_url = "https://recaptcha-demo.appspot.com/recaptcha-v2-checkbox.php"
page = await browser.newPage()
await page.goto(captcha_page_url)

CapSolver के साथ CAPTCHA हल करें:

python Copy
# CapSolver के साथ reCAPTCHA हल करें।
capsolver = RecaptchaV2Task("YOUR_API_KEY")

site_key = "6LfW6wATAAAAAHLqO2pb8bDBahxlMxNdo9g947u9"
task_id = capsolver.create_task(captcha_page_url, site_key)
result = capsolver.join_task_result(task_id)

# हल किया गया reCAPTCHA कोड प्राप्त करें।
code = result.get("gRecaptchaResponse")

हल किया गया CAPTCHA फॉर्म पर सेट करें और भेजें:

python Copy
# हल किया गया reCAPTCHA कोड फॉर्म पर सेट करें।
recaptcha_response_element = await page.querySelector('#g-recaptcha-response')
await page.evaluate(f'(element) => element.value = "{code}"', recaptcha_response_element)

# फॉर्म भेजें।
submit_btn = await page.querySelector('button[type="submit"]')
await submit_btn.click()

सभी को एक साथ रखें

ट्यूटोरियल के लिए पूर्ण कोड नीचे दिया गया है, जो CapSolver के साथ CAPTCHA हल करेगा।

python Copy
import asyncio
from pyppeteer import launch
from capsolver_python import RecaptchaV2Task

# निम्न कोड CapSolver के साथ reCAPTCHA v2 चुनौती हल करता है।
async def main():
    # ब्राउज़र लॉन्च करें।
    browser = await launch({'headless': False})

    # लक्ष्य पृष्ठ लोड करें।
    captcha_page_url = "https://recaptcha-demo.appspot.com/recaptcha-v2-checkbox.php"
    page = await browser.newPage()
    await page.goto(captcha_page_url)

    # reCAPTCHA के साथ CapSolver के साथ CAPTCHA हल करें।
    print("CAPTCHA हल कर रहा है")
    capsolver = RecaptchaV2Task("YOUR_API_KEY")

    site_key = "6LfW6wATAAAAAHLqO2pb8bDBahxlMxNdo9g947u9"
    task_id = capsolver.create_task(captcha_page_url, site_key)
    result = capsolver.join_task_result(task_id)

    # हल किया गया reCAPTCHA कोड प्राप्त करें।
    code = result.get("gRecaptchaResponse")
    print(f"reCAPTCHA के सफलतापूर्वक हल किया गया। हल कोड {code} है")

    # फॉर्म पर हल किया गया reCAPTCHA कोड सेट करें।
    recaptcha_response_element = await page.querySelector('#g-recaptcha-response')
    await page.evaluate(f'(element) => element.value = "{code}"', recaptcha_response_element)

    # फॉर्म भेजें।
    submit_btn = await page.querySelector('button[type="submit"]')
    await submit_btn.click()

    # उत्पादन के बाद आउटपुट के दृश्य के लिए निष्पादन रोकें
    input("CAPTCHA जमा सफल। आगे बढ़ने के लिए एंटर दबाएं")

    # ब्राउज़र बंद करें।
    await browser.close()

if __name__ == "__main__":
    asyncio.get_event_loop().run_until_complete(main())

ऊपर के कोड को अपने main.py फ़ाइल में पेस्ट करें। YOUR_API_KEY के स्थान पर अपनी API कुंजी के साथ बदलें और कोड चलाएं।

आप देखेंगे कि CAPTCHA हल हो जाएगा, और आपको सफलता पृष्ठ द्वारा स्वागत किया जाएगा।

NodeJS के साथ CapSolver का उपयोग करके CAPTCHA हल करें जबकि वेब स्क्रैपिंग कर रहे हैं

पूर्वापेक्षा

  • प्रॉक्सी (वैकल्पिक)
  • नोड.जे.एस स्थापित है
  • CapSolver API कुंजी

चरण 1: आवश्यक पैकेज स्थापित करें

निम्नलिखित आदेश चलाकर आवश्यक पैकेज स्थापित करें:

python Copy
npm install axios

Node.JS कोड के बिना प्रॉक्सी के reCaptcha v2 हल करें

इस कार्य को पूरा करने के लिए नोड.जे.एस नमूना स्क्रिप्ट नीचे दी गई है:

js Copy
const axios = require('axios');

const PAGE_URL = ""; // अपनी वेबसाइट से बदलें
const SITE_KEY = ""; // अपनी वेबसाइट से बदलें
const CLIENT_KEY = "";  // अपने CapSolver API कुंजी से बदलें

async function createTask(payload) {
  try {
    const res = await axios.post('https://api.capsolver.com/createTask', {
      clientKey: CLIENT_KEY,
      task: payload
    });
    return res.data;
  } catch (error) {
    console.error(error);
  }
}
async function getTaskResult(taskId) {
    try {
        success = false;
        while(success == false){

            await sleep(1000);
        console.log("कार्य परिणाम प्राप्त कर रहा है जिसका कार्य के आईडी: " + taskId);
      const res = await axios.post('https://api.capsolver.com/getTaskResult', {
        clientKey: CLIENT_KEY,
        taskId: taskId
      });
      if( res.data.status == "ready") {
        success = true;
        console.log(res.data)
        return res.data;
      }
    }
  
    } catch (error) {
      console.error(error);
      return null;
    }
  }
  

async function solveReCaptcha(pageURL, sitekey) {
  const taskPayload = {
    type: "ReCaptchaV2TaskProxyless",
    websiteURL: pageURL,
    websiteKey: sitekey,
  };
  const taskData = await createTask(taskPayload);
  return await getTaskResult(taskData.taskId);
}
function sleep(ms) {
    return new Promise(resolve => setTimeout(resolve, ms));
}
async function main() {
  try {
   
      const response = await solveReCaptcha(PAGE_URL, SITE_KEY );
      console.log(`प्राप्त टोकन: ${response.solution.gReCaptcharesponse}`);
        
    }
catch (error) {
    console.error(`त्रुटि: ${error}`);
  }

}
main();

👀 अधिक जानकारी

निष्कर्ष:

इस ट्यूटोरियल में, हमने CapSolver के साथ पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग करते समय CAPTCHA हल करने के बारे में सीखा। CapSolver के API के उपयोग से, हम CAPTCHA हल करने की प्रक्रिया के स्वचालन को अनुमति दे सकते हैं और वेब स्क्रैपिंग कार्यों को अधिक दक्ष और विश्वसनीय बना सकते हैं। याद रखें कि आपके द्वारा स्क्रैपिंग करते समय वेबसाइटों के शर्तों और नियमों का पालन करें और वेब स्क्रैपिंग के साथ जिम्मेदारी से उपयोग करें।

अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।

अधिक

कैप्चा कैसे हल करें जब वेब स्क्रैपिंग करते हैं Scrapling और CapSolver के साथ
कैप्चा कैसे हल करें जब वेब स्क्रैपिंग करते हैं Scrapling और CapSolver के साथ

स्क्रैपलिंग + कैपसॉल्वर रीकैपचा v2/v3 और क्लाउडफ़्लेयर टर्नस्टाइल बायपास के साथ स्वचालित स्क्रैपिंग सक्षम करता है।

web scraping
Logo of CapSolver

Rajinder Singh

05-Dec-2025

9प्रॉक्सी
9Proxy की शक्ति की खोज करें: व्यापक समीक्षा

इस लेख में, हम आपको 9proxy क्या है और जो वे प्रदान करते हैं सेवाएं दिखाएंगे।

web scraping
Logo of CapSolver

Rajinder Singh

04-Dec-2025

वेब स्क्रैपिंग सेलेनियम और पायथन के साथ
वेब स्क्रैपिंग सेलीनियम और पायथन के साथ | वेब स्क्रैपिंग के दौरान कैप्चा हल करना

इस लेख में आप सेलेनियम और पायथन के साथ वेब स्क्रैपिंग के साथ परिचित हो जाएंगे और प्रक्रिया में शामिल कैप्चा को हल करना सीखेंगे ताकि डेटा निकालना अधिक कुशल हो सके।

web scraping
Logo of CapSolver

Nikolai Smirnov

04-Dec-2025

वेब स्क्रैपिंग गोलैंग में कॉली के साथ
वेब स्क्रैपिंग गोलैंग में कॉली के साथ

इस ब्लॉग में, हम गोलैंग के साथ वेब स्क्रैपिंग की दुनिया में गहराई से जाते हैं। गाइड आपके गोलैंग प्रोजेक्ट की सेटअप करने और कॉली पैकेज स्थापित करने में मदद करता है। हम फिर एक बुनियादी स्क्रैपर बनाने के माध्यम से चलते हैं जो विकिपीडिया पृष्ठ से लिंक निकालता है, जो कॉली के उपयोग में आसानी और शक्तिशाली विशेषताओं को साबित करता है।

web scraping
Logo of CapSolver

Rajinder Singh

04-Dec-2025

वेब स्क्रैपिंग क्या है
वेब स्क्रैपिंग क्या है | सामान्य उपयोग के मामले और समस्याएं

वेब स्क्रैपिंग के बारे में जानें: इसके लाभ सीखें, आसानी से चुनौतियों का सामना करें, और कैपसॉल्वर के साथ अपने व्यवसाय को बढ़ाएं।

web scraping
Logo of CapSolver

Rajinder Singh

03-Dec-2025

पुतलून वाला क्या है?
Sample Post

यह पूर्ण गाइड यह बताएगा कि Puppeteer क्या है और वेब स्क्रैपिंग में इसका दक्षता से उपयोग कैसे करें।

web scraping
Logo of CapSolver

Rajinder Singh

03-Dec-2025