वेब स्क्रैपिंग कैसे करें पुपेटीयर और नोड जेएस के साथ | पुपेटीयर ट्यूटोरियल

Rajinder Singh
Deep Learning Researcher
12-Nov-2025

वेब स्क्रैपिंग वेबसाइटों से डेटा निकालने के लिए एक शक्तिशाली तकनीक है। इस ट्यूटोरियल में, हम पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग कैसे करें, इसका अध्ययन करेंगे, जो वेब विकास परिदृश्य में लोकप्रिय तकनीक हैं। पुप्पेटीअर एक नोड.जे.एस प per लाइब्रेरी है जो हेडलेस क्रोम या क्रोमियम ब्राउजर के नियंत्रण के लिए एक उच्च-स्तरीय एपीआई प्रदान करती है। यह हमें ब्राउजर कार्यों के स्वचालन, वेब पेज के माध्यम से नेविगेशन और आवश्यक डेटा निकालने की अनुमति देता है। नोड.जे.एस के साथ पुप्पेटीअर के संयोजन से, हम विश्वसनीय और दक्ष वेब स्क्रैपिंग समाधान बना सकते हैं। चलिए पुप्पेटीअर के साथ वेबसाइटों के डेटा निकालने के चरणों में डूबते हैं।
पुप्पेटीअर क्या है?
पुप्पेटीअर एक आधुनिक फ्रेमवर्क है जो गूगल क्रोम के साथ हेडलेस ब्राउज़र परीक्षण करने में परीक्षकों को सक्षम करता है। पुप्पेटीअर परीक्षण के साथ, परीक्षक वेब पेज के साथ जावास्क्रिप्ट आदेशों के साथ अंतरक्रिया कर सकते हैं, जैसे कि लिंक पर क्लिक करना, फॉर्म भरना, और बटन भेजना।
गूगल द्वारा विकसित, पुप्पेटीअर एक नोड.जे.एस प per लाइब्रेरी है जो डेवटूल्स प्रोटोकॉल के माध्यम से हेडलेस क्रोम के समायोजन के साथ बिना किसी बाधा के नियंत्रण प्रदान करती है। यह एक विस्तृत उच्च-स्तरीय एपीआई प्रदान करता है जो स्वचालित परीक्षण, वेबसाइट के फीचर विकास, डीबगिंग, तत्व जांच, और कार्यक्षमता प्रोफाइलिंग के लिए उपयोगी है।
पुप्पेटीअर के साथ, आप (हेडलेस) क्रोमियम या क्रोम का उपयोग करके वेबसाइटों को खोल सकते हैं, फॉर्म भर सकते हैं, बटन क्लिक कर सकते हैं, डेटा निकाल सकते हैं और आमतौर पर कंप्यूटर का उपयोग करते समय कोई भी कार्य कर सकते हैं। इससे पुप्पेटीअर वेब स्क्रैपिंग के लिए एक वास्तविक रूप से शक्तिशाली उपकरण बन जाता है, लेकिन वेब पर जटिल वर्कफ़्लो के स्वचालन के लिए भी। आधुनिक वेब विकास वातावरण में परीक्षकों और विकासकर्ताओं के लिए पुप्पेटीअर और इसकी क्षमताओं के स्पष्ट ज्ञान के बराबर मूल्यवान है।
पुप्पेटीअर का उपयोग करके वेब स्क्रैपिंग के लिए फायदे क्या हैं?
एक्सियस और चीरियो जावास्क्रिप्ट के साथ स्क्रैपिंग के लिए एक अच्छा विकल्प हैं। हालांकि, यह दो समस्याओं के साथ आता है: डायनामिक सामग्री के ब्राउज़िंग और एंटी-स्क्रैपिंग सॉफ्टवेयर। चूंकि पुप्पेटीअर एक हेडलेस ब्राउज़र है, इसलिए डायनामिक सामग्री के डेटा निकालने में कोई समस्या नहीं होती।
पुप्पेटीअर के उपयोग के लिए कई महत्वपूर्ण फायदे भी हैं:
-
हेडलेस ब्राउज़र स्वचालन: पुप्पेटीअर के साथ, आप हेडलेस क्रोम ब्राउज़र को प्रोग्रामेटिक रूप से नियंत्रित कर सकते हैं, जो ब्राउज़र कार्यों के स्वचालन की अनुमति देता है, जैसे कि क्लिक करना, स्क्रॉल करना, फॉर्म भरना, और डेटा निकालना, बिना किसी दृश्यमान ब्राउज़र खिड़की के।
-
पूर्ण क्रोम कार्यक्षमता और DOM मैनिपुलेशन: पुप्पेटीअर क्रोम के पूर्ण कार्यक्षमता के लिए एक्सेस प्रदान करता है, जो जावास्क्रिप्ट-भारी सामग्री के साथ आधुनिक वेबसाइटों के डेटा निकालने के लिए उपयुक्त है। आप पृष्ठ तत्वों के साथ सरलता से अंतरक्रिया कर सकते हैं, विशेषताओं को संशोधित कर सकते हैं, और कार्यों जैसे कि बटन पर क्लिक करना या फॉर्म भेजना कर सकते हैं।
-
उपयोगकर्ता अंतरक्रिया के समान अनुकरण और घटना अंतर्दृष्टि: पुप्पेटीअर आपको उपयोगकर्ता अंतरक्रिया के साथ-साथ नेटवर्क अनुरोधों और प्रतिक्रियाओं के अंतर्दृष्टि के समान अनुकरण करने की अनुमति देता है। इससे उपयोगकर्ता इनपुट की आवश्यकता वाले पृष्ठों के डेटा निकालने या AJAX या वेबसॉकेट अनुरोधों के माध्यम से डायनामिक रूप से लोड करे गए पृष्ठों के डेटा निकालने के लिए संभव होता है।
-
कार्यक्षमता और डीबगिंग क्षमताएं: पुप्पेटीअर के अनुकूलित क्रोम इंजन द्वारा डेटा निकालने की दक्षता सुनिश्चित की जाती है, और इसके डेवटूल्स के साथ एकीकरण विस्तृत डीबगिंग और परीक्षण क्षमताओं की पेशकश करता है। आप वेब पृष्ठों के डीबगिंग, कंसोल संदेशों को लॉग कर सकते हैं, नेटवर्क गतिविधि का ट्रेस कर सकते हैं, और कार्यक्षमता मीट्रिक्स का विश्लेषण कर सकते हैं।
अगले गाइड में, मैं पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग की प्रक्रिया का अध्ययन करूंगा, साथ ही वेब स्क्रैपिंग के दौरान एक महत्वपूर्ण चुनौती का सामना करने के लिए, CapSolver के साथ एक आधुनिक CAPTCHA हल करने वाला समाधान एम्बेड करूंगा।
बोनस कोड
शीर्ष CAPTCHA समाधान के लिए एक बोनस कोड; CapSolver : WEBS। इसे रीडीम करने के बाद, प्रत्येक भरोसे के बाद आपको 5% अतिरिक्त बोनस मिलेगा, असीमित

पुप्पेटीअर के साथ CapSolver का उपयोग करके वेब स्क्रैपिंग के दौरान CAPTCHA हल करें
लक्ष्य वेब स्क्रैपिंग के दौरान recaptcha-demo.appspot.com पर स्थित CAPTCHA हल करना होगा।

ट्यूटोरियल के दौरान, हम ऊपर के CAPTCHA को हल करने के लिए निम्नलिखित कदम उठाएंगे:
- आवश्यक निर्भरताओं के स्थापना करें।
- CAPTCHA फॉर्म के साइट की चाबी का पता लगाएं।
- CapSolver की स्थापना करें।
- CAPTCHA हल करें।
आवश्यक निर्भरताओं के स्थापना करें
शुरू करने के लिए, हमें इस ट्यूटोरियल के लिए निम्नलिखित निर्भरताओं के स्थापना करने की आवश्यकता है:
- capsolver-python: CapSolver API के साथ आसान एम्बेडिंग के लिए आधिकारिक पायथन SDK।
- pyppeteer: pyppeteer पुप्पेटीअर के पायथन संस्करण है।
इन निर्भरताओं के स्थापना करने के लिए निम्नलिखित आदेश चलाएं:
python -m pip install pyppeteer capsolver-python
अब, main.py नाम का एक फ़ाइल बनाएं जहां हम CAPTCHA हल करने के लिए पायथन कोड लिखेंगे।
bash
touch main.py
CAPTCHA फॉर्म के साइट की चाबी प्राप्त करें
साइट की चाबी गूगल द्वारा प्रदान किया गया एक अद्वितीय पहचानकर्ता है जो प्रत्येक CAPTCHA को अद्वितीय रूप से पहचानता है।
CAPTCHA हल करने के लिए, आपको इस साइट की चाबी को CapSolver के साथ भेजना आवश्यक है।
चलिए CAPTCHA फॉर्म के साइट की चाबी का पता लगाएं।
- CAPTCHA फॉर्म पर जाएं।

Ctrl/Cmd+Shift+Iदबाकर क्रोम डेव टूल्स खोलें।Elementsटैब पर जाएं औरdata-sitekeyखोजें। विशेषता के मान की प्रतिलिपि बनाएं।

- आगे के अनुभाग में जब हम CAPTCHA को CapSolver पर भेजेंगे, तो इसे सुरक्षित जगह पर संग्रहीत करें।
CapSolver की स्थापना करें
CapSolver के साथ CAPTCHA हल करने के लिए, आपको CapSolver खाता बनाना, खाते में धन जमा करना, और एक API कुंजी प्राप्त करना आवश्यक है। अपने CapSolver खाते की स्थापना करने के लिए निम्नलिखित कदम पालें:
-
CapSolver पर अपना खाता बनाएं।
-
पेपैल, क्रिप्टो करेंसी या अन्य सूचीबद्ध भुगतान विधियों के माध्यम से अपने CapSolver खाते में धन जमा करें। ध्यान रखें कि न्यूनतम जमा राशि $6 है, और अतिरिक्त कर लागू होते हैं।
-
अब, CapSolver द्वारा प्रदान की गई API कुंजी की प्रतिलिपि बनाएं और बाद में उपयोग के लिए सुरक्षित रखें।
CAPTCHA हल करें
अब, हम CapSolver के साथ CAPTCHA हल करने के लिए आगे बढ़ेंगे। समग्र प्रक्रिया तीन चरणों में शामिल है:
- pyppeteer के साथ ब्राउज़र लॉन्च करें और CAPTCHA पेज पर जाएं।
- CapSolver के साथ CAPTCHA हल करें।
- CAPTCHA प्रतिक्रिया भेजें।
इन चरणों को समझने के लिए निम्नलिखित कोड स्निपेट पढ़ें।
ब्राउज़र लॉन्च करें और CAPTCHA पेज पर जाएं:
python
# ब्राउज़र लॉन्च करें।
browser = await launch({'headless': False})
# लक्ष्य पृष्ठ लोड करें।
captcha_page_url = "https://recaptcha-demo.appspot.com/recaptcha-v2-checkbox.php"
page = await browser.newPage()
await page.goto(captcha_page_url)
CapSolver के साथ CAPTCHA हल करें:
python
# CapSolver के साथ reCAPTCHA हल करें।
capsolver = RecaptchaV2Task("YOUR_API_KEY")
site_key = "6LfW6wATAAAAAHLqO2pb8bDBahxlMxNdo9g947u9"
task_id = capsolver.create_task(captcha_page_url, site_key)
result = capsolver.join_task_result(task_id)
# हल किया गया reCAPTCHA कोड प्राप्त करें।
code = result.get("gRecaptchaResponse")
हल किया गया CAPTCHA फॉर्म पर सेट करें और भेजें:
python
# हल किया गया reCAPTCHA कोड फॉर्म पर सेट करें।
recaptcha_response_element = await page.querySelector('#g-recaptcha-response')
await page.evaluate(f'(element) => element.value = "{code}"', recaptcha_response_element)
# फॉर्म भेजें।
submit_btn = await page.querySelector('button[type="submit"]')
await submit_btn.click()
सभी को एक साथ रखें
ट्यूटोरियल के लिए पूर्ण कोड नीचे दिया गया है, जो CapSolver के साथ CAPTCHA हल करेगा।
python
import asyncio
from pyppeteer import launch
from capsolver_python import RecaptchaV2Task
# निम्न कोड CapSolver के साथ reCAPTCHA v2 चुनौती हल करता है।
async def main():
# ब्राउज़र लॉन्च करें।
browser = await launch({'headless': False})
# लक्ष्य पृष्ठ लोड करें।
captcha_page_url = "https://recaptcha-demo.appspot.com/recaptcha-v2-checkbox.php"
page = await browser.newPage()
await page.goto(captcha_page_url)
# reCAPTCHA के साथ CapSolver के साथ CAPTCHA हल करें।
print("CAPTCHA हल कर रहा है")
capsolver = RecaptchaV2Task("YOUR_API_KEY")
site_key = "6LfW6wATAAAAAHLqO2pb8bDBahxlMxNdo9g947u9"
task_id = capsolver.create_task(captcha_page_url, site_key)
result = capsolver.join_task_result(task_id)
# हल किया गया reCAPTCHA कोड प्राप्त करें।
code = result.get("gRecaptchaResponse")
print(f"reCAPTCHA के सफलतापूर्वक हल किया गया। हल कोड {code} है")
# फॉर्म पर हल किया गया reCAPTCHA कोड सेट करें।
recaptcha_response_element = await page.querySelector('#g-recaptcha-response')
await page.evaluate(f'(element) => element.value = "{code}"', recaptcha_response_element)
# फॉर्म भेजें।
submit_btn = await page.querySelector('button[type="submit"]')
await submit_btn.click()
# उत्पादन के बाद आउटपुट के दृश्य के लिए निष्पादन रोकें
input("CAPTCHA जमा सफल। आगे बढ़ने के लिए एंटर दबाएं")
# ब्राउज़र बंद करें।
await browser.close()
if __name__ == "__main__":
asyncio.get_event_loop().run_until_complete(main())
ऊपर के कोड को अपने main.py फ़ाइल में पेस्ट करें। YOUR_API_KEY के स्थान पर अपनी API कुंजी के साथ बदलें और कोड चलाएं।
आप देखेंगे कि CAPTCHA हल हो जाएगा, और आपको सफलता पृष्ठ द्वारा स्वागत किया जाएगा।
NodeJS के साथ CapSolver का उपयोग करके CAPTCHA हल करें जबकि वेब स्क्रैपिंग कर रहे हैं
पूर्वापेक्षा
- प्रॉक्सी (वैकल्पिक)
- नोड.जे.एस स्थापित है
- CapSolver API कुंजी
चरण 1: आवश्यक पैकेज स्थापित करें
निम्नलिखित आदेश चलाकर आवश्यक पैकेज स्थापित करें:
python
npm install axios
Node.JS कोड के बिना प्रॉक्सी के reCaptcha v2 हल करें
इस कार्य को पूरा करने के लिए नोड.जे.एस नमूना स्क्रिप्ट नीचे दी गई है:
js
const axios = require('axios');
const PAGE_URL = ""; // अपनी वेबसाइट से बदलें
const SITE_KEY = ""; // अपनी वेबसाइट से बदलें
const CLIENT_KEY = ""; // अपने CapSolver API कुंजी से बदलें
async function createTask(payload) {
try {
const res = await axios.post('https://api.capsolver.com/createTask', {
clientKey: CLIENT_KEY,
task: payload
});
return res.data;
} catch (error) {
console.error(error);
}
}
async function getTaskResult(taskId) {
try {
success = false;
while(success == false){
await sleep(1000);
console.log("कार्य परिणाम प्राप्त कर रहा है जिसका कार्य के आईडी: " + taskId);
const res = await axios.post('https://api.capsolver.com/getTaskResult', {
clientKey: CLIENT_KEY,
taskId: taskId
});
if( res.data.status == "ready") {
success = true;
console.log(res.data)
return res.data;
}
}
} catch (error) {
console.error(error);
return null;
}
}
async function solveReCaptcha(pageURL, sitekey) {
const taskPayload = {
type: "ReCaptchaV2TaskProxyless",
websiteURL: pageURL,
websiteKey: sitekey,
};
const taskData = await createTask(taskPayload);
return await getTaskResult(taskData.taskId);
}
function sleep(ms) {
return new Promise(resolve => setTimeout(resolve, ms));
}
async function main() {
try {
const response = await solveReCaptcha(PAGE_URL, SITE_KEY );
console.log(`प्राप्त टोकन: ${response.solution.gReCaptcharesponse}`);
}
catch (error) {
console.error(`त्रुटि: ${error}`);
}
}
main();
👀 अधिक जानकारी
निष्कर्ष:
इस ट्यूटोरियल में, हमने CapSolver के साथ पुप्पेटीअर और नोड.जे.एस के साथ वेब स्क्रैपिंग करते समय CAPTCHA हल करने के बारे में सीखा। CapSolver के API के उपयोग से, हम CAPTCHA हल करने की प्रक्रिया के स्वचालन को अनुमति दे सकते हैं और वेब स्क्रैपिंग कार्यों को अधिक दक्ष और विश्वसनीय बना सकते हैं। याद रखें कि आपके द्वारा स्क्रैपिंग करते समय वेबसाइटों के शर्तों और नियमों का पालन करें और वेब स्क्रैपिंग के साथ जिम्मेदारी से उपयोग करें।
अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।
अधिक

कैप्चा कैसे हल करें जब वेब स्क्रैपिंग करते हैं Scrapling और CapSolver के साथ
स्क्रैपलिंग + कैपसॉल्वर रीकैपचा v2/v3 और क्लाउडफ़्लेयर टर्नस्टाइल बायपास के साथ स्वचालित स्क्रैपिंग सक्षम करता है।

Rajinder Singh
05-Dec-2025

9Proxy की शक्ति की खोज करें: व्यापक समीक्षा
इस लेख में, हम आपको 9proxy क्या है और जो वे प्रदान करते हैं सेवाएं दिखाएंगे।

Rajinder Singh
04-Dec-2025

वेब स्क्रैपिंग सेलीनियम और पायथन के साथ | वेब स्क्रैपिंग के दौरान कैप्चा हल करना
इस लेख में आप सेलेनियम और पायथन के साथ वेब स्क्रैपिंग के साथ परिचित हो जाएंगे और प्रक्रिया में शामिल कैप्चा को हल करना सीखेंगे ताकि डेटा निकालना अधिक कुशल हो सके।

Nikolai Smirnov
04-Dec-2025

वेब स्क्रैपिंग गोलैंग में कॉली के साथ
इस ब्लॉग में, हम गोलैंग के साथ वेब स्क्रैपिंग की दुनिया में गहराई से जाते हैं। गाइड आपके गोलैंग प्रोजेक्ट की सेटअप करने और कॉली पैकेज स्थापित करने में मदद करता है। हम फिर एक बुनियादी स्क्रैपर बनाने के माध्यम से चलते हैं जो विकिपीडिया पृष्ठ से लिंक निकालता है, जो कॉली के उपयोग में आसानी और शक्तिशाली विशेषताओं को साबित करता है।

Rajinder Singh
04-Dec-2025

वेब स्क्रैपिंग क्या है | सामान्य उपयोग के मामले और समस्याएं
वेब स्क्रैपिंग के बारे में जानें: इसके लाभ सीखें, आसानी से चुनौतियों का सामना करें, और कैपसॉल्वर के साथ अपने व्यवसाय को बढ़ाएं।

Rajinder Singh
03-Dec-2025

Sample Post
यह पूर्ण गाइड यह बताएगा कि Puppeteer क्या है और वेब स्क्रैपिंग में इसका दक्षता से उपयोग कैसे करें।

Rajinder Singh
03-Dec-2025

