रूबी में वेब स्क्रैपिंग के लिए प्लेराइट का उपयोग कैसे करें

Ruby में वेब स्क्रैपिंग के लिए प्लेराइट का उपयोग कैसे करें

Ethan Collins

Pattern Recognition Specialist

08-Oct-2024

वेब स्क्रैपिंग वेबसाइटों से डेटा एकत्र करने के लिए एक आवश्यक कौशल बन गया है, चाहे वह बाजार विश्लेषण, शैक्षणिक शोध या कोई डेटा-संचालित प्रोजेक्ट हो। प्लेराइट एक उत्कृष्ट ब्राउज़र ऑटोमेशन टूल है जिसका उपयोग वेबसाइटों को कुशलतापूर्वक स्क्रैप करने के लिए किया जा सकता है, जो रूबी सहित कई भाषाओं के लिए समर्थन प्रदान करता है। इस गाइड में, हम उदाहरण के रूप में quotes.toscrape.com का उपयोग करके रूबी में प्लेराइट को कैसे सेट अप करें और उपयोग करें, इस पर चर्चा करेंगे।

प्लेराइट क्या है?

प्लेराइट वेब परीक्षण के लिए एक आधुनिक स्वचालन ढांचा है, जो सेलेनियम के समान है लेकिन तेज निष्पादन और क्रोमियम, फ़ायरफ़ॉक्स और वेबकिट जैसे सभी आधुनिक ब्राउज़रों के लिए समर्थन के साथ। यह हेडलेस और हेडेड स्क्रैपिंग, पेज नेविगेशन, फॉर्म के साथ इंटरैक्ट करने और बहुत कुछ के लिए शक्तिशाली ब्राउज़र ऑटोमेशन टूल प्रदान करता है।

रूबी के साथ प्लेराइट का उपयोग क्यों करें?

रूबी एक लोकप्रिय भाषा है जो अपनी सादगी और डेवलपर के अनुकूल सिंटैक्स के लिए जानी जाती है। रूबी के साथ प्लेराइट का उपयोग करके, आप रूबी के साफ और आसानी से पढ़ने योग्य कोड संरचना को बनाए रखते हुए आधुनिक ब्राउज़र ऑटोमेशन की शक्ति का लाभ उठा सकते हैं। प्लेराइट अपनी गति, अंतर्निहित प्रतीक्षा-के लिए स्थितियों और जावास्क्रिप्ट द्वारा लोड की गई गतिशील सामग्री से निपटने की क्षमता के कारण वेब स्क्रैपिंग के लिए आदर्श है।

रूबी में प्लेराइट सेट करना

रूबी में प्लेराइट के साथ स्क्रैपिंग शुरू करने के लिए, आपको कुछ चीजें सेट करनी होंगी:

1. रूबी इंस्टॉल करें

सुनिश्चित करें कि आपकी मशीन पर रूबी स्थापित है। आप अपने टर्मिनल में निम्न कमांड चलाकर इसे जांच सकते हैं:

bash Copy

ruby -v

यदि रूबी स्थापित नहीं है, तो आप इसे rbenv के माध्यम से या सीधे रूबी की आधिकारिक साइट से इंस्टॉल कर सकते हैं।

2. प्लेराइट जेम इंस्टॉल करें

अगला, आपको playwright-ruby-client जेम इंस्टॉल करना होगा। यह जेम रूबी के लिए प्लेराइट बाइंडिंग प्रदान करता है, जिससे आप ब्राउज़र के साथ प्रोग्रामेटिक रूप से इंटरैक्ट कर सकते हैं।

जेम इंस्टॉल करने के लिए निम्न कमांड चलाएँ:

bash Copy

gem install playwright-ruby-client

3. ब्राउज़र इंस्टॉल करें

जेम इंस्टॉल करने के बाद, आपको प्लेराइट द्वारा समर्थित ब्राउज़र इंस्टॉल करने की आवश्यकता है। निम्न कमांड चलाएँ:

bash Copy

playwright install

यह प्लेराइट के साथ उपयोग के लिए क्रोमियम, फ़ायरफ़ॉक्स और वेबकिट डाउनलोड करेगा।

स्क्रैपिंग उदाहरण: एक वेबसाइट से उद्धरण स्क्रैपिंग

आइए एक सरल स्क्रैपिंग उदाहरण में उतरें जहां हम quotes.toscrape.com से उद्धरण निकालेंगे। वेबसाइट में लेखकों के साथ प्रसिद्ध उद्धरण शामिल हैं, जो स्क्रैपिंग अभ्यास के लिए एक बढ़िया संसाधन है।

चरण 1: प्लेराइट को इनिशियलाइज़ करें और एक ब्राउज़र लॉन्च करें

सबसे पहले, आपको प्लेराइट को इनिशियलाइज़ करना होगा और एक ब्राउज़र (इस मामले में क्रोमियम) लॉन्च करना होगा। ऐसा करने का तरीका यहां दिया गया है:

ruby Copy

require 'playwright-ruby-client'

Playwright.create(playwright_cli_executable_path: '/path/to/cli') do |playwright|
  browser = playwright.chromium.launch(headless: true)  # Launch headless browser
  page = browser.new_page
  page.goto('http://quotes.toscrape.com/')

  puts "Page title: #{page.title}"  # Optional: Print page title to verify it's loaded correctly

  # Close the browser
  browser.close
end

इस स्निपेट में, प्लेराइट एक हेडलेस क्रोमियम ब्राउज़र में quotes.toscrape.com पेज खोलता है।

चरण 2: उद्धरण और लेखक स्क्रैप करें

अब, हम पेज से उद्धरण और उनके लेखकों को स्क्रैप करना चाहते हैं। ऐसा करने के लिए, हमें पेज संरचना का निरीक्षण करने और उद्धरण और लेखकों वाले तत्वों की पहचान करने की आवश्यकता है।

यहां वह कोड दिया गया है जो उद्धरण और उनके संबंधित लेखकों को निकालता है:

ruby Copy

require 'playwright-ruby-client'

Playwright.create(playwright_cli_executable_path: '/path/to/cli') do |playwright|
  browser = playwright.chromium.launch(headless: true)
  page = browser.new_page
  page.goto('http://quotes.toscrape.com/')

  # Find all quote elements
  quotes = page.query_selector_all('.quote')

  quotes.each do |quote|
    text = quote.query_selector('.text').text_content.strip
    author = quote.query_selector('.author').text_content.strip
    puts "Quote: #{text} - Author: #{author}"
  end

  browser.close
end

यह स्क्रिप्ट वेबसाइट पर जाने के लिए प्लेराइट का उपयोग करता है, उद्धरण पाठ और लेखक निकालता है, और फिर उन्हें कंसोल में प्रिंट करता है। .quote क्लास प्रत्येक उद्धरण ब्लॉक को लक्षित करता है, और हम प्रासंगिक जानकारी निकालने के लिए .text और .author का उपयोग करते हैं।

चरण 3: पेजिनेशन को हैंडल करें

उद्धरण वेबसाइट पेजिनेशन का उपयोग करती है, इसलिए आप केवल पहले पेज को ही नहीं, बल्कि सभी पेजों को स्क्रैप करना चाह सकते हैं। पेजिनेशन को कैसे हैंडल करें, इसके लिए यहां बताया गया है:

ruby Copy

require 'playwright-ruby-client'

Playwright.create(playwright_cli_executable_path: '/path/to/cli') do |playwright|
  browser = playwright.chromium.launch(headless: true)
  page = browser.new_page
  page.goto('http://quotes.toscrape.com/')

  loop do
    quotes = page.query_selector_all('.quote')
    
    quotes.each do |quote|
      text = quote.query_selector('.text').text_content.strip
      author = quote.query_selector('.author').text_content.strip
      puts "Quote: #{text} - Author: #{author}"
    end

    next_button = page.query_selector('li.next > a')
    break unless next_button  # Exit loop if no next page
    
    next_button.click
    page.wait_for_load_state('load')  # Wait for the next page to load
  end

  browser.close
end

यह कोड "अगला" बटन पर क्लिक करके प्रत्येक पेज के माध्यम से लूप करता है जब तक कि और कोई पेज नहीं होता। यह हर पेज से उद्धरण और लेखकों को निकालना जारी रखता है।

चरण-दर-चरण मार्गदर्शिका: रूबी में प्लेराइट और कैपसॉल्वर का उपयोग करके एचकैप्चा को हल करना

यह मार्गदर्शिका बताती है कि रूबी में प्लेराइट के साथ कैपसॉल्वर ब्राउज़र एक्सटेंशन का उपयोग करके एचकैप्चा / रीकैप्चा को कैसे हल किया जाए। कैपसॉल्वर कैप्चा को सीधे हल करने के लिए अतिरिक्त कोड लिखे बिना उन्हें संभालने का एक आसान तरीका प्रदान करता है।

चरण 1: प्लेराइट और निर्भरताएँ स्थापित करें

सबसे पहले, सुनिश्चित करें कि प्लेराइट स्थापित है:

bash Copy

gem install playwright-ruby-client

चरण 2: कैपसॉल्वर एक्सटेंशन डाउनलोड करें और कॉन्फ़िगर करें

कैपसॉल्वर एक्सटेंशन डाउनलोड करें:
- कैपसॉल्वर गिटहब रिलीज पेज से कैपसॉल्वर एक्सटेंशन डाउनलोड करें।
- एक्सटेंशन को आपके प्रोजेक्ट के रूट में एक निर्देशिका में अनज़िप करें, जैसे ./CapSolver.Browser.Extension।
एक्सटेंशन को कॉन्फ़िगर करें:
- कैपसॉल्वर एक्सटेंशन निर्देशिका में कॉन्फ़िगरेशन फ़ाइल ./assets/config.json का पता लगाएँ।
- विकल्प enabledForcaptcha को true पर सेट करें और स्वचालित समाधान के लिए captchaMode को token पर समायोजित करें।
उदाहरण config.json:
json Copy
```
{
  "enabledForcaptcha": true,
  "captchaMode": "token"
  // other settings remain the same
}
```

चरण 3: कैपसॉल्वर एक्सटेंशन के साथ प्लेराइट सेटअप करें

यहां बताया गया है कि आप कैपसॉल्वर एक्सटेंशन को प्लेराइट ब्राउज़र में कैसे लोड कर सकते हैं:

प्लेराइट की आवश्यकता है और पथ सेट करें:

ruby Copy

require 'playwright-ruby-client'
require 'fileutils'

# Get the path for the CapSolver extension directory
extension_path = File.join(Dir.pwd, 'CapSolver.Browser.Extension')

कैपसॉल्वर एक्सटेंशन के साथ ब्राउज़र लॉन्च करें:
प्लेराइट का उपयोग करके कैपसॉल्वर एक्सटेंशन लोड किए गए क्रोमियम ब्राउज़र को लॉन्च करें।

ruby Copy

Playwright.create(playwright_cli_executable_path: '/path/to/cli') do |playwright|
  browser = playwright.chromium.launch_persistent_context('', {
    headless: false,  # Run with a visible browser for debugging
    args: [
      "--disable-extensions-except=#{extension_path}",
      "--load-extension=#{extension_path}"
    ]
  })

  page = browser.new_page
  page.goto('https://quotes.toscrape.com/')  # Replace with the target URL

  # Locate the captcha checkbox or frame and interact with it
  page.wait_for_selector('iframe', state: 'visible')  # Adjust the selector to target captcha iframe
  page.click('iframe')  # Adjust the click event for your captcha's interaction

  # Additional steps can be added based on the site’s requirements
  
  browser.close
end

रीकैप्चा को हल करने के लिए चरण एचकैप्चा के समान हैं।

बोनस कोड

शीर्ष कैप्चा समाधानों के लिए अपना बोनस कोड कैपसॉल्वर पर प्राप्त करें: scrape। इसे रिडीम करने के बाद, आपको प्रत्येक रिचार्ज के बाद 5% अतिरिक्त बोनस मिलेगा, असीमित बार।

निष्कर्ष

वेब स्क्रैपिंग के लिए रूबी में प्लेराइट का उपयोग करने से वेबसाइटों से डेटा निकालने का एक कुशल और शक्तिशाली तरीका मिलता है। चाहे वह सरल स्थिर सामग्री हो या गतिशील रूप से लोड किए गए पेज, प्लेराइट दोनों को आसानी से संभालता है। इस ट्यूटोरियल में, हमने एक वेबसाइट से उद्धरण और लेखकों को स्क्रैप किया, लेकिन प्लेराइट बहुत कुछ कर सकता है - जैसे फॉर्म के साथ इंटरैक्ट करना, स्क्रीनशॉट लेना या ब्राउज़र-आधारित परीक्षण चलाना।

यदि आप रूबी में वेब स्क्रैपिंग के लिए एक मजबूत उपकरण की तलाश कर रहे हैं, तो प्लेराइट एक बेहतरीन विकल्प है। इसे सेट अप करना आसान है, तेज़ है, और विभिन्न स्क्रैपिंग कार्यों को संभालने के लिए काफी लचीला है।

अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।

अधिक

ईजीस्पाइडर में कैप्चा हल करें कैपसॉल्वर एकीकरण के साथ

ईज़ीस्पाइडर एक दृश्य, नो-कोड वेब स्क्रैपिंग और ब्राउज़र ऑटोमेशन टूल है, जबकि कैपसॉल्वर के साथ जुड़ा हुआ है, तो यह reCAPTCHA v2 और Cloudflare Turnstile जैसे CAPTCHA को विश्वसनीय रूप से हल कर सकता है, जो वेबसाइटों पर सुचारू रूप से स्वचालित डेटा निकालने की अनुमति देता है।

web scraping

Rajinder Singh

04-Feb-2026

सार्थकता कृत्रिम बुद्धिमत्ता के साथ CapSolver

रीकैपचा वी२ कैसे हल करें रीलेवेंस एआई में कैपसॉल्वर एकीकरण के साथ

रिलेवेंस एआई उपकरण बनाएं जो reCAPTCHA v2 को CapSolver के उपयोग से हल करे। ब्राउजर ऑटोमेशन के बिना एपीआई के माध्यम से फॉर्म जमाकर स्वचालित करें।

web scraping

Rajinder Singh

03-Feb-2026

ब्राउजर उपयोग के बजाय ब्राउजरबेस: AI एजेंट के लिए कौन सा ब्राउजर ऑटोमेशन टूल बेहतर है?

ब्राउज़र का उपयोग बनाम ब्राउज़रबेस: एआई एजेंट्स के लिए कौन सा ब्राउज़र ऑटोमेशन टूल बेहतर है?

AI एजेंट स्वचालन के लिए ब्राउज़र के उपयोग की तुलना ब्राउज़रबेस के साथ करें। सुचारू वर्कफ़्लो के लिए CapSolver के साथ CAPTCHA हल करने के तरीके, विशेषताएं और मूल्य निर्धारण खोजें।

Rajinder Singh

26-Jan-2026

आईपी बैन 2026 में: कैसे वे काम करते हैं और उन्हें पार करने के व्यावहारिक तरीके

2026 में IP बैन: उनके काम करने का तरीका और उन्हें पार करने के व्यावहारिक तरीके

2026 में आईपी बैन बायपास करने के तरीके सीखें हमारे विस्तृत गाइड के साथ। आधुनिक आईपी ब्लॉकिंग तकनीकों और रिजिडेंशियल प्रॉक्सी और कैप्चा सॉल्वर्स जैसे व्यावहारिक समाधानों की खोज करें।

web scraping

Nikolai Smirnov

26-Jan-2026

2026 में उपयोग करने योग्य शीर्ष डेटा निकालने के उपकरण (पूर्ण तुलना)

2026 में उपयोग करने योग्य शीर्ष डेटा निकासी उपकरण (पूर्ण तुलना)

2026 के लिए सबसे अच्छे डेटा निकासी टूल्स खोजें। शीर्ष वेब स्क्रैपिंग, ETL, और AI-संचालित प्लेटफॉर्म की तुलना करें जो आपके डेटा संग्रह और AI वर्कफ़्लो को स्वचालित कर सकें।

Rajinder Singh

21-Jan-2026

कैप्चा कैसे हल करें ब्राउज़र4 में कैपसॉल्वर इंटीग्रेशन के साथ

उच्च बहुतायत ब्राउज़र4 स्वचालन के साथ संयोजित करें, जो बड़े पैमाने पर वेब डेटा निकास में CAPTCHA चुनौतियों का निपटारा करने के लिए CapSolver का उपयोग करता है।

web scraping

Rajinder Singh

21-Jan-2026