CAPSOLVER
ब्लॉग
वेब स्क्रैपिंग के लिए स्क्रैपग्राफ AI का उपयोग कैसे करें

वेब स्क्रैपिंग के लिए स्क्रैपग्राफ AI का उपयोग कैसे करें

Logo of CapSolver

Rajinder Singh

Deep Learning Researcher

04-Sep-2024

ScrapeGraph AI चा वापर कसा करायचा वेब स्क्रॅपिंगसाठी

ScrapeGraph AI म्हणजे काय?

ScrapeGraph AI हे एक पायथॉन वेब स्क्रॅपिंग लायब्ररी आहे जे वेबसाइट्स आणि स्थानिक दस्तऐवजांसाठी (XML, HTML, JSON, मार्कडाउन आणि इतर समाविष्ट असून) स्क्रॅपिंग पाइपलाइन तयार करण्यासाठी एलएलएम आणि ग्राफ-आधारित तर्क वापरते. फक्त तुम्हाला काढायचा डेटा विशिष्ट करा आणि लायब्ररी बाकीचे काम करेल!

लायब्ररी अनेक वैशिष्ट्ये प्रदान करते:

  • अनेक एलएलएमला सपोर्ट: GPT, जेमिनी, ग्रॉक, Azure, हगिंग फेस
  • स्थानिक मॉडेल: Ollama.
  • प्रॉक्सी सपोर्ट प्रॉक्सीजमागे विनंत्यांना हाताळण्यासाठी.

पूर्वता

ScrapeGraph AI वापरण्यास सुरुवात करण्यापूर्वी, खात्री करा की तुमच्याकडे खालील स्थापित आहेत:

bash Copy
pip install scrapegraphai capsolver

playwright install

ScrapeGraph AI सह सुरुवात करणे

येथे ओपनएआय वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
    prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

येथे स्थानिक एलएलएम (ओल्लामा) वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
    "llm": {
        "model": "ollama/llama3.1",
        "temperature": 0,
        "format": "json",  # Ollama ला स्पष्टपणे फॉरमॅट निर्दिष्ट करणे आवश्यक आहे
        # "base_url": "http://localhost:11434", # Ollama URL मनमानी सेट करा
    },
    "verbose": True,
    "headless": False
}

# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
    prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Capsolver आणि ScrapeGraph AI सह कॅप्चा हाताळणे

या विभागात, आम्ही कॅप्चा बायपास करण्यासाठी Capsolver ला ScrapeGraph AI सह एकत्रित करण्याचा मार्ग शोधू. Capsolver ही एक बाह्य सेवा आहे जी वेबसाइट्सवर सामान्यतः वापरल्या जाणाऱ्या ReCaptcha V2 सह विविध प्रकारच्या कॅप्चा सोडवण्यात मदत करते.

आम्ही Capsolver वापरून ReCaptcha V2 सोडवण्याचे आणि नंतर कॅप्चा सोडवणे आवश्यक असलेल्या पृष्ठाचे सामग्री स्क्रॅप करण्याचे प्रदर्शन करू.

बोनस कोड

तुमचा बोनस कोड शीर्ष कॅप्चा सोल्यूशन्ससाठी मिळवा; Capsolver: scrape. ते रिडीम केल्यानंतर, तुम्हाला प्रत्येक रिचार्जनंतर अतिरिक्त 5% बोनस मिळेल, अमर्यादित

उदाहरण: Capsolver आणि ScrapeGraph AI सह ReCaptcha V2 सोडवणे

python Copy
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph

# संवेदनशील माहितीसाठी पर्यावरण चर वापरण्याचा विचार करा
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("ReCaptcha v2 सोडवणे")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("सोल्यूशन: ", solution)

# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
    prompt="प्रत्येक उद्धरणाचे वर्णन शोधा.",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

निष्कर्ष

ScrapeGraph AI सह, तुम्ही प्रॉक्सी आणि कॅप्चाची गुंतागुंत हाताळत असताना वेबसाइट्स प्रभावीपणे स्क्रॅप करू शकता. Capsolver सह ते एकत्रित करणे तुम्हाला ReCaptcha V2 आव्हानांना सहजपणे बायपास करण्यास अनुमती देते, ज्यामुळे स्क्रॅप करणे कठीण असलेल्या सामग्रीत प्रवेश मिळतो.

तुमच्या स्क्रॅपिंग गरजा पूर्ण करण्यासाठी आणि ScrapeGraph AI द्वारे प्रदान केलेल्या अतिरिक्त वैशिष्ट्यांसह प्रयोग करण्यासाठी या स्क्रिप्टला विस्तारित करण्यास मोकळ्या मनाने. नेहमी खात्री करा की तुमच्या स्क्रॅपिंग क्रियाकलाप वेबसाइटच्या सेवा आणि कायदेशीर मार्गदर्शक तत्त्वांच्या अटींनुसार आहेत.

शुभ स्क्रॅपिंग!

अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।

अधिक

सर्वश्रेष्ठ एक्सटेंशन CAPTCHA 2026 हल करे
CAPTCHA 2026 हल करने के लिए सबसे अच्छा एक्सटेंशन क्या है?

ऑनलाइन सुरक्षा की लगातार बदलती दुनिया में, कैप्चा चुनौतियां इंटरनेट उपयोगकर्ताओं के लिए एक सामान्य बाधा बन गई हैं।

Extension
Logo of CapSolver

Sora Fujimoto

12-Dec-2025

लुमीप्रॉक्सी
लुमिप्रॉक्सी: प्रीमियम प्रॉक्सी वेब स्क्रैपिंग एंड डेटा एकत्रीकरण के लिए

इस लेख में, हम आपको लुमीप्रॉक्सी क्या है और जो वे प्रदान करते हैं उन सेवाओं के बारे में बताएंगे।

Partners
Logo of CapSolver

Emma Foster

12-Dec-2025

जेनलॉगिन
Genlogin: आपके वेब ऑटोमेशन अनुभव को क्रांति लाओ

इस लेख में, हम आपको Genlogin क्या है और सेवाएं जो वे प्रदान करते हैं दिखाएंगे।

Partners
Logo of CapSolver

Aloísio Vítor

12-Dec-2025

प्रॉक्सीएसआईओ
प्रॉक्सीज.आईओ : किसी भी कार्य के लिए व्यक्तिगत प्रॉक्सी

इस लेख में, हम आपको दिखाएंगे कि Proxys.io क्या है और वे कौन सी सेवाएं प्रदान करते हैं।

Partners
Logo of CapSolver

Nikolai Smirnov

12-Dec-2025

टैबप्रॉक्सी
टैबप्रॉक्सी: अच्छी कीमत विदेशी रिजिडेंशियल प्रॉक्सी

इस लेख में, हम आपको टैबप्रॉक्सी क्या है और वे क्या सेवाएं प्रदान करते हैं दिखाएंगे।

Partners
Logo of CapSolver

Rajinder Singh

12-Dec-2025

आईपी 2 दुनिया
IP2World रिजिडेंशियल प्रॉक्सी: नेतृत्व कर रहे वैश्विक आईपी प्रॉक्सी समाधान

इस लेख में, हम आपको IP2World क्या है और वे कौन सी सेवाएं प्रदान करते हैं दिखाएंगे।

Partners
Logo of CapSolver

Ethan Collins

12-Dec-2025