वेब स्क्रैपिंग के लिए स्क्रैपग्राफ AI का उपयोग कैसे करें

Rajinder Singh
Deep Learning Researcher
04-Sep-2024
ScrapeGraph AI चा वापर कसा करायचा वेब स्क्रॅपिंगसाठी
ScrapeGraph AI म्हणजे काय?
ScrapeGraph AI हे एक पायथॉन वेब स्क्रॅपिंग लायब्ररी आहे जे वेबसाइट्स आणि स्थानिक दस्तऐवजांसाठी (XML, HTML, JSON, मार्कडाउन आणि इतर समाविष्ट असून) स्क्रॅपिंग पाइपलाइन तयार करण्यासाठी एलएलएम आणि ग्राफ-आधारित तर्क वापरते. फक्त तुम्हाला काढायचा डेटा विशिष्ट करा आणि लायब्ररी बाकीचे काम करेल!
लायब्ररी अनेक वैशिष्ट्ये प्रदान करते:
- अनेक एलएलएमला सपोर्ट: GPT, जेमिनी, ग्रॉक, Azure, हगिंग फेस
- स्थानिक मॉडेल: Ollama.
- प्रॉक्सी सपोर्ट प्रॉक्सीजमागे विनंत्यांना हाताळण्यासाठी.
पूर्वता
ScrapeGraph AI वापरण्यास सुरुवात करण्यापूर्वी, खात्री करा की तुमच्याकडे खालील स्थापित आहेत:
bash
pip install scrapegraphai capsolver
playwright install
ScrapeGraph AI सह सुरुवात करणे
येथे ओपनएआय वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
येथे स्थानिक एलएलएम (ओल्लामा) वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama ला स्पष्टपणे फॉरमॅट निर्दिष्ट करणे आवश्यक आहे
# "base_url": "http://localhost:11434", # Ollama URL मनमानी सेट करा
},
"verbose": True,
"headless": False
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Capsolver आणि ScrapeGraph AI सह कॅप्चा हाताळणे
या विभागात, आम्ही कॅप्चा बायपास करण्यासाठी Capsolver ला ScrapeGraph AI सह एकत्रित करण्याचा मार्ग शोधू. Capsolver ही एक बाह्य सेवा आहे जी वेबसाइट्सवर सामान्यतः वापरल्या जाणाऱ्या ReCaptcha V2 सह विविध प्रकारच्या कॅप्चा सोडवण्यात मदत करते.
आम्ही Capsolver वापरून ReCaptcha V2 सोडवण्याचे आणि नंतर कॅप्चा सोडवणे आवश्यक असलेल्या पृष्ठाचे सामग्री स्क्रॅप करण्याचे प्रदर्शन करू.
बोनस कोड
तुमचा बोनस कोड शीर्ष कॅप्चा सोल्यूशन्ससाठी मिळवा; Capsolver: scrape. ते रिडीम केल्यानंतर, तुम्हाला प्रत्येक रिचार्जनंतर अतिरिक्त 5% बोनस मिळेल, अमर्यादित

उदाहरण: Capsolver आणि ScrapeGraph AI सह ReCaptcha V2 सोडवणे
python
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# संवेदनशील माहितीसाठी पर्यावरण चर वापरण्याचा विचार करा
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("ReCaptcha v2 सोडवणे")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("सोल्यूशन: ", solution)
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="प्रत्येक उद्धरणाचे वर्णन शोधा.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
निष्कर्ष
ScrapeGraph AI सह, तुम्ही प्रॉक्सी आणि कॅप्चाची गुंतागुंत हाताळत असताना वेबसाइट्स प्रभावीपणे स्क्रॅप करू शकता. Capsolver सह ते एकत्रित करणे तुम्हाला ReCaptcha V2 आव्हानांना सहजपणे बायपास करण्यास अनुमती देते, ज्यामुळे स्क्रॅप करणे कठीण असलेल्या सामग्रीत प्रवेश मिळतो.
तुमच्या स्क्रॅपिंग गरजा पूर्ण करण्यासाठी आणि ScrapeGraph AI द्वारे प्रदान केलेल्या अतिरिक्त वैशिष्ट्यांसह प्रयोग करण्यासाठी या स्क्रिप्टला विस्तारित करण्यास मोकळ्या मनाने. नेहमी खात्री करा की तुमच्या स्क्रॅपिंग क्रियाकलाप वेबसाइटच्या सेवा आणि कायदेशीर मार्गदर्शक तत्त्वांच्या अटींनुसार आहेत.
शुभ स्क्रॅपिंग!
अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।
अधिक

CAPTCHA 2026 हल करने के लिए सबसे अच्छा एक्सटेंशन क्या है?
ऑनलाइन सुरक्षा की लगातार बदलती दुनिया में, कैप्चा चुनौतियां इंटरनेट उपयोगकर्ताओं के लिए एक सामान्य बाधा बन गई हैं।

Sora Fujimoto
12-Dec-2025

लुमिप्रॉक्सी: प्रीमियम प्रॉक्सी वेब स्क्रैपिंग एंड डेटा एकत्रीकरण के लिए
इस लेख में, हम आपको लुमीप्रॉक्सी क्या है और जो वे प्रदान करते हैं उन सेवाओं के बारे में बताएंगे।

Emma Foster
12-Dec-2025

Genlogin: आपके वेब ऑटोमेशन अनुभव को क्रांति लाओ
इस लेख में, हम आपको Genlogin क्या है और सेवाएं जो वे प्रदान करते हैं दिखाएंगे।

Aloísio Vítor
12-Dec-2025

प्रॉक्सीज.आईओ : किसी भी कार्य के लिए व्यक्तिगत प्रॉक्सी
इस लेख में, हम आपको दिखाएंगे कि Proxys.io क्या है और वे कौन सी सेवाएं प्रदान करते हैं।

Nikolai Smirnov
12-Dec-2025

टैबप्रॉक्सी: अच्छी कीमत विदेशी रिजिडेंशियल प्रॉक्सी
इस लेख में, हम आपको टैबप्रॉक्सी क्या है और वे क्या सेवाएं प्रदान करते हैं दिखाएंगे।

Rajinder Singh
12-Dec-2025

IP2World रिजिडेंशियल प्रॉक्सी: नेतृत्व कर रहे वैश्विक आईपी प्रॉक्सी समाधान
इस लेख में, हम आपको IP2World क्या है और वे कौन सी सेवाएं प्रदान करते हैं दिखाएंगे।

Ethan Collins
12-Dec-2025

