वेब स्क्रैपिंग के लिए स्क्रैपग्राफ AI का उपयोग कैसे करें

Rajinder Singh
Deep Learning Researcher
04-Sep-2024
ScrapeGraph AI चा वापर कसा करायचा वेब स्क्रॅपिंगसाठी
ScrapeGraph AI म्हणजे काय?
ScrapeGraph AI हे एक पायथॉन वेब स्क्रॅपिंग लायब्ररी आहे जे वेबसाइट्स आणि स्थानिक दस्तऐवजांसाठी (XML, HTML, JSON, मार्कडाउन आणि इतर समाविष्ट असून) स्क्रॅपिंग पाइपलाइन तयार करण्यासाठी एलएलएम आणि ग्राफ-आधारित तर्क वापरते. फक्त तुम्हाला काढायचा डेटा विशिष्ट करा आणि लायब्ररी बाकीचे काम करेल!
लायब्ररी अनेक वैशिष्ट्ये प्रदान करते:
- अनेक एलएलएमला सपोर्ट: GPT, जेमिनी, ग्रॉक, Azure, हगिंग फेस
- स्थानिक मॉडेल: Ollama.
- प्रॉक्सी सपोर्ट प्रॉक्सीजमागे विनंत्यांना हाताळण्यासाठी.
पूर्वता
ScrapeGraph AI वापरण्यास सुरुवात करण्यापूर्वी, खात्री करा की तुमच्याकडे खालील स्थापित आहेत:
bash
pip install scrapegraphai capsolver
playwright install
ScrapeGraph AI सह सुरुवात करणे
येथे ओपनएआय वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
येथे स्थानिक एलएलएम (ओल्लामा) वापरून वेबपेज स्क्रॅप करण्यासाठी ScrapeGraph AI वापरण्याचे एक मूलभूत उदाहरण आहे:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama ला स्पष्टपणे फॉरमॅट निर्दिष्ट करणे आवश्यक आहे
# "base_url": "http://localhost:11434", # Ollama URL मनमानी सेट करा
},
"verbose": True,
"headless": False
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="माझ्यासाठी सर्व उद्धरणे त्यांच्या वर्णनांसह यादीबद्ध करा",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Capsolver आणि ScrapeGraph AI सह कॅप्चा हाताळणे
या विभागात, आम्ही कॅप्चा बायपास करण्यासाठी Capsolver ला ScrapeGraph AI सह एकत्रित करण्याचा मार्ग शोधू. Capsolver ही एक बाह्य सेवा आहे जी वेबसाइट्सवर सामान्यतः वापरल्या जाणाऱ्या ReCaptcha V2 सह विविध प्रकारच्या कॅप्चा सोडवण्यात मदत करते.
आम्ही Capsolver वापरून ReCaptcha V2 सोडवण्याचे आणि नंतर कॅप्चा सोडवणे आवश्यक असलेल्या पृष्ठाचे सामग्री स्क्रॅप करण्याचे प्रदर्शन करू.
बोनस कोड
तुमचा बोनस कोड शीर्ष कॅप्चा सोल्यूशन्ससाठी मिळवा; Capsolver: scrape. ते रिडीम केल्यानंतर, तुम्हाला प्रत्येक रिचार्जनंतर अतिरिक्त 5% बोनस मिळेल, अमर्यादित

उदाहरण: Capsolver आणि ScrapeGraph AI सह ReCaptcha V2 सोडवणे
python
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# संवेदनशील माहितीसाठी पर्यावरण चर वापरण्याचा विचार करा
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("ReCaptcha v2 सोडवणे")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("सोल्यूशन: ", solution)
# स्क्रॅपिंग पाइपलाइनसाठी कॉन्फिगरेशन परिभाषित करा
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraph इन्स्टन्स तयार करा
smart_scraper_graph = SmartScraperGraph(
prompt="प्रत्येक उद्धरणाचे वर्णन शोधा.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# पाइपलाइन चालवा
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
निष्कर्ष
ScrapeGraph AI सह, तुम्ही प्रॉक्सी आणि कॅप्चाची गुंतागुंत हाताळत असताना वेबसाइट्स प्रभावीपणे स्क्रॅप करू शकता. Capsolver सह ते एकत्रित करणे तुम्हाला ReCaptcha V2 आव्हानांना सहजपणे बायपास करण्यास अनुमती देते, ज्यामुळे स्क्रॅप करणे कठीण असलेल्या सामग्रीत प्रवेश मिळतो.
तुमच्या स्क्रॅपिंग गरजा पूर्ण करण्यासाठी आणि ScrapeGraph AI द्वारे प्रदान केलेल्या अतिरिक्त वैशिष्ट्यांसह प्रयोग करण्यासाठी या स्क्रिप्टला विस्तारित करण्यास मोकळ्या मनाने. नेहमी खात्री करा की तुमच्या स्क्रॅपिंग क्रियाकलाप वेबसाइटच्या सेवा आणि कायदेशीर मार्गदर्शक तत्त्वांच्या अटींनुसार आहेत.
शुभ स्क्रॅपिंग!
अनुपालन अस्वीकरण: इस ब्लॉग पर प्रदान की गई जानकारी केवल सूचनात्मक उद्देश्यों के लिए है। CapSolver सभी लागू कानूनों और विनियमों का पालन करने के लिए प्रतिबद्ध है। CapSolver नेटवर्क का उपयोग अवैध, धोखाधड़ी या दुरुपयोग करने वाली गतिविधियों के लिए करना सख्त वर्जित है और इसकी जांच की जाएगी। हमारे कैप्चा समाधान उपयोगकर्ता अनुभव को बेहतर बनाने के साथ-साथ सार्वजनिक डेटा क्रॉलिंग के दौरान कैप्चा कठिनाइयों को हल करने में 100% अनुपालन सुनिश्चित करते हैं। हम अपनी सेवाओं के जिम्मेदार उपयोग की प्रोत्साहना करते हैं। अधिक जानकारी के लिए, कृपया हमारी सेवा की शर्तें और गोपनीयता नीति पर जाएं।
अधिक

रीकैपचा वी२ कैसे हल करें रीलेवेंस एआई में कैपसॉल्वर एकीकरण के साथ
रिलेवेंस एआई उपकरण बनाएं जो reCAPTCHA v2 को CapSolver के उपयोग से हल करे। ब्राउजर ऑटोमेशन के बिना एपीआई के माध्यम से फॉर्म जमाकर स्वचालित करें।

Rajinder Singh
03-Feb-2026

ब्राउज़र का उपयोग बनाम ब्राउज़रबेस: एआई एजेंट्स के लिए कौन सा ब्राउज़र ऑटोमेशन टूल बेहतर है?
AI एजेंट स्वचालन के लिए ब्राउज़र के उपयोग की तुलना ब्राउज़रबेस के साथ करें। सुचारू वर्कफ़्लो के लिए CapSolver के साथ CAPTCHA हल करने के तरीके, विशेषताएं और मूल्य निर्धारण खोजें।

Rajinder Singh
26-Jan-2026

2026 में IP बैन: उनके काम करने का तरीका और उन्हें पार करने के व्यावहारिक तरीके
2026 में आईपी बैन बायपास करने के तरीके सीखें हमारे विस्तृत गाइड के साथ। आधुनिक आईपी ब्लॉकिंग तकनीकों और रिजिडेंशियल प्रॉक्सी और कैप्चा सॉल्वर्स जैसे व्यावहारिक समाधानों की खोज करें।

Nikolai Smirnov
26-Jan-2026

2026 में उपयोग करने योग्य शीर्ष डेटा निकासी उपकरण (पूर्ण तुलना)
2026 के लिए सबसे अच्छे डेटा निकासी टूल्स खोजें। शीर्ष वेब स्क्रैपिंग, ETL, और AI-संचालित प्लेटफॉर्म की तुलना करें जो आपके डेटा संग्रह और AI वर्कफ़्लो को स्वचालित कर सकें।

Rajinder Singh
21-Jan-2026

कैप्चा कैसे हल करें ब्राउज़र4 में कैपसॉल्वर इंटीग्रेशन के साथ
उच्च बहुतायत ब्राउज़र4 स्वचालन के साथ संयोजित करें, जो बड़े पैमाने पर वेब डेटा निकास में CAPTCHA चुनौतियों का निपटारा करने के लिए CapSolver का उपयोग करता है।

Rajinder Singh
21-Jan-2026

2026 में वेब स्वचालन के लिए सबसे अच्छे 7 AI एजेंट्स उपकरण
2026 में वेब ऑटोमेशन के लिए सबसे अच्छे 7 एआई एजेंट टूल्स की खोज करें। हम CrewAI, MultiOn और अधिक की जांच करते हैं, उन्हें उत्पादन एआई एजेंट के लिए वास्तविक वेब प्रदर्शन और प्रतिरोधकता द्वारा रैंक करते हैं।

Rajinder Singh
20-Jan-2026

