रवेस्ट
एक R पैकेज जो डेटा विश्लेषण के लिए वेब पृष्ठ की सामग्री के पुनर्प्राप्ति और विश्लेषण को सरल और समझदार बनाता है।
परिभाषा
Rvest एक विशेषज्ञ R प per जो स्थिर HTML पृष्ठों से संरचित डेटा के वेब स्क्रैपिंग और निष्कर्षण को सुगम बनाने के लिए बनाया गया है। यह HTML सामग्री डाउनलोड करने, दस्तावेज़ पेड़ में नेविगेट करने और CSS या XPath जैसे सेलेक्टर के उपयोग से पाठ या तालिका डेटा निकालने के कार्यक्रम प्रदान करता है, R परिसर में नैसर्गिक रूप से काम करता है और आमतौर पर डेटा संसाधन के लिए tidyverse उपकरणों के साथ जोड़ा जाता है। यह खुद में JavaScript-रेंडर्ड सामग्री के साथ काम नहीं कर सकता है, लेकिन उन साइटों से जानकारी एकत्र करने में अच्छा काम करता है जहां HTML स्रोत में आवश्यक डेटा होता है। इसका डिज़ाइन पॉपुलर स्क्रैपिंग पुस्तकालयों जैसे BeautifulSoup द्वारा प्रभावित है, जिसके कारण अन्य भाषाओं जैसे पायथन से आए उपयोगकर्ताओं के लिए यह परिचित है। Rvest विश्लेषक और डेटा वैज्ञानिकों द्वारा अक्सर अनुसंधान, रिपोर्टिंग और विश्लेषण प्रक्रियाओं के लिए पुनरावृत्ति डेटा संकलन कार्यों के लिए उपयोग किया जाता है।
गुण
- R और tidyverse वर्कफ़्लो के साथ बिना किसी असुविधा के एकीकृत होता है।
- HTML तत्वों के निकास के लिए सरल, पठनीय सिंटैक्स प्रदान करता है।
- स्थिर पृष्ठों और अच्छी तरह से संरचित HTML के लिए कार्यक्षम है।
- CSS और XPath जैसी परिचित सेलेक्टर विधियों का उपयोग करता है।
- CRAN से स्थापित करने में हल्का और आसान है।
दोष
- बाहरी उपकरणों के बिना जावास्क्रिप्ट निष्पादन की आवश्यकता वाले पृष्ठों के साथ काम नहीं कर सकता है।
- पूर्ण फ्रेमवर्क की तुलना में बहुत बड़े पैमाने पर स्क्रैपिंग के लिए अनअप्ट नहीं है।
- जटिल सत्र प्रबंधन या बॉट बचाव के लिए निर्मित समर्थन सीमित है।
- सटीक निकास के लिए HTML संरचना और सेलेक्टर के ज्ञान की आवश्यकता होती है।
उपयोग के मामले
- सांख्यिकीय विश्लेषण के लिए सार्वजनिक वेबसाइटों से तालिकाएं या पाठ निकालना।
- R में अनुसंधान रिपोर्ट के लिए डेटा संकलन के लिए स्वचालित कार्य।
- स्थिर HTML पृष्ठों से उत्पाद सूची या मूल्य निकालना।
- SEO या सामग्री विश्लेषण प्रक्रियाओं के लिए HTML मेटा डेटा का विश्लेषण।
- अन्य R उपकरणों के साथ संयोजन में निकास किए गए डेटा को साफ करने और चित्रित करने के लिए।