उत्पादएकीकरणसंसाधनदस्तावेजीकरणमूल्य निर्धारण
अभी शुरू करें

© 2026 CapSolver. All rights reserved.

हमसे संपर्क करें

Slack: lola@capsolver.com

उत्पाद

  • reCAPTCHA v2
  • reCAPTCHA v3
  • Cloudflare Turnstile
  • Cloudflare Challenge
  • AWS WAF
  • ब्राउज़र एक्सटेंशन
  • अधिक कैप्चा प्रकार

एकीकरण

  • Selenium
  • Playwright
  • Puppeteer
  • n8n
  • साझेदार
  • सभी एकीकरण देखें

संसाधन

  • रेफरल प्रोग्राम
  • दस्तावेजीकरण
  • API संदर्भ
  • ब्लॉग
  • FAQ
  • शब्दावली
  • स्थिति

कानूनी

  • सेवा की शर्तें
  • गोपनीयता नीति
  • धनवापसी नीति
  • मेरी व्यक्तिगत जानकारी न बेचें
//CAPTCHA कैप्चा कैसे हल करें ब्राउज़र ऑटोमेशन में हर्मीस एजेंट और कैपसॉल्वर के साथ
May06, 2026

CAPTCHA कैप्चा कैसे हल करें ब्राउज़र ऑटोमेशन में हर्मीस एजेंट और कैपसॉल्वर के साथ

Rajinder Singh

Rajinder Singh

Deep Learning Researcher

हर्मीज एजेंट ब्राउजर ऑटोमेशन वर्कफ़्लो कैपसॉल्वर के साथ एकीकृत है जो स्वचालित रूप से कैप्चा हल करता है

जब आपका एआई एजेंट आपके लिए वेब ब्राउज़ करता है, तो कैप्चा एक बाधा है। सुरक्षित पृष्ठ एजेंट को रोक देते हैं, फॉर्म जमा करने से इनकार कर देते हैं, और कार्य अनुवर्ती मानव हस्तक्षेप के इंतजार में रुक जाते हैं।

हर्मीज एजेंट नॉस रिसर्च द्वारा बनाया गया एक स्व-सुधार करने वाला एआई एजेंट है जो कहीं भी चल सकता है - एक $5 VPS से लेकर एक GPU क्लस्टर तक - और आपके द्वारा पहले से ही उपयोग किए जाने वाले सभी चैनलों पर पहुंचता है: टेलीग्राम, डिस्कॉर्ड, स्लैक, वॉट्सएप, सिग्नल, और ईमेल। यह आपके लिए ब्राउज़र को चलाकर पृष्ठों का नेविगेशन कर सकता है, बटनों पर क्लिक कर सकता है, फॉर्म भर सकता है, और डेटा निकाल सकता है। लेकिन कोई भी ब्राउज़र चलाने वाला एजेंट की तरह, यह कैप्चा पर फंस जाता है।

CapSolver इसे पूरी तरह से बदल देता है। हर्मीज द्वारा जुड़े ब्राउज़र में कैपसॉल्वर क्रोम एक्सटेंशन लोड करके, कैप्चा स्वचालित रूप से और अदृश्य रूप से पृष्ठ के पीछे हल किए जाते हैं। कोई कोड नहीं। आपकी ओर से कोई API कॉल नहीं। कोई प्रॉम्प्ट-इंजीनियरिंग गतिविधि नहीं।

सबसे अच्छी बात? आपको एजेंट से कैप्चा के बारे में यहां तक कहने की आवश्यकता नहीं है। आप बस इसे जमा करने से पहले एक मिनट के लिए इंतजार करने के लिए कहें - और जब यह "जमा" पर क्लिक करता है, तो कैप्चा पहले से ही हल कर दिया गया है।


हर्मीज एजेंट क्या है?

हर्मीज एजेंट नॉस रिसर्च द्वारा बनाया गया एक ओपन-सोर्स स्वायत्त एआई एजेंट है। इसे तीन सिद्धांतों के आसपास डिज़ाइन किया गया है: स्थायी स्मृति (इसे आप और आपके परियोजनाओं के बारे में सत्रों के बीच याद रखता है), स्वायत्त कौशल निर्माण (इसे अनुभव से प्रक्रियाएं सीखता है और अगली बार उन्हें फिर से चलाता है), और सुविधाजनक बुनियादी ढांचा (इसे एक छोटे VPS, डॉकर कंटेनर, सर्वरलेस सैंडबॉक्स या अपने GPU बॉक्स पर चलाएं)।

मुख्य विशेषताएं

  • बहु-चैनल गेटवे: टेलीग्राम, डिस्कॉर्ड, स्लैक, वॉट्सएप, सिग्नल, ईमेल या इसके अपने टर्मिनल यूआई से अपने एजेंट से बात करें
  • अपना मॉडल लाएं: OpenRouter (200+ मॉडल), Nous Portal, NVIDIA NIM, Z.AI, आपका अपना एंडपॉइंट - hermes model के साथ बदलें
  • सत्र-से-सत्र स्मृति: FTS5 सत्र खोज + एलएलएम सारांश के कारण एजेंट आपके पिछले सप्ताह में बात करने के बारे में याद रखता है
  • कौशल प्रणाली: एजेंट द्वारा बनाई गई प्रक्रियात्मक स्मृति, agentskills.io मानक के साथ संगत
  • सात टर्मिनल बैकएंड: स्थानीय, डॉकर, एसएचएस, सिंगुलैरिटी, मोडल, डेयटोना, वर्सेल सैंडबॉक्स
  • निर्मित ब्राउज़र टूल: रियल क्रोमियम के माध्यम से प्लेयराइट + क्रोम डेवलपर टूल्स प्रोटोकॉल के साथ ब्राउज़र चलाता है

ब्राउज़र टूल

हर्मीज एक क्रोमियम ब्राउज़र को वास्तविक काम करने के लिए चला सकता है - नेविगेट करें, डीओएम पढ़ें, क्लिक करें, टाइप करें, स्क्रीनशॉट लें, डेटा निकालें। इसकी ब्राउज़र टूल परत एक विशिष्ट तरीके से असामान्य है: बजाय आपको एक एकल बैकएंड में बांधने के, हर्मीज समर्थित पांच बदले ब्राउज़र प्रदाताओं के साथ काम करता है:

प्रदाता प्रकार एक्सटेंशन?
Browserbase क्लाउड ✗
Browser Use क्लाउड ✗
Firecrawl क्लाउड ✗
Camoufox स्थानीय (फायरफॉक्स स्टील्थ) ✗
CDP attach स्थानीय (कोई भी क्रोमियम) ✓

क्लाउड प्रदाता एक्सटेंशन लोड नहीं कर सकते - आप दूरस्थ ब्राउज़र को नियंत्रित नहीं करते। Camoufox फायरफॉक्स-आधारित है और क्रोम MV3 एक्सटेंशन चलाने में सक्षम नहीं है। साफ संयोजन बिंदु पांचवां है: CDP attach, जहां हर्मीज एक अलग रूप से चलाए गए क्रोमियम पर जुड़ता है। यहीं पर कैपसॉल्वर फिट होता है।

यह ओपनक्लॉव या क्रॉली जैसे टूल्स के साथ एक अलग मॉडल है (जो अपना क्रोमियम छोड़ देता है और browser.extensions सरणी स्वीकार करता है) या Crawlee (जहां आप प्लेयराइट लॉन्च फ्लैग्स को नियंत्रित करते हैं)। हर्मीज में, आप अपना खुद का क्रोम लाते हैं जिसमें एक्सटेंशन पहले से लोड किया गया है, और हर्मीज डेवटूल्स प्रोटोकॉल के माध्यम से इससे जुड़ता है।


क्या है कैपसॉल्वर?

CapSolver आधुनिक कैप्चा चुनौतियों को पार करने के लिए एआई-शक्ति वाले समाधान प्रदान करने वाली एक अग्रणी कैप्चा हल करने वाली सेवा है। प्रत्येक मुख्य कैप्चा प्रकार के समर्थन और तेज उत्तर समय के साथ, कैपसॉल्वर स्वचालित वर्कफ़्लो में बिना किसी बाधा के एम्बेड किया जा सकता है - चाहे आप प्लेयराइट के माध्यम से ब्राउज़र चला रहे हों, इसके API को सीधे कॉल कर रहे हों, या, इस गाइड में, एजेंट के ब्राउज़र सत्र में क्रोम एक्सटेंशन चला रहे हों।

इस एकीकरण के अलग होने के कारण

अधिकांश कैप्चा-हल करने वाले एकीकरण में आपको कोड लिखने की आवश्यकता होती है - एक CapSolverService वर्ग बनाएं, createTask() / getTaskResult() कॉल करें, छिपे फॉर्म फील्ड में टोकन डालें। इसी तरह के टूल्स के साथ Crawlee, Puppeteer या Playwright में होता है।

हर्मीज + कैपसॉल्वर बिल्कुल अलग है:

पारंपरिक (कोड-आधारित) हर्मीज (प्राकृतिक भाषा)
CapSolverService वर्ग लिखें --load-extension=... के साथ क्रोम एक बार चलाएं
createTask() / getTaskResult() कॉल करें अपने एजेंट से बस बात करें
page.$eval() के माध्यम से टोकन डालें एक्सटेंशन सब कुछ निपटा देता है
कोड में त्रुटि, पुनर्प्रयास, समय सीमा का निपटारा करें एजेंट को कहें: "उस पृष्ठ पर जाएं, 60 सेकंड इंतजार करें, फिर जमा करें।"
प्रत्येक कैप्चा प्रकार के लिए अलग कोड सभी प्रकार के लिए स्वचालित रूप से काम करता है

मुख्य अवधारणा: कैपसॉल्वर क्रोम एक्सटेंशन जुड़े ब्राउज़र में चलता है। हर्मीज डीसीपी के माध्यम से उस ब्राउज़र से जुड़ता है और इसे सामान्य रूप से चलाता है। जब एजेंट किसी कैप्चा वाले पृष्ठ पर जाता है, तो एक्सटेंशन - जो उसी क्रोम में चल रहा है, एजेंट के लिए पूरी तरह से अदृश्य है - कैप्चा विजेट की पहचान करता है, कैपसॉल्वर API को कॉल करता है, और पृष्ठ में समाधान टोकन डालता है। जब एजेंट जमा पर क्लिक करता है, तो फॉर्म में पहले से ही एक वैध टोकन होता है।

आपको केवल समय देना होता है। कैप्चा को हल करने के बजाय, आप बस कहते हैं:

"उस पृष्ठ पर जाएं, 60 सेकंड इंतजार करें, फिर जमा करें।"

यही है। एजेंट को कैपसॉल्वर के अस्तित्व के बारे में जानकारी नहीं होती।


आवश्यकताएं

एकीकरण सेटअप करने से पहले, सुनिश्चित करें कि आपके पास है:

  1. हर्मीज एजेंट स्थापित और गेटवे चल रहा है (स्थापना निर्देश)
  2. कैपसॉल्वर खाता और API कुंजी (यहां रजिस्टर करें)
  3. क्रोमियम या क्रोम टेस्टिंग के लिए (नीचे महत्वपूर्ण नोट देखें)

महत्वपूर्ण: आपको क्रोमियम की आवश्यकता है, न कि गूगल क्रोम

गूगल क्रोम 137+ (मध्य 2025 में जारी) ने ब्रांडेड बिल्ड्स में --load-extension का समर्थन चुपके से बंद कर दिया। इसका मतलब है कि आवृत्ति के अंतर्गत एक्सटेंशन नहीं लोड किए जा सकते हैं। कोई त्रुटि नहीं - फ्लैग का उपयोग किया जाता है।

इसका असर गूगल क्रोम और माइक्रोसॉफ्ट एज में होता है। आपको इन विकल्पों में से एक का उपयोग करना आवश्यक है:

ब्राउज़र एक्सटेंशन लोडिंग सिफारिश किया गया?
गूगल क्रोम 137+ समर्थित नहीं नहीं
माइक्रोसॉफ्ट एज समर्थित नहीं नहीं
क्रोम टेस्टिंग समर्थित हां
क्रोमियम (स्वतंत्र) समर्थित हां
प्लेयराइट के संलग्न क्रोमियम समर्थित हां

क्रोम टेस्टिंग कैसे स्थापित करें:

bash Copy
# विकल्प 1: प्लेयराइट के माध्यम से (सिफारिश की गई - हर्मीज पहले से ही आंतरिक रूप से प्लेयराइट का उपयोग करता है)
npx playwright install chromium

# बाइनरी का पथ एक रास्ता होगा:
# ~/.cache/ms-playwright/chromium-XXXX/chrome-linux64/chrome           (Linux)
# ~/Library/Caches/ms-playwright/chromium-XXXX/chrome-mac/Chromium.app/Contents/MacOS/Chromium  (macOS)
bash Copy
# विकल्प 2: क्रोम टेस्टिंग के सीधे डाउनलोड के माध्यम से
# जाएं: https://googlechromelabs.github.io/chrome-for-testing/
# अपने ओएस के अनुरूप संस्करण डाउनलोड करें

स्थापना के बाद, बाइनरी के पूर्ण पथ नोट करें - आपको अगले चरण में इसकी आवश्यकता होगी।


चरण-दर-चरण सेटअप

एकीकरण दो हिस्सों के बीच काम करता है:

  1. एक अलग क्रोम प्रक्रिया जिसे आप कैपसॉल्वर एक्सटेंशन के साथ पहले से लोड करके चलाते हैं और CDP के माध्यम से ज्ञात पोर्ट पर उपलब्ध कराते हैं (हम 9222 का उपयोग करेंगे)।
  2. हर्मीज के config.yaml में छोटा बदलाव जो इसे इस CDP पोर्ट पर जुड़ने के बजाय अपना ब्राउज़र शुरू करने के लिए कहता है।

यही है - कोई कोड नहीं, कोई हर्मीज पैचिंग नहीं।

चरण 1: कैपसॉल्वर क्रोम एक्सटेंशन डाउनलोड करें

कैपसॉल्वर क्रोम एक्सटेंशन डाउनलोड करें और इसे एक स्थिर स्थान पर निकालें:

  1. कैपसॉल्वर एक्सटेंशन रिलीज़ गिटहब पर जाएं
  2. अपने लिए सबसे अंतिम CapSolver.Browser.Extension-chrome-vX.X.X.zip डाउनलोड करें
  3. जीप निकालें:
bash Copy
mkdir -p ~/.hermes/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d ~/.hermes/capsolver-extension/
  1. निकालने के काम करने की जांच करें:
bash Copy
ls ~/.hermes/capsolver-extension/manifest.json

आपको manifest.json दिखाई देना चाहिए - इसका मतलब है कि एक्सटेंशन सही जगह पर है।

पथ पर टिप्पणी: जब आप बाद में क्रोम के लिए --load-extension=... का उपयोग करते हैं, तो एक पूर्ण, संक्षिप्त पथ (सीधे ~ के बजाय) का उपयोग करें। कुछ क्रोम MV3 बिल्ड्स में विशेष बिंदु हैं जहां विशेष सेवा कार्यकर्ता संदर्भित नहीं होते हैं जब आप अन्य स्थान से एक्सटेंशन के लिए सिमलिंक करते हैं। यदि आप अन्य स्थान से एक्सटेंशन के लिए सिमलिंक करते हैं, तो readlink -f का उपयोग करके वास्तविक पथ को समाप्त करें और उसका उपयोग करें।

चरण 2: अपना कैपसॉल्वर API कुंजी सेट करें

~/.hermes/capsolver-extension/assets/config.js पर एक्सटेंशन के कॉन्फ़िग फ़ाइल खोलें और apiKey मान को अपने द्वारा बदलें:

js Copy
export const defaultConfig = {
  apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',  // ← आपका कुंजी यहां है
  useCapsolver: true,
  enabledForRecaptcha: true,
  enabledForRecaptchaV3: true,
  // ... बाकी कॉन्फ़िग
};

आप अपना API कुंजी अपने कैपसॉल्वर डैशबोर्ड से प्राप्त कर सकते हैं।

चरण 3: एक्सटेंशन और CDP के साथ क्रोम चलाएं

यह महत्वपूर्ण चरण है। हम क्रोम को एक बार अलग से चलाते हैं, जिसमें तीन महत्वपूर्ण फ्लैग होते हैं:

  • --remote-debugging-port=9222 — डेवलपर टूल्स प्रोटोकॉल को एक्सपोज करता है ताकि हर्मीज जुड़ सके
  • --load-extension=... — कैपसॉल्वर एक्सटेंशन को पहले से लोड करता है
  • --user-data-dir=... — एक विशेष प्रोफ़ाइल का उपयोग करता है ताकि आपके व्यक्तिगत क्रोम के साथ टकराव न हो

हर्मीज के अंदर एक निर्मित अनुपालन है: ~/.hermes/chrome-debug। इस पथ का उपयोग करने से हर्मीज के अंदर /browser connect आदेश भी काम करता है बिना किसी अतिरिक्त फ्लैग के।

विकल्प A: एकल-स्टॉप हाथ से चलाएं (तेज परीक्षण के लिए अच्छा)

bash Copy
/path/to/chrome-for-testing/chrome \
  --remote-debugging-port=9222 \
  --remote-debugging-address=127.0.0.1 \
  --user-data-dir="$HOME/.hermes/chrome-debug" \
  --load-extension="$HOME/.hermes/capsolver-extension" \
  --disable-extensions-except="$HOME/.hermes/capsolver-extension" \
  --no-first-run \
  --no-default-browser-check \
  --no-sandbox

/path/to/chrome-for-testing/chrome के बजाय अपना वास्तविक बाइनरी बदलें, उदाहरण के लिए ~/.cache/ms-playwright/chromium-1200/chrome-linux64/chrome।

हेडलेस सर्वर: यदि आप एक लिनक्स सर्वर पर इसे चला रहे हैं जिसमें भौतिक डिस्प्ले नहीं है (एक VPS, EC2 आदि), तो नीचे दिए गए बेस्ट प्रैक्टिस अनुभाग में Xvfb सेटअप देखें। एक्सटेंशन सबसिस्टम के लिए एक डिस्प्ले कंटेक्स्ट की आवश्यकता होती है।

विकल्प B: स्थायी पृष्ठभूमि प्रक्रिया (उत्पादन के लिए सिफारिश की गई)

किसी भी सेटअप के लिए जो एक एकल परीक्षण रन से अधिक रहता है, एक छोटे स्क्रिप्ट में चलाएं ताकि आप क्रोम को पृष्ठभूमि में रख सकें, इसे साफ रूप से रीस्टार्ट कर सकें और आपके द्वारा पहले से ही उपयोग किए जाने वाले प्रक्रिया मैनेजर (systemd, supervisor, runit, OpenRC, Docker आदि) के साथ इसकी देखभाल कर सकें।

~/.hermes/chrome-debug.sh के रूप में सहेजें और chmod +x करें:

bash Copy
#!/usr/bin/env bash
# ~/.hermes/chrome-debug.sh
# चलाता है क्रोम-फॉर-टेस्टिंग के साथ कैपसॉल्वर एक्सटेंशन के साथ
# और CDP 127.0.0.1:9222 पर एक्सपोज करता है।

CHROME_BIN="$HOME/.cache/ms-playwright/chromium-1200/chrome-linux64/chrome"
EXT_DIR="$HOME/.hermes/capsolver-extension"
USER_DATA_DIR="$HOME/.hermes/chrome-debug"

export DISPLAY=:99   # हेडलेस लिनक्स के लिए - देखें बेस्ट प्रैक्टिस

exec "$CHROME_BIN" \
  --remote-debugging-port=9222 \
  --remote-debugging-address=127.0.0.1 \
  --user-data-dir="$USER_DATA_DIR" \
  --load-extension="$EXT_DIR" \
  --disable-extensions-except="$EXT_DIR" \
  --no-first-run \
  --no-default-browser-check \
  --no-sandbox \
  --disable-dev-shm-usage \
  --disable-features=Translate

सबसे सरल स्थायी चलाना है:

bash Copy
nohup ~/.hermes/chrome-debug.sh > /tmp/chrome-debug.log 2>&1 &

उत्पादन के लिए, अपने पसंदीदा प्रक्रिया मैनेजर के साथ स्क्रिप्ट को सुपरवाइज करें। एक न्यूनतम systemd यूनिट ~/.config/systemd/user/chrome-debug.service में:

ini Copy
[Unit]
Description=कैपसॉल्वर-सुसज्जित क्रोम हर्मीज एजेंट के लिए
After=network.target

[Service]
ExecStart=%h/.hermes/chrome-debug.sh
Restart=always
RestartSec=5

[Install]
WantedBy=default.target

फिर:

bash Copy
systemctl --user daemon-reload
systemctl --user enable --now chrome-debug

कोई भी समान सेटअप (supervisord प्रोग्राम, runit सेवा, डॉकर कंटेनर आदि) एक ही तरह काम करता है - एकीकरण केवल यह चाहता है कि कुछ चलाए रखे chrome-debug.sh।

चरण 4: हर्मीज को CDP से जोड़ने के लिए बताएं

अपने हर्मीज कॉन्फ़िग को ~/.hermes/config.yaml में संपादित करें। browser: अनुभाग खोजें (इसमें आमतौर पर केवल inactivity_timeout होता है) और एक cdp_url जोड़ें:

yaml Copy
browser:
  inactivity_timeout: 120
  cdp_url: http://127.0.0.1:9222

यह एक लाइन हर्मीज के browser_cdp टूल को बताती है कि प्रत्येक ब्राउज़र ऑपरेशन को चरण 3 में हमने चलाए गए क्रोमियम इंस्टेंस के माध्यम से राउट करे, बजाय अपना स्वयं का ब्राउज़र शुरू करने के।

वापसी: यह हर्मीज में एकमात्र बदलाव है। वापस करने के लिए, cdp_url लाइन को हटा दें। हर्मीज वापस अपने डिफ़ॉल्ट ब्राउज़र प्रदाता (ब्राउज़रबेस, ब्राउज़र यूज़ आदि) के साथ वापस आ जाता है, कोई अन्य प्रभाव नहीं।

चरण 5: हर्मीज को रीस्टार्ट करें

यदि हर्मीज चल रहा है, तो नए cdp_url के साथ इसे रीस्टार्ट करें:

bash Copy
# लॉकल रन (फॉरग्राउंड या आपके सुपरवाइजर के अंतर्गत):
hermes gateway run

# या आपके द्वारा सुपरवाइज किए गए हर्मीज के माध्यम से रीस्टार्ट करें - 
# केवल आवश्यकता यह है कि नई एनवी/कॉन्फ़िग लागू हो जाए।

चरण 6: सेटअप की पुष्टि करें

हर्मीज के साथ एक निर्मित डायग्नोस्टिक कमांड है जो एक ही बार में एकीकरण के सभी हिस्सों की जांच करता है:

bash Copy
hermes doctor

आपको इन संकेतों की तलाश करनी चाहिए:

Copy
◆ टूल उपलब्धता
  ✓ browser-cdp        ← CDP जुड़ा हुआ है
  ✓ browser
  ...

◆ API जुड़ाव
  OpenRouter API जांच रहा है...  ✓ OpenRouter API

यदि browser-cdp टूल उपलब्धता में दिखाई देता है, तो हर्मीज आपके CDP एंडपॉइंट का पता लगा लेता है और एकीकरण सही तरह से जुड़ा हुआ है। यदि यह गायब है, तो हर्मीज चुपके से टूल बंद कर देता है (कोई त्रुटि नहीं) - यह डायग्नोस्टिक देखने वाला है।

आप क्रोम को सीधे भी पुष्टि कर सकते हैं:

bash Copy
curl -s http://127.0.0.1:9222/json/version

एक उत्तर जैसे कि नीचे दिया गया है, CDP चालू है:

json Copy
{
"ब्राउज़र": "क्रोम/<आपका संस्करण>",
   "प्रोटोकॉल-संस्करण": "1.3",
   "webSocketDebuggerUrl": "ws://127.0.0.1:9222/devtools/browser/...",
}

CapSolver सेवा कार्यकर्ता दृश्यता के बारे में: क्रोम MV3 सेवा कार्यकर्ता अग्रेसिव रूप से अक्रिय हो जाते हैं, और नवीनतम क्रोम बिल्ड में /json/list उन्हें पूरी तरह से छोड़ सकता है भले ही वे चल रहे हों। /json/list से अनुपस्थिति निदानात्मक नहीं है — एजेंट के माध्यम से वास्तविक reCAPTCHA पृष्ठ लोड करके और पृष्ठ में विज़ार्ड परिणाम को देखकर CapSolver काम कर रहा है या नहीं, लक्ष्य सूची के बजाय निरीक्षण करें।


इसका उपयोग कैसे करें

यह सबसे महत्वपूर्ण खंड है। सेटअप पूरा होने के बाद, CapSolver के साथ Hermes का उपयोग मामूली आसानी से किया जा सकता है।

स्वर्ण नियम

एजेंट को कैप्चा या CapSolver के बारे में न बताएं। केवल फॉर्म जमा करने से पहले समय दें।

एजेंट को कैप्चा के बारे में जानकारी की आवश्यकता नहीं है। एक्सटेंशन पृष्ठभूमि में सब कुछ निपटाता है। आपके निर्देशों में केवल एक प्रतीक्षा समय शामिल करें ताकि एक्सटेंशन को फॉर्म जमा करने से पहले चुनौती हल करने के लिए समय मिल सके।

उदाहरण 1: एक-शॉट स्मोक टेस्ट

Hermes के एक-शॉट मोड (hermes -z "...") का उपयोग एकीकरण के परीक्षण के लिए आदर्श है। hermes CLI के उपलब्ध होने वाले किसी भी टर्मिनल से चलाएं:

bash Copy
hermes -z 'https://www.google.com/recaptcha/api2/demo खोलें। पृष्ठ के पूर्ण रूप से लोड होने के लिए 60 सेकंड इंतजार करें। फिर "Send!" लेबल वाले बटन या "recaptcha-demo-submit" पहचानकर बटन पर क्लिक करें। क्लिक करने के बाद 5 सेकंड इंतजार करें और मुझे पृष्ठ पर दृश्यमान पाठ बताएं।' --yolo

पृष्ठभूमि में क्या होता है:

  1. Hermes आपके क्रोम के CDP के माध्यम से जुड़ता है
  2. एजेंट Google के reCAPTCHA डेमो पृष्ठ पर जाता है
  3. CapSolver के कॉन्टेंट स्क्रिप्ट (क्रोम के अंदर चल रहा) reCAPTCHA विज़ार्ड का पता लगाता है
  4. एक्सटेंशन के सेवा कार्यकर्ता CapSolver API को कॉल करता है और चुनौती हल करता है (आमतौर पर 5–15 सेकंड में)
  5. टोकन छिपे g-recaptcha-response फॉर्म फ़ील्ड में डाला जाता है
  6. 60 सेकंड के बाद, एजेंट Submit पर क्लिक करता है
  7. Google के सर्वर टोकन की पुष्टि करता है और परिणाम पृष्ठ लौटाता है
  8. एजेंट पोस्ट-सबमिट पाठ पढ़ता है: "सत्यापन सफलता... अभिनंदन!"

यह "सत्यापन सफलता... अभिनंदन!" स्ट्रिंग Google की स्वयं की पुष्टि संदेश है — जब फॉर्म के साथ एक वैध reCAPTCHA टोकन जमा किया जाता है तो ही यह दिखाई देता है।

उदाहरण 2: एक संदेश चैनल से

किसी भी चैनल से Hermes गेटवे से जुड़े हुए हों (टेलीग्राम, डिस्कॉर्ड, स्लैक, आदि):

Copy
https://example.com/login पर जाएं, ईमेल फ़ील्ड को "me@example.com" से भरें और पासवर्ड फ़ील्ड को "mypassword123" से भरें, फिर 30 सेकंड इंतजार करें और साइन इन बटन पर क्लिक करें। मुझे लॉगिन के बाद कौन सा पृष्ठ लोड होता है बताएं।

Hermes अनुरोध को अपने एजेंट तक पहुंचाएगा, उसी क्रोम पर जुड़ेगा, फॉर्म भरेगा, लॉगिन पृष्ठ पर कोई भी कैप्चा हल करने के लिए एक्सटेंशन को समय देगा, साइन इन करेगा, और लॉगिन के बाद के पृष्ठ के बारे में उत्तर देगा — आपको कभी कैप्चा के बारे में नहीं बताना होगा।

उदाहरण 3: reCAPTCHA के साथ संपर्क फॉर्म जमा करें

Copy
https://example.com/contact खोलें और संपर्क फॉर्म भरें:
- नाम: "जॉन डो"
- ईमेल: "जॉन@example.com"
- संदेश: "नमस्ते, आपके सेवाओं के बारे में मेरा कोई प्रश्न है।"
60 सेकंड इंतजार करें, फिर "मैसेज भेजें" बटन पर क्लिक करें। पृष्ठ पर कौन सी पुष्टि दिखाई देती है?

अनुशंसित प्रतीक्षा समय

कैप्चा प्रकार सामान्य हल करने का समय अनुशंसित प्रतीक्षा
reCAPTCHA v2 (चेकबॉक्स) 5–15 सेकंड 30–60 सेकंड
reCAPTCHA v2 (अदृश्य) 5–15 सेकंड 30 सेकंड
reCAPTCHA v3 3–10 सेकंड 20–30 सेकंड
AWS WAF कैप्चा 5–15 सेकंड 30 सेकंड

टिप्स: संदेह होने पर 60 सेकंड का उपयोग करें। अधिक समय लेना बेहतर है जबकि बहुत कम समय लेना गलत हो सकता है। अतिरिक्त प्रतीक्षा लगभग मुफ्त है — आपका CapSolver बिल प्रत्येक हल के लिए जाता है, सेकंड के लिए नहीं।

कार्य करने वाले प्राकृतिक भाषा पैटर्न

हर्मेस के किसी भी चैनल में उपयोग करने वाले साबित वाक्य रचना:

  • "https://[URL] पर जाएं, 60 सेकंड इंतजार करें, फिर फॉर्म जमा करें"
  • "https://[URL] पर जाएं, [क्षेत्रों] भरें, 30 सेकंड इंतजार करें, फिर [बटन] पर क्लिक करें"
  • "https://[URL] खोलें और लगभग एक मिनट के बाद, Submit पर क्लिक करें और मुझे परिणाम बताएं"
  • "https://[URL] पर जाएं, पृष्ठ के पूर्ण लोड होने के लिए कुछ क्षण इंतजार करें, फिर Submit करें"

क्या नहीं कहना चाहिए

इन वाक्य रचनाओं से बचें — एजेंट को भ्रमित कर सकते हैं और कुछ सुरक्षा-समायोजित मॉडल (विशेष रूप से GLM परिवार) में अस्वीकृति का कारण बन सकते हैं:

  • "कैप्चा हल होने का इंतजार करें" (एजेंट को कैप्चा के बारे में जानकारी नहीं है)
  • "कैप्चा सॉल्वर का उपयोग करके सत्यापन हल करें" (एजेंट एक्सटेंशन के नियंत्रण में नहीं है)
  • "reCAPTCHA चेकबॉक्स पर क्लिक करें" (एक्सटेंशन इसका नियंत्रण करता है — क्लिक करना बाधा डाल सकता है)
  • "सुरक्षा जांच को पार करें" (अवरोधक लगता है — कुछ मॉडल इसे अस्वीकृत कर देंगे)

इसका कार्य कैसे होता है

तकनीकी रुचि रखने वालों के लिए, यहां विवरण है:

Copy
  आपका संदेश                  हर्मेस गेटवे
  ──────────────────────────────────────────────────────────
  "पृष्ठ पर जाएं,           ──►   हर्मेस एजेंट संदेश प्राप्त करता है
   60 सेकंड इंतजार करें, फिर फॉर्म जमा करें"           │
                                ▼
                           browser_cdp / ब्राउज़र टूल्स
                                │  (वेबसॉकेट के माध्यम से ws://127.0.0.1:9222 से जुड़ें)
                                ▼
                           ┌────────────────────────────────────┐
                           │  क्रोम-डीबग च्रोमियम (पृष्ठभूमि) │
                           │                                     │
                           │  ┌───────────────────────────────┐ │
                           │  │ CapSolver MV3 एक्सटेंशन       │ │
                           │  │ (--load-extension के माध्यम से लोड किया गया; │ │
                           │  │  परीक्षण के लिए क्रोम की आवश्यकता है) │ │
                           │  │  या क्रोमियम — ब्रांडेड क्रोम │ │
                           │  │  137+ इस फ्लैग को अनदेखा करता है)      │ │
                           │  │                                │ │
                           │  │ 1. कॉन्टेंट स्क्रिप्ट कैप्चा पहचानता है │
                           │  │ 2. सेवा कार्यकर्ता CapSolver API कॉल करता है │
                           │  │ 3. टोकन प्राप्त होता है                │ │
                           │  │ 4. टोकन फॉर्म फ़ील्ड में डाला जाता है │ │
                           │  └───────────────────────────────┘ │
                           └────────────────────────────────────┘
                                │
                                ▼
                           हर्मेस एजेंट 60 सेकंड इंतजार करता है...
                                │
                                ▼
                           browser_cdp: Submit पर क्लिक करें
                                │
                                ▼
                           वैध टोकन के साथ फॉर्म जमा होता है
                                │
                                ▼
                           पोस्ट-सबमिट पुष्टि पृष्ठ

CDP जुड़े क्यों नहीं "बस एक्सटेंशन सूची पास करें"?

Hermes के ब्राउज़र टूल लेयर पांच बदले जा सकने वाले प्रदाताओं (Browserbase, Browser Use, Firecrawl, Camoufox, headless Chromium) पर बनाया गया है। उनमें से तीन बादल पर हैं — आप ब्राउज़र बाइनरी के नियंत्रण में नहीं हैं, इसलिए --load-extension फ्लैग रखने के लिए कहीं नहीं है। एक (Camoufox) फायरफॉक्स-आधारित है। पांचवां — CDP जुड़े — एक ऐसा एकमात्र सीमा है जहां एक उपयोगकर्ता-नियंत्रित क्रोमियम को जोड़ा जा सकता है।

व्यापार बदलाव एक अच्छा है: हर्मेस के बादल-सुसंगत होने के कारण, जब आप ब्राउज़र-साइड सुपरपावर्स (CapSolver, आपका स्वयं का एड ब्लॉकर, कस्टम MV3 टूलिंग, स्थायी कुकीज, आदि) के लिए चाहते हैं, आप अपने च्रोमियम को चलाते हैं और हर्मेस को इसके लिए सेट करते हैं। एक कॉन्फ़िगरेशन लाइन। पूर्ण नियंत्रण।

--load-extension वास्तव में क्या करता है

जब क्रोम --load-extension=/path/to/extension के साथ शुरू होता है, तो यह उस निर्देशिका को अनपैक्ड एक्सटेंशन के रूप में व्यवहार करता है — जैसा कि क्रोम के डेवलपर मोड द्वारा उपयोग किया जाता है। एक्सटेंशन के मैनिफेस्ट, कॉन्टेंट स्क्रिप्ट और सेवा कार्यकर्ता सभी वास्तविक च्रोम वेब स्टोर से स्थापित करने के समान रूप से पंजीकृत होते हैं। कोई सैंडबॉक्सिंग अंतर नहीं है, कोई अपरिपक्व API एक्सेस नहीं है — यह एक पूर्ण अधिकार एक्सटेंशन है।

फिर CapSolver एक्सटेंशन आगे काम करता है:

  1. कॉन्टेंट स्क्रिप्ट (हर पृष्ठ में एम्बेड किया गया): ज्ञात कैप्चा विज़ार्ड के लिए निरीक्षण करता है — reCAPTCHA, hCaptcha, FunCaptcha, AWS WAF आदि।
  2. जब एक विज़ार्ड पहचाना जाता है, कॉन्टेंट स्क्रिप्ट सेवा कार्यकर्ता को संदेश भेजता है
  3. सेवा कार्यकर्ता assets/config.js से की-आई के साथ CapSolver API से प्रमाणित होता है, चुनौती विवरण भेजता है, और टोकन के लिए पॉल करता है
  4. जब टोकन प्राप्त होता है, इसे कॉन्टेंट स्क्रिप्ट के माध्यम से पृष्ठ के छिपे उत्तर क्षेत्र में डाला जाता है
  5. जब एजेंट Submit पर क्लिक करता है, फॉर्म में पहले से हल किए गए वैध टोकन होता है

हर्मेस एजेंट पूरी तरह से असंलग्न है — यह एक सामान्य पृष्ठ देखता है, आपके द्वारा बताए गए समय के अनुसार इंतजार करता है और जमा करता है। पृष्ठ के ऊपर एक वैध टोकन होता है।

पर्यावेशन नोट: अपने क्रोम फ्लैग में --disable-background-networking से बचें। यह CapSolver सेवा कार्यकर्ता के बाहरी XHR/fetch को ब्लॉक करता है — इसलिए एक्सटेंशन कभी भी CapSolver API तक नहीं पहुंच सकता है। चरण 3 में व्यंजन बिल्कुल इसे छोड़ देता है।


पूर्ण कॉन्फ़िगरेशन संदर्भ

हर्मेस के पक्ष: ~/.hermes/config.yaml

केवल आवश्यक बदलाव browser: ब्लॉक के अंतर्गत cdp_url जोड़ना है:

yaml Copy
browser:
  inactivity_timeout: 120
  cdp_url: http://127.0.0.1:9222

क्रोम के पक्ष: --load-extension आर्ग्यूमेंट्स

आपको क्रोम को दिए जाने वाले पूर्ण झंडे:

झंडा उद्देश्य
--remote-debugging-port=9222 CDP को TCP पोर्ट 9222 पर उपलब्ध कराएं (हर्मेस के जुड़ने के लिए आवश्यक)
--remote-debugging-address=127.0.0.1 CDP को लूबैक केवल बाइंड करें (सुरक्षा — कभी-कभी CDP को सार्वजनिक रूप से उपलब्ध न करें)
--user-data-dir=$HOME/.hermes/chrome-debug अपने व्यक्तिगत क्रोम के साथ टकराव न होने के लिए विशेष प्रोफ़ाइल
--load-extension=/abs/path/to/capsolver-extension वास्तविक एक्सटेंशन लोड करें
--disable-extensions-except=/abs/path/to/capsolver-extension बेल्ट-एंड-सैंडर्स — केवल इस एक्सटेंशन के लिए लोड करें
--no-first-run --no-default-browser-check क्रोम के सेटअप विजार्ड को छोड़ दें
--no-sandbox क्रोम के सैंडबॉक्स को अक्षम करें। क्रोमियम दस्तावेज़ इसे "परीक्षण के उद्देश्य के लिए केवल" के रूप में चिह्नित करते हैं, लेकिन यह सामान्य परिस्थिति में एक वास्तविक समाधान है जहां उपयोगकर्ता नामस्थान / SYS_ADMIN क्षमता उपलब्ध नहीं है।
--disable-dev-shm-usage कंटेनर में /dev/shm समस्याओं से बचें

CapSolver के पक्ष: assets/config.js

~/.hermes/capsolver-extension/assets/config.js में न्यूनतम कॉन्फ़िगरेशन:

js Copy
export const defaultConfig = {
  apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
  useCapsolver: true,
  enabledForRecaptcha: true,
  enabledForRecaptchaV3: true,
  // ... पूर्ण सेट टॉगल के लिए CapSolver दस्तावेज़ देखें
};

समस्या निवारण

hermes doctor टूल उपलब्धता में browser-cdp नहीं दिखाता है

लक्षण: हर्मेस को रीस्टार्ट करने के बाद, hermes doctor आउटपुट में browser-cdp टूल अनुपस्थित है।

कारण: हर्मेस केवल जब CDP एंडपॉइंट कॉन्फ़िगर किया जाता है — या तो config.yaml में browser.cdp_url सेट, BROWSER_CDP_URL वातावरण चर, या एक सक्रिय /browser connect सत्र। चेक कॉन्फ़िगरेशन-उपस्थिति, निरीक्षण नहीं (देखें tools/browser_cdp_tool.py:_browser_cdp_check)। अक्सर browser-cdpटूल के अनुपस्थित होने का कारणconfig.yaml` में गलत टाइपिंग या गलत नेस्टेड की है, न कि अपरिचालित क्रोम।

समाधान:

bash Copy
# 1. सुनिश्चित करें कि की "browser:" के तहत सही नेस्टेड है (शीर्ष स्तर पर नहीं)
grep -A2 '^browser:' ~/.hermes/config.yaml
# अपेक्षित आउटपुट:
#   browser:
#     ...
#     cdp_url: http://127.0.0.1:9222

# 2. फिर सुनिश्चित करें कि क्रोम वास्तव में उस एंडपॉइंट पर चल रहा है
curl -s http://127.0.0.1:9222/json/version

# 3. अगर क्रोम बंद है, तो chrome-debug लॉग जांचें:
tail -n 30 /tmp/chrome-debug.log     # या: journalctl --user -u chrome-debug -n 30

एक्सटेंशन लोड नहीं होता है (ब्रांडेड क्रोम समस्या)

लक्षण: क्रोम साफ रूप से चलता है लेकिन कैप्चा कभी हल नहीं होते हैं — हर सबमिट विफल हो जाता है।

कारण: आप ब्रांडेड गूगल क्रोम 137+ का उपयोग कर रहे हैं, जो --load-extension को बिना किसी सूचना के अनदेखा करता है।

समाधान: क्रोम फॉर टेस्टिंग या क्रोमियम में बदल जाएं। अपने बाइनरी की जांच करें:

bash Copy
/पथ/आपके/क्रोम --version
# क्रोम फॉर टेस्टिंग: "क्रोमियम 143.0.7499.4"
# ब्रांडेड क्रोम:    "गूगल क्रोम 143.0.7499.109"  ← काम नहीं करेगा

कैप्चा हल नहीं होता है (फॉर्म विफल हो जाता है)

संभावित कारण:

  1. अपर्याप्त प्रतीक्षा समय — 60 सेकंड तक बढ़ाएं
  2. अमान्य CapSolver API की — अपने CapSolver डैशबोर्ड की जांच करें
  3. अपर्याप्त बैलेंस — अपने CapSolver खाते को भरें
  4. पृष्ठभूमि नेटवर्किंग अक्षम है — सुनिश्चित करें कि आपके क्रोम आर्ग्यूमेंट में --disable-background-networking झंडा नहीं है (इससे एक्सटेंशन के बाहरी API कॉल बंद हो जाते हैं)
  5. ब्रांडेड क्रोम — उपरोक्त देखें

हर्मेस के बाद पहले कार्य के लिए ब्राउज़र समय सीमा अतिक्रमण

लक्षण: हर्मेस के बाद पहला ब्राउज़र कार्य समय सीमा अतिक्रमण करता है, लेकिन बाद के कार्य ठीक काम करते हैं।

कारण: कूल-स्टार्ट CDP हैंडशेक अक्सर हर्मेस के डिफ़ॉल्ट टूल समय सीमा को पार कर सकता है। बाद के कार्य गर्म वेबसॉकेट का उपयोग करते हैं और तेज होते हैं।

समाधान: आदेश को एक बार फिर से चलाएं। अगर समस्या बनी रहती है, config.yaml में browser.inactivity_timeout बढ़ाएं।

क्रोम बाइनरी बदलने के बाद क्रोम टूट जाता है

लक्षण: एक क्रोम संस्करण से दूसरे में बदलने के बाद, क्रोम डिस्क-कैश त्रुटि के साथ टूट जाता है।

कारण: उपयोगकर्ता-डेटा-डायरेक्टरी एक अलग क्रोम संस्करण द्वारा बनाई गई थी और अब असंगत है।

समाधान:

bash Copy
# 1. वर्तमान chrome-debug प्रक्रिया बंद करें (जैसा कि आप इसे सुपरवाइज करते हैं)
pkill -f "remote-debugging-port=9222"

# 2. अस्थायी प्रोफ़ाइल को हटाएं
rm -rf ~/.hermes/chrome-debug

# 3. chrome-debug (अपने प्रक्रिया प्रबंधक के माध्यम से या स्क्रिप्ट फिर से चलाएं)
nohup ~/.hermes/chrome-debug.sh > /tmp/chrome-debug.log 2>&1 &

CapSolver सेवा कार्यकर्ता /json/list में दिखाई नहीं देता है

लक्षण: curl http://127.0.0.1:9222/json/list केवल page एंट्री देता है, कोई service_worker नहीं।

कारण: क्रोम MV3 सेवा कार्यकर्ता अग्रेसिव रूप से अक्रिय हो जाते हैं, और नवीनतम क्रोम बिल्ड में /json/list एंडपॉइंट उन्हें पूरी तरह से दिखाई नहीं देता है — भले ही वे घटनाओं के साथ सक्रिय हों।

समाधान: यह निदानात्मक नहीं है। /json/list के आधार पर CapSolver के लोड होने की पुष्टि न करें। बजाय इसके, एजेंट को वास्तविक reCAPTCHA-सुरक्षित पृष्ठ पर जाने के लिए निर्देश दें (जैसे https://www.google.com/recaptcha/api2/demo) और देखें कि क्या फॉर्म जमा हो जाता है। एक सफल जमा *एक्सटेंशन के लोड होने और चुनौती हल करने के सबूत है; लक्ष्य-सूची अनुपस्थिति एक विफलता संकेत नहीं है।


शीर्ष अभ्यास

1. हमेशा व्यापक प्रतीक्षा समय का उपयोग करें

अधिक प्रतीक्षा समय हमेशा सुरक्षित होता है। कैप्चा आमतौर पर 5–20 सेकंड में हल हो जाता है, लेकिन नेटवर्क लेटेंसी, जटिल चुनौतियां, या पुनर्प्रयास अतिरिक्त समय जोड़ सकते हैं। 30–60 सेकंड एक अच्छा समय है।

2. अपने संदेश को प्राकृतिक रखें

कैप्चा के बारे में न बताएं:

"URL पर जाएं, कैप्चा सॉल्वर के लिए इंतजार करें, फिर जमा करें"

बजाय इसके उपयोग करें:

"URL पर जाएं, लगभग एक मिनट इंतजार करें, फिर फॉर्म जमा करें"
प्राकृतिक वाक्य व्यवहार एजेंट के साथ बेहतर काम करता है और सुरक्षा-समायोजित मॉडल के साथ अधिक अच्छा व्यवहार करता है - कैप्चा के चारों ओर विपरीत शब्दों के उपयोग को कुछ जीएलएम-श्रेणी मॉडल पर अस्वीकृति का कारण मिला है।

3. अपने कैपसॉल्वर बैलेंस की निगरानी करें

प्रत्येक कैप्चा समाधान क्रेडिट्स के लायक होता है। अवांछित बाधाओं से बचने के लिए capsolver.com/dashboard पर अपना बैलेंस नियमित रूप से जांचें।

4. एक विशिष्ट उपयोगकर्ता-डेटा डायरेक्टरी का उपयोग करें

कभी-कभी --user-data-dir के लिए अपने वास्तविक क्रोम प्रोफाइल को संदर्भित न करें। ~/.hermes/chrome-debug का उपयोग करें (जो हर्मीस के अंतर्निहित /browser connect भी डिफ़ॉल्ट रूप से लक्षित करता है)। इस तरह एजेंट का ब्राउज़र आपके व्यक्तिगत ब्राउज़िंग से पूरी तरह अलग हो जाएगा।

5. CDP को केवल लूपबैक पर बांधें

--remote-debugging-address=127.0.0.1 उत्पादन में वैकल्पिक नहीं है। क्रोम डेवलपर्स टूल्स प्रोटोकॉल ब्राउज़र के लिए पूर्ण नियंत्रण प्रदान करता है जिसके लिए बंदरगाह तक पहुंच सकता है। कभी-कभी 9222 को एक सार्वजनिक नेटवर्क में उपलब्ध न करें।

6. हेडलेस सर्वर पर Xvfb का उपयोग करें

क्रोम एक्सटेंशन के लिए एक प्रदर्शन सत्ता की आवश्यकता होती है, भले ही आप ब्राउज़र को देखना न चाहें। एक लिनक्स सर्वर पर भौतिक प्रदर्शन के बिना, एक आभासी एक शुरू करें:

bash Copy
# Xvfb स्थापित करें (यूबंटू/डेबियन)
sudo apt-get install xvfb

# एक आभासी डिस्प्ले शुरू करें
Xvfb :99 -screen 0 1920x1080x24 &

# क्रोम को इसका उपयोग करने के लिए बताएं (ऊपर दिए गए chrome-debug.sh लॉन्चर ने डिस्प्ले को डिफ़ॉल्ट रूप से निर्यात कर दिया है)
export DISPLAY=:99

अगर आप चरण 3 से chrome-debug.sh लॉन्चर का उपयोग कर रहे हैं, तो export DISPLAY=:99 लाइन ऊपर वाली लाइन इसका निपटारा करती है - बस सुनिश्चित करें कि Xvfb :99 होस्ट पर चल रहा है।

7. उत्पादन में क्रोम की निगरानी एक प्रक्रिया प्रबंधक के साथ करें

एक ढीला chrome & अपने मूल शेल बंद होने, क्रोम क्रैश होने या बॉक्स रीबूट होने पर मर जाएगा। लॉन्च को chrome-debug.sh (चरण 3) में लपेटें और इसे अपने स्टैक के अन्य हिस्सों के लिए आपके द्वारा चलाए गए किसी भी प्रकार के प्रक्रिया प्रबंधक के साथ सुपरवाइज करें - systemd, supervisord, runit, Docker आदि। एकीकरण प्रक्रिया प्रबंधक-आधारित है; वह चुनें जो पहले से ही बॉक्स पर चल रहा है।

8. एक सस्ते मॉडल के साथ संयोजन करें

क्योंकि मॉडल को कैप्चा कभी नहीं दिखाया जाता है - एक्सटेंशन अदृश्य रूप से इसे हल करता है - आपको कैप्चा-भारित कार्य के लिए सीमा-सीमा मॉडल की आवश्यकता नहीं होती है। एक सस्ता, उपकरण-क्षम मॉडल पर्याप्त होता है (उदाहरण के लिए, config.yaml में provider: openrouter और default: z-ai/glm-4.6 सेट करें)। सभी बुद्धिमत्ता एक्सटेंशन में है; मॉडल केवल नेविगेट, टाइप करना और क्लिक करना आवश्यक है।


निष्कर्ष

हर्मीस + कैपसॉल्वर एजेंट वर्कफ़्लो में कैप्चा हल करने के लिए एक मूल नए दृष्टिकोण का प्रतिनिधित्व करता है। कैप्चा का पता लगाने, एपीआई कॉल करने और टोकन डालने के बजाय, आप सिर्फ:

  1. एक बार क्रोम चलाएं --load-extension=/abs/path/to/capsolver-extension और --remote-debugging-port=9222 के साथ
  2. ~/.hermes/config.yaml में browser: ब्लॉक में cdp_url जोड़ें:
    yaml Copy
    browser:
      cdp_url: http://127.0.0.1:9222
    (ध्यान दें कि नेस्टेड कुंजी - टॉप-लेवल cdp_url को चुपके से अमान्य कर दिया जाता है)
  3. अपने एजेंट से प्राकृतिक रूप से बात करें - फॉर्म जमा करने से पहले एक वार्ता समय शामिल करें
  4. फॉर्म भेजे जाने के बाद सामान्य पोस्ट-सबमिशन पृष्ठ परिणाम पढ़ें

कैपसॉल्वर क्रोम एक्सटेंशन शेष कार्य करता है - कैप्चा की पहचान करता है, कैपसॉल्वर API के माध्यम से इसे हल करता है और पृष्ठ में टोकन डालता है। एजेंट को कभी-कभी कैप्चा के बारे में जानकारी नहीं होती है।

यह वह तरीका है जैसा कैप्चा हल करना एक स्वायत्त एआई एजेंट के साथ दिखता है: अदृश्य, स्वचालित और शून्य कोड।


शुरू करने के लिए तैयार हैं? कैपसॉल्वर के लिए पंजीकृत करें और अपने पहले रिचार्ज पर बोनस कोड herme का उपयोग करें!


एफ़क्यू

क्या मैं एजेंट को कैपसॉल्वर के बारे में बताने की आवश्यकता है?

नहीं। वास्तव में, आपको कैप्चा या कैपसॉल्वर के बारे में अपने संदेशों में बताने से बचना चाहिए। एक्सटेंशन पृष्ठभूमि में अदृश्य रूप से काम करता है। बस अपने निर्देशों में एक वार्ता समय शामिल करें (उदाहरण के लिए, "60 सेकंड इंतजार करें, फिर जमा करें") ताकि एक्सटेंशन को पृष्ठ पर कैप्चा हल करने के लिए समय मिल सके।

क्यों नहीं नियमित गूगल क्रोम का उपयोग कर सकते हैं?

गूगल क्रोम 137+ (मध्य 2025 में जारी) ने ब्रांडेड बिल्ड्स में --load-extension कमांड-लाइन फ्लैग के समर्थन को हटा दिया। इसका अर्थ है कि एक्सटेंशन को स्वचालित सत्रों में लोड नहीं किया जा सकता। आपको क्रोम फॉर टेस्टिंग या स्वतंत्र क्रोमियम की आवश्यकता होती है, जो अभी भी इस फ्लैग का समर्थन करते हैं।

क्या मैं हर्मीस के क्लाउड ब्राउज़र प्रदाताओं (ब्राउज़रबेस, ब्राउज़र यूज़) का उपयोग कर सकता हूं?

नहीं - क्लाउड प्रदाता ब्राउज़र को किसी अन्य के बुनियादी ढांचे पर चलाते हैं, इसलिए आप बैकग्राउंड में किसी भी एक्सटेंशन को लोड नहीं कर सकते। इस गाइड में उपयोग किए गए CDP एटैच पैटर्न ही हर्मीस के साथ क्रोम एक्सटेंशन के संयोजन के लिए एकमात्र तरीका है। (जब browser.cdp_url को config.yaml में सेट कर दिया जाता है, तो हर्मीस ब्राउज़र ट्रैफिक को स्थानीय क्रोम के माध्यम से रूट करता है और क्लाउड प्रदाता तब तक चुप रहते हैं जब तक आप लाइन हटा नहीं देते।)

क्या मैं क्रोम के अलावा अन्य ब्राउज़रों का उपयोग कर सकता हूं?

हां - क्रोमियम-आधारित ब्राउज़र जो अभी भी --load-extension समर्थन करते हैं काम करते हैं। आप निम्नलिखित का उपयोग कर सकते हैं:

  • क्रोम फॉर टेस्टिंग (सिफारिश की गई - इस गाइड के लिए उपयोग किया जाता है)
  • क्रोमियम (स्वतंत्र बिल्ड)
  • प्लेयराइट के समावेशित क्रोमियम (अगर आप कभी npx playwright install चलाए हैं तो आपके बॉक्स पर पहले से ही उपलब्ध है)
  • ब्रेव, विवल्डी, ओपेरा - सभी क्रोमियम-आधारित, सभी फ्लैग स्वीकार करते हैं
  • पुराना गूगल क्रोम ≤ 136 - लेकिन फ्लैग 137+ में गायब हो गया है, इसलिए एक अप्रासंगिक संस्करण पर न बैठें

एकीकरण व्यवस्था समान है: आपके पसंदीदा बाइनरी पर --remote-debugging-port=9222 --load-extension=/path/to/capsolver-extension को संदर्भित करें।

क्या काम नहीं करता:

  • ब्रांडेड गूगल क्रोम 137+ - चुपके से --load-extension को अमान्य कर देता है
  • माइक्रोसॉफ्ट एज़ - समान हटाव लागू होता है
  • फायरफॉक्स-आधारित ब्राउज़र (फायरफॉक्स, लाइब्रोवॉल्फ, कैमूफॉक्स) - कैपसॉल्वर एक्सटेंशन क्रोम MV3 फॉर्मेट में है, फायरफॉक्स वेबएक्सटेंशन नहीं है
  • हर्मीस के क्लाउड ब्राउज़र प्रदाता (ब्राउज़रबेस, ब्राउज़र यूज़, फायरक्रैल) - आप दूरस्थ बाइनरी पर नियंत्रण नहीं रखते, इसलिए कोई भी कस्टम एक्सटेंशन लोड करने का तरीका नहीं है

कैमूफॉक्स के बारे में क्या? हर्मीस इसका समर्थन करता है।

हां - कैमूफॉक्स हर्मीस के पांच बिल्ट-इन ब्राउज़र प्रदाताओं में से एक है, और एक अच्छा छिपे हुए फायरफॉक्स विकल्प है जिसका उपयोग एक चरण में क्रोम एक्सटेंशन के बिना कार्यों के लिए किया जा सकता है। विवरण यह है कि कैमूफॉक्स फायरफॉक्स-आधारित है और कैपसॉल्वर ब्राउज़र एक्सटेंशन क्रोम MV3 फॉर्मेट में बनाया गया है - इसलिए एक ही सत्र में दोनों एक साथ नहीं चल सकते।

अच्छी खबर: हर्मीस के साथ आपको लंबे समय तक चयन नहीं करना पड़ता। ~/.hermes/config.yaml में browser.cdp_url कॉन्फ़िगरेशन एक एकल स्विच है - जब आप कैप्चा हल करने की आवश्यकता होती है, तो आप कैपसॉल्वर-सुसज्जित क्रोम पर इसका उपयोग करें, जब आप फायरफॉक्स छिपाने की आवश्यकता होती है, तो कैमूफॉक्स पर इसका उपयोग करें। एक आम सेटअप दोनों के साथ चलता है:

yaml Copy
# सक्रिय लाइन: अपने प्रोफाइल के बीच स्विच करने के लिए टिप्पणी लगाएं/हटाएं
browser:
  cdp_url: http://127.0.0.1:9222          # कैपसॉल्वर क्रोम (इस गाइड)
  # cdp_url: http://127.0.0.1:9333        # कैमूफॉक्स एंडपॉइंट

फिर हर्मीस को रीस्टार्ट करें (hermes gateway run, या अपने बॉक्स पर गेटवे को रीस्टार्ट करने के लिए किसी भी सुपरवाइजर से ट्रिगर करें) और बदलाव कुछ सेकंड में लागू हो जाएगा। समान हर्मीस, समान चैनल, समान कौशल - कार्यक्रम के अनुसार अलग-अलग ब्राउज़र।

हर्मीस के /browser connect कमांड इस सेटअप के साथ काम करता है?

हां। हर्मीस के अंतर्निहित /browser connect स्लैश कमांड (इंटरैक्टिव hermes TUI में) वही डिफ़ॉल्ट उपयोगकर्ता-डेटा डायरेक्टरी का लक्षित करता है जिसका हमने उपयोग किया था (~/.hermes/chrome-debug) और वही पोर्ट (9222)। जब आप च्रोम-डीबग साइडकैर तैयार कर लेते हैं, तो आप हर्मीस में इंटरैक्टिव रूप से /browser connect का उपयोग कर सकते हैं, या आप browser.cdp_url को config.yaml में स्थायी जुड़ाव के लिए छोड़ सकते हैं - दोनों एक ही क्रोम के साथ काम करते हैं।

मैसेजिंग चैनलों के माध्यम से हर्मीस का उपयोग करने के बारे में क्या?

एकीकरण पूरी तरह से चैनल-आधारित है। config.yaml में browser.cdp_url सेट होने के बाद, प्रत्येक ब्राउज़र क्रिया - चाहे यह CLI पर hermes -z से हो, इंटरैक्टिव hermes TUI से हो, या टेलीग्राम, डिस्कॉर्ड, स्लैक, व्हाट्सएप, सिग्नल या ईमेल से संदेश हो - आपके कैपसॉल्वर-सुसज्जित क्रोम के माध्यम से राउट करती है। एक्सटेंशन सभी मामलों में एक ही तरह से कैप्चा हल करता है।

क्या आप ऑटोमेटेड टेस्ट में गूगल डेमो पृष्ठ का उपयोग करना चाहते हैं?

केवल एक तेज़ स्मोक टेस्ट के रूप में डेमो पृष्ठ का उपयोग करें। गूगल के आधिकारिक reCAPTCHA FAQ में, उत्पादन पाइपलाइन में सार्वजनिक डेमो पृष्ठ पर निर्भर न करके अलग-अलग टेस्टिंग साइट की कुंजी बनाने की सलाह दी गई है।

कैपसॉल्वर एक्सटेंशन किन कैप्चा प्रकारों का समर्थन करता है?

कैपसॉल्वर क्रोम एक्सटेंशन reCAPTCHA v2 (चेकबॉक्स और अदृश्य), reCAPTCHA v3, hCaptcha, FunCaptcha, AWS WAF CAPTCHA और अन्य व्यापक रूप से निर्मित विजेट को स्वचालित रूप से हल करता है। सामग्री स्क्रिप्ट पृष्ठ पर कैप्चा प्रकार की पहचान करती है और इसके अनुसार हल करती है - आपके पास कोई भी प्रकार के विशिष्ट सेटिंग नहीं होती है। (ध्यान दें: क्लाउडफ़्लेर टर्नस्टाइल और क्लाउडफ़्लेर 5-सेकंड चुनौती कैप्चा एक्सटेंशन द्वारा हल नहीं किए जाते हैं; वे केवल कैपसॉल्वर के API के माध्यम से उपलब्ध हैं और इस गाइड के लिए बाहरी हैं।)

कैपसॉल्वर की लागत क्या है?

कैपसॉल्वर एक प्रतिस्पर्धी मूल्य निर्धारित करता है जो कैप्चा प्रकार और आयतन पर निर्भर करता है। capsolver.com पर वर्तमान मूल्य देखें।

क्या हर्मीस एजेंट मुफ्त है?

हर्मीस एजेंट ओपन-सोर्स है (github.com/NousResearch/hermes-agent) और आपके स्वयं के हार्डवेयर पर चलाने के लिए मुफ्त है। आपको अपने चयनित एआई मॉडल प्रदाता के लिए API कुंजी की आव

और देखें

AIMar 27, 2026

कॉर्पोरेट स्वचालन को उन्नत करते हुए: LLM-संचालित बुनियादी ढांचा सीमाहीन CAPTCHA पहचान एवं संचालन की कार्यक्षमता

जानें कि LLM-संचालित कृत्रिम बुद्धिमत्ता ऑटोमेशन इंफ्रास्ट्रक्चर CAPTCHA पहचान को बदल देता है, व्यवसाय प्रक्रिया की कार्यक्षमता में सुधार करता है और मैनुअल हस्तक्षेप कम करता है। उन्नत सत्यापन समाधानों के साथ अपने स्वचालित संचालन को अधिकतम करें।

Rajinder Singh
Rajinder Singh
AIMar 27, 2026

LLM ट्रेनिंग के लिए डेटा संग्रह के पैमाने को बढ़ाना: CAPTCHAs को पैमाने पर हल करना

LLM प्रशिक्षण के लिए पैमाने पर डेटा संग्रह कैसे करें, जैसे कि CAPTCHAs को हल करके। AI मॉडल के लिए उच्च गुणवत्ता वाले डेटासेट बनाने के लिए स्वचालित रणनीतियाँ खोजें।

विषय-सूची

Emma Foster
Emma Foster
AIMar 24, 2026

CAPTCHA कैसे हल करें OpenBrowser में CapSolver का उपयोग करके (AI एजेंट स्वचालन गाइड)

OpenBrowser में CapSolver के माध्यम से CAPTCHA हल करें। AI एजेंट के लिए reCAPTCHA, Turnstile आदि को स्वचालित करें आसानी से।

Rajinder Singh
Rajinder Singh
AIMar 24, 2026

कैसे कोई भी CAPTCHA हल करें HyperBrowser में CapSolver का उपयोग करके (पूर्ण सेटअप गाइड)

हाइपरब्राउज़र में कैपसॉल्वर के उपयोग से कोई भी CAPTCHA हल करें। reCAPTCHA, Turnstile, AWS WAF आदि को स्वचालित करें और अधिक आसानी से।

Rajinder Singh
Rajinder Singh
ब्लॉग
AI