
Anh Tuan
Data Science Expert
ScrapeGraph AI là một thư viện trích xuất dữ liệu web bằng Python sử dụng các mô hình ngôn ngữ lớn (LLM) và logic dựa trên đồ thị để xây dựng đường ống trích xuất cho các trang web và tài liệu cục bộ (bao gồm XML, HTML, JSON, Markdown, v.v.). Chỉ cần chỉ định dữ liệu bạn muốn trích xuất, thư viện sẽ xử lý phần còn lại!
Thư viện cung cấp một số tính năng:
Trước khi bắt đầu sử dụng ScrapeGraph AI, hãy đảm bảo bạn đã cài đặt các phần sau:
pip install scrapegraphai capsolver
playwright install
import json
from scrapegraphai.graphs import SmartScraperGraph
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
import json
from scrapegraphai.graphs import SmartScraperGraph
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama cần định dạng được chỉ định rõ ràng
# "base_url": "http://localhost:11434", # đặt URL ollama tùy ý
},
"verbose": True,
"headless": False
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Trong phần này, chúng ta sẽ khám phá cách tích hợp Capsolver với ScrapeGraph AI để bỏ qua captcha. CapSolver là một dịch vụ bên ngoài giúp giải quyết nhiều loại captcha, bao gồm ReCaptcha V2, thường được sử dụng trên các trang web.
Chúng ta sẽ minh họa việc giải quyết ReCaptcha V2 bằng Capsolver và sau đó trích xuất nội dung của một trang yêu cầu giải quyết captcha trước.
Hãy nhận Mã bổ sung của bạn cho các giải pháp captcha hàng đầu; CapSolver: scrape. Sau khi đổi mã, bạn sẽ nhận được thêm 5% tiền thưởng sau mỗi lần nạp tiền, không giới hạn

import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# Cân nhắc sử dụng biến môi trường cho thông tin nhạy cảm
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("Giải quyết reCaptcha v2")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("Giải pháp: ", solution)
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Tìm mô tả của mỗi trích dẫn.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Với ScrapeGraph AI, bạn có thể trích xuất dữ liệu từ các trang web một cách hiệu quả trong khi xử lý các vấn đề phức tạp của proxy và captcha. Kết hợp nó với Capsolver cho phép bạn bỏ qua các thử thách ReCaptcha V2 một cách liền mạch, cho phép truy cập vào nội dung mà nếu không sẽ khó trích xuất.
Hãy thoải mái mở rộng kịch bản này để phù hợp với nhu cầu trích xuất của bạn và thử nghiệm các tính năng bổ sung được cung cấp bởi ScrapeGraph AI. Luôn đảm bảo rằng các hoạt động trích xuất của bạn tôn trọng các điều khoản dịch vụ của trang web và các hướng dẫn pháp lý.
Chúc bạn trích xuất vui vẻ!
Hướng dẫn Captcha cho quy trình dữ liệu được phê duyệt: học về các loại thách thức, xử lý API, tính nhất quán của proxy, lần thử lại và sử dụng có trách nhiệm.

API giải CAPTCHA nhanh chóng dành cho tự động hóa: so sánh quy trình token, các thách thức được hỗ trợ, kiểm tra độ trễ và tích hợp CapSolver có trách nhiệm.
