Cách sử dụng ScrapeGraph AI để Scrape Web

Anh Tuan
Data Science Expert
04-Sep-2024
Cách Sử Dụng ScrapeGraph AI để Trích Xuất Dữ Liệu từ Web
ScrapeGraph AI là gì?
ScrapeGraph AI là một thư viện trích xuất dữ liệu web bằng Python sử dụng các mô hình ngôn ngữ lớn (LLM) và logic dựa trên đồ thị để xây dựng đường ống trích xuất cho các trang web và tài liệu cục bộ (bao gồm XML, HTML, JSON, Markdown, v.v.). Chỉ cần chỉ định dữ liệu bạn muốn trích xuất, thư viện sẽ xử lý phần còn lại!
Thư viện cung cấp một số tính năng:
- Hỗ trợ nhiều LLM: GPT, Gemini, Groq, Azure, Hugging Face
- Mô hình cục bộ: Ollama.
- Hỗ trợ proxy để xử lý các yêu cầu phía sau proxy.
Điều kiện tiên quyết
Trước khi bắt đầu sử dụng ScrapeGraph AI, hãy đảm bảo bạn đã cài đặt các phần sau:
bash
pip install scrapegraphai capsolver
playwright install
Bắt đầu với ScrapeGraph AI
Dưới đây là một ví dụ cơ bản về cách sử dụng ScrapeGraph AI với OpenAI để trích xuất dữ liệu từ một trang web:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Dưới đây là một ví dụ cơ bản về cách sử dụng ScrapeGraph AI với LLM cục bộ (Ollama) để trích xuất dữ liệu từ một trang web:
python
import json
from scrapegraphai.graphs import SmartScraperGraph
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"model": "ollama/llama3.1",
"temperature": 0,
"format": "json", # Ollama cần định dạng được chỉ định rõ ràng
# "base_url": "http://localhost:11434", # đặt URL ollama tùy ý
},
"verbose": True,
"headless": False
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Xử lý Captcha với Capsolver và ScrapeGraph AI
Trong phần này, chúng ta sẽ khám phá cách tích hợp Capsolver với ScrapeGraph AI để bỏ qua captcha. CapSolver là một dịch vụ bên ngoài giúp giải quyết nhiều loại captcha, bao gồm ReCaptcha V2, thường được sử dụng trên các trang web.
Chúng ta sẽ minh họa việc giải quyết ReCaptcha V2 bằng Capsolver và sau đó trích xuất nội dung của một trang yêu cầu giải quyết captcha trước.
Mã bổ sung
Hãy nhận Mã bổ sung của bạn cho các giải pháp captcha hàng đầu; CapSolver: scrape. Sau khi đổi mã, bạn sẽ nhận được thêm 5% tiền thưởng sau mỗi lần nạp tiền, không giới hạn

Ví dụ: Giải quyết ReCaptcha V2 với Capsolver và ScrapeGraph AI
python
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph
# Cân nhắc sử dụng biến môi trường cho thông tin nhạy cảm
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")
def solve_recaptcha_v2(url, key):
solution = capsolver.solve({
"type": "ReCaptchaV2Task",
"websiteURL": url,
"websiteKey": key,
"proxy": PROXY
})
return solution['solution']['gRecaptchaResponse']
def main():
print("Giải quyết reCaptcha v2")
solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
print("Giải pháp: ", solution)
# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Tìm mô tả của mỗi trích dẫn.",
source="https://quotes.toscrape.com/",
config=graph_config
)
# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
Kết luận
Với ScrapeGraph AI, bạn có thể trích xuất dữ liệu từ các trang web một cách hiệu quả trong khi xử lý các vấn đề phức tạp của proxy và captcha. Kết hợp nó với Capsolver cho phép bạn bỏ qua các thử thách ReCaptcha V2 một cách liền mạch, cho phép truy cập vào nội dung mà nếu không sẽ khó trích xuất.
Hãy thoải mái mở rộng kịch bản này để phù hợp với nhu cầu trích xuất của bạn và thử nghiệm các tính năng bổ sung được cung cấp bởi ScrapeGraph AI. Luôn đảm bảo rằng các hoạt động trích xuất của bạn tôn trọng các điều khoản dịch vụ của trang web và các hướng dẫn pháp lý.
Chúc bạn trích xuất vui vẻ!
Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.
Thêm

Cách giải reCAPTCHA v2 trong Relevance AI với tích hợp CapSolver
Xây dựng một công cụ AI của Relevance để giải quyết reCAPTCHA v2 bằng CapSolver. Tự động hóa việc gửi biểu mẫu qua API mà không cần tự động hóa trình duyệt.

Anh Tuan
03-Feb-2026

Công cụ Ghi dữ liệu Nhanh: Cách nhanh chóng trích xuất dữ liệu web mà không cần code
Khám phá các công cụ trích xuất dữ liệu tức thì tốt nhất cho năm 2026. Học các cách nhanh chóng để trích xuất dữ liệu từ web mà không cần mã nguồn bằng cách sử dụng các tiện ích mở rộng hàng đầu và API để trích xuất tự động.

Nikolai Smirnov
28-Jan-2026

Thu thập dữ liệu từ web các bài báo tin tức bằng Python (Hướng dẫn 2026)
Nắm vững trích xuất dữ liệu từ web bài báo tin tức bằng Python vào năm 2026. Học cách giải reCAPTCHA v2/v3 bằng CapSolver và xây dựng các pipeline dữ liệu có thể mở rộng.

Anh Tuan
28-Jan-2026

Cách sử dụng trình duyệt so với Browserbase: Công cụ tự động hóa trình duyệt nào tốt hơn cho các tác nhân AI?
So sánh Browser Use với Browserbase cho tự động hóa bằng trợ lý AI. Khám phá tính năng, giá cả và cách giải CAPTCHAs bằng CapSolver để có luồng công việc mượt mà.

Aloísio Vítor
27-Jan-2026

Top 9 Khung phần mềm Đại diện AI vào năm 2026
Khám phá 9 khung phần mềm hàng đầu cho trợ lý AI năm 2026, bao gồm CrewAI, AutoGen và LangGraph. Học cách chọn khung phần mềm tốt nhất cho việc phối hợp đa trợ lý và phát triển trợ lý tự động, đồng thời khám phá các công cụ thiết yếu cho tương tác web thực tế.

Rajinder Singh
26-Jan-2026

Cấm IP vào năm 2026: Cách chúng hoạt động và các cách thực tế để vượt qua chúng
Học cách lách chặn IP vào năm 2026 với hướng dẫn toàn diện của chúng tôi. Khám phá các kỹ thuật chặn IP hiện đại và giải pháp thực tế như proxy nhà ở và trình giải CAPTCHA.

Aloísio Vítor
26-Jan-2026

