Sản phẩmTích hợpTài nguyênTài liệuGiá cả
Bắt đầu ngay

© 2026 CapSolver. All rights reserved.

Liên hệ chúng tôi

Slack: lola@capsolver.com

Sản phẩm

  • reCAPTCHA v2
  • reCAPTCHA v3
  • Cloudflare Turnstile
  • Cloudflare Challenge
  • AWS WAF
  • Tiện ích trình duyệt
  • Thêm nhiều loại CAPTCHA

Tích hợp

  • Selenium
  • Playwright
  • Puppeteer
  • n8n
  • Đối tác
  • Xem tất cả tích hợp

Tài nguyên

  • Chương trình giới thiệu
  • Tài liệu
  • Tham chiếu API
  • Blog
  • Câu hỏi thường gặp
  • Thuật ngữ
  • Trạng thái

Pháp lý

  • Điều khoản dịch vụ
  • Chính sách bảo mật
  • Chính sách hoàn tiền
  • Không bán thông tin cá nhân của tôi
Blog/All/Cách sử dụng ScrapeGraph AI để Scrape Web
Sep05, 2024

Cách sử dụng ScrapeGraph AI để Scrape Web

Anh Tuan

Anh Tuan

Data Science Expert

Cách Sử Dụng ScrapeGraph AI để Trích Xuất Dữ Liệu từ Web

ScrapeGraph AI là gì?

ScrapeGraph AI là một thư viện trích xuất dữ liệu web bằng Python sử dụng các mô hình ngôn ngữ lớn (LLM) và logic dựa trên đồ thị để xây dựng đường ống trích xuất cho các trang web và tài liệu cục bộ (bao gồm XML, HTML, JSON, Markdown, v.v.). Chỉ cần chỉ định dữ liệu bạn muốn trích xuất, thư viện sẽ xử lý phần còn lại!

Thư viện cung cấp một số tính năng:

  • Hỗ trợ nhiều LLM: GPT, Gemini, Groq, Azure, Hugging Face
  • Mô hình cục bộ: Ollama.
  • Hỗ trợ proxy để xử lý các yêu cầu phía sau proxy.

Điều kiện tiên quyết

Trước khi bắt đầu sử dụng ScrapeGraph AI, hãy đảm bảo bạn đã cài đặt các phần sau:

bash Copy
pip install scrapegraphai capsolver

playwright install

Bắt đầu với ScrapeGraph AI

Dưới đây là một ví dụ cơ bản về cách sử dụng ScrapeGraph AI với OpenAI để trích xuất dữ liệu từ một trang web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Dưới đây là một ví dụ cơ bản về cách sử dụng ScrapeGraph AI với LLM cục bộ (Ollama) để trích xuất dữ liệu từ một trang web:

python Copy
import json
from scrapegraphai.graphs import SmartScraperGraph

# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
    "llm": {
        "model": "ollama/llama3.1",
        "temperature": 0,
        "format": "json",  # Ollama cần định dạng được chỉ định rõ ràng
        # "base_url": "http://localhost:11434", # đặt URL ollama tùy ý
    },
    "verbose": True,
    "headless": False
}

# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Liệt kê tất cả các trích dẫn cùng với mô tả của chúng",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Xử lý Captcha với Capsolver và ScrapeGraph AI

Trong phần này, chúng ta sẽ khám phá cách tích hợp Capsolver với ScrapeGraph AI để bỏ qua captcha. CapSolver là một dịch vụ bên ngoài giúp giải quyết nhiều loại captcha, bao gồm ReCaptcha V2, thường được sử dụng trên các trang web.

Chúng ta sẽ minh họa việc giải quyết ReCaptcha V2 bằng Capsolver và sau đó trích xuất nội dung của một trang yêu cầu giải quyết captcha trước.

Mã bổ sung

Hãy nhận Mã bổ sung của bạn cho các giải pháp captcha hàng đầu; CapSolver: scrape. Sau khi đổi mã, bạn sẽ nhận được thêm 5% tiền thưởng sau mỗi lần nạp tiền, không giới hạn

Ví dụ: Giải quyết ReCaptcha V2 với Capsolver và ScrapeGraph AI

python Copy
import capsolver
import os
import json
from scrapegraphai.graphs import SmartScraperGraph

# Cân nhắc sử dụng biến môi trường cho thông tin nhạy cảm
PROXY = os.getenv("PROXY", "http://username:password@host:port")
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Your Capsolver API Key")
PAGE_URL = os.getenv("PAGE_URL", "PAGE_URL")
PAGE_KEY = os.getenv("PAGE_SITE_KEY", "PAGE_SITE_KEY")

def solve_recaptcha_v2(url, key):
    solution = capsolver.solve({
        "type": "ReCaptchaV2Task",
        "websiteURL": url,
        "websiteKey": key,
        "proxy": PROXY
    })
    return solution['solution']['gRecaptchaResponse']

def main():
    print("Giải quyết reCaptcha v2")
    solution = solve_recaptcha_v2(PAGE_URL, PAGE_KEY)
    print("Giải pháp: ", solution)

# Định nghĩa cấu hình cho đường ống trích xuất
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Tạo thể hiện SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Tìm mô tả của mỗi trích dẫn.",
    source="https://quotes.toscrape.com/",
    config=graph_config
)

# Chạy đường ống
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

Kết luận

Với ScrapeGraph AI, bạn có thể trích xuất dữ liệu từ các trang web một cách hiệu quả trong khi xử lý các vấn đề phức tạp của proxy và captcha. Kết hợp nó với Capsolver cho phép bạn bỏ qua các thử thách ReCaptcha V2 một cách liền mạch, cho phép truy cập vào nội dung mà nếu không sẽ khó trích xuất.

Hãy thoải mái mở rộng kịch bản này để phù hợp với nhu cầu trích xuất của bạn và thử nghiệm các tính năng bổ sung được cung cấp bởi ScrapeGraph AI. Luôn đảm bảo rằng các hoạt động trích xuất của bạn tôn trọng các điều khoản dịch vụ của trang web và các hướng dẫn pháp lý.

Chúc bạn trích xuất vui vẻ!

Xem thêm

May 06, 2026

Cách vượt qua Thách thức AWS WAF mà không cần trình duyệt: Hướng dẫn kỹ thuật

Học cách giải quyết các thách thức AWS WAF và CAPTCHA mà không cần trình duyệt. Sử dụng API của CapSolver để tạo token và bypass mã trạng thái 405.

Anh Tuan
Anh Tuan
Apr 30, 2026

Thu thập dữ liệu web trên Linux: Công cụ, Cài đặt và Hướng dẫn thực hành

Cài đặt truy xuất dữ liệu web trên Linux với Python, máy chủ trung gian và xử lý CAPTCHA. Hướng dẫn thực hành cho nhà phát triển bao gồm Scrapy, Playwright, CapSolver và dòng dữ liệu.

Anh Tuan
Anh Tuan

Nội dung

Apr 30, 2026

Lỗi 1020 của Cloudflare: Truy cập bị từ chối trong trích xuất dữ liệu web & Bảo vệ WAF

Hãy học cách xác định nguyên nhân gây ra lỗi Cloudflare 1020 Truy cập Bị Từ Chối, cách Tường lửa Ứng dụng Web và phát hiện bot hoạt động, và cách các nhà phát triển giảm thiểu kết quả dương tính giả trong các quy trình tự động hợp lệ.

Anh Tuan
Anh Tuan
Apr 29, 2026

Các phần mở rộng giải CAPTCHA tự động tốt nhất cho Chrome năm 2026

Khám phá các phần mở rộng Chrome giải CAPTCHA tự động tốt nhất năm 2026. So sánh CapSolver, NopeCHA và SolveCaptcha theo tốc độ, loại được hỗ trợ và quyền riêng tư để tìm được sự lựa chọn phù hợp.

Anh Tuan
Anh Tuan