
Lucas Mitchell
Automation Engineer
Web scraping đã trở thành một kỹ năng cần thiết cho các nhà phát triển cần thu thập dữ liệu từ các trang web. Playwright, một công cụ tự động hóa trình duyệt mạnh mẽ, thường được sử dụng cho mục đích này. Trong hướng dẫn này, chúng ta sẽ khám phá cách sử dụng Playwright với Ruby để trích xuất dữ liệu từ một trang web. Chúng ta sẽ đi qua một ví dụ thực tế bằng cách sử dụng trang web Quotes to Scrape.
Trước khi bắt đầu, hãy đảm bảo rằng bạn đã cài đặt những thứ sau trên máy của mình:
Bạn có thể cài đặt các phụ thuộc cần thiết bằng cách chạy:
gem install playwright-ruby-client
Sau khi cài đặt gem playwright-ruby-client, bạn cần thiết lập Playwright trong tập lệnh Ruby của mình. Đây là cách bạn có thể làm điều đó:
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
# Mã trích xuất ví dụ sẽ được đưa vào đây
browser.close
end
Thay thế '/path/to/node_modules/.bin/playwright' bằng đường dẫn thực tế đến Playwright CLI trên hệ thống của bạn.
Bây giờ, hãy viết mã để trích xuất trích dẫn từ trang web. Chúng ta sẽ trích xuất văn bản của mỗi trích dẫn và tác giả tương ứng.
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
quotes = page.query_selector_all('.quote')
quotes.each do |quote|
require 'playwright'
Playwright.create do |playwright|
browser = playwright.chromium.launch
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
page.query_selector_all('.quote').each do |quote|
quote_text = quote.query_selector('.text').text_content.strip
author = quote.query_selector('.author').text_content.strip
puts "#{quote_text} - #{author}"
end
browser.close
end
Hướng dẫn này đã chỉ cho bạn cách thiết lập Playwright với Ruby và trích xuất dữ liệu từ một trang web. Ví dụ được sử dụng ở đây rất đơn giản nhưng có thể được mở rộng cho các tác vụ phức tạp hơn. Khả năng tự động hóa các tác vụ trình duyệt của Playwright biến nó thành một công cụ mạnh mẽ để trích xuất dữ liệu web và kiểm tra.
Chúc bạn trích xuất dữ liệu vui vẻ!
Khám phá CapSolver, giải pháp hàng đầu không cần lập trình để giải CAPTCHA cho tự động hóa AI vào năm 2026, để tối ưu quy trình làm việc và nâng cao thu thập dữ liệu mà không cần lập trình. Tìm hiểu về các tính năng chính, lợi ích và sử dụng có đạo đức của nó.

Hướng dẫn đầy đủ về cơ sở hạ tầng giải CAPTCHA cung cấp năng lượng cho Trình duyệt Agentic. Học tại sao CAPTCHA là rào cản chính đối với các đại diện AI và cách CapSolver cung cấp giải pháp thiết yếu cho tự động hóa web mượt mà.
