Sep03, 2024

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Lucas Mitchell

Automation Engineer

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Web scraping đã trở thành một kỹ năng cần thiết cho các nhà phát triển cần thu thập dữ liệu từ các trang web. Playwright, một công cụ tự động hóa trình duyệt mạnh mẽ, thường được sử dụng cho mục đích này. Trong hướng dẫn này, chúng ta sẽ khám phá cách sử dụng Playwright với Ruby để trích xuất dữ liệu từ một trang web. Chúng ta sẽ đi qua một ví dụ thực tế bằng cách sử dụng trang web Quotes to Scrape.

Điều kiện tiên quyết

Trước khi bắt đầu, hãy đảm bảo rằng bạn đã cài đặt những thứ sau trên máy của mình:

Ruby (Phiên bản 2.7 trở lên)
Node.js (Playwright yêu cầu Node.js để chạy)
Playwright Gem (Bao bọc Ruby cho Playwright)

Bạn có thể cài đặt các phụ thuộc cần thiết bằng cách chạy:

bash Copy

gem install playwright-ruby-client

Cài đặt Playwright

Sau khi cài đặt gem playwright-ruby-client, bạn cần thiết lập Playwright trong tập lệnh Ruby của mình. Đây là cách bạn có thể làm điều đó:

ruby Copy

require 'playwright'

Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
  browser = playwright.chromium.launch(headless: false)
  page = browser.new_page
  page.goto('http://quotes.toscrape.com/')
  
  # Mã trích xuất ví dụ sẽ được đưa vào đây
  
  browser.close
end

Thay thế '/path/to/node_modules/.bin/playwright' bằng đường dẫn thực tế đến Playwright CLI trên hệ thống của bạn.

Trích xuất Trích dẫn từ Trang web

Bây giờ, hãy viết mã để trích xuất trích dẫn từ trang web. Chúng ta sẽ trích xuất văn bản của mỗi trích dẫn và tác giả tương ứng.

ruby Copy

require 'playwright'

Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
  browser = playwright.chromium.launch(headless: false)
  page = browser.new_page
  page.goto('http://quotes.toscrape.com/')
  
  quotes = page.query_selector_all('.quote')

  quotes.each do |quote|

ruby Copy

require 'playwright'

Playwright.create do |playwright|
  browser = playwright.chromium.launch
  page = browser.new_page

  page.goto('http://quotes.toscrape.com/')

  page.query_selector_all('.quote').each do |quote|
    quote_text = quote.query_selector('.text').text_content.strip
    author = quote.query_selector('.author').text_content.strip
    puts "#{quote_text} - #{author}"
  end

  browser.close
end

Hướng dẫn này đã chỉ cho bạn cách thiết lập Playwright với Ruby và trích xuất dữ liệu từ một trang web. Ví dụ được sử dụng ở đây rất đơn giản nhưng có thể được mở rộng cho các tác vụ phức tạp hơn. Khả năng tự động hóa các tác vụ trình duyệt của Playwright biến nó thành một công cụ mạnh mẽ để trích xuất dữ liệu web và kiểm tra.

Chúc bạn trích xuất dữ liệu vui vẻ!

Xem thêm

AIJun 18, 2026

Lựa chọn Người giải CAPTCHA cho Hệ thống Người agent của Bạn

Một khung quyết định để lựa chọn một trình giải CAPTCHA cho cơ sở hạ tầng tác nhân, tập trung vào bản đồ hóa thách thức, liên kết phiên, khả năng quan sát, kiểm soát tỷ lệ và sử dụng có trách nhiệm.

Anh Tuan

AIJun 18, 2026

API CAPTCHA tốt nhất dành cho các tác nhân AI vào năm 2026

Hướng dẫn đánh giá thực tế để lựa chọn API CAPTCHA cho các tác nhân AI vào năm 2026, tập trung vào phạm vi nhiệm vụ được tài liệu hóa, hợp đồng kiểm tra, xác thực token và kiểm soát hoạt động.

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Điều kiện tiên quyết

Cài đặt Playwright

Trích xuất Trích dẫn từ Trang web

Xem thêm

Lựa chọn Người giải CAPTCHA cho Hệ thống Người agent của Bạn

API CAPTCHA tốt nhất dành cho các tác nhân AI vào năm 2026

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Sử dụng Playwright với Ruby: Hướng dẫn từng bước cho năm 2024

Điều kiện tiên quyết

Cài đặt Playwright

Trích xuất Trích dẫn từ Trang web

Xem thêm

Lựa chọn Người giải CAPTCHA cho Hệ thống Người agent của Bạn

API CAPTCHA tốt nhất dành cho các tác nhân AI vào năm 2026

Bên trong Tầng lớp tự động hóa trình duyệt Agentic

Cơ sở hạ tầng Tự động hóa Web cho các Đại diện AI