
Lucas Mitchell
Automation Engineer
Web scraping telah menjadi keterampilan penting bagi pengembang yang perlu mengumpulkan data dari situs web. Playwright, alat otomatisasi browser yang ampuh, sering digunakan untuk tujuan ini. Dalam panduan ini, kita akan menjelajahi cara menggunakan Playwright dengan Ruby untuk mengikis data dari situs web. Kita akan menelusuri contoh praktis menggunakan situs web Quotes to Scrape.
Sebelum kita mulai, pastikan Anda telah menginstal hal-hal berikut di mesin Anda:
Anda dapat menginstal dependensi yang diperlukan dengan menjalankan:
gem install playwright-ruby-client
Setelah menginstal permata playwright-ruby-client, Anda perlu menyiapkan Playwright di skrip Ruby Anda. Berikut cara melakukannya:
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
# Kode scraping contoh akan masuk di sini
browser.close
end
Ganti '/path/to/node_modules/.bin/playwright' dengan jalur sebenarnya ke Playwright CLI di sistem Anda.
Sekarang, mari tulis kode untuk mengikis kutipan dari situs web. Kita akan mengekstrak teks dari setiap kutipan dan penulis yang sesuai.
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
quotes = page.query_selector_all('.quote')
quotes.each do |quote|
quote_text = quote.query_selector('.text').text_content.strip
author = quote.query_selector('.author').text_content.strip
puts "#{quote_text} - #{author}"
end
browser.close
end
Panduan ini telah menunjukkan kepada Anda cara menyiapkan Playwright dengan Ruby dan mengambil data dari situs web. Contoh yang digunakan di sini sederhana tetapi dapat diperluas untuk tugas yang lebih kompleks. Kemampuan Playwright untuk mengotomatiskan tugas browser menjadikannya alat yang ampuh untuk pengambilan data web dan pengujian.
Selamat mengambil data!
Pelajari cara mengelola reCAPTCHA selama pengambilan data e-commerce dengan alur kerja yang sesuai aturan, diagnosa, contoh dari CapSolver, dan pengendalian risiko yang nyata.

Pelajari bagaimana ekstraksi data yang didukung AI bekerja dari pengambilan data dari web dan menyelesaikan CAPTCHA hingga pembersihan HTML, parsing LLM, dan generasi JSON terstruktur. Eksplor strategi menghindari bot, kerangka kerja ekstraksi semantik seperti AXE, dan pipa pengambilan data web AI yang dapat diskalakan.
