
Lucas Mitchell
Automation Engineer
A raspagem de dados da web tornou-se uma habilidade essencial para desenvolvedores que precisam coletar dados de sites. Playwright, uma poderosa ferramenta de automação de navegador, é frequentemente usada para esse propósito. Neste guia, exploraremos como usar Playwright com Ruby para raspar dados de um site. Passaremos por um exemplo prático usando o site Quotes to Scrape.
Antes de começarmos, certifique-se de que você tenha o seguinte instalado em sua máquina:
Você pode instalar as dependências necessárias executando:
gem install playwright-ruby-client
Após instalar a gema playwright-ruby-client, você precisa configurar Playwright em seu script Ruby. Aqui está como você pode fazer isso:
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
# O código de raspagem de exemplo ficará aqui
browser.close
end
Substitua '/path/to/node_modules/.bin/playwright' pelo caminho real para o Playwright CLI em seu sistema.
Agora, vamos escrever o código para raspar citações do site. Extrairemos o texto de cada citação e o autor correspondente.
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
quotes = page.query_selector_all('.quote')
quotes.each do |quote|
require 'playwright'
Playwright.create do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
page.query_selector_all('.quote').each do |quote|
quote_text = quote.query_selector('.text').text_content.strip
author = quote.query_selector('.author').text_content.strip
puts "#{quote_text} - #{author}"
end
browser.close
end
Este guia mostrou como configurar o Playwright com Ruby e coletar dados de um site. O exemplo usado aqui é simples, mas pode ser expandido para tarefas mais complexas. A capacidade do Playwright de automatizar tarefas de navegador o torna uma ferramenta poderosa para coleta de dados da web e testes.
Feliz coleta de dados!
Aprenda como lidar com o recaptcha durante a raspagem de e-commerce com fluxos de trabalho conformes, diagnósticos, exemplos do CapSolver e controles de risco práticos.

Aprenda como a extração de dados com IA funciona, desde a raspagem de web e resolução de CAPTCHA até a limpeza de HTML, análise de LLM e geração de JSON estruturado. Explore estratégias de bypass anti-bot, frameworks de extração semântica como AXE e pipelines de raspagem de web com IA escaláveis.
