
Lucas Mitchell
Automation Engineer
El web scraping se ha convertido en una habilidad esencial para los desarrolladores que necesitan recopilar datos de sitios web. Playwright, una poderosa herramienta de automatización de navegadores, se utiliza a menudo para este propósito. En esta guía, exploraremos cómo usar Playwright con Ruby para raspar datos de un sitio web. Recorreremos un ejemplo práctico utilizando el sitio web Quotes to Scrape.
Antes de comenzar, asegúrese de tener lo siguiente instalado en su máquina:
Puede instalar las dependencias necesarias ejecutando:
gem install playwright-ruby-client
Después de instalar la gema playwright-ruby-client, necesita configurar Playwright en su script de Ruby. Así es como puede hacerlo:
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
# El código de raspado de ejemplo irá aquí
browser.close
end
Reemplace '/path/to/node_modules/.bin/playwright' con la ruta real al Playwright CLI en su sistema.
Ahora, escribamos el código para raspar citas del sitio web. Extraeremos el texto de cada cita y el autor correspondiente.
require 'playwright'
Playwright.create(playwright_cli_executable_path: '/path/to/node_modules/.bin/playwright') do |playwright|
browser = playwright.chromium.launch(headless: false)
page = browser.new_page
page.goto('http://quotes.toscrape.com/')
quotes = page.query_selector_all('.quote')
quotes.each do |quote|
quote_text = quote.query_selector('.text').text_content.strip
author = quote.query_selector('.author').text_content.strip
puts "#{quote_text} - #{author}"
end
browser.close
end
Esta guía te ha mostrado cómo configurar Playwright con Ruby y raspar datos de un sitio web. El ejemplo utilizado aquí es simple pero se puede expandir para tareas más complejas. La capacidad de Playwright para automatizar tareas del navegador lo convierte en una herramienta poderosa para el raspado web y las pruebas.
¡Feliz raspado!
Aprende a manejar el reCAPTCHA durante el scraping de comercio electrónico con flujos de trabajo compatibles, diagnósticos, ejemplos de CapSolver y controles de riesgo prácticos.

Aprende cómo funciona la extracción de datos impulsada por IA desde el web scraping y la resolución de CAPTCHA hasta la limpieza de HTML, el parsing de LLM y la generación de JSON estructurado. Explora estrategias de bypass contra los anti-bot, marcos de extracción semántica como AXE y pipelines de web scraping con IA escalables.
