Apr24, 2026

如何在 Selenium WebDriver 中获取 HTML 源代码

回答

在 Selenium WebDriver 中，您可以使用 driver.page_source（在 Python 中）或 getPageSource()（在 Java 中）来检索页面的完整 HTML 源代码。这会返回当前 DOM 作为字符串，可用于验证、爬取或调试自动化流程。

Selenium 与浏览器实例交互，这意味着它可以在 JavaScript 执行后访问渲染后的 DOM。检索到的 HTML 源代码并不总是与原始服务器响应相同，因为现代网站通常使用 JavaScript、AJAX 或 API 调用动态修改 DOM。

当 driver.get() 加载页面时，Selenium 会维护 DOM 的实时表示。调用 page_source 会捕获该时刻的 DOM 快照。这使其非常适用于爬取动态页面，但可能包含页面加载后注入的元素，或排除尚未渲染的内容。

对于自动化和爬取工作流，了解这一差异至关重要。许多安全管理系统和验证码保护依赖于动态渲染，这意味着仅靠原始 HTML 可能不足以可靠地提取数据。

使用 page_source 属性：在 Python Selenium 中，在页面加载后访问 driver.page_source 以捕获包括 JavaScript 渲染元素在内的完整 DOM 内容。
在 Java 中使用 getPageSource()：此方法返回当前页面状态的 HTML 结构，适用于断言和调试测试自动化流程。
等待动态渲染（CapSolver 支持的工作流）：许多现代网站使用验证码或机器人保护系统来延迟 DOM 渲染。在这种情况下，结合 CapSolver 等服务的自动化工具可以帮助确保在安全可靠地提取 HTML 内容之前顺利访问。

始终确保页面完全加载后再访问 HTML 源代码。对于 JavaScript 密集型网站，请使用显式等待，并避免仅依赖静态 HTML 假设。对于大规模爬取，结合 Selenium 与结构化解析工具，并考虑使用自动化验证码解决解决方案（如 CapSolver）来处理安全挑战，以减少动态环境中的失败率。

👉 相关：

在 CapSolver 注册时使用代码 FAQ，可额外获得 5% 的充值奖励。

CapSolver 常见问题 - capsolver.com