一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。
Playwright 网页抓取是一种基于 Playwright 的跨浏览器网页抓取工具,专用于处理需要完整浏览器渲染和 JavaScript 执行的复杂网站。与仅支持 Chromium 的爬虫不同,它支持 Chromium、Firefox 和 WebKit 三大浏览器引擎,可在不同浏览器间测试和抓取数据。使用 CoreClaw,即可零代码抓取动态页面、SPA 应用、无限滚动页面,助力跨浏览器数据采集、兼容性测试、动态内容提取等应用场景。
| 🔗 页面 URL | 📄 页面标题 |
| 📏 爬取深度 | 🔢 HTTP 状态码 |
| 🔗 发现的链接数 | 📝 页面内容 |
| 🌐 动态生成内容 | 🎯 自定义提取数据 |
| 🌐 浏览器类型 | ⏱️ 加载时间戳 |
CoreClaw Playwright 网页抓取在后台为您处理多浏览器启动、页面加载、JavaScript 执行、链接发现和数据提取。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| startUrls | array | - | 必填。 起始 URL 列表 |
| browserType | string | "chromium" | 浏览器类型:chromium、firefox、webkit |
| linkSelector | string | "a[href]" | 用于发现链接的 CSS 选择器 |
| maxDepth | integer | 1 | 最大爬取深度(0 表示仅爬起始页) |
| maxPages | integer | 50 | 最大爬取页面数 |
| concurrency | integer | 3 | 并行浏览器标签数(建议 3-5) |
| pageTimeout | integer | 30 | 页面加载超时时间(秒) |
| waitUntil | string | "domcontentloaded" | 页面导航完成判定:domcontentloaded、load、networkidle |
| pageFunction | string | - | 自定义页面函数(JavaScript 代码) |
| infiniteScroll | boolean | false | 是否启用无限滚动 |
| scrollMaxTimes | integer | 5 | 无限滚动最大滚动次数 |
| scrollDelay | integer | 2000 | 滚动间隔时间(毫秒) |
| closeCookieModals | boolean | true | 是否自动关闭 Cookie 弹窗 |
| urlPattern | string | - | Glob 模式过滤 URL(如 **/article/**) |
| regexPattern | string | - | 正则表达式过滤 URL |
| debugLog | boolean | false | 是否启用调试日志 |
示例 1:基础爬取
示例 2:跨浏览器测试
示例 3:Webkit 移动端爬取
示例 4:无限滚动页面
示例 5:自定义数据提取
示例 6:URL 过滤
**/article/**^https://example\.com/article/\d+$为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。
每个抓取的页面将输出以下数据:
基础字段
链接信息
时间信息
浏览器信息
自定义数据
其他信息
示例数据:
需要跨浏览器测试或支持 Firefox/WebKit 时使用 Playwright,仅需要 Chromium 时使用 Puppeteer。
大多数场景使用 Chromium 即可,特殊需求时选择其他浏览器。
大多数场景使用 domcontentloaded 或 load,networkidle 仅用于需要确保所有资源加载完成的场景。
工具内置自动关闭 Cookie 弹窗功能。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Odin Kael
一款使用 Puppeteer 进行完整浏览器渲染的强大网页爬虫工具。支持完整浏览器渲染、自动关闭 Cookie 弹窗、URL 过滤等功能。