一款使用 Puppeteer 进行完整浏览器渲染的强大网页爬虫工具。支持完整浏览器渲染、自动关闭 Cookie 弹窗、URL 过滤等功能。
Puppeteer网页爬虫是一种基于 Puppeteer 的自动化网页抓取工具,专用于处理需要完整浏览器渲染和 JavaScript 执行的复杂网站。使用 CoreClaw,即可零代码抓取动态页面、SPA 应用、无限滚动页面,助力动态内容采集、SPA 数据提取、交互式页面抓取等应用场景。
| 🔗 页面 URL | 📄 页面标题 |
| 📏 爬取深度 | 🔢 HTTP 状态码 |
| 🔗 发现的链接数 | 📝 页面内容 |
| 🌐 动态生成内容 | 🎯 自定义提取数据 |
| 📊 页面结构信息 | ⚠️ 错误信息 |
CoreClaw Puppeteer网页爬虫在后台为您处理浏览器启动、页面加载、JavaScript 执行、链接发现和数据提取。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| startUrls | array | - | 必填。 起始 URL 列表 |
| linkSelector | string | "a[href]" | 用于发现链接的 CSS 选择器 |
| maxDepth | integer | 1 | 最大爬取深度(0 表示仅爬起始页) |
| maxPages | integer | 100 | 最大爬取页面数 |
| pageFunction | string | - | 自定义页面函数(JavaScript 代码) |
| infiniteScroll | boolean | false | 是否启用无限滚动 |
| scrollMaxPages | integer | 5 | 无限滚动最大滚动次数 |
| scrollDelay | integer | 2000 | 滚动间隔时间(毫秒) |
| closeCookieModals | boolean | true | 是否自动关闭 Cookie 弹窗 |
| urlPattern | string | - | Glob 模式过滤 URL(如 **/article/**) |
| regexPattern | string | - | 正则表达式过滤 URL |
| waitForSelector | string | - | 等待特定元素出现后再提取数据 |
| pageTimeout | integer | 30000 | 页面加载超时时间(毫秒) |
| navigationTimeout | integer | 60000 | 页面导航超时时间(毫秒) |
示例 1:基础爬取
示例 2:爬取 SPA 应用
.product-list示例 3:无限滚动页面
示例 4:自定义数据提取
a.article-link示例 5:URL 过滤
**/article/**^https://example\.com/article/\d+$为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。
每个抓取的页面将输出以下数据:
基础字段
链接信息
自定义数据
其他信息
示例数据:
静态网站使用普通爬虫,动态网站、SPA 应用使用全浏览器爬虫。
页面函数是自定义 JavaScript 函数,用于从页面提取特定数据;使用 page.evaluate() 在浏览器上下文中执行代码,提高性能。
先设置较小的 scrollMaxPages 测试,确认效果后再增加。
工具内置自动关闭 Cookie 弹窗功能。
对于特殊弹窗,使用 waitForSelector 等待主要内容加载。
maxPages 使用,防止爬取过多页面建议:大多数场景使用深度 1-2 即可满足需求。
自动应对:
建议:合理设置爬取参数,遵守网站使用条款。
我们的全浏览器网页爬虫仅公开访问网站并提取可见内容。用户在使用爬取数据时应遵守目标网站的使用条款和服务协议,建议仅用于合法的商业分析和研究用途。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Odin Kael
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。