网页爬虫工具是一种自动化网站爬取工具,专用于批量爬取网站页面、提取结构化数据(标题、描述、关键词、标题、图片、链接等)并自动发现相关链接。使用 CoreClaw,即可零代码获取网页结构化数据,助力数据采集、SEO 分析、竞品研究和内容监控。
| 📄 页面URL | 📝 页面标题 |
| 📝 页面描述 | 🔑 关键词 |
| 📊 H1 主标题 | 📋 H2 副标题列表 |
| 📏 文本长度 | 🖼️ 图片数量 |
| 🔗 链接数量 | 📏 爬取深度 |
CoreClaw 网页爬虫工具在后台为您处理代理轮换、任务调度、数据标准化和最终交付。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| url | array | ✅ 是 | - | 起始URL列表 |
| maxCrawlingDepth | integer | ✅ 是 | 1 | 最大爬取深度(0表示仅爬起始页) |
| maxPagesPerCrawl | integer | 否 | 10 | 最大爬取页面数(0表示不限制) |
| pageLoadTimeoutSecs | integer | 否 | 60 | 页面加载超时时间(秒) |
| waitUntil | string | 否 | networkidle2 | 页面导航完成条件 |
| injectJQuery | boolean | 否 | false | 是否注入jQuery库 |
| ignoreSslErrors | boolean | 否 | true | 是否忽略SSL证书错误 |
| downloadMedia | boolean | 否 | false | 是否下载图片/视频 |
| downloadCss | boolean | 否 | true | 是否下载CSS样式表 |
| debugLog | boolean | 否 | false | 是否启用详细调试日志 |
示例 1:基础网页爬取
示例 2:深度爬取
示例 3:快速爬取(忽略资源)
为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 CSV/JSON 的形式下载结果。
每个爬取的页面将输出以下数据:
基础字段
结构化字段
JSON示例:
爬取深度从起始页开始计算:
使用以下两种方式控制:
jQuery 注入功能可以:
默认情况下,工具会忽略 SSL 证书错误(ignoreSslErrors: true)。
支持以下导航完成条件:
使用以下方法提升速度:
downloadMedia: false - 不下载图片和视频downloadCss: false - 不下载 CSS 样式表pageLoadTimeoutSecs - 缩短超时时间domcontentloaded 作为等待条件如果您需要提取特定的页面数据(如价格、作者、日期等),可以通过自定义数据提取逻辑实现。CoreClaw 提供灵活的配置选项,支持根据需求定制提取字段和规则。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。