一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
Cheerio网页抓取是一种基于 Cheerio 的高速网页抓取工具,专用于处理静态 HTML 页面。与需要完整浏览器渲染的爬虫不同,它只解析 HTML 源码,不执行 JavaScript,因此速度极快,资源消耗低。使用 CoreClaw,即可零代码抓取静态网页,助力内容采集、数据分析、SEO 审计、数据备份等应用场景。
| 🔗 页面 URL | 📄 页面标题 |
| 📏 爬取深度 | 🔢 HTTP 状态码 |
| 📝 Meta 描述 | 📋 H1 主标题 |
| 🌐 页面文本内容 | 🔗 发现的链接数 |
| 🎯 自定义提取数据 | ⚠️ 错误信息 |
CoreClaw Cheerio网页抓取在后台为您处理代理连接、HTML 解析、链接发现、数据提取和结果整理。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| startUrls | array | ✅ 是 | - | 起始 URL 列表 |
| linkSelector | string | 否 | a[href] | 用于发现链接的 CSS 选择器 |
| globPatterns | array | 否 | [] | URL 匹配模式(Glob 格式) |
| excludePatterns | array | 否 | [] | 排除 URL 模式(Glob 格式) |
| maxCrawlingDepth | integer | 否 | 1 | 最大爬取深度(0 表示仅爬起始页) |
| maxPagesPerCrawl | integer | 否 | 50 | 最大爬取页面数 |
| maxConcurrency | integer | 否 | 3 | 最大并发请求数 |
| pageLoadTimeoutSecs | integer | 否 | 20 | 页面加载超时时间(秒) |
| maxRequestRetries | integer | 否 | 1 | 最大重试次数 |
| pageFunction | string | 否 | 见下方说明 | 自定义页面函数(JavaScript 代码) |
| debugLog | boolean | 否 | false | 是否启用调试日志 |
示例 1:基础爬取
示例 2:深度爬取带过滤
https://example.com/blog/*/tag/, /author/, *.pdf示例 3:自定义提取新闻列表
示例 4:提取表格数据
示例 5:高并发爬取
为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。
每个抓取的页面将输出以下数据:
默认字段
自定义数据
示例数据:
静态网站使用快速静态页面爬虫,动态网站、SPA 应用使用浏览器爬虫。
大多数场景使用深度 1-2 即可满足需求。
对于不稳定的网站,适当增加超时时间和重试次数。
我们的快速静态页面爬虫仅公开访问网站并提取可见的 HTML 内容。用户在使用抓取数据时应遵守目标网站的使用条款和服务协议,建议仅用于合法的商业分析和研究用途。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。
by Odin Kael
一款使用 Puppeteer 进行完整浏览器渲染的强大网页爬虫工具。支持完整浏览器渲染、自动关闭 Cookie 弹窗、URL 过滤等功能。