网页内容抓取器是一种自动化数据提取工具,专用于从网站批量抓取页面内容,支持多种输出格式和智能内容清理。使用 CoreClaw,即可零代码获取结构化的网页内容,助力内容聚合、SEO 分析、AI 知识库构建和数据挖掘。
| 📄 页面URL | 📝 页面标题 |
| 📖 Markdown 内容 | 🌐 HTML 内容 |
| 📄 纯文本内容 | 📊 内容摘要 |
| 🔗 内部链接 | 🌐 外部链接 |
| 📏 爬取深度 | 📡 HTTP状态码 |
CoreClaw 网页内容抓取器在后台为您处理代理轮换、任务调度、数据标准化和最终交付。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| startUrls | array | - | 必填,起始URL列表 |
| maxPages | integer | 50 | 最大处理页面数(1-10000) |
| maxDepth | integer | 2 | 最大链接深度(0-10) |
| concurrency | integer | 5 | 并发页面任务(1-50) |
| requestTimeoutSecs | integer | 60 | 页面超时(5-600秒) |
| extractMode | string | markdown | 输出格式:markdown/html/text |
| waitUntil | string | domcontentloaded | 加载策略 |
| waitForSelector | string | - | 等待的CSS选择器 |
| cssSelector | string | - | 仅提取此区域 |
| sameDomainOnly | boolean | true | 仅跟踪同域名链接 |
| includePatterns | array | [] | 包含的正则模式 |
| excludePatterns | array | [] | 排除的正则模式 |
| cleanContent | boolean | true | 清理和规范化内容 |
| maxContentChars | integer | 0 | 截断内容(0=不限制) |
| crawlMode | string | full | full 或 discover_only |
示例 1:基础爬取
示例 2:提取特定区域
示例 3:仅发现链接
为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 CSV/JSON 的形式下载结果。
基础字段
内容字段(根据提取模式返回对应字段)
辅助字段
示例数据:
使用 maxDepth 参数控制爬取深度:
可以。使用 cssSelector 参数指定要提取的页面区域:
article - 提取文章内容.content - 提取指定类名的内容#main - 提取指定ID的内容使用以下两种方式过滤:
不同参数的限制:
使用智能等待参数:
内容清理功能会自动:
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。