一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
URLs to start crawling from | 开始爬取的 URL 列表
CSS selector for finding links. | 用于发现链接的 CSS 选择器
Only crawl URLs matching these glob patterns (e.g., https://example.com/blog/*). | 只爬取匹配这些 glob 模式的 URL
URL patterns to skip (e.g., /login, /admin, *.pdf). | 要跳过的 URL 模式
Maximum crawl depth (0 = start page only). | 最大爬取深度(0 = 仅起始页)
Maximum pages to crawl (0 = unlimited, recommend 50 for speed). | 最大爬取页面数(0 = 不限制,建议 50)
Maximum concurrent requests (recommend 3-5 for CDP browser). | 最大并发请求数(CDP 浏览器建议 3-5)
Page load timeout in seconds (lower = faster failures). | 页面加载超时时间(秒,越低失败越快)
Maximum retries for failed requests (0 = no retry). | 失败请求重试次数(0 = 不重试)
Custom JavaScript function to extract data. Use $ for Cheerio selector. | 自定义 JavaScript 函数提取数据,使用 $ 作为 Cheerio 选择器
Keep URL fragments (hash) in links. | 保留 URL 中的 Fragment(哈希部分)
Ignore SSL certificate errors. | 忽略 SSL 证书错误
Enable detailed logging. | 启用详细日志
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。