一款强大灵活的网页爬虫工具,可自动爬取网站、提取结构化数据并发现新链接。
要爬取的起始 URL 列表 | List of starting URLs to crawl
从起始 URL 开始的最大爬取深度(起始页面深度为 0)| Maximum crawl depth from starting URLs (starting page = depth 0)
每次运行最多爬取的页面数量(0 表示不限制)| Maximum pages to crawl per run (0 = unlimited)
页面加载的最长等待时间(秒)| Maximum time to wait for page load (seconds)
页面导航完成条件 | Navigation completion condition
是否在每个页面注入 jQuery 库 | Inject jQuery library into each page
是否忽略 SSL 证书错误 | Ignore SSL certificate errors
是否下载图片、视频等媒体资源(关闭可提高速度)| Download images, videos and other media (disable for faster crawling)
是否下载 CSS 样式表(关闭可提高速度)| Download CSS stylesheets (disable for faster crawling)
是否输出详细的调试日志 | Enable detailed debug logging
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。