一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。
URLs to start crawling from. Supports multiple URLs. | 开始爬取的 URL 列表,支持多个 URL
CSS selector for finding links to follow. | 用于发现并跟踪链接的 CSS 选择器
Only crawl URLs matching these patterns (e.g., https://example.com/blog/*). | 只爬取匹配这些模式的 URL
URL patterns to skip (e.g., /login, /admin, *.pdf). | 要跳过的 URL 模式
Maximum crawl depth (0 = start page only, 1 = follow one level). | 最大爬取深度(0=仅起始页,1=跟踪一层)
Maximum pages to crawl (0 = unlimited, recommend ≤50 for speed). | 最大爬取页面数(0=不限制,建议≤50)
Maximum results to output (0 = unlimited). | 最大输出结果数(0=不限制)
Concurrent browser tabs (recommend 3-5 for best performance). | 并发浏览器标签数(建议3-5以获得最佳性能)
Page load timeout in seconds (lower = faster failure detection). | 页面加载超时秒数(越低失败检测越快)
Page function execution timeout in seconds. | 页面函数执行超时秒数
Retries for failed requests (0 = no retry). | 失败请求重试次数(0=不重试)
When to consider page navigation complete. 'domcontentloaded' is fastest. | 页面导航完成的判定条件,'domcontentloaded' 最快
Download images and media files (slower). | 下载图片和媒体文件(会变慢)
Download CSS stylesheets. | 下载 CSS 样式表
Bypass CORS and Content Security Policy restrictions. | 绕过 CORS 和内容安全策略限制
Auto-close cookie consent popups. | 自动关闭 Cookie 同意弹窗
Auto-scroll height in pixels (0 = disabled). Useful for infinite scroll pages. | 自动滚动高度像素(0=禁用),适用于无限滚动页面
Keep URL hash fragments in crawled links. | 保留爬取链接中的 URL 哈希部分
Ignore SSL certificate errors. | 忽略 SSL 证书错误
Enable detailed debug logging. | 启用详细调试日志
Log browser console messages. | 记录浏览器控制台消息
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。