一款专为检索增强生成(RAG)流程和 AI 应用设计的高性能网页抓取工具。结合 Google 搜索功能与智能内容提取,支持快速 HTTP 请求和完整浏览器渲染两种模式,支持并发处理、智能内容过滤、多格式输出。
Enter Google Search keywords or URLs to scrape. Each line runs as a separate task. | 输入 Google 搜索关键词或要抓取的 URL。每行作为独立任务运行。
Maximum number of search results to return (1-100). Ignored if query is a URL. | 返回的最大搜索结果数(1-100)。如果 query 是 URL 则忽略。
The format of the output content. | 输出内容的格式。
⚠️ Raw HTTP: Fast but CANNOT handle JavaScript, Cloudflare, or anti-bot protection. Use for: static HTML pages, APIs, simple websites. ✅ Browser: Handles dynamic JS, SPAs, Cloudflare, but slower. | ⚠️ Raw HTTP:快速但无法处理 JavaScript、Cloudflare 或反爬保护。适用于:静态 HTML 页面、API、简单网站。✅ 浏览器:可处理动态 JS、SPA、Cloudflare,但较慢。
Maximum time in seconds to wait for a request to complete (1-300). | 请求完成的最大等待时间(秒,1-300)。
Number of retry attempts for failed requests. | 失败请求的重试次数。
Number of parallel scraping operations. Higher = faster but more resources. | 并行抓取操作数。越高越快但消耗更多资源。
Time to wait for dynamic page content (browser mode only). | 等待动态页面内容的时间(仅浏览器模式)。
Automatically remove cookie warning banners from pages. | 自动移除页面的 Cookie 警告横幅。
Enable debug logging and performance metrics. | 启用调试日志和性能指标。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。