使用 Crawl4AI 智能抓取网站内容,提取多种格式的页面内容(Markdown、HTML 或纯文本)。支持可配置的深度、等待条件、CSS 选择器和全面的链接发现。零代码操作,一键导出 CSV 或 JSON 格式。
Starting URLs to crawl (e.g. https://example.com). One or more URLs. | 开始抓取的 URL(如 https://example.com),支持多个 URL。
Maximum pages to process in total (1–10000). | 总共处理的最大页面数(1-10000)。
Maximum link depth from each start URL (0–10). | 从每个起始 URL 开始的最大链接深度(0-10)。
Number of concurrent page tasks (1–50). | 并发页面任务数(1-50)。
Timeout per page request in seconds (5–600). | 每个页面请求的超时时间(秒,5-600)。
Run browser headless. | 以无头模式运行浏览器。
Output content format: markdown, html, or text. | 输出内容格式:Markdown、HTML 或纯文本。
Maximum output items to push (1–200000). | 推送的最大输出项数(1-200000)。
Only follow links within start URL domains. | 仅跟踪起始 URL 域名内的链接。
Only include URLs matching these regex patterns (optional). | 仅包含匹配这些正则模式的 URL(可选)。
Exclude URLs matching these regex patterns. | 排除匹配这些正则模式的 URL。
Retry failed pages up to this count (0–10). | 重试失败页面的次数(0-10)。
Remove navigation-heavy lines and normalize whitespace. | 移除导航密集的行并规范化空白。
Include unmodified content in a separate field. | 在单独字段中包含未修改的内容。
Truncate content to this length (0 = unlimited, max 500000). | 截断内容到此长度(0=不限制,最大 500000)。
Length of content excerpt for previews (0–5000). | 预览用内容摘要的长度(0-5000)。
Page load strategy: domcontentloaded (fast), load, or networkidle (SPA/slow sites). | 页面加载策略:domcontentloaded(快)、load 或 networkidle(SPA/慢站点)。
CSS selector to wait for before extraction (e.g. .article-body). Leave empty to skip. | 提取前等待的 CSS 选择器(如 .article-body),留空表示不等待。
Extract only content inside this CSS selector (e.g. main, .content). Leave empty for full page. | 仅提取此 CSS 选择器内的内容(如 main, .content),留空表示提取整页。
full = extract content; discover_only = only URLs and links (no content). | full=提取内容;discover_only=仅 URL 和链接(无内容)。
Include links_internal and links_external arrays in each item (full mode). | 在每项中包含内部链接和外部链接数组(完整模式)。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。