数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
CoreClaw 并发占位字段,请保持默认值 | Internal single-run placeholder for CoreClaw
选择预设场景自动填充最佳配置 | Select preset scenario
用于判断重复的字段名称列表 | Field names for deduplication
重复数据合并策略 | Strategy for merging duplicates
用于判断新旧的时间字段(keep-newest策略) | Timestamp field for keep-newest
选择数据来源 | Select data source
JSON数组数据 | JSON array data
数据文件URL列表 | Data file URL list
Core Dataset ID列表 | Core Dataset ID list
输入数据格式 | Input data format
输出类型 | Output type
输出去重差异报告 | Output dedup difference report
去重处理模式 | Dedup mode. Large datasets (>100K) use 'As Loading'
仅加载指定字段以减少内存 | Load only specified fields
去重前自定义转换函数 | Custom transform function before dedup
去重后自定义转换函数 | Custom transform function after dedup
传递给转换函数的自定义数据(JSON格式) | Custom data for transform functions (JSON)
null/undefined值视为唯一值 | Treat null/undefined as unique
并行加载数据源的线程数 | Parallel load threads
并行推送数据的线程数 | Parallel push threads
每次处理的批次大小 | Batch size per processing
添加__fileSource__字段记录数据来源 | Add fileSource field
开启详细日志输出 | Enable verbose logging
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Kael Odin
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。