Kael Odin

数据集合并和去重工具

定价

数据集合并和去重工具

odin-kael/dataset-deduplication-and-merge-tool

数据集去重采集器是一款功能强大的工具，用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化，附加增强功能，并具备完善的异常处理机制。

运行占位 | Run Unit必填

CoreClaw 并发占位字段，请保持默认值 | Internal single-run placeholder for CoreClaw

类型: array

应用场景 | Scenario可选

选择预设场景自动填充最佳配置 | Select preset scenario

类型: select

默认: ecommerce-products

选项：

🛒 电商商品数据合并🕷️ 爬虫结果清洗👥 用户数据整合📋 日志事件去重⚙️ 自定义场景

去重字段 | Dedup Fields必填

用于判断重复的字段名称列表 | Field names for deduplication

类型: array

合并策略 | Merge Strategy可选

重复数据合并策略 | Strategy for merging duplicates

类型: select

默认: keep-newest

选项：

保留第一条 | Keep First保留最新 | Keep Newest字段合并 | Merge Fields保留最完整 | Keep Most Complete

时间字段 | Timestamp Field可选

用于判断新旧的时间字段(keep-newest策略) | Timestamp field for keep-newest

类型: string

默认: updatedAt

数据来源类型 | Data Source Type可选

选择数据来源 | Select data source

类型: select

默认: direct-input

选项：

直接输入 | Direct Input网络URL | Network URLCore Dataset

输入数据 | Input Data可选

JSON数组数据 | JSON array data

类型: string

默认: [{"productId": "P001", "sku": "SKU-A-BLACK", "name": "无线蓝牙耳机 Pro", "price": 299.00, "stock": 156, "source": "京东旗舰店", "updatedAt": "2024-01-20T10:30:00"}, {"productId": "P001", "sku": "SKU-A-BLACK", "name": "无线蓝牙耳机 Pro (黑)", "price": 279.00, "stock": 200, "source": "天猫旗舰店", "updatedAt": "2024-01-22T14:20:00"}, {"productId": "P001", "sku": "SKU-A-WHITE", "name": "无线蓝牙耳机 Pro", "price": 299.00, "stock": 88, "source": "京东旗舰店", "updatedAt": "2024-01-20T10:30:00"}, {"productId": "P002", "sku": "SKU-B", "name": "智能手表 Ultra", "price": 1299.00, "stock": 45, "source": "官网", "updatedAt": "2024-01-18T09:00:00"}]

数据URL列表 | Data URLs可选

数据文件URL列表 | Data file URL list

类型: array

Dataset ID列表 | Dataset IDs可选

Core Dataset ID列表 | Core Dataset ID list

类型: array

输入文件格式 | Input Format可选

输入数据格式 | Input data format

类型: select

默认: json

选项：

JSON (数组格式 | Array)JSONL (每行一个JSON)

输出内容 | Output Content可选

输出类型 | Output type

类型: select

默认: unique-items

选项：

唯一项(去重后) | Unique Items重复项 | Duplicate Items仅统计 | Statistics Only

生成差异报告 | Generate Report可选

输出去重差异报告 | Output dedup difference report

类型: boolean

默认: true

处理模式 | Processing Mode可选

去重处理模式 | Dedup mode. Large datasets (>100K) use 'As Loading'

类型: select

默认: dedup-after-load

选项：

先加载后去重 | After Load边加载边去重 | As Loading

仅加载指定字段 | Load Fields Only可选

仅加载指定字段以减少内存 | Load only specified fields

类型: array

去重前转换函数 | Pre-Dedup Transform可选

去重前自定义转换函数 | Custom transform function before dedup

类型: string

去重后转换函数 | Post-Dedup Transform可选

去重后自定义转换函数 | Custom transform function after dedup

类型: string

自定义输入数据 | Custom Input Data可选

传递给转换函数的自定义数据(JSON格式) | Custom data for transform functions (JSON)

类型: string

Null值视为唯一 | Treat Null as Unique可选

null/undefined值视为唯一值 | Treat null/undefined as unique

类型: boolean

默认: false

并行加载数 | Parallel Loads可选

并行加载数据源的线程数 | Parallel load threads

类型: integer

默认: 10

并行推送数 | Parallel Pushes可选

并行推送数据的线程数 | Parallel push threads

类型: integer

默认: 5

批次大小 | Batch Size可选

每次处理的批次大小 | Batch size per processing

类型: integer

默认: 5000

附加文件来源 | Append File Source可选

添加__fileSource__字段记录数据来源 | Add fileSource field

类型: boolean

默认: false

详细日志 | Verbose Log可选

开启详细日志输出 | Enable verbose logging

类型: boolean

默认: false

定价

失败结果不计费

用户评分

5.0

开发者

Kael Odin

Worker 数据

15次累计运行

成功率：86.67%

最后更新时间：2026.04.20

分类

分享

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具

谷歌搜索结果（SERP）抓取API

by CoreClaw

通过关键词请求，返回结构化的搜索结果摘要，包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。

低至 $1.2/1,000 结果

Google Sheets 导入导出工具

by Kael Odin

一款功能强大的 Google Sheets 数据导入导出工具，专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。

低至 $1.2/1,000 结果

Cheerio网页抓取

by Kael Odin

一款基于 Cheerio 的高速静态页面爬虫工具，专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析，速度比完整浏览器渲染快 10-50 倍。

低至 $1.2/1,000 结果

Playwright 网页抓取

by Kael Odin

一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用（SPA）、无限滚动页面以及跨浏览器测试场景。

低至 $1.2/1,000 结果

查看全部采集工具