数据集合并和去重工具

01KP86Y74J2ZECDY04PV8GKTVT

数据集去重采集器是一款功能强大的工具，用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化，附加增强功能，并具备完善的异常处理机制。

by Odin Kael

4.7

13次运行

最后更新:2026-04-20

免费试用

免费 2,000 条结果

Dedup Datasets Worker 是企业级数据集合并和去重工具，支持从多种数据源加载数据并基于字段组合去重。针对 CoreClaw 平台全面优化。

✨ 核心特性

特性	说明
📦多源合并	从直接输入、URL 或 Core Dataset 加载并合并数据
🎯复合键去重	基于多字段组合去重（如 `productId` + `sku`）
🔄双处理模式	`先加载后去重`（保持顺序）或 `边加载边去重`（流式处理）
🔧自定义转换	去重前/后的 JavaScript 转换函数
🚀自动格式检测	根据文件扩展名自动检测 JSON/JSONL 格式
🌐代理支持	内置 CoreClaw 云环境代理配置
💾状态持久化	自动保存处理状态，支持中断恢复
🔍重复项检测	单独查找并输出重复项

🚀 快速开始

bash

npm install
npm start

📋 输入参数

平台兼容说明

CoreClaw 要求 b 字段必须绑定到 array 类型参数。这个 worker 当前将 b 绑定到内部占位字段 runUnits，以确保平台 UI 能稳定加载，同时避免按业务字段错误拆分去重任务。

发布到 CoreClaw 时不要移除 runUnits
runUnits 仅用于平台兼容，不参与业务去重逻辑
实际用于去重的仍然是 fields

必填参数

参数	类型	说明
`fields`	array	用于去重的字段列表（如 `["productId", "sku"]`）

数据来源参数（三选一）

参数	类型	说明
`dataSourceType`	string	数据来源类型：`"direct-input"`、`"network-url"` 或 `"core-dataset"`
`inputData`	string	JSON 数组数据（当 `dataSourceType="direct-input"` 时）
`inputUrls`	array	数据文件 URL 列表（当 `dataSourceType="network-url"` 时）
`datasetIds`	array	Core Dataset ID 列表（当 `dataSourceType="core-dataset"` 时）

可选参数

参数	类型	默认值	说明
`inputFormat`	string	`"json"`	文件格式:`json` 或 `jsonl`（根据扩展名自动检测）
`output`	string	`"unique-items"`	输出类型:`unique-items`、`duplicate-items` 或 `nothing`
`mode`	string	`"dedup-after-load"`	处理模式
`fieldsToLoad`	array	`[]`	仅加载指定字段以节省内存
`preDedupTransformFunction`	string	`""`	去重前的数据转换函数
`postDedupTransformFunction`	string	`""`	去重后的数据转换函数
`customInputData`	string	`""`	传递给转换函数的自定义数据对象（JSON格式）
`nullAsUnique`	boolean	`false`	将 null/undefined 值视为唯一值
`parallelLoads`	integer	`10`	并行加载文件数 (1-100)
`parallelPushes`	integer	`5`	并行推送数据数 (1-50)
`batchSize`	integer	`5000`	批处理大小 (100-50000)
`appendFileSource`	boolean	`false`	添加 `__fileSource__` 字段记录文件来源
`verboseLog`	boolean	`false`	启用详细日志

💡 使用示例

示例 1: 电商产品去重（复合键）

按 productId + sku 组合去重 — 同一产品不同 SKU 保留为唯一项。

json

{
  "dataSourceType": "direct-input",
  "inputData": "[{\"productId\":\"SKU-1001\",\"sku\":\"A-BLACK\",\"name\":\"Wireless Earbuds Pro\",\"price\":79.99,\"category\":\"Electronics\",\"rating\":4.8},{\"productId\":\"SKU-1001\",\"sku\":\"A-WHITE\",\"name\":\"Wireless Earbuds Pro\",\"price\":79.99,\"category\":\"Electronics\",\"rating\":4.8},{\"productId\":\"SKU-1001\",\"sku\":\"A-BLACK\",\"name\":\"Wireless Earbuds Pro (重复)\",\"price\":69.99,\"category\":\"Electronics\",\"rating\":4.5}]",
  "fields": ["productId", "sku"]
}

结果： 2个唯一项 — 第三条（相同 productId+sku）被去重。

示例 2: 多源合并 + 转换管道

从多个 URL 合并产品目录，去重前过滤无效数据，去重后添加元数据。

json

{
  "dataSourceType": "network-url",
  "inputUrls": [
    { "url": "https://api.example.com/catalog/electronics.json" },
    { "url": "https://api.example.com/catalog/wearables.json" },
    { "url": "https://api.example.com/catalog/audio.jsonl" }
  ],
  "inputFormat": "json",
  "fields": ["productId", "sku"],
  "preDedupTransformFunction": "async (items, customData) => {\n  return items\n    .filter(item => item.price >= customData.minPrice && item.stock > 0)\n    .map(item => ({...item, price: Math.round(item.price * 100) / 100}));\n}",
  "postDedupTransformFunction": "async (items) => {\n  const ts = new Date().toISOString();\n  return items.map(item => ({...item, mergedAt: ts, source: 'catalog-merge'}));\n}",
  "customInputData": "{\"minPrice\": 10}",
  "appendFileSource": true,
  "verboseLog": true
}

管道： 加载3源 → 按 minPrice&stock 过滤 → 价格取整 → 按 productId+sku 去重 → 添加 mergedAt 时间戳 → 输出

示例 3: Core Dataset 跨源去重

跨多个 Core Dataset 去重，找出唯一条目。

json

{
  "dataSourceType": "core-dataset",
  "datasetIds": ["ds-product-crawl-a", "ds-product-crawl-b", "ds-supplier-feed"],
  "fields": ["productId", "sku"],
  "mode": "dedup-as-loading",
  "batchSize": 10000,
  "fieldsToLoad": ["productId", "sku", "name", "price", "stock"],
  "appendFileSource": true
}

示例 4: 大规模流式去重（>10万条）

json

{
  "dataSourceType": "network-url",
  "inputUrls": [{ "url": "https://data.example.com/full-catalog.jsonl" }],
  "inputFormat": "jsonl",
  "fields": ["productId", "sku"],
  "mode": "dedup-as-loading",
  "batchSize": 10000,
  "fieldsToLoad": ["productId", "sku", "name", "price"],
  "verboseLog": true
}

示例 5: 重复项检测与分析

查找所有重复条目，用于数据质量审计。

json

{
  "dataSourceType": "direct-input",
  "inputData": "[{\"productId\":\"SKU-1001\",\"sku\":\"A-BLACK\",\"name\":\"Earbuds\"},{\"productId\":\"SKU-1001\",\"sku\":\"A-BLACK\",\"name\":\"Earbuds Pro\"},{\"productId\":\"SKU-1002\",\"sku\":\"B-WHITE\",\"name\":\"Watch\"}]",
  "fields": ["productId", "sku"],
  "output": "duplicate-items"
}

结果： 1个重复项（第二个 SKU-1001/A-BLACK 条目）

📊 性能指南

数据量	推荐模式	内存	速度
< 1万条	`先加载后去重`	低	快
1万-10万条	`先加载后去重`	中	快
10万-100万条	`边加载边去重`	低	中
> 100万条	`边加载边去重`	低	慢

🔧 优化技巧

仅加载必要字段: 使用 fieldsToLoad 参数
使用 JSONL 格式: 比 JSON 更省内存
调整批次大小: 根据内存情况调整 batchSize
开启并行加载: 增加 parallelLoads 加快处理
文件格式自动检测: Worker 会根据 .jsonl 扩展名自动识别格式

🐛 故障排查

问题	解决方案
`JavaScript heap out of memory`	切换到 `边加载边去重` 模式，减小 `batchSize`，使用 `fieldsToLoad`，使用 JSONL 格式
所有项都被判定为唯一	检查字段名是否正确，启用 `verboseLog: true`，确认数据中包含该字段