Dedup Datasets Worker 是企业级数据集合并和去重工具,支持从多种数据源加载数据并基于字段组合去重。针对 CoreClaw 平台全面优化。
| 特性 | 说明 |
|---|---|
| 📦多源合并 | 从直接输入、URL 或 Core Dataset 加载并合并数据 |
| 🎯复合键去重 | 基于多字段组合去重(如 productId + sku) |
| 🔄双处理模式 | 先加载后去重(保持顺序)或 边加载边去重(流式处理) |
| 🔧自定义转换 | 去重前/后的 JavaScript 转换函数 |
| 🚀自动格式检测 | 根据文件扩展名自动检测 JSON/JSONL 格式 |
| 🌐代理支持 | 内置 CoreClaw 云环境代理配置 |
| 💾状态持久化 | 自动保存处理状态,支持中断恢复 |
| 🔍重复项检测 | 单独查找并输出重复项 |
CoreClaw 要求 b 字段必须绑定到 array 类型参数。这个 worker 当前将 b 绑定到内部占位字段 runUnits,以确保平台 UI 能稳定加载,同时避免按业务字段错误拆分去重任务。
runUnitsrunUnits 仅用于平台兼容,不参与业务去重逻辑fields| 参数 | 类型 | 说明 |
|---|---|---|
fields | array | 用于去重的字段列表(如 ["productId", "sku"]) |
| 参数 | 类型 | 说明 |
|---|---|---|
dataSourceType | string | 数据来源类型:"direct-input"、"network-url" 或 "core-dataset" |
inputData | string | JSON 数组数据(当 dataSourceType="direct-input" 时) |
inputUrls | array | 数据文件 URL 列表(当 dataSourceType="network-url" 时) |
datasetIds | array | Core Dataset ID 列表(当 dataSourceType="core-dataset" 时) |
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
inputFormat | string | "json" | 文件格式:json 或 jsonl(根据扩展名自动检测) |
output | string | "unique-items" | 输出类型:unique-items、duplicate-items 或 nothing |
mode | string | "dedup-after-load" | 处理模式 |
fieldsToLoad | array | [] | 仅加载指定字段以节省内存 |
preDedupTransformFunction | string | "" | 去重前的数据转换函数 |
postDedupTransformFunction | string | "" | 去重后的数据转换函数 |
customInputData | string | "" | 传递给转换函数的自定义数据对象(JSON格式) |
nullAsUnique | boolean | false | 将 null/undefined 值视为唯一值 |
parallelLoads | integer | 10 | 并行加载文件数 (1-100) |
parallelPushes | integer | 5 | 并行推送数据数 (1-50) |
batchSize | integer | 5000 | 批处理大小 (100-50000) |
appendFileSource | boolean | false | 添加 __fileSource__ 字段记录文件来源 |
verboseLog | boolean | false | 启用详细日志 |
按 productId + sku 组合去重 — 同一产品不同 SKU 保留为唯一项。
结果: 2个唯一项 — 第三条(相同 productId+sku)被去重。
从多个 URL 合并产品目录,去重前过滤无效数据,去重后添加元数据。
管道: 加载3源 → 按 minPrice&stock 过滤 → 价格取整 → 按 productId+sku 去重 → 添加 mergedAt 时间戳 → 输出
跨多个 Core Dataset 去重,找出唯一条目。
查找所有重复条目,用于数据质量审计。
结果: 1个重复项(第二个 SKU-1001/A-BLACK 条目)
| 数据量 | 推荐模式 | 内存 | 速度 |
|---|---|---|---|
| < 1万条 | 先加载后去重 | 低 | 快 |
| 1万-10万条 | 先加载后去重 | 中 | 快 |
| 10万-100万条 | 边加载边去重 | 低 | 中 |
| > 100万条 | 边加载边去重 | 低 | 慢 |
fieldsToLoad 参数batchSizeparallelLoads 加快处理.jsonl 扩展名自动识别格式| 问题 | 解决方案 |
|---|---|
JavaScript heap out of memory | 切换到 边加载边去重 模式,减小 batchSize,使用 fieldsToLoad,使用 JSONL 格式 |
| 所有项都被判定为唯一 | 检查字段名是否正确,启用 verboseLog: true,确认数据中包含该字段 |
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Odin Kael
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。