CoreClaw
商店
定价
开始免费试用
Kael Odin

数据集合并和去重工具

定价
Try for free
Kael Odin

数据集合并和去重工具

odin-kael/dataset-deduplication-and-merge-tool

数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。

免费试用
免费 2,000 条结果
运行占位 | Run Unit必填

CoreClaw 并发占位字段,请保持默认值 | Internal single-run placeholder for CoreClaw

类型: array
应用场景 | Scenario可选

选择预设场景自动填充最佳配置 | Select preset scenario

类型: select
默认: ecommerce-products
选项:
🛒 电商商品数据合并🕷️ 爬虫结果清洗👥 用户数据整合📋 日志事件去重⚙️ 自定义场景
去重字段 | Dedup Fields必填

用于判断重复的字段名称列表 | Field names for deduplication

类型: array
合并策略 | Merge Strategy可选

重复数据合并策略 | Strategy for merging duplicates

类型: select
默认: keep-newest
选项:
保留第一条 | Keep First保留最新 | Keep Newest字段合并 | Merge Fields保留最完整 | Keep Most Complete
时间字段 | Timestamp Field可选

用于判断新旧的时间字段(keep-newest策略) | Timestamp field for keep-newest

类型: string
默认: updatedAt
数据来源类型 | Data Source Type可选

选择数据来源 | Select data source

类型: select
默认: direct-input
选项:
直接输入 | Direct Input网络URL | Network URLCore Dataset
输入数据 | Input Data可选

JSON数组数据 | JSON array data

类型: string
默认: [{"productId": "P001", "sku": "SKU-A-BLACK", "name": "无线蓝牙耳机 Pro", "price": 299.00, "stock": 156, "source": "京东旗舰店", "updatedAt": "2024-01-20T10:30:00"}, {"productId": "P001", "sku": "SKU-A-BLACK", "name": "无线蓝牙耳机 Pro (黑)", "price": 279.00, "stock": 200, "source": "天猫旗舰店", "updatedAt": "2024-01-22T14:20:00"}, {"productId": "P001", "sku": "SKU-A-WHITE", "name": "无线蓝牙耳机 Pro", "price": 299.00, "stock": 88, "source": "京东旗舰店", "updatedAt": "2024-01-20T10:30:00"}, {"productId": "P002", "sku": "SKU-B", "name": "智能手表 Ultra", "price": 1299.00, "stock": 45, "source": "官网", "updatedAt": "2024-01-18T09:00:00"}]
数据URL列表 | Data URLs可选

数据文件URL列表 | Data file URL list

类型: array
Dataset ID列表 | Dataset IDs可选

Core Dataset ID列表 | Core Dataset ID list

类型: array
输入文件格式 | Input Format可选

输入数据格式 | Input data format

类型: select
默认: json
选项:
JSON (数组格式 | Array)JSONL (每行一个JSON)
输出内容 | Output Content可选

输出类型 | Output type

类型: select
默认: unique-items
选项:
唯一项(去重后) | Unique Items重复项 | Duplicate Items仅统计 | Statistics Only
生成差异报告 | Generate Report可选

输出去重差异报告 | Output dedup difference report

类型: boolean
默认: true
处理模式 | Processing Mode可选

去重处理模式 | Dedup mode. Large datasets (>100K) use 'As Loading'

类型: select
默认: dedup-after-load
选项:
先加载后去重 | After Load边加载边去重 | As Loading
仅加载指定字段 | Load Fields Only可选

仅加载指定字段以减少内存 | Load only specified fields

类型: array
去重前转换函数 | Pre-Dedup Transform可选

去重前自定义转换函数 | Custom transform function before dedup

类型: string
去重后转换函数 | Post-Dedup Transform可选

去重后自定义转换函数 | Custom transform function after dedup

类型: string
自定义输入数据 | Custom Input Data可选

传递给转换函数的自定义数据(JSON格式) | Custom data for transform functions (JSON)

类型: string
Null值视为唯一 | Treat Null as Unique可选

null/undefined值视为唯一值 | Treat null/undefined as unique

类型: boolean
默认: false
并行加载数 | Parallel Loads可选

并行加载数据源的线程数 | Parallel load threads

类型: integer
默认: 10
并行推送数 | Parallel Pushes可选

并行推送数据的线程数 | Parallel push threads

类型: integer
默认: 5
批次大小 | Batch Size可选

每次处理的批次大小 | Batch size per processing

类型: integer
默认: 5000
附加文件来源 | Append File Source可选

添加__fileSource__字段记录数据来源 | Add fileSource field

类型: boolean
默认: false
详细日志 | Verbose Log可选

开启详细日志输出 | Enable verbose logging

类型: boolean
默认: false

定价

失败结果不计费

用户评分

5.0

开发者

Kael Odin

Worker 数据

15次 累计运行
成功率:86.67%
最后更新时间:2026.04.20

分类

Google

分享

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具
谷歌搜索结果(SERP)抓取API

谷歌搜索结果(SERP)抓取API

by CoreClaw

通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。

4.8
590 次运行
低至 $1.2/1,000 结果
Google Sheets 导入导出工具

Google Sheets 导入导出工具

by Kael Odin

一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。

5.0
2 次运行
低至 $1.2/1,000 结果
Cheerio网页抓取

Cheerio网页抓取

by Kael Odin

一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。

5.0
3 次运行
低至 $1.2/1,000 结果
Playwright 网页抓取

Playwright 网页抓取

by Kael Odin

一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。

5.0
4 次运行
低至 $1.2/1,000 结果
查看全部采集工具
CoreClaw

通过开箱即用的 Worker,快速搭建您的数据采集工作流。

邮箱:support@coreclaw.com

资源中心

  • 快速开始
  • API 参考
  • 销售线索
  • 联盟计划

推荐

  • 商店
  • 定价

地址

頂點數創有限公司

香港九龍大角咀通州街111號雲之端1樓9室