CoreClaw
商店
定价
开始免费试用
Techforce Global

TikTok 数据提取器

定价
Try for free
Techforce Global

TikTok 数据提取器

q9w5f5h8/tiktok-data-extractor

提取 TikTok 数据,包括个人资料、视频、话题标签、搜索结果、粉丝列表、关注列表和评论。数据来自 10 个不同行业的 50+ 位已验证 TikTok 真实创作者。

免费试用
免费 2,000 条结果

TikTok 多模式采集 Worker

项目简介

它是一个基于 CoreClaw Worker 规范的 TikTok 数据采集项目。

它通过远程浏览器连接抓取 TikTok 数据,支持四种采集模式:

  • author
  • video
  • search
  • tag

Worker 由 main.py 统一入口调度,按顺序处理任务。每个任务会根据 collection_type 分发到对应采集模块,采集结果经标准化后通过 CoreSDK.Result.push_data() 输出到平台。

项目结构

text
main.py                 # 主入口:参数读取、模式分发、重试、限量与结果推送
rep_author.py           # 作者主页采集
rep_video.py            # 视频详情采集
rep_search.py           # 用户搜索采集,含验证码处理
rep_tag.py              # 标签页采集
input_schema.json       # 平台输入参数定义
output_schema.json      # 平台输出字段定义
sdk.py                  # CoreClaw SDK 主模块
sdk_pb2.py              # protobuf 生成文件
sdk_pb2_grpc.py         # gRPC 生成文件
requirements.txt        # Python 依赖清单

采集模式说明

模式说明输入示例
author采集作者主页信息bellapoarch、@bellapoarch、https://www.tiktok.com/@bellapoarch
video采集视频详情信息https://www.tiktok.com/@user/video/1234567890
search采集用户搜索结果apple
tag采集标签页结果fyp

输入参数

Worker 通过 CoreSDK.Parameter.get_input_json_dict() 读取平台输入。

参数类型是否必填默认值说明
collection_typestring必填author采集模式,可选:author / video / search / tag
targetsarray必填-采集目标列表,按模式输入关键词、用户名或 URL
max_resultsinteger可选10search 和 tag 模式最大返回条数
retry_timesinteger可选3可重试错误的最大重试次数
retry_delay_secondsnumber可选1重试间隔秒数
page_timeout_msinteger可选180000页面超时时间,单位毫秒
wait_after_load_msinteger可选3000页面加载后额外等待时间,单位毫秒

请求示例

用户搜索

json
{
  "collection_type": "search",
  "targets": [
    { "string": "apple" }
  ],
  "max_results": 10
}

标签采集

json
{
  "collection_type": "tag",
  "targets": [
    { "string": "fyp" }
  ],
  "max_results": 10
}

作者采集

json
{
  "collection_type": "author",
  "targets": [
    { "string": "bellapoarch" }
  ]
}

视频采集

json
{
  "collection_type": "video",
  "targets": [
    { "string": "https://www.tiktok.com/@user/video/1234567890" }
  ]
}

输出字段

当前 Worker 采用四种模式共用的超集输出结构。主要输出字段包括:

  • input_type
  • input_value
  • url
  • profile_url
  • title
  • desc
  • entity_id
  • video_id
  • author_id
  • username
  • nickname
  • tag
  • create_time
  • duration
  • play_count
  • digg_count
  • comment_count
  • share_count
  • collect_count
  • verified
  • signature
  • avatar_url
  • original_avatar_url
  • private_account
  • following_count
  • friends_count
  • fans_count
  • heart_count
  • video_count
  • music_name
  • music_author
  • music_id
  • music_play_url
  • cover_url
  • width
  • height
  • status
  • error
  • data_json

结果条数限制规则

max_results 在 main.py 中统一生效:

  • search:最多返回 max_results 条
  • tag:最多返回 max_results 条
  • author:不限制结果条数
  • video:不限制结果条数

未显式传入时,默认值为 10。

环境变量

本 Worker 依赖远程浏览器连接,支持以下环境变量:

环境变量是否必填默认值说明
BROWSER_WS可选无若配置,优先使用该 WebSocket 地址直接连接浏览器
ChromeWs可选chrome-ws-inner.coreclaw.com浏览器主机地址
PROXY_AUTH可选无浏览器连接认证信息
PROXY_DOMAIN可选无当前主要用于日志记录

浏览器连接地址的生成规则如下:

  1. 若设置了 BROWSER_WS,直接使用该值;
  2. 否则,若设置了 PROXY_AUTH,生成地址为 ws://{PROXY_AUTH}@{ChromeWs};
  3. 若两者均未设置,则生成地址为 ws://{ChromeWs}。

处理流程

1. 输入归一化

normalize_request_items() 会将平台输入统一转换为内部任务结构:

json
{
  "input_type": "search",
  "input_value": "apple"
}

2. 顺序执行

Worker 按顺序逐条处理采集任务,不并发执行。

run() 会遍历归一化后的任务列表,依次调用 process_item() 进行采集。

3. 重试机制

Worker 仅对可识别的网络类错误执行重试,典型错误关键字包括:

  • network is unreachable
  • failed to establish a new connection
  • max retries exceeded
  • name or service not known
  • temporary failure in name resolution
  • connection refused
  • connection timed out
  • read timed out
  • timeout 30000ms exceeded
  • timeout 180000ms exceeded
  • target page, context or browser has been closed
  • browser closed
  • websocket
  • socket hang up

当前实现说明

  • 四种采集模式共用同一套输出字段结构;
  • search 模式会自动将关键词转换为搜索 URL;
  • tag 模式会自动将标签词转换为标签页 URL;
  • rep_search.py 内包含验证码处理逻辑;
  • 当前版本优先保证结构完整与输出稳定,便于接入平台标准化流程。

快速上手

  1. 通过 CoreClaw CLI 或平台上传当前 Worker;
  2. 在平台选择采集模式;
  3. 在 targets 中输入用户名、视频 URL、搜索词或标签词;
  4. 执行任务并获取标准化结果。

定价

失败结果不计费

用户评分

5.0

开发者

Techforce Global

Worker 数据

22次 累计运行
成功率:100.00%
最后更新时间:2026.06.17

分类

社媒TikTok

分享

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具
TikTok 批量视频抓取

TikTok 批量视频抓取

by CoreClaw

TikTok批量视频抓取工具能够高效获取TikTok平台指定帖子的完整数据,并将其转化为可深度分析的结构化信息。用户只需输入简单信息,即可快速获取包括视频内容、互动指标、传播效果、音轨信息在内的多维数据。该工具都能帮助企业为内容创作和营销决策提供可靠的数据支撑。

4.8
31 次运行
低至 $2.7/1,000 结果
TikTok 个人资料抓取(by search URL )

TikTok 个人资料抓取(by search URL )

by CoreClaw

利用搜索 URL 提取 TikTok 创作者公开主页数据,包括个人简介、粉丝数量、内容表现与互动指标,且不受平台 API 限制。支持数据导出、API 调用及第三方集成。

4.6
29 次运行
低至 $2.7/1,000 结果
TikTok 评论抓取工具(by posts URL)

TikTok 评论抓取工具(by posts URL)

by CoreClaw

通过输入视频URL,批量提取公开的TikTok视频评论数据,包括评论内容、用户信息、点赞数、回复列表等,输出CSV或JSON格式。支持舆情分析、用户洞察,零代码操作,一键导出结构化数据。

4.4
28 次运行
低至 $2.7/1,000 结果
TikTok 个人资料抓取工具(by URL)

TikTok 个人资料抓取工具(by URL)

by CoreClaw

通过输入URL,批量提取公开的TikTok创作者主页数据,包括简介、粉丝数、内容表现、互动指标等,输出CSV或JSON格式。支持用户分析、营销决策,零代码操作,一键导出结构化数据。

4.3
25 次运行
低至 $2.7/1,000 结果
查看全部采集工具
CoreClaw

通过开箱即用的 Worker,快速搭建您的数据采集工作流。

邮箱:support@coreclaw.com

资源中心

  • 快速开始
  • API 参考
  • 销售线索
  • 联盟计划

推荐

  • 商店
  • 定价

地址

頂點數創有限公司

香港九龍大角咀通州街111號雲之端1樓9室