

提取 TikTok 数据,包括个人资料、视频、话题标签、搜索结果、粉丝列表、关注列表和评论。数据来自 10 个不同行业的 50+ 位已验证 TikTok 真实创作者。
它是一个基于 CoreClaw Worker 规范的 TikTok 数据采集项目。
它通过远程浏览器连接抓取 TikTok 数据,支持四种采集模式:
authorvideosearchtagWorker 由 main.py 统一入口调度,按顺序处理任务。每个任务会根据 collection_type 分发到对应采集模块,采集结果经标准化后通过 CoreSDK.Result.push_data() 输出到平台。
| 模式 | 说明 | 输入示例 |
|---|---|---|
author | 采集作者主页信息 | bellapoarch、@bellapoarch、https://www.tiktok.com/@bellapoarch |
video | 采集视频详情信息 | https://www.tiktok.com/@user/video/1234567890 |
search | 采集用户搜索结果 | apple |
tag | 采集标签页结果 | fyp |
Worker 通过 CoreSDK.Parameter.get_input_json_dict() 读取平台输入。
| 参数 | 类型 | 是否必填 | 默认值 | 说明 |
|---|---|---|---|---|
collection_type | string | 必填 | author | 采集模式,可选:author / video / search / tag |
targets | array | 必填 | - | 采集目标列表,按模式输入关键词、用户名或 URL |
max_results | integer | 可选 | 10 | search 和 tag 模式最大返回条数 |
retry_times | integer | 可选 | 3 | 可重试错误的最大重试次数 |
retry_delay_seconds | number | 可选 | 1 | 重试间隔秒数 |
page_timeout_ms | integer | 可选 | 180000 | 页面超时时间,单位毫秒 |
wait_after_load_ms | integer | 可选 | 3000 | 页面加载后额外等待时间,单位毫秒 |
用户搜索
标签采集
作者采集
视频采集
当前 Worker 采用四种模式共用的超集输出结构。主要输出字段包括:
input_typeinput_valueurlprofile_urltitledescentity_idvideo_idauthor_idusernamenicknametagcreate_timedurationplay_countdigg_countcomment_countshare_countcollect_countverifiedsignatureavatar_urloriginal_avatar_urlprivate_accountfollowing_countfriends_countfans_countheart_countvideo_countmusic_namemusic_authormusic_idmusic_play_urlcover_urlwidthheightstatuserrordata_jsonmax_results 在 main.py 中统一生效:
search:最多返回 max_results 条tag:最多返回 max_results 条author:不限制结果条数video:不限制结果条数未显式传入时,默认值为 10。
本 Worker 依赖远程浏览器连接,支持以下环境变量:
| 环境变量 | 是否必填 | 默认值 | 说明 |
|---|---|---|---|
BROWSER_WS | 可选 | 无 | 若配置,优先使用该 WebSocket 地址直接连接浏览器 |
ChromeWs | 可选 | chrome-ws-inner.coreclaw.com | 浏览器主机地址 |
PROXY_AUTH | 可选 | 无 | 浏览器连接认证信息 |
PROXY_DOMAIN | 可选 | 无 | 当前主要用于日志记录 |
浏览器连接地址的生成规则如下:
BROWSER_WS,直接使用该值;PROXY_AUTH,生成地址为 ws://{PROXY_AUTH}@{ChromeWs};ws://{ChromeWs}。normalize_request_items() 会将平台输入统一转换为内部任务结构:
Worker 按顺序逐条处理采集任务,不并发执行。
run() 会遍历归一化后的任务列表,依次调用 process_item() 进行采集。
Worker 仅对可识别的网络类错误执行重试,典型错误关键字包括:
network is unreachablefailed to establish a new connectionmax retries exceededname or service not knowntemporary failure in name resolutionconnection refusedconnection timed outread timed outtimeout 30000ms exceededtimeout 180000ms exceededtarget page, context or browser has been closedbrowser closedwebsocketsocket hang upsearch 模式会自动将关键词转换为搜索 URL;tag 模式会自动将标签词转换为标签页 URL;rep_search.py 内包含验证码处理逻辑;CoreClaw CLI 或平台上传当前 Worker;targets 中输入用户名、视频 URL、搜索词或标签词;探索商店中更多热门采集工具
by CoreClaw
TikTok批量视频抓取工具能够高效获取TikTok平台指定帖子的完整数据,并将其转化为可深度分析的结构化信息。用户只需输入简单信息,即可快速获取包括视频内容、互动指标、传播效果、音轨信息在内的多维数据。该工具都能帮助企业为内容创作和营销决策提供可靠的数据支撑。
by CoreClaw
利用搜索 URL 提取 TikTok 创作者公开主页数据,包括个人简介、粉丝数量、内容表现与互动指标,且不受平台 API 限制。支持数据导出、API 调用及第三方集成。
by CoreClaw
通过输入视频URL,批量提取公开的TikTok视频评论数据,包括评论内容、用户信息、点赞数、回复列表等,输出CSV或JSON格式。支持舆情分析、用户洞察,零代码操作,一键导出结构化数据。
by CoreClaw
通过输入URL,批量提取公开的TikTok创作者主页数据,包括简介、粉丝数、内容表现、互动指标等,输出CSV或JSON格式。支持用户分析、营销决策,零代码操作,一键导出结构化数据。