CoreClaw
商店
定价
开始免费试用
yankun guo

SHEIN 产品发现与数据提取解决方案

定价
Try for free
yankun guo

SHEIN 产品发现与数据提取解决方案

yankun-guo/shein_keyword

一款高性能工具,支持关键词、分类 URL、分类 ID 三种输入模式,可自动发现、解析并提取结构化的 SHEIN 产品数据;适配美、英、德、法等多区域站点,支持自定义排序规则,能解析价格、评分、销量、营销徽章等核心属性,适用于价格跟踪、竞品调研、趋势分析等场景。

免费试用
免费 2,000 条结果

SHEIN 商品发现

项目概述

本项目支持 3 种 SHEIN 商品发现模式:

  • shein_products_by-keyword
  • shein_products_by-category-url
  • shein_products_by-category-id

Worker 会根据输入模式打开对应的 SHEIN 页面,自动尝试通过 SHEIN 风控验证,解析商品列表,并返回结构化商品数据。

适用场景包括:

  • 按关键词发现商品
  • 按类目落地页发现商品
  • 按类目 ID 发现商品
  • 列表页监控
  • 价格跟踪
  • 竞品调研
  • 趋势与标签分析

发现模式

1. shein_products_by-keyword

通过关键词组装 SHEIN 搜索 URL:

text
https://{country}.shein.com/pdsearch/{keyword}/?sort=...&page=...&limit=...

2. shein_products_by-category-url

直接使用完整类目 URL,再拼接公共查询参数:

text
{category_url}?sort=...&page=...&limit=...

3. shein_products_by-category-id

通过类目 ID 组装类目页 URL:

text
https://{country}.shein.com/{category_id}.html?sort=...&page=...&limit=...

执行流程

  1. 从输入参数中读取 type 和 value。
  2. 根据所选模式组装目标 SHEIN URL。
  3. 通过 ChromeWs 连接远程 Chromium 浏览器。
  4. 打开 SHEIN 页面,并在需要时自动尝试通过 SHEIN 风控验证。
  5. 等待页面真正进入商品列表状态。
  6. 解析商品卡片。
  7. 输出标准化商品数组。

运行依赖

项目依赖:

  • playwright
  • selectolax
  • httpx
  • grpcio
  • protobuf

运行时会读取以下环境变量:

  • ChromeWs:必填,远程 Chromium 的 CDP WebSocket 地址
  • PROXY_AUTH:可选,用于拼接 WebSocket 认证信息

如果没有提供 ChromeWs,Worker 会直接返回失败结果。

输入参数

输入 schema 见 input_schema.json。

请求示例

json
{
  "type": "shein_products_by-keyword",
  "value": "dress",
  "country": "us",
  "sort": "recommend",
  "page": 1,
  "limit": 20,
  "flow_retry_num": 3
}

参数说明

参数类型必填说明
typestring是发现模式,可选 shein_products_by-keyword、shein_products_by-category-url、shein_products_by-category-id。
valuestring是当前模式对应的输入值。可以是关键词、完整类目 URL 或类目 ID。
flow_retry_numinteger否整个浏览器流程的重试次数,默认 3。
countrystring否SHEIN 站点区域。关键词模式和类目 ID 模式会使用该参数,默认 us。
sortstring否列表页排序方式,默认 recommend。
pageinteger否页码,从 1 开始,默认 1。
limitinteger否每页请求商品数量,默认 20。

支持的国家站点

值站点
us美国
uk英国
de德国
fr法国
it意大利
es西班牙
ca加拿大
au澳大利亚
mx墨西哥
jp日本

排序选项

当前代码中的排序映射如下:

值说明SHEIN sort 参数
recommend推荐不传 sort 参数
most_popular最受欢迎8
new_arrivals新品9
top_rated高评分7
price_low价格从低到高10
price_high价格从高到低11

输出结构

输出 schema 见 output_schema.json。

返回示例

json
{
  "type": "shein_products_by-keyword",
  "url": "https://us.shein.com/pdsearch/dress/?source=sort&sourceStatus=4&page=1&force_suggest=1&limit=20",
  "code": 1,
  "count": 20,
  "products": [
    {
      "goods_id": "123456789",
      "product_url": "https://us.shein.com/example-p-123456789.html",
      "title": "Mock Neck Bodycon Dress",
      "main_image": "https://img.ltwebstatic.com/...",
      "price": 7.51,
      "price_usd": 7.51,
      "currency": "USD",
      "original_price": 17.18,
      "original_price_usd": 17.18,
      "discount_percent": 56,
      "rating": 4.5,
      "reviews_count": 1300,
      "position": 1,
      "sold_count": 1500,
      "is_local": true,
      "is_trending": false,
      "free_shipping": true,
      "quick_ship": true,
      "badges": [
        "Bestseller",
        "#1"
      ],
      "color_count": 12
    }
  ],
  "error": "",
  "error_code": ""
}

顶层返回字段

字段类型说明
typestring当前执行所使用的发现模式。
urlstringWorker 实际打开的 SHEIN URL。
codenumber1 表示成功,0 表示失败。
countnumber解析出的商品数量。
productsarray商品列表。
errorstring失败时的错误信息,成功时为空字符串。
error_codestring失败时的错误码,成功时为空字符串。

商品字段说明

products 数组中的每一项对应页面中的一个商品卡片。

字段类型字段说明页面对应位置 / 解析来源
goods_idstringSHEIN 商品唯一标识。优先取 data-id,如果没有则从商品 URL 末尾的 -p-<id>.html 解析。
product_urlstring商品详情完整 URL。商品卡片点击跳转链接。
titlestring商品列表中显示的标题。商品卡片标题文本,或回退使用 data-title / 图片 alt / aria-label。
main_imagestring主图 URL。商品卡片主缩略图。
pricenumber 或 null当前售价,本地币种。来自卡片属性或可见销售价文本。
price_usdnumber 或 null当前美元售价。来自卡片属性。
currencystring币种代码,如 USD、GBP、EUR。根据可见价格中的货币符号推断。
original_pricenumber 或 null折前原价 / 划线价,本地币种。商品卡片划线价。
original_price_usdnumber 或 null折前美元原价。来自卡片属性。
discount_percentnumber 或 null折扣百分比。来自折扣标签属性。
ratingnumber 或 null商品平均评分,范围 0-5。价格下方评分区域。
reviews_countnumber 或 null评论总数。评分旁边的评论数。
positionnumber当前结果页中的排序位置,从 1 开始。商品卡片在解析网格中的顺序。
sold_countnumber 或 null销量估算。销量文案,例如 200+ sold、1.5k+ sold。
is_localboolean是否本地仓 / 本地发货。根据本地标签或本地属性判断。
is_trendingboolean是否趋势商品。根据趋势属性判断。
free_shippingboolean是否显示包邮。通过商品卡片全文本判断。
quick_shipboolean是否支持 QuickShip。根据 QuickShip 属性或可见文案判断。
badgesarray营销标签或排名标签数组。例如 BIG DEALS、Bestseller、#1 等标签。
color_countnumber 或 null可选颜色数量。商品卡片颜色数量区域。

字段可用性说明

  • 并不是每个商品卡片都会包含全部字段。
  • price_usd 和 original_price_usd 依赖 SHEIN 是否在卡片属性中提供美元价格。
  • original_price、discount_percent、rating、reviews_count、sold_count、color_count 在页面未展示时可能为 null。
  • badges 可能为空数组。

错误码

错误码说明
400输入参数无效或缺少必填参数。
500内部执行异常。
BROWSER_CONNECT_FAILED连接远程 Chromium 失败。
PAGE_OPEN_FAILED打开 SHEIN 页面失败。
SHEIN_VERIFY_FAILED出现 SHEIN 验证且未能通过。
PRODUCT_LIST_NOT_FOUND页面中未找到商品列表容器。
PRODUCT_EXTRACT_FAILED页面已打开,但商品解析失败。

重要说明

  • shein_products_by-category-url 会直接使用输入的类目 URL,再拼接 Worker 自己的查询参数。
  • shein_products_by-category-id 会按 https://{country}.shein.com/{category_id}.html 组装类目页地址。
  • 当前解析器在商品详情链接为相对路径时,仍然会使用 https://us.shein.com 做补全。
  • 文档字段口径以 main.py 的当前实现为准。

定价

失败结果不计费

用户评分

4.7

开发者

yankun guo

Worker 数据

176次 累计运行
成功率:99.43%
最后更新时间:2026.06.08

分类

其他

分享

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具
Quince.com产品数据抓取工具 —— 价格、折扣、评论及更多信息

Quince.com产品数据抓取工具 —— 价格、折扣、评论及更多信息

by Techforce Global

只需搜索产品,即可获取每件商品的售价、原价、折扣力度、产品主图以及最新的客户评论,所有数据可直接导入您的电子表格、仪表盘或商业智能工具。Quince.com产品数据抓取工具能在短短几分钟内,将整个商品目录转化为整洁、结构化的产品数据。

4.9
12 次运行
低至 $1.5/结果
SHEIN 产品详情提取工具(URL 与 ID 双模式)

SHEIN 产品详情提取工具(URL 与 ID 双模式)

by yankun guo

一款专用于 SHEIN 单个商品详情数据提取的工具,支持产品 URL 和商品 ID 两种输入方式。通过连接远程 Chromium 实例自动绕过 SHEIN 风险验证,加载目标商品页面并解析完整产品属性,返回标准化的结构化数据。适配全球 10 + 区域站点,支持自定义工作流重试次数,适用于商品信息监控、价格跟踪、竞品调研及趋势分析等场景。

4.7
46 次运行
低至 $1.5/结果
Perplexity AI 回答来源抓取工具

Perplexity AI 回答来源抓取工具

by yankun guo

输入问题或链接,无需代码即可提取Perplexity AI的完整回答及引用来源,以HTML格式导出,适用于学术研究、事实核查与内容分析。

4.6
294 次运行
低至 $1.5/结果
ChatGPT 答案抓取工具

ChatGPT 答案抓取工具

by yankun guo

输入问题自动获取 ChatGPT 完整回答中带sources 的完整html。支持批量采集、自动重试、来源提取。无需技术背景。免费试用。

4.5
272 次运行
低至 $1.5/结果
查看全部采集工具
CoreClaw

通过开箱即用的 Worker,快速搭建您的数据采集工作流。

邮箱:support@coreclaw.com

资源中心

  • 快速开始
  • API 参考
  • 销售线索

推荐

  • 商店
  • 定价

地址

頂點數創有限公司

香港九龍大角咀通州街111號雲之端1樓9室