

一款高性能工具,支持关键词、分类 URL、分类 ID 三种输入模式,可自动发现、解析并提取结构化的 SHEIN 产品数据;适配美、英、德、法等多区域站点,支持自定义排序规则,能解析价格、评分、销量、营销徽章等核心属性,适用于价格跟踪、竞品调研、趋势分析等场景。
SHEIN 商品发现
本项目支持 3 种 SHEIN 商品发现模式:
shein_products_by-keywordshein_products_by-category-urlshein_products_by-category-idWorker 会根据输入模式打开对应的 SHEIN 页面,自动尝试通过 SHEIN 风控验证,解析商品列表,并返回结构化商品数据。
适用场景包括:
shein_products_by-keyword通过关键词组装 SHEIN 搜索 URL:
shein_products_by-category-url直接使用完整类目 URL,再拼接公共查询参数:
shein_products_by-category-id通过类目 ID 组装类目页 URL:
type 和 value。ChromeWs 连接远程 Chromium 浏览器。项目依赖:
playwrightselectolaxhttpxgrpcioprotobuf运行时会读取以下环境变量:
ChromeWs:必填,远程 Chromium 的 CDP WebSocket 地址PROXY_AUTH:可选,用于拼接 WebSocket 认证信息如果没有提供 ChromeWs,Worker 会直接返回失败结果。
输入 schema 见 input_schema.json。
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
type | string | 是 | 发现模式,可选 shein_products_by-keyword、shein_products_by-category-url、shein_products_by-category-id。 |
value | string | 是 | 当前模式对应的输入值。可以是关键词、完整类目 URL 或类目 ID。 |
flow_retry_num | integer | 否 | 整个浏览器流程的重试次数,默认 3。 |
country | string | 否 | SHEIN 站点区域。关键词模式和类目 ID 模式会使用该参数,默认 us。 |
sort | string | 否 | 列表页排序方式,默认 recommend。 |
page | integer | 否 | 页码,从 1 开始,默认 1。 |
limit | integer | 否 | 每页请求商品数量,默认 20。 |
| 值 | 站点 |
|---|---|
us | 美国 |
uk | 英国 |
de | 德国 |
fr | 法国 |
it | 意大利 |
es | 西班牙 |
ca | 加拿大 |
au | 澳大利亚 |
mx | 墨西哥 |
jp | 日本 |
当前代码中的排序映射如下:
| 值 | 说明 | SHEIN sort 参数 |
|---|---|---|
recommend | 推荐 | 不传 sort 参数 |
most_popular | 最受欢迎 | 8 |
new_arrivals | 新品 | 9 |
top_rated | 高评分 | 7 |
price_low | 价格从低到高 | 10 |
price_high | 价格从高到低 | 11 |
输出 schema 见 output_schema.json。
| 字段 | 类型 | 说明 |
|---|---|---|
type | string | 当前执行所使用的发现模式。 |
url | string | Worker 实际打开的 SHEIN URL。 |
code | number | 1 表示成功,0 表示失败。 |
count | number | 解析出的商品数量。 |
products | array | 商品列表。 |
error | string | 失败时的错误信息,成功时为空字符串。 |
error_code | string | 失败时的错误码,成功时为空字符串。 |
products 数组中的每一项对应页面中的一个商品卡片。
| 字段 | 类型 | 字段说明 | 页面对应位置 / 解析来源 |
|---|---|---|---|
goods_id | string | SHEIN 商品唯一标识。 | 优先取 data-id,如果没有则从商品 URL 末尾的 -p-<id>.html 解析。 |
product_url | string | 商品详情完整 URL。 | 商品卡片点击跳转链接。 |
title | string | 商品列表中显示的标题。 | 商品卡片标题文本,或回退使用 data-title / 图片 alt / aria-label。 |
main_image | string | 主图 URL。 | 商品卡片主缩略图。 |
price | number 或 null | 当前售价,本地币种。 | 来自卡片属性或可见销售价文本。 |
price_usd | number 或 null | 当前美元售价。 | 来自卡片属性。 |
currency | string | 币种代码,如 USD、GBP、EUR。 | 根据可见价格中的货币符号推断。 |
original_price | number 或 null | 折前原价 / 划线价,本地币种。 | 商品卡片划线价。 |
original_price_usd | number 或 null | 折前美元原价。 | 来自卡片属性。 |
discount_percent | number 或 null | 折扣百分比。 | 来自折扣标签属性。 |
rating | number 或 null | 商品平均评分,范围 0-5。 | 价格下方评分区域。 |
reviews_count | number 或 null | 评论总数。 | 评分旁边的评论数。 |
position | number | 当前结果页中的排序位置,从 1 开始。 | 商品卡片在解析网格中的顺序。 |
sold_count | number 或 null | 销量估算。 | 销量文案,例如 200+ sold、1.5k+ sold。 |
is_local | boolean | 是否本地仓 / 本地发货。 | 根据本地标签或本地属性判断。 |
is_trending | boolean | 是否趋势商品。 | 根据趋势属性判断。 |
free_shipping | boolean | 是否显示包邮。 | 通过商品卡片全文本判断。 |
quick_ship | boolean | 是否支持 QuickShip。 | 根据 QuickShip 属性或可见文案判断。 |
badges | array | 营销标签或排名标签数组。 | 例如 BIG DEALS、Bestseller、#1 等标签。 |
color_count | number 或 null | 可选颜色数量。 | 商品卡片颜色数量区域。 |
price_usd 和 original_price_usd 依赖 SHEIN 是否在卡片属性中提供美元价格。original_price、discount_percent、rating、reviews_count、sold_count、color_count 在页面未展示时可能为 null。badges 可能为空数组。| 错误码 | 说明 |
|---|---|
400 | 输入参数无效或缺少必填参数。 |
500 | 内部执行异常。 |
BROWSER_CONNECT_FAILED | 连接远程 Chromium 失败。 |
PAGE_OPEN_FAILED | 打开 SHEIN 页面失败。 |
SHEIN_VERIFY_FAILED | 出现 SHEIN 验证且未能通过。 |
PRODUCT_LIST_NOT_FOUND | 页面中未找到商品列表容器。 |
PRODUCT_EXTRACT_FAILED | 页面已打开,但商品解析失败。 |
shein_products_by-category-url 会直接使用输入的类目 URL,再拼接 Worker 自己的查询参数。shein_products_by-category-id 会按 https://{country}.shein.com/{category_id}.html 组装类目页地址。https://us.shein.com 做补全。探索商店中更多热门采集工具
by Techforce Global
只需搜索产品,即可获取每件商品的售价、原价、折扣力度、产品主图以及最新的客户评论,所有数据可直接导入您的电子表格、仪表盘或商业智能工具。Quince.com产品数据抓取工具能在短短几分钟内,将整个商品目录转化为整洁、结构化的产品数据。
by yankun guo
一款专用于 SHEIN 单个商品详情数据提取的工具,支持产品 URL 和商品 ID 两种输入方式。通过连接远程 Chromium 实例自动绕过 SHEIN 风险验证,加载目标商品页面并解析完整产品属性,返回标准化的结构化数据。适配全球 10 + 区域站点,支持自定义工作流重试次数,适用于商品信息监控、价格跟踪、竞品调研及趋势分析等场景。
by yankun guo
输入问题或链接,无需代码即可提取Perplexity AI的完整回答及引用来源,以HTML格式导出,适用于学术研究、事实核查与内容分析。
by yankun guo
输入问题自动获取 ChatGPT 完整回答中带sources 的完整html。支持批量采集、自动重试、来源提取。无需技术背景。免费试用。