Shopify 产品抓取工具

定价

Try for free

Shopify 产品抓取工具

odin-kael/shopify-scraper-worker

爬取任意 Shopify 商店的产品数据，包括标题、价格、描述、SKU、库存、图片等。支持从 sitemap 自动发现产品 URL、并发爬取、扩展输出函数和扩展爬取函数。

免费试用

什么是Shopify产品抓取工具？

Shopify产品抓取工具通过 JSON API、sitemap 自动发现和浏览器反反爬备选，抓取任意 Shopify 商店的产品数据。可以提取标题、价格、描述、SKU、变体、图片、库存状态及元数据。

Shopify产品抓取工具功能特性

零配置发现：提供商店 URL 即可，Worker 自动解析 robots.txt 发现产品 sitemap
双数据源：优先尝试 /products.json 批量 API（快速），失败时通过浏览器回退请求单个产品端点（稳健）
浏览器指纹集成：使用平台托管的远程浏览器绕过 WAF / Cloudflare，当直接 HTTP 被拦截时自动切换
Sitemap 回退：robots.txt 未声明 sitemap 时，自动尝试 5 种常见路径
本地化 URL 归一化：剥离 Shopify 的 locale 前缀（/es-US/products/ → /products/）以正确访问 JSON API
JSON+HTML 模式：可选先抓 HTML 再抓 JSON，保留原始 HTML 供自定义解析
可扩展输出：注入自定义 JavaScript 函数，转换、过滤或丰富每条产品数据
爬虫生命周期钩子：可在 PRE/POST 导航、URL 过滤、RUN/FINISH 等阶段注入逻辑
并发爬取：可配置并发数（1-20），支持失败自动重试
变体展开：每个 variant 输出为独立行，包含各自的 SKU、价格、选项属性和图片

如何快速开始

输入示例

json

{
    "startUrl": [{ "url": "https://www.gymshark.com" }],
    "maxRequestsPerCrawl": 0,
    "maxConcurrency": 20,
    "checkForBanner": true,
    "fetchHtml": false,
    "debugLog": false,
    "extendOutputFunction": "async ({ data, item, product, images, fns, name, request, variants, context, customData, input, platform }) => {
  return item;
}",
    "extendScraperFunction": "async ({ fns, customData, platform, label }) => {
 
}",
    "customData": {}
}

输出字段

字段	类型	说明
`url`	string	产品页面 URL
`title`	string	产品标题
`id`	string	Shopify 产品 ID（已剥离 GUID 前缀）
`sku`	string	变体 SKU
`description`	string	产品描述（HTML 标签已剥离）
`price`	number	变体价格
`currency`	string	货币（默认 `"USD"`）
`availability`	string	`"in stock"` 或 `"out of stock"`
`color`	string	颜色选项值
`size`	string	尺寸选项值
`material`	string	材质选项值
`display_name`	string	变体显示名称
`product_type`	string	Shopify 产品类型
`images_urls`	string[]	产品及变体图片 URL（去重、去查询参数）
`brand`	string	产品品牌/厂商
`video_urls`	string[]	视频 URL（预留）
`created_at`	string	ISO 8601 创建时间
`updated_at`	string	ISO 8601 更新时间
`published_at`	string	ISO 8601 发布时间
`additional`	object	附加信息：`variant_attributes`、`variant_title`、`scraped_at`、`barcode`、`taxcode`、`stock_count`、`tags`、`weight`、`requires_shipping` 及自定义选项键值

使用示例

示例 1：基础抓取 — 爬取单个商店的全部产品

json

{
    "startUrl": [{ "url": "https://www.gymshark.com" }],
    "maxRequestsPerCrawl": 0,
    "maxConcurrency": 20
}

示例 2：多商店并行抓取

startUrl 数组控制平台如何将任务拆分为并发子任务（通过 b 字段）。

json

{
    "startUrl": [
        { "url": "https://www.gymshark.com" },
        { "url": "https://www.spanx.com" },
        { "url": "https://www.nativecos.com" }
    ],
    "maxRequestsPerCrawl": 0,
    "maxConcurrency": 20
}

示例 3：自定义输出映射 — 价格过滤与打折计算

使用 extendOutputFunction 对每行数据进行转换或过滤。返回 null 跳过。

javascript

async ({ data, item, fns, input, platform }) => {
    // 过滤掉低价产品
    if (item.price < 10) return null;

    // 计算折扣百分比
    const comparePrice = data.product?.variants?.[0]?.compare_at_price;
    if (comparePrice && item.price) {
        item.additional.discount_pct = Math.round((1 - item.price / comparePrice) * 100);
    }

    // 排除礼品卡类产品
    if (item.product_type === 'Gift Card') return null;

    return item;
}

示例 4：爬虫生命周期 — 注入额外 sitemap URL

使用 extendScraperFunction 在爬取的不同阶段注入逻辑。

javascript

async ({ fns, customData, platform, label }) => {
    if (label === 'SETUP') {
        // SETUP 阶段可访问 requestQueue 注入额外 URL
        const extraSitemap = customData.extraSitemapUrl;
        if (extraSitemap) {
            // 通过传入的 { requestQueue } 添加请求
        }
    }

    if (label === 'FILTER_SITEMAP_URL') {
        // this.url 是正在评估的产品/sitemap URL
        // this.filter(false) 可将其排除
    }

    if (label === 'PRENAVIGATION') {
        // this.crawlingContext.request — 修改请求头
    }

    if (label === 'FINISHED') {
        // this.crawler — 访问爬虫统计、持久化状态
    }
}

示例 5：HTML 模式 — 从产品页解析 JSON-LD

启用 fetchHtml 可在 JSON API 响应之外同时获取完整 HTML 页面。
HTML 内容可在输出函数中通过 request.userData.body 访问。

json

{
    "startUrl": [{ "url": "https://www.colourpop.com" }],
    "maxRequestsPerCrawl": 20,
    "fetchHtml": true
}

在 extendOutputFunction 中使用：

javascript

async ({ data, item, request, context }) => {
    const htmlBody = request.userData.body;
    if (htmlBody) {
        // 从 HTML 中解析 JSON-LD 或 meta 标签
        // context.$ 是从 HTML 页面加载的 cheerio 实例
    }
    return item;
}

示例 6：调试模式 — 保存失败的 JSON 响应

开启 debugLog: true 后，失败的响应会保存到存储中供排查。

json

{
    "startUrl": [{ "url": "https://www.kith.com" }],
    "maxRequestsPerCrawl": 5,
    "debugLog": true
}

输入参数参考

参数	类型	默认值	说明
`startUrl`	array	必填	Shopify 商店 URL 列表。也是 `b` 字段（并发拆分键）。
`maxRequestsPerCrawl`	integer	`0`	最大爬取产品数。`0` = 不限。
`maxConcurrency`	integer	`20`	最大并发请求数（1-20）。
`maxRequestRetries`	integer	`3`	请求失败最大重试次数。
`checkForBanner`	boolean	`true`	检查 `robots.txt` 是否包含 `"Shopify"`（非 Shopify 站点仍会继续）。
`fetchHtml`	boolean	`false`	是否先抓取 HTML 页面（会导致请求数翻倍）。
`debugLog`	boolean	`false`	详细日志输出；保存失败的 JSON 响应供排查。
`extendOutputFunction`	string	直通	JavaScript 函数（async），用于转换/过滤输出行。返回 `null` 跳过。
`extendScraperFunction`	string	无操作	JavaScript 函数（async），爬虫生命周期钩子。
`customData`	object	`{}`	可在两个扩展函数中访问的任意数据。

已知限制

WAF 保护的商店：具有激进 WAF（Cloudflare、Akamai）的商店可能返回验证页面而非产品数据。这些会在输出中显示为标题 "Verifying your connection..." 且产品字段为空的条目。在 extendOutputFunction 中过滤它们：
javascript
```
if (!item.sku || item.title === 'Verifying your connection...') return null;
```
仅浏览器模式：当 products.json 被拦截时，所有请求走浏览器，速度较慢（约 1 请求/秒/并发浏览器）。5 个并发浏览器约为 5 产品/秒。
货币检测：始终输出 "USD" — 多币种商店需通过 extendOutputFunction 自定义解析。

代理与网络

在 CoreClaw 平台上，所有出站 HTTP 请求通过平台的 SOCKS5 代理发出。
代理地址从 PROXY_AUTH 和 PROXY_DOMAIN 环境变量读取（平台自动设置）。

浏览器通过 WebSocket CDP 连接（ChromeWs 环境变量 + PROXY_AUTH 认证）。
两者均为平台注入 — 无需手动配置。

常见问题

支持哪些类型的 Shopify 商店？

所有使用 Shopify 平台构建的在线商店均可抓取，无论使用何种主题或语言版本。工具会自动识别并处理本地化 URL。

支持抓取非 Shopify 站点吗？

工具专为 Shopify 设计。非 Shopify 站点可以尝试运行，但数据结构可能不兼容。checkForBanner 参数会检测 robots.txt 是否包含 Shopify 标识。

并发数设置多少合适？

默认 20 并发适合大多数场景。对于有严格限流的商店，建议降低至 5-10。

定价

失败结果不计费

用户评分

5.0

开发者

Kael Odin

Worker 数据

53次累计运行

成功率：78.95%

最后更新时间：2026.05.20

分类

电商其他

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具

Made-in-China 供应商情报采集器｜采集公司档案、联系方式与外贸数据

by mmi0cuhn

从 Made-in-China 供应商页面采集结构化公司信息，包括主营产品、审计报告编号、外贸能力、证书图片、发货图片和联系人信息，适用于 B2B 采购、供应商调研和线索富集。

5.0

25 次运行

低至 $0.6/1,000 结果

Quince.com产品数据抓取工具 —— 价格、折扣、评论及更多信息

by Techforce Global

只需搜索产品，即可获取每件商品的售价、原价、折扣力度、产品主图以及最新的客户评论，所有数据可直接导入您的电子表格、仪表盘或商业智能工具。Quince.com产品数据抓取工具能在短短几分钟内，将整个商品目录转化为整洁、结构化的产品数据。

5.0

18 次运行

低至 $0.6/1,000 结果

SHEIN 产品详情提取工具（URL 与 ID 双模式）

by yankun guo

一款专用于 SHEIN 单个商品详情数据提取的工具，支持产品 URL 和商品 ID 两种输入方式。通过连接远程 Chromium 实例自动绕过 SHEIN 风险验证，加载目标商品页面并解析完整产品属性，返回标准化的结构化数据。适配全球 10 + 区域站点，支持自定义工作流重试次数，适用于商品信息监控、价格跟踪、竞品调研及趋势分析等场景。

5.0

307 次运行

低至 $0.6/1,000 结果