Product Hunt 抓取器

定价

Try for free

Product Hunt 抓取器

odin-kael/product-hunt-scraper

用于按关键词抓取 Product Hunt 上的热门产品，并输出结构化表格数据。

免费试用

什么是Product Hunt 抓取器？

Product Hunt 抓取器是一个用于按关键词发现 Product Hunt 热门产品的 CoreClaw Worker，适合市场调研、竞品跟踪、线索挖掘、产品 Newsletter、AI/创业趋势监控等场景。

本 Worker 基于开源项目 ph_ai_tracker / ProductHunt-Scraper 改造，但移除了长期服务、本地数据库和调度器，使其更适合 CoreClaw 的一次性 Worker 运行模型。

核心功能

支持多个商业关键词搜索，例如 AI agents、developer tools、sales automation、data analytics。
使用 search_terms 作为 CoreClaw 任务拆分字段。
推荐使用 auto 策略：
- 如果提供 Product Hunt API Token，优先使用官方 API。
- 使用 Product Hunt 公共 Atom feed 和 Product Hunt 产品页站内搜索作为有界兜底；浏览器 / HTTP 页面抓取只在显式选择对应策略时使用。
自动使用 CoreClaw 的 SOCKS5 代理：PROXY_DOMAIN + PROXY_AUTH。
每个产品输出一行结构化数据。
如果所有抓取路径失败，会输出结构化失败行，便于查看原因。

文件结构

text

producthunt-scraper/
├── main.py              # CoreClaw Worker 入口
├── scraper.py           # Product Hunt 抓取逻辑：浏览器、HTTP、API、feed、搜索兜底
├── input_schema.json    # CoreClaw 输入表单
├── output_schema.json   # CoreClaw 输出表结构
├── requirements.txt     # Python 依赖
├── README.md            # 英文说明
├── README_CN.md         # 中文说明
├── sdk.py               # CoreClaw SDK
├── sdk_pb2.py
└── sdk_pb2_grpc.py

输入参数

参数	类型	默认值	说明
`search_terms`	array / stringList	`AI agents`, `developer tools`, `sales automation`	每行一个关键词。CoreClaw 会按这个字段拆分任务。
`limit`	integer	`20`	每个关键词最多返回多少个产品。
`strategy`	select	`auto`	`auto`、`browser`、`scraper`、`feed`、`search` 或 `api`。默认推荐 `auto`。
`api_token`	string	空	可选 Product Hunt API Token。只有 `api` 策略强制需要。
`recent_days`	integer	`30`	当产品时间可用时，只保留最近 N 天产品。填 `0` 表示不按时间过滤。
`max_enrich`	integer	`0`	访问多少个详情页补充缺失字段。推荐 `0`，速度最快。
`timeout_seconds`	integer	`45`	HTTP / API / 浏览器导航超时时间。`auto` 的 feed / search 兜底使用固定短超时。

输出字段

字段	说明
`status`	`success` 或 `failed`
`source`	实际数据来源：`api`、`browser`、`scraper`、`feed` 或 `search`
`search_term`	当前搜索关键词
`rank`	当前关键词下的排序名次，能取到票数时按票数排序
`name`	产品名称
`tagline`	Product Hunt 一句话简介
`description`	产品描述
`votes_count`	Product Hunt 票数
`url`	Product Hunt 产品链接
`topics`	产品主题/分类
`posted_at`	产品发布时间，可用时返回
`error`	失败行的错误原因

策略说明

策略	适用场景	说明
`auto`	CoreClaw 生产运行	推荐。优先 API，然后使用 Product Hunt Atom feed 和有界站内搜索兜底；默认不会进入浏览器 / HTTP 页面抓取路径。
`browser`	Product Hunt HTTP 访问 403	使用 CoreClaw 远程指纹浏览器，依赖 `ChromeWs` + `PROXY_AUTH`。
`scraper`	快速本地解析或简单云端运行	尝试 HTTP / 浏览器页面路径；当 Product Hunt 页面被拦截时继续使用非页面兜底。
`feed`	Product Hunt 页面访问被拦截	使用 Product Hunt 公共 Atom feed，适合最近发布产品。
`search`	关键词兜底	使用 Product Hunt 产品页站内搜索结果。
`api`	需要稳定官方 API 数据	必须提供 Product Hunt API Token。

CoreClaw 网络要求

CoreClaw 云端通常不能可靠直连外网，必须使用平台提供的代理和远程浏览器能力：

text

PROXY_DOMAIN=<platform proxy endpoint>
PROXY_AUTH=<username:password>
ChromeWs=<remote fingerprint browser endpoint>

Worker 会自动构建：

text

socks5://<PROXY_AUTH>@<PROXY_DOMAIN>
ws://<PROXY_AUTH>@<ChromeWs>

不要在代码中硬编码代理账号或密码。

本地验证

语法检查：

bash

python -m py_compile main.py scraper.py

main.py 入口依赖 CoreClaw SDK 的 gRPC 服务，完整端到端测试应在 CoreClaw 平台上运行。

改造说明

从原项目移除：

SQLite 持久化
HTTP API 服务
调度器 / Cron 模式
AI 标签
Docker 长期服务模式

保留并改造：

Product Hunt 结构化产品模型
__NEXT_DATA__ 解析
DOM fallback 解析
Product Hunt GraphQL API、公共 Atom feed 和站内搜索兜底路径
CoreClaw 代理和远程浏览器支持

常见问题

这是什么工具？

按关键词抓取 Product Hunt 热门产品，用于市场调研、竞品跟踪、线索挖掘与创业趋势监控。

为什么出现 403 / 访问被拦截？

切换到 browser 策略，使用远程指纹浏览器 + 代理即可解决。

search_terms 参数作用是什么？

是关键词列表，CoreClaw 会按此字段自动拆分任务。

定价

失败结果不计费

用户评分

5.0

开发者

Kael Odin

Worker 数据

12次累计运行

成功率：100.00%

最后更新时间：2026.05.07

分类

销售线索市场营销其他

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具

Made-in-China 供应商情报采集器｜采集公司档案、联系方式与外贸数据

by mmi0cuhn

从 Made-in-China 供应商页面采集结构化公司信息，包括主营产品、审计报告编号、外贸能力、证书图片、发货图片和联系人信息，适用于 B2B 采购、供应商调研和线索富集。

5.0

25 次运行

低至 $0.6/1,000 结果

Quince.com产品数据抓取工具 —— 价格、折扣、评论及更多信息

by Techforce Global

只需搜索产品，即可获取每件商品的售价、原价、折扣力度、产品主图以及最新的客户评论，所有数据可直接导入您的电子表格、仪表盘或商业智能工具。Quince.com产品数据抓取工具能在短短几分钟内，将整个商品目录转化为整洁、结构化的产品数据。

5.0

18 次运行

低至 $0.6/1,000 结果

SHEIN 产品详情提取工具（URL 与 ID 双模式）

by yankun guo

一款专用于 SHEIN 单个商品详情数据提取的工具，支持产品 URL 和商品 ID 两种输入方式。通过连接远程 Chromium 实例自动绕过 SHEIN 风险验证，加载目标商品页面并解析完整产品属性，返回标准化的结构化数据。适配全球 10 + 区域站点，支持自定义工作流重试次数，适用于商品信息监控、价格跟踪、竞品调研及趋势分析等场景。

5.0

169 次运行

低至 $0.6/1,000 结果