Product Hunt 抓取器是一个用于按关键词发现 Product Hunt 热门产品的 CoreClaw Worker,适合市场调研、竞品跟踪、线索挖掘、产品 Newsletter、AI/创业趋势监控等场景。
本 Worker 基于开源项目 ph_ai_tracker / ProductHunt-Scraper 改造,但移除了长期服务、本地数据库和调度器,使其更适合 CoreClaw 的一次性 Worker 运行模型。
AI agents、developer tools、sales automation、data analytics。search_terms 作为 CoreClaw 任务拆分字段。auto 策略:
PROXY_DOMAIN + PROXY_AUTH。| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
search_terms | array / stringList | AI agents, developer tools, sales automation | 每行一个关键词。CoreClaw 会按这个字段拆分任务。 |
limit | integer | 20 | 每个关键词最多返回多少个产品。 |
strategy | select | auto | auto、browser、scraper、feed、search 或 api。默认推荐 auto。 |
api_token | string | 空 | 可选 Product Hunt API Token。只有 api 策略强制需要。 |
recent_days | integer | 30 | 当产品时间可用时,只保留最近 N 天产品。填 0 表示不按时间过滤。 |
max_enrich | integer | 0 | 访问多少个详情页补充缺失字段。推荐 0,速度最快。 |
timeout_seconds | integer | 45 | HTTP / API / 浏览器导航超时时间。auto 的 feed / search 兜底使用固定短超时。 |
CoreClaw 在拆分 search_terms 后,可能只给子任务传入 {"string": "AI agents"}。本 Worker 已兼容这种扁平化输入。
| 字段 | 说明 |
|---|---|
status | success 或 failed |
source | 实际数据来源:api、browser、scraper、feed 或 search |
search_term | 当前搜索关键词 |
rank | 当前关键词下的排序名次,能取到票数时按票数排序 |
name | 产品名称 |
tagline | Product Hunt 一句话简介 |
description | 产品描述 |
votes_count | Product Hunt 票数 |
url | Product Hunt 产品链接 |
topics | 产品主题/分类 |
posted_at | 产品发布时间,可用时返回 |
error | 失败行的错误原因 |
| 策略 | 适用场景 | 说明 |
|---|---|---|
auto | CoreClaw 生产运行 | 推荐。优先 API,然后使用 Product Hunt Atom feed 和有界站内搜索兜底;默认不会进入浏览器 / HTTP 页面抓取路径。 |
browser | Product Hunt HTTP 访问 403 | 使用 CoreClaw 远程指纹浏览器,依赖 ChromeWs + PROXY_AUTH。 |
scraper | 快速本地解析或简单云端运行 | 尝试 HTTP / 浏览器页面路径;当 Product Hunt 页面被拦截时继续使用非页面兜底。 |
feed | Product Hunt 页面访问被拦截 | 使用 Product Hunt 公共 Atom feed,适合最近发布产品。 |
search | 关键词兜底 | 使用 Product Hunt 产品页站内搜索结果。 |
api | 需要稳定官方 API 数据 | 必须提供 Product Hunt API Token。 |
CoreClaw 云端通常不能可靠直连外网,必须使用平台提供的代理和远程浏览器能力:
Worker 会自动构建:
不要在代码中硬编码代理账号或密码。
语法检查:
main.py 入口依赖 CoreClaw SDK 的 gRPC 服务,完整端到端测试应在 CoreClaw 平台上运行。
从原项目移除:
保留并改造:
__NEXT_DATA__ 解析按关键词抓取 Product Hunt 热门产品,用于市场调研、竞品跟踪、线索挖掘与创业趋势监控。
切换到 browser 策略,使用远程指纹浏览器 + 代理即可解决。
是关键词列表,CoreClaw 会按此字段自动拆分任务。
探索商店中更多热门采集工具
by Wahlberg
通过 URL 或关键词批量采集 Reddit 公开帖子、评论、点赞、视频图片等结构化数据,支持排序筛选,适用于舆情监控、市场研究与数据分析。
by Odin Kael
A powerful course scraper for extracting online courses from Coursera and EDX platforms.
by Odin Kael
稳定爬取 Indeed/LinkedIn 等招聘平台职位,支持远程 / 全职 / 薪资筛选、自定义代理、多维度精准搜索,一键部署即可获取海外职位数据。
by Odin Kael
从 Yahoo Finance 获取全球股票行情数据,支持美股、港股、A股三大市场。可提取历史K线数据、公司信息、财务报表、分红拆股历史、分析师评级等全面数据。零代码操作,一键导出 CSV 或 JSON 格式。 美股:苹果(AAPL)、微软(MSFT)、谷歌(GOOGL)、特斯拉(TSLA)等 港股:腾讯控股(0700.HK)、阿里巴巴(9988.HK)等 A 股(中国大陆):贵州茅台(600519.SS)、中国平安(000001.SZ)等