用于按关键词抓取 Product Hunt 上的热门产品,并输出结构化表格数据。
Product Hunt 抓取器是一个用于按关键词发现 Product Hunt 热门产品的 CoreClaw Worker,适合市场调研、竞品跟踪、线索挖掘、产品 Newsletter、AI/创业趋势监控等场景。
本 Worker 基于开源项目 ph_ai_tracker / ProductHunt-Scraper 改造,但移除了长期服务、本地数据库和调度器,使其更适合 CoreClaw 的一次性 Worker 运行模型。
AI agents、developer tools、sales automation、data analytics。search_terms 作为 CoreClaw 任务拆分字段。auto 策略:
PROXY_DOMAIN + PROXY_AUTH。| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
search_terms | array / stringList | AI agents, developer tools, sales automation | 每行一个关键词。CoreClaw 会按这个字段拆分任务。 |
limit | integer | 20 | 每个关键词最多返回多少个产品。 |
strategy | select | auto | auto、browser、scraper、feed、search 或 api。默认推荐 auto。 |
api_token | string | 空 | 可选 Product Hunt API Token。只有 api 策略强制需要。 |
recent_days | integer | 30 | 当产品时间可用时,只保留最近 N 天产品。填 0 表示不按时间过滤。 |
max_enrich | integer | 0 | 访问多少个详情页补充缺失字段。推荐 0,速度最快。 |
timeout_seconds | integer | 45 | HTTP / API / 浏览器导航超时时间。auto 的 feed / search 兜底使用固定短超时。 |
CoreClaw 在拆分 search_terms 后,可能只给子任务传入 {"string": "AI agents"}。本 Worker 已兼容这种扁平化输入。
| 字段 | 说明 |
|---|---|
status | success 或 failed |
source | 实际数据来源:api、browser、scraper、feed 或 search |
search_term | 当前搜索关键词 |
rank | 当前关键词下的排序名次,能取到票数时按票数排序 |
name | 产品名称 |
tagline | Product Hunt 一句话简介 |
description | 产品描述 |
votes_count | Product Hunt 票数 |
url | Product Hunt 产品链接 |
topics | 产品主题/分类 |
posted_at | 产品发布时间,可用时返回 |
error | 失败行的错误原因 |
| 策略 | 适用场景 | 说明 |
|---|---|---|
auto | CoreClaw 生产运行 | 推荐。优先 API,然后使用 Product Hunt Atom feed 和有界站内搜索兜底;默认不会进入浏览器 / HTTP 页面抓取路径。 |
browser | Product Hunt HTTP 访问 403 | 使用 CoreClaw 远程指纹浏览器,依赖 ChromeWs + PROXY_AUTH。 |
scraper | 快速本地解析或简单云端运行 | 尝试 HTTP / 浏览器页面路径;当 Product Hunt 页面被拦截时继续使用非页面兜底。 |
feed | Product Hunt 页面访问被拦截 | 使用 Product Hunt 公共 Atom feed,适合最近发布产品。 |
search | 关键词兜底 | 使用 Product Hunt 产品页站内搜索结果。 |
api | 需要稳定官方 API 数据 | 必须提供 Product Hunt API Token。 |
CoreClaw 云端通常不能可靠直连外网,必须使用平台提供的代理和远程浏览器能力:
Worker 会自动构建:
不要在代码中硬编码代理账号或密码。
语法检查:
main.py 入口依赖 CoreClaw SDK 的 gRPC 服务,完整端到端测试应在 CoreClaw 平台上运行。
从原项目移除:
保留并改造:
__NEXT_DATA__ 解析按关键词抓取 Product Hunt 热门产品,用于市场调研、竞品跟踪、线索挖掘与创业趋势监控。
切换到 browser 策略,使用远程指纹浏览器 + 代理即可解决。
是关键词列表,CoreClaw 会按此字段自动拆分任务。
探索商店中更多热门采集工具
by Techforce Global
只需搜索产品,即可获取每件商品的售价、原价、折扣力度、产品主图以及最新的客户评论,所有数据可直接导入您的电子表格、仪表盘或商业智能工具。Quince.com产品数据抓取工具能在短短几分钟内,将整个商品目录转化为整洁、结构化的产品数据。
by yankun guo
一款专用于 SHEIN 单个商品详情数据提取的工具,支持产品 URL 和商品 ID 两种输入方式。通过连接远程 Chromium 实例自动绕过 SHEIN 风险验证,加载目标商品页面并解析完整产品属性,返回标准化的结构化数据。适配全球 10 + 区域站点,支持自定义工作流重试次数,适用于商品信息监控、价格跟踪、竞品调研及趋势分析等场景。
by yankun guo
一款高性能工具,支持关键词、分类 URL、分类 ID 三种输入模式,可自动发现、解析并提取结构化的 SHEIN 产品数据;适配美、英、德、法等多区域站点,支持自定义排序规则,能解析价格、评分、销量、营销徽章等核心属性,适用于价格跟踪、竞品调研、趋势分析等场景。
by yankun guo
输入问题或链接,无需代码即可提取Perplexity AI的完整回答及引用来源,以HTML格式导出,适用于学术研究、事实核查与内容分析。