页面内容检索器是一种自动化网页内容检测工具,专用于监控网页上的特定内容变化并追踪变更历史。使用 CoreClaw,即可零代码监控网页内容,助力电商价格监控、新闻追踪、竞品分析、库存监控等应用场景。
| 📄 当前内容 | 📝 之前内容 |
| 🕐 当前时间戳 | 🔄 变化状态 |
| 🖼️ 当前截图 | 🎯 首次运行标识 |
| 🔗 监控 URL | ⚠️ 错误信息 |
| 📊 变化检测结果 | 🔍 内容对比详情 |
CoreClaw 页面内容检索器在后台为您处理网页加载、内容提取、截图生成和变化检测。只需几分钟,您就可以通过以下步骤监控网页内容:
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| urls | array | ✅ 是 | - | 要监控的网页 URL 列表 |
| contentSelectorPreset | select | ✅ 是 | - | 预设 CSS 选择器(body, h1, .price 等) |
| contentSelectorCustom | string | 否 | - | 自定义 CSS 选择器(预设选"自定义"时使用) |
| screenshotSelectorPreset | select | 否 | - | 预设截图区域选择器 |
| screenshotSelectorCustom | string | 否 | - | 自定义截图选择器 |
| previousContent | string | 否 | - | 之前的内容(用于对比) |
| previousScreenshot | string | 否 | - | 之前的截图(base64 格式) |
| navigationTimeoutSecs | integer | 否 | 30 | 页面加载超时时间(秒) |
| waitAfterLoadSecs | integer | 否 | 5 | 等待动态内容加载的时间(秒) |
| maxRetries | integer | 否 | 3 | 最大重试次数 |
内容选择器预设:
| 选项 | CSS 选择器 | 用途 |
|---|---|---|
| 全页面内容 (body) | body | 获取整个页面文本 |
| 页面标题 (h1) | h1 | 页面主标题 |
| 新闻标题 (.titleline) | .titleline | 新闻标题(Hacker News 等) |
| 价格 (.price) | .price | 电商价格 |
| 产品名称 (.product-title) | .product-title | 产品名称 |
| 文章内容 (article) | article | 文章内容 |
| 自定义 (填写下方) | - | 输入您的自定义选择器 |
截图选择器预设:
| 选项 | CSS 选择器 | 用途 |
|---|---|---|
| 使用内容选择器 (默认) | - | 与内容选择器相同 |
| 全页面 (body) | body | 全页面截图 |
| 主内容区 (main) | main | 主内容区域 |
| 文章区域 (article) | article | 文章部分 |
| 产品详情 (.product-detail) | .product-detail | 产品详情 |
| 自定义 (填写下方) | - | 输入您的自定义选择器 |
示例 1:监控 Hacker News 新闻标题
示例 2:监控电商产品价格
示例 3:监控博客文章更新
示例 4:自定义选择器监控
为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。
每个监控请求将输出以下数据:
基础信息
内容对比
运行状态
截图数据
JSON示例:
变化追踪工作流:
首次运行:
保存状态:将 currentContent 和 currentScreenshot 保存到数据库或文件
下次运行:将保存的内容传入 previousContent 字段
检测变化:
第一步:首次运行 第二步:定期运行 第三步:查看结果 建议:使用定时任务(如 cron job)定期运行监控。
预设选择器(推荐新手)
自定义选择器(适合高级用户)
contentSelectorCustom 字段建议:先尝试预设选择器,如果不符合需求再使用自定义选择器。
高频率(每小时)
中频率(每天 3-5 次)
低频率(每天 1 次)
建议:根据内容更新频率合理设置,避免过度请求导致网站限制。
截图对比提供直观的视觉变化检测. 建议:截图选择器范围不要过大,聚焦关键区域以减少文件大小。
探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。