RAG 网络浏览器是一种自动化网页内容提取工具,专用于为检索增强生成(RAG)流程和 AI 应用提供实时网页搜索和内容抓取能力。使用 CoreClaw,即可零代码获取结构化的网页内容,助力 AI 聊天机器人、知识库构建、内容聚合和数据挖掘。
| 🔍 Google 搜索结果 | 📄 页面标题与描述 |
| 📝 Markdown 格式内容 | 📄 纯文本内容 |
| 🌐 HTML 原始内容 | 🏷️ 页面元数据 |
| 🌍 语言识别 | ⏱️ 抓取性能指标 |
| 📊 HTTP 状态码 | 🔗 页面 URL 信息 |
CoreClaw RAG 网络浏览器在后台为您处理代理轮换、任务调度、并发控制和数据标准化。只需几分钟,您就可以通过以下步骤获取数据:
| 参数 | 类型 | 默认值 | 范围 | 说明 |
|---|---|---|---|---|
| query | string | - | - | 必填。 搜索关键词或直接 URL |
| maxResults | number | 3 | 1-100 | 最大搜索结果数 |
| outputFormat | string | "markdown" | text/markdown/html | 输出格式 |
| scrapingTool | string | "raw-http" | raw-http/browser-playwright | 抓取引擎 |
| requestTimeoutSecs | number | 40 | 1-300 | 请求超时秒数 |
| serpMaxRetries | number | 2 | 0-5 | Google 搜索重试次数 |
| maxRequestRetries | number | 1 | 0-3 | 目标页面重试次数 |
| dynamicContentWaitSecs | number | 10 | 0-60 | 动态内容等待时间 |
| desiredConcurrency | number | 3 | 1-10 | 并行抓取操作数 |
| removeCookieWarnings | boolean | true | - | 移除 Cookie 弹窗 |
| htmlTransformer | string | "none" | none/readableText | HTML 内容转换 |
| removeElementsCssSelector | string | - | - | 要移除元素的 CSS 选择器 |
| debugMode | boolean | false | - | 启用调试日志和指标 |
示例 1:基于 Google 搜索抓取
示例 2:直接抓取特定 URL
示例 3:并发抓取多个页面
示例 4:提取可读性优化内容
为了方便您查看,输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。
每个抓取的页面将输出以下数据:
爬取信息 (crawl)
调试信息 (debug)
搜索结果 (searchResult)
元数据 (metadata)
内容输出
JSON 示例:
raw-http 模式:
browser-playwright 模式:
Markdown - 推荐格式
Plain Text
HTML
建议:RAG 应用使用 Markdown,文本分析使用 Plain Text,需要精确结构使用 HTML。
并发度(desiredConcurrency)控制同时抓取的页面数量:
| 并发度 | 适用场景 | 注意事项 |
|---|---|---|
| 1-3 | 低频抓取、网站友好 | 推荐默认值 |
| 4-7 | 高频抓取、性能优先 | 注意网站限速 |
| 8-10 | 大批量抓取 | 可能触发反爬机制 |
建议:从 3 开始,根据网站响应情况逐步调整。
对于需要 JavaScript 渲染的动态内容:
使用 browser-playwright 模式
设置动态内容等待时间
dynamicContentWaitSecs 参数控制等待时长验证内容加载
debugMode 查看加载详情使用以下方式过滤内容:
移除 Cookie 弹窗
removeCookieWarnings: true自定义元素过滤
removeElementsCssSelector 参数.advertisement, .sidebar, .footer可读性提取
htmlTransformer: "readableText"探索商店中更多热门采集工具
by CoreClaw
通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
by Odin Kael
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Odin Kael
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Odin Kael
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。