

通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
一款统一的 Google SERP 数据提取工具,通过关键词查询 Google 搜索结果并输出结构化的自然排名数据。借助 CoreClaw,您无需编写任何代码即可提取标题、URL、摘要、相关搜索和"人们还问"数据,适用于 SEO 研究、竞品分析、关键词监控和市场情报。
| 📝 自然搜索结果 | 🔍 SERP 特性 | ⚙️ 请求元数据 |
|---|---|---|
| 🌐 URL 与域名 | 💬 人们还问 | 📅 时间戳 |
| 🏷️ 高亮关键词 | 🔗 相关搜索 | 📍 地理位置 |
CoreClaw Google 关键词搜索抓取工具为您处理请求调度、翻页和结果交付。按照以下步骤操作:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| keyword | string | pizza | 必填。 搜索关键词。也可接受完整的 Google 搜索 URL,构建器将自动从中提取支持的参数。 |
| max_pages | string | 1 | 要抓取的最大 Google SERP 页数。每页到达后立即流式输出。翻页从偏移量 0 开始,每页递增 10(如 max_pages=3 → start=0, 10, 20)。最小值 1;无硬上限,但 Google 超过 ~10 页后很少返回有用结果。 |
| domain | string | https://www.google.com/ | 抓取时使用的 Google 域名。支持 200+ 国家/地区特定域名(google.co.uk、google.de、google.co.jp 等)。 |
| gl | string | us | 搜索结果的地区设置,使用两位国家代码(如 us、uk、de、jp)。 |
| hl | string | en | Google 搜索结果的界面语言。使用标准语言代码(如 en、zh-cn、es、fr)。 |
| cr | array | — | 将结果限制为一个或多个国家/地区。值用 | 连接,如 countryFR|countryDE。 |
| lr | array | — | 将结果限制为一种或多种语言。值使用 lang_XX 格式,用 | 连接,如 lang_fr|lang_de。 |
| location | string | — | 用于模拟本地搜索上下文的地理位置文本。 |
| tbs | string | — | 高级 Google 搜索过滤器,如时间范围或搜索垂直领域过滤器。 |
| safe | string | off | 成人内容过滤模式。支持值:active 和 off。 |
| nfpr | string | 0 | 控制拼写自动纠错。设为 1 可禁用 Google 自动纠错。 |
| filter | string | 0 | 启用或禁用 Google 的重复结果过滤。 |
示例 1:基本关键词搜索
OpenAI示例 2:多页抓取
best coffee shops NYC示例 3:带地区设置的本地搜索
restaurantshttps://www.google.co.uk/gbenLondon, United Kingdom示例 4:高级时间过滤
AI newsqdr:w(过去一周)结果以扁平表格形式组织 — 每条自然结果一行。搜索级字段(关键词、地理设置、相关搜索)在每行重复。position 字段是跨所有页面的连续全局排名(第 1 页 → 位置 1..N,第 2 页从 N+1 开始,依此类推)。
| 分组 | 关键字段 | 说明 |
|---|---|---|
| 📝自然搜索结果 | position、title、source_name、display_url、url、clean_url、root_domain、snippet、highlighted_terms、image_alt、favicon_url | 单条搜索结果的内容和元数据 |
| 🌐URL 信息 | url、clean_url、root_domain、redirect_url | 解析 URL、规范 URL、根域名和 Google 重定向 URL |
| 🔍SERP 特性 | related_queries、people_also_ask | 相关搜索和"人们还问"区块(每行重复) |
| 🔎搜索上下文 | keyword、current_page、google_domain、country、language、geo_location、safe_search、search_url | 请求参数和搜索配置 |
| 📊统计数据 | results_count_collected、results_total_text、scraped_at | 已收集数量、总结果估计和时间戳 |
| 字段 | 类型 | 说明 |
|---|---|---|
keyword | string | 请求使用的搜索关键词。 |
current_page | number | 当前 SERP 页码。 |
start_position | number | 请求使用的结果偏移量。 |
google_domain | string | 搜索请求使用的 Google 域名。 |
country | string | 搜索请求的国家参数。 |
language | string | 搜索请求的语言参数。 |
geo_location | string | 从 location 或 uule 解析的地理位置值。 |
safe_search | string | 安全搜索模式(off 或 active)。 |
exclude_autocorrected_results | boolean | 是否排除自动纠错结果。 |
results_filtering | string | Google 结果过滤模式。 |
scraped_at | string | 抓取时间戳,ISO 8601 格式。 |
search_url | string | 请求的 Google 搜索 URL。 |
results_count_collected | number | 当前页收集的自然结果数量。 |
results_total_text | string | Google 返回的原始总结果文本。 |
related_queries | array | 相关搜索记录(见嵌套字段)。 |
position | number | 跨所有流式页面的连续全局自然结果排名。 |
title | string | 自然结果标题。 |
source_name | string | 自然结果来源名称。 |
display_url | string | 结果中显示的 Google 展示 URL。 |
url | string | 解析后的自然结果 URL。 |
clean_url | string | 不含查询字符串或锚点的规范 URL。 |
root_domain | string | 从自然结果 URL 提取的根域名。 |
redirect_url | string | 自然结果的 Google 重定向 URL。 |
snippet | string | 自然结果摘要文本。 |
highlighted_terms | string | 摘要中的高亮关键词,逗号分隔。 |
image_alt | string | 自然结果的图片替代文本。 |
has_image | boolean | 自然结果是否包含图片元数据。 |
favicon_url | string | 自然结果的网站图标 URL。 |
people_also_ask | array | "人们还问"记录(见嵌套字段)。 |
related_queries| 字段 | 类型 | 说明 |
|---|---|---|
block_position | number | SERP 中相关搜索区块的位置。 |
topic_title | string | 相关搜索标题文本。 |
related_search_url | string | 相关搜索的 Google 搜索 URL。 |
item_position | number | 相关搜索区块内的项目位置。 |
people_also_ask| 字段 | 类型 | 说明 |
|---|---|---|
position | number | 在"人们还问"列表中的位置。 |
question | string | 问题文本。 |
answer | string | 可用时的答案或摘要文本。 |
source_url | string | 可用时答案的来源 URL。 |
通过关键词查询 Google SERP,每行返回一条结构化的自然搜索结果,包含 22+ 个字段。每行包含结果标题、URL、摘要、根域名、高亮关键词及其连续全局排名。搜索级上下文(关键词、国家、语言、相关搜索、"人们还问")在每行重复。
0 开始,每页递增 10(Google 默认 SERP 页面大小)。max_pages=3 → 依次发出 start=0, 10, 20 的请求。最终输出行数等于所有抓取页面返回的自然结果总数。例如,如果 3 页分别返回 10 / 8 / 7 条自然结果,抓取器将输出 25 行。
CoreClaw 支持 8 种导出格式:
| 格式 | 适用场景 | 说明 |
|---|---|---|
| JSON | 编程 / API 集成 | 完整保留嵌套结构 |
| CSV | 电子表格分析 | 直接导入 Excel、Google Sheets |
| JSONL | 流式 / 逐行处理 | 每行一个 JSON 对象,适合大数据管道 |
| XLS | 旧版 Excel 兼容 | Excel 97-2003 格式 |
| XLSX | 现代 Excel | 原生 Excel 格式,支持格式化和公式 |
| HTML Table | 网页展示 / 报告 | 渲染为 HTML 表格,便于嵌入网页或邮件 |
| XML | 企业系统 / 遗留集成 | 标准标记格式,适配 SOAP API 和企业数据交换 |
| RSS | 订阅阅读器 / 监控 | 结构化订阅格式,用于跟踪更新 |
推荐:JSON 适用于数据管道,CSV/XLSX 适用于手动分析,JSONL 适用于流式处理大数据集。
| 参数 | 默认值 |
|---|---|
| domain | https://www.google.com/ |
| gl | us |
| hl | en |
| safe | off |
| nfpr | 0 |
| filter | 0 |
| max_pages | 1 |
每个页面级请求在同一 URL 上最多重试 3 次。如果某页在重试后仍然失败,该页被记录为失败,循环继续处理下一页。仅当所有页面均失败时,整个运行才被视为失败。成功页面的部分结果会被保全。
可以。keyword 参数接受完整的 Google 搜索 URL。构建器将自动从 URL 中提取支持的参数(关键词、国家、语言等)。
探索商店中更多热门采集工具
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Kael Odin
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。