

通过关键词请求, 返回结构化的搜索结果摘要,包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。
通过关键词查询 Google SERP,每个自然搜索结果输出一行。搜索级字段在每行中重复。自然结果字段逐行变化。
最终输出行数由 max_results 限制。抓取器估算每页约 9 条自然结果,并发启动所需页数的请求,然后继续请求后续页面,直到流式输出了请求数量的唯一行,或找不到更多有用结果为止。
搜索级字段如 keyword、current_page、google_domain、country、language、geo_location、safe_search、results_count_collected、results_total_text、related_queries 和 people_also_ask 在每条自然结果行中重复。
position 在分页和去重后重写为连续的输出排名。其他自然结果字段如 title、source_name、display_url、url、clean_url、root_domain、redirect_url、snippet、highlighted_terms、image_alt、has_image 和 favicon_url 来自 organic 列表中的当前项。
脚本读取 PROXY_AUTH 和 PROXY_DOMAIN,构建为 socks5://{PROXY_AUTH}@{PROXY_DOMAIN},并作为 input_proxy 发送。
当前端输入未覆盖时,还会从 PROXY_AUTH 中提取运行时值:
task_id: 来自 taskId-...user_name: 当前默认账户段user_id: 当前配置的默认用户 ID(除非显式提供)这是一行返回数据的结构。完整结果在平台层面仍为行列表,因为 SDK 使用表格式 push_data。
| 列名 | 说明 | 数据类型 |
|---|---|---|
| keyword | 请求使用的搜索关键词 | Text |
| current_page | 当前 SERP 页码,来自 pagination.current_page | Number |
| start_position | 请求使用的结果偏移量 | Number |
| google_domain | 搜索请求使用的 Google 域名 | Text |
| country | 搜索请求中的国家参数 | Text |
| language | 搜索请求中的语言参数 | Text |
| geo_location | 从 location 或 uule 解析的位置值 | Text |
| safe_search | 安全搜索模式 | Text |
| exclude_autocorrected_results | 是否排除自动纠正的结果 | Boolean |
| results_filtering | Google 结果过滤模式 | Text |
| scraped_at | ISO 8601 格式的抓取时间戳 | Text |
| search_url | 请求的 Google 搜索 URL,来自 search_metadata.spider_url | Url |
| results_count_collected | 当前页面收集的自然结果数量 | Number |
| results_total_text | 来自 search_information.total_results 的原始总结果文本 | Text |
| related_queries | 每条行中重复的相关查询记录 | Array |
| position | 分页和去重后的连续自然结果排名位置 | Number |
| title | 自然结果标题 | Text |
| source_name | 自然结果来源名称 | Text |
| display_url | 结果中显示的 Google 展示 URL | Url |
| url | 解析后的自然结果 URL | Url |
| clean_url | 去除查询字符串和片段的规范 URL | Url |
| root_domain | 从自然结果 URL 提取的根域名 | Text |
| redirect_url | 自然结果的 Google 重定向 URL | Url |
| snippet | 自然结果摘要文本 | Text |
| highlighted_terms | 摘要中高亮词项的逗号分隔列表 | Text |
| image_alt | 自然结果的图片 alt 文本 | Text |
| has_image | 自然结果是否包含图片元数据 | Boolean |
| favicon_url | 自然结果的原始 favicon URL 或 data URI | Text |
| people_also_ask | 每条行中重复的"人们还问"记录 | Array |
related_queries| 字段 | 说明 | 数据类型 |
|---|---|---|
| block_position | 相关查询块在 SERP 中的位置 | Number |
| topic_title | 相关查询标题文本 | Text |
| related_search_url | 相关查询的 Google 搜索 URL | Url |
| item_position | 相关查询块内的项目位置 | Number |
people_also_ask| 字段 | 说明 | 数据类型 |
|---|---|---|
| position | "人们还问"列表中的位置 | Number |
| question | 问题文本 | Text |
| answer | 答案或摘要文本(如有) | Text |
| source_url | 答案的来源 URL(如有) | Url |
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| keyword | String | 是 | — | 搜索关键词。也接受完整的 Google 搜索 URL,构建器会在可能的情况下提取支持的参数。 |
| max_results | Integer | 否 | 10 | 输出的自然结果行数上限。内部分页仍使用 Google 偏移量 0、10、20 等,但用户只需提供期望的行数。 |
| domain | String | 否 | https://www.google.com/ | 抓取时使用的 Google 域名。 |
| gl | String | 否 | us | 使用两位字母国家代码设置搜索结果的区域。 |
| hl | String | 否 | en | Google 搜索结果的界面语言。 |
| cr | Array | 否 | [] | 将结果限制在一个或多个国家或地区。值以 | 连接,例如 countryFR|countryDE。 |
| lr | Array | 否 | [] | 将结果限制在一种或多种语言。值使用 lang_XX 并以 | 连接,例如 lang_fr|lang_de。 |
| location | String | 否 | — | 用于模拟本地搜索上下文的地理位置文本。 |
| tbs | String | 否 | — | 高级 Google 搜索过滤器,如时间或搜索垂直领域过滤器。 |
| safe | String | 否 | off | 成人内容过滤模式。支持的值为 active 和 off。 |
| nfpr | String | 否 | 0 | 控制拼写自动纠正。nfpr=1 禁用 Google 自动纠正。 |
| filter | String | 否 | 0 | 启用或禁用 Google 的类重复结果过滤。 |
domain=https://www.google.com/gl=ushl=ensafe=offnfpr=0filter=0max_results=10隐藏的内部默认值还包括 uule、num=10、render_js、device、重试逻辑、每个偏移量 5 个并行探测、当全部 5 个探测失败时的第二批次同偏移量探测,以及上限为 50 个在途探测请求的轻量级池。
request_builder.py: 输入解析、规范化、验证和请求负载构建google_serp_client.py: 爬虫接口 HTTP 请求执行,支持重试pagination_runner.py: 并发内部分页、唯一行跟踪和有序流式输出response_mapper.py: 接口响应提取和行级输出映射main.py: 任务编排和 CoreSDK 集成output_schema.json: 与当前行格式对齐的输出字段模式集成测试启动本地模拟 CoreSDK gRPC 服务器和本地模拟爬虫接口服务器,然后验证负载构建、重试行为和行级输出映射。
探索商店中更多热门采集工具
by Kael Odin
数据集去重采集器是一款功能强大的工具,用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化,附加增强功能,并具备完善的异常处理机制。
by Kael Odin
一款功能强大的 Google Sheets 数据导入导出工具,专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。
by Kael Odin
一款基于 Cheerio 的高速静态页面爬虫工具,专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析,速度比完整浏览器渲染快 10-50 倍。
by Kael Odin
一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用(SPA)、无限滚动页面以及跨浏览器测试场景。