Cheerio网页抓取

定价

Try for free

Cheerio网页抓取

odin-kael/cheerio-html-parsing-scraper

一款基于 Cheerio 的高速静态页面爬虫工具，专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析，速度比完整浏览器渲染快 10-50 倍。

免费试用

起始 URL | Start URLs必填

URLs to start crawling from | 开始爬取的 URL 列表

类型: array

链接选择器 | Link Selector可选

CSS selector for finding links. | 用于发现链接的 CSS 选择器

类型: select

默认: a[href]

选项：

All Links (a[href])Images (img)Custom...

Glob 模式 | Glob Patterns可选

Only crawl URLs matching these glob patterns (e.g., https://example.com/blog/*). | 只爬取匹配这些 glob 模式的 URL

类型: array

排除模式 | Exclude Patterns可选

URL patterns to skip (e.g., /login, /admin, *.pdf). | 要跳过的 URL 模式

类型: array

最大爬取深度 | Max Depth可选

Maximum crawl depth (0 = start page only). | 最大爬取深度（0 = 仅起始页）

类型: integer

默认: 1

最大页面数 | Max Pages可选

Maximum pages to crawl (0 = unlimited, recommend 50 for speed). | 最大爬取页面数（0 = 不限制，建议 50）

类型: integer

默认: 50

最大并发数 | Concurrency可选

Maximum concurrent requests (recommend 3-5 for CDP browser). | 最大并发请求数（CDP 浏览器建议 3-5）

类型: integer

默认: 3

页面超时(秒) | Page Timeout (secs)可选

Page load timeout in seconds (lower = faster failures). | 页面加载超时时间（秒，越低失败越快）

类型: integer

默认: 20

重试次数 | Retries可选

Maximum retries for failed requests (0 = no retry). | 失败请求重试次数（0 = 不重试）

类型: integer

默认: 1

页面函数 | Page Function可选

Custom JavaScript function to extract data. Use $ for Cheerio selector. | 自定义 JavaScript 函数提取数据，使用 $ 作为 Cheerio 选择器

类型: string

保留 URL Fragment | Keep URL Fragments可选

Keep URL fragments (hash) in links. | 保留 URL 中的 Fragment（哈希部分）

类型: boolean

默认: false

忽略 SSL 错误 | Ignore SSL Errors可选

Ignore SSL certificate errors. | 忽略 SSL 证书错误

类型: boolean

默认: true

调试日志 | Debug Log可选

Enable detailed logging. | 启用详细日志

类型: boolean

默认: false

定价

失败结果不计费

用户评分

5.0

开发者

Kael Odin

Worker 数据

3次累计运行

成功率：100.00%

最后更新时间：2026.04.15

分类

Google

你可能也喜欢

探索商店中更多热门采集工具

查看全部采集工具

谷歌搜索结果（SERP）抓取API

by CoreClaw

通过关键词请求，返回结构化的搜索结果摘要，包括最终搜索参数、自然结果、相关搜索以及 People Also Ask 数据。

4.8

604 次运行

低至 $1.2/1,000 结果

数据集合并和去重工具

by Kael Odin

数据集去重采集器是一款功能强大的工具，用于合并多个 JSON/JSONL 文件中的数据集并进行数据去重。该工具针对 CafeScraper 平台完成全面优化，附加增强功能，并具备完善的异常处理机制。

5.0

15 次运行

低至 $1.2/1,000 结果

Google Sheets 导入导出工具

by Kael Odin

一款功能强大的 Google Sheets 数据导入导出工具，专用于实现 Google Sheets 与外部系统的数据同步、备份和集成。支持三种操作模式、两种认证方式、批量处理、数据去重、自动备份等功能。

5.0

2 次运行

低至 $1.2/1,000 结果

Playwright 网页抓取

by Kael Odin

一款使用 Playwright 进行完整浏览器渲染的强大跨浏览器网页爬虫工具。支持 Chromium、Firefox 和 WebKit 三大浏览器引擎。完美适用于动态页面、单页应用（SPA）、无限滚动页面以及跨浏览器测试场景。