Cheerio网页抓取

定价

Try for free

Cheerio网页抓取

odin-kael/cheerio-html-parsing-scraper

一款基于 Cheerio 的高速静态页面爬虫工具，专为静态 HTML 页面设计。使用 Cheerio 进行 HTML 解析，速度比完整浏览器渲染快 10-50 倍。

免费试用

什么是Cheerio网页抓取？

Cheerio网页抓取是一种基于 Cheerio 的高速网页抓取工具，专用于处理静态 HTML 页面。与需要完整浏览器渲染的爬虫不同，它只解析 HTML 源码，不执行 JavaScript，因此速度极快，资源消耗低。使用 CoreClaw，即可零代码抓取静态网页，助力内容采集、数据分析、SEO 审计、数据备份等应用场景。

✅ 极速解析 - 使用 Cheerio 进行 HTML 解析，速度比浏览器快 10-50 倍
✅ 自定义提取 - 支持编写自定义 JavaScript 函数，灵活提取数据
✅ 智能链接发现 - 自动发现并跟踪页面链接，支持深度控制
✅ URL 模式过滤 - 支持 Glob 模式和正则表达式精确过滤 URL
✅ 并发控制 - 可配置并发请求数量，提升抓取效率
✅ 自动代理 - 通过 CDP 连接远程浏览器，自动处理代理
✅ 资源优化 - 自动阻止图片、CSS、字体等资源加载，节省带宽
✅ 低资源消耗 - 不需要完整浏览器，内存占用极低

您可以从Cheerio获取哪些数据？

🔗 页面 URL	📄 页面标题
📏 爬取深度	🔢 HTTP 状态码
📝 Meta 描述	📋 H1 主标题
🌐 页面文本内容	🔗 发现的链接数
🎯 自定义提取数据	⚠️ 错误信息

如何抓取Cheerio网页抓取？

CoreClaw Cheerio网页抓取在后台为您处理代理连接、HTML 解析、链接发现、数据提取和结果整理。只需几分钟，您就可以通过以下步骤获取数据：

使用您的邮箱创建一个免费的 CoreClaw 帐户
打开Cheerio网页抓取控制面板
输入起始 URL 列表
配置爬取参数（深度、页面数、并发、过滤模式等）
编写自定义页面函数（可选，用于提取特定数据）
点击 "开始"，让我们的云服务器完成抓取工作
以 JSON 格式下载已清洗的数据集

➡️ 输入

主要参数说明

参数	类型	必填	默认值	说明
startUrls	array	✅ 是	-	起始 URL 列表
linkSelector	string	否	`a[href]`	用于发现链接的 CSS 选择器
globPatterns	array	否	`[]`	URL 匹配模式（Glob 格式）
excludePatterns	array	否	`[]`	排除 URL 模式（Glob 格式）
maxCrawlingDepth	integer	否	`1`	最大爬取深度（0 表示仅爬起始页）
maxPagesPerCrawl	integer	否	`50`	最大爬取页面数
maxConcurrency	integer	否	`3`	最大并发请求数
pageLoadTimeoutSecs	integer	否	`20`	页面加载超时时间（秒）
maxRequestRetries	integer	否	`1`	最大重试次数
pageFunction	string	否	见下方说明	自定义页面函数（JavaScript 代码）
debugLog	boolean	否	`false`	是否启用调试日志

使用示例

示例 1：基础爬取

起始 URL：https://example.com
最大深度：1
最大页面数：10
结果：爬取起始页及其一级链接页面，提取基础数据

示例 2：深度爬取带过滤

起始 URL：https://example.com/blog
URL 匹配模式：https://example.com/blog/*
排除模式：/tag/, /author/, *.pdf
最大深度：3
最大页面数：50
结果：爬取博客文章页面，排除标签页、作者页和 PDF 文件

示例 3：自定义提取新闻列表

起始 URL：https://news.ycombinator.com/
最大深度：0（仅爬起始页）
自定义页面函数：提取新闻标题和链接
结果：提取 Hacker News 首页的新闻列表

示例 4：提取表格数据

起始 URL：https://example.com/data
自定义页面函数：提取表格行数据
结果：将网页表格转换为结构化的 JSON 数据

示例 5：高并发爬取

起始 URL：https://example.com
最大并发：10
最大页面数：100
结果：使用高并发快速爬取多个页面

⬅️ 输出

为了方便您查看，输出结果以表格和选项卡的形式显示。您可以选择以 JSON 的形式下载结果。

输出内容说明

每个抓取的页面将输出以下数据：

默认字段

url - 页面 URL
title - 页面标题
description - Meta 描述
h1 - 第一个 H1 标签文本
text - 页面文本内容（前 1000 字符）
depth - 爬取深度
statusCode - HTTP 状态码
linksFound - 发现的链接数量

自定义数据

根据 pageFunction 提取的自定义数据

示例数据：

json

{
  "url": "https://example.com/page",
  "title": "页面标题",
  "description": "页面描述文本",
  "h1": "主标题",
  "text": "页面文本内容...",
  "depth": 1,
  "statusCode": 200,
  "linksFound": 45,
  "customData": {
    "articles": [
      {
        "title": "文章标题",
        "link": "https://example.com/article/1",
        "summary": "文章摘要"
      }
    ]
  }
}