网页内容抓取器

01KP58MS00MH2P049YXD12Y06B

使用 Crawl4AI 智能抓取网站内容，提取多种格式的页面内容（Markdown、HTML 或纯文本）。支持可配置的深度、等待条件、CSS 选择器和全面的链接发现。零代码操作，一键导出 CSV 或 JSON 格式。

by Odin Kael

4.8

2次运行

最后更新:2026-04-14

免费试用

免费 2,000 条结果

什么是网页内容抓取器？

网页内容抓取器是一种自动化数据提取工具，专用于从网站批量抓取页面内容，支持多种输出格式和智能内容清理。使用 CoreClaw，即可零代码获取结构化的网页内容，助力内容聚合、SEO 分析、AI 知识库构建和数据挖掘。

✅ 多种输出格式 - 支持 Markdown、HTML、纯文本三种格式
✅ 智能链接发现 - 自动检测内部和外部链接
✅ 深度控制 - 可配置爬取深度（0-10级）
✅ CSS 选择器 - 提取特定页面区域
✅ 智能等待 - 等待选择器、动态内容、网络空闲
✅ 内容清理 - 自动移除导航，规范化空白
✅ 模式匹配 - 使用正则表达式包含/排除 URL
✅ 批量处理 - 支持多站点并发抓取，高效构建内容库

您可以从网站提取哪些数据？

📄 页面URL	📝 页面标题
📖 Markdown 内容	🌐 HTML 内容
📄 纯文本内容	📊 内容摘要
🔗 内部链接	🌐 外部链接
📏 爬取深度	📡 HTTP状态码

如何抓取网页内容？

CoreClaw 网页内容抓取器在后台为您处理代理轮换、任务调度、数据标准化和最终交付。只需几分钟，您就可以通过以下步骤获取数据：

使用您的邮箱创建一个免费的 CoreClaw 帐户
打开网页内容抓取器控制面板
输入起始URL并设置参数（最大页面数、深度、提取模式等）
选择提取模式和CSS选择器（可选）
点击 "开始"，让我们的云服务器来完成数据抓取工作
以 JSON 或 CSV 格式下载数据集

➡️ 输入

主要参数说明

参数	类型	默认值	说明
startUrls	array	-	必填，起始URL列表
maxPages	integer	50	最大处理页面数（1-10000）
maxDepth	integer	2	最大链接深度（0-10）
concurrency	integer	5	并发页面任务（1-50）
requestTimeoutSecs	integer	60	页面超时（5-600秒）
extractMode	string	markdown	输出格式：markdown/html/text
waitUntil	string	domcontentloaded	加载策略
waitForSelector	string	-	等待的CSS选择器
cssSelector	string	-	仅提取此区域
sameDomainOnly	boolean	true	仅跟踪同域名链接
includePatterns	array	[]	包含的正则模式
excludePatterns	array	[]	排除的正则模式
cleanContent	boolean	true	清理和规范化内容
maxContentChars	integer	0	截断内容（0=不限制）
crawlMode	string	full	full 或 discover_only

使用示例

示例 1：基础爬取

起始URL：https://example.com
最大页面数：50
最大深度：2
提取模式：Markdown
结果：提取50个页面的Markdown内容

示例 2：提取特定区域

起始URL：https://blog.example.com
CSS选择器：article
等待选择器：.content
提取模式：Markdown
结果：仅提取文章区域的内容

示例 3：仅发现链接

起始URL：https://example.com
爬取模式：discover_only
包含链接：true
结果：发现所有链接，不提取内容

⬅️ 输出

为了方便您查看，输出结果以表格和选项卡的形式显示。您可以选择以 CSV/JSON 的形式下载结果。

输出内容说明

基础字段

url - 页面URL
title - 页面标题
statusCode - HTTP状态码
depth - 爬取深度

内容字段（根据提取模式返回对应字段）

markdown - Markdown格式内容
html - HTML格式内容
text - 纯文本内容

辅助字段

excerpt - 内容预览（300字符）
links_internal - 发现的内部链接
links_external - 发现的外部链接

示例数据：

json

{
  "url": "https://example.com/page",
  "title": "页面标题",
  "markdown": "# 页面标题\n\n这里是页面内容...",
  "excerpt": "这里是页面内容的预览，前300个字符...",
  "links_internal": [
    "https://example.com/about",
    "https://example.com/contact"
  ],
  "links_external": [
    "https://external.com/link"
  ],
  "depth": 1,
  "statusCode": 200
}