命令

说明

示例

fetch

单页抓取 (自动引擎)

./scrape fetch https://open.feishu.cn/document/...

--engine cdp

强制浏览器引擎

./scrape fetch URL --engine cdp

--selector

精准提取容器

./scrape fetch URL --engine cdp --selector ".doc-body"

--expand-all

展开所有折叠内容

./scrape fetch URL --expand-all --wait 5000

--scroll-full

全页滚动触发懒加载

./scrape fetch URL --scroll-full

--js

执行自定义 JS

./scrape fetch URL --js "document.querySelectorAll('.btn').forEach(e => e.click())"

--js-file

从文件执行 JS

./scrape fetch URL --js-file /path/to/interact.js --wait 5000

--wait-for

等待元素出现

./scrape fetch URL --wait-for ".api-response-table"

--auto

自动发现+抓取

./scrape fetch https://docs.example.com --auto -o docs/

--from-file

从 URL 列表抓取

./scrape fetch --from-file urls.txt -o docs/

--merge

合并为单文件

./scrape fetch --from-file urls.txt --merge -o all.md

--raw

全页输出

./scrape fetch URL --raw

--summary-only

仅显示摘要

./scrape fetch URL --summary-only

命令

说明

示例

exec

执行 JS 返回结果

./scrape exec URL --js "return document.title"

--then-fetch

JS 后抓取为 Markdown

./scrape exec URL --js "expandAll()" --then-fetch -o /tmp/result.md

--session ID

复用浏览器会话

./scrape exec URL --session mysession --js "getState()"

--js-only

跳过导航 (已有会话)

./scrape exec URL --js-only --session mysession --js "return data"

命令

说明

示例

discover

站点分析

./scrape discover https://docs.example.com

--deep

浏览器深度爬取

./scrape discover URL --engine cdp --deep --max-pages 100

--json

JSON 输出

./scrape discover URL --json

命令

说明

示例

openapi

提取 API 文档

./scrape openapi https://api.example.com/v3/api-docs -o api.md

从 Swagger UI

自动发现 spec

./scrape openapi https://api.example.com/swagger-ui/ -o api.md

何时使用

Agent 内置的 read_url_content 适用于简单静态页面，但在以下场景完全失败：

SPA 页面（React、Vue、Angular — 内容由 JavaScript 渲染）
现代文档站（VitePress、Docusaurus — 飞书、企业微信开发文档）
API 门户（Swagger UI、Redoc）
折叠/懒加载内容（需要 JS 交互才能展示的内容）

内容精度控制

精度	方式	效果	适用场景
默认	无需额外参数	PruningContentFilter 去除噪声	大多数场景
精准	`--selector ".content"`	零噪声提取	生产级文档
全页	`--raw`	完整页面	调试分析

精准模式工作流：先抓样本页 → 分析残留噪声 → 识别 CSS 选择器 → 批量重抓。

使用场景

抓取 SPA 页面

bash

./scrape fetch https://open.feishu.cn/document/server-docs/im-v1/message/create

Auto 引擎自动探测到 SPA → 降级到 L1 浏览器 → 输出完整 Markdown。

交互式内容提取

对于折叠内容、懒加载页面、需要 JS 交互的场景：

bash

# 展开所有折叠/手风琴内容（通用预设）
./scrape fetch URL --expand-all --wait 5000

# 滚动触发懒加载
./scrape fetch URL --scroll-full

# 自定义 JS 点击展开按钮
./scrape fetch URL --js "document.querySelectorAll('.expand-btn').forEach(e => e.click())"

# 等待特定元素出现后再提取
./scrape fetch URL --wait-for ".api-response-table"

# 组合使用
./scrape fetch URL --expand-all --js "extraAction()" --wait-for ".loaded" -o /tmp/docs/

JavaScript 执行 (exec)

在页面上下文中执行 JS，提取运行时数据：

bash

# 提取页面的 JS 状态
./scrape exec URL --js "return JSON.stringify(window.__NEXT_DATA__)"

# 执行 JS 后再抓取页面
./scrape exec URL --js "expandAll()" --then-fetch -o /tmp/result.md

# 会话复用：多步交互
./scrape exec URL --session s1 --js "loginAndNavigate()"
./scrape exec URL --js-only --session s1 --js "return getData()"

批量下载文档站

bash

# 自动发现 + 批量抓取
./scrape fetch https://docs.example.com --auto -o /tmp/docs/

# 从 URL 列表抓取，合并为单文件
./scrape fetch --from-file urls.txt --merge -o /tmp/all.md

文件自动使用页面标题命名（读取成员.md，Getting_Started.md）。

构建本地文档库

./scrape discover <url> --json → 获取 URL + 标题
Agent 筛选相关 URL → 写入文件
./scrape fetch --from-file urls.txt -o /path/to/docs/
Agent 整理文件结构

关键选项

选项	命令	说明
`--engine MODE`	discover, fetch	`auto` (默认), `http` (仅L0), `cdp` (仅L1)
`--selector CSS`	fetch, exec	CSS 选择器精准提取
`--raw`	fetch, exec	全页输出（跳过过滤）
`--js CODE`	fetch, exec	提取前执行 JS
`--js-file PATH`	fetch, exec	从文件执行 JS
`--wait-for CSS`	fetch	等待元素出现
`--expand-all`	fetch	展开折叠内容
`--scroll-full`	fetch	滚动触发懒加载
`--then-fetch`	exec	JS 后抓取为 Markdown
`--session ID`	exec	复用浏览器会话
`--js-only`	exec	跳过导航 (已有会话)
`--auto`	fetch	自动发现+抓取
`--from-file FILE`	fetch	从 URL 列表读取
`--merge`	fetch	合并为单文件
`--json`	discover, fetch	JSON 输出
`--summary-only`	fetch	仅显示摘要
`--max-pages N`	discover, fetch	限制页数
`--deep`	discover	浏览器深度爬取
`-o PATH`	fetch, exec, openapi	输出路径

前置条件

uv 包管理器：curl -LsSf https://astral.sh/uv/install.sh | sh
首次运行自动安装 Python 依赖和 Playwright Chromium

架构

web-scraper/
├── scrape               ← Bash CLI 入口 (uv 环境自启动)
├── SKILL.md             ← Agent 指令文件
└── scripts/
    ├── engine.py        ← 双引擎核心 (L0 httpx + L1 crawl4ai)
    ├── scrape_cli.py    ← CLI 命令: discover / fetch / exec / openapi
    └── pyproject.toml   ← Python 依赖声明

依赖: crawl4ai (Playwright) | httpx | selectolax | markdownify

Web Scraper

核心能力

双引擎架构

内容精度三档

交互式内容提取

JavaScript 执行

智能站点发现

OpenAPI 提取

命令参考

抓取 (fetch)

JavaScript 执行 (exec)

分析 (discover)

API 文档 (openapi)

何时使用

内容精度控制

使用场景

抓取 SPA 页面

交互式内容提取

JavaScript 执行 (exec)

批量下载文档站

构建本地文档库

关键选项

前置条件

架构

快速开始

Web Scraper

核心能力

双引擎架构

内容精度三档

交互式内容提取

JavaScript 执行

智能站点发现

OpenAPI 提取

命令参考

抓取 (fetch)

JavaScript 执行 (exec)

分析 (discover)

API 文档 (openapi)

何时使用 ​

内容精度控制 ​

使用场景 ​

抓取 SPA 页面 ​

交互式内容提取 ​

JavaScript 执行 (exec) ​

批量下载文档站 ​

构建本地文档库 ​

关键选项 ​

前置条件 ​

架构 ​

快速开始

何时使用

内容精度控制

使用场景

抓取 SPA 页面

交互式内容提取

JavaScript 执行 (exec)

批量下载文档站

构建本地文档库

关键选项

前置条件

架构