Skip to content
IN DEVELOPMENT范式12 Patterns5 Contracts6 Scenariosv0.1.2

LLM Agent 工程

三支柱协议: 设计范式 + 数据模拟 + 收敛迭代

Tri-Pillar Protocol:12 种 Agent 模式选型、5 份实现合同、Pillar II 合成数据生成 (LLM API 批量)、Pillar III 收敛迭代 (多版本竞争 + LLM-as-Judge)。6 种业务场景蓝图。

LLM Agent 工程
Agent 设计拆解
$"设计一个电商客服 Agent"
Phase A: 战略锚定 — 自助率目标、H5 通道、P95 < 2s
Phase B: 模式栈 — ⑥ Router-Expert + ② Slot Filling + ⑧ Handoff
Phase C: 5 份实现合同生成中...
OK Intent + State + Tool + Guardrail + Handoff Contract ready
Pillar II: 数据模拟生成
$"为这个 Agent 生成评估数据集"
T1: happy_path (60%) — LLM 批量生成...
T2: edge_case (20%) — 边界场景...
T3: adversarial (10%) — 对抗测试...
T4: multi_turn (10%) — 多轮对话...
OK 200 eval cases → eval/dataset.json (quality: 4.6/5.0)
Pillar III: 收敛迭代
$"对比 V1 和 V2 的 Prompt,择优"
V1 score: 78.3 | V2 score: 85.1
OK V2 wins — updated baseline

核心能力

12 种 Agent 模式

CREX Rule Router / Slot Filling / Function Calling / Workflow / ReAct / Router-Expert / MCP / Handoff / Prompt Chaining / Parallelizing / Orchestrator-Worker / Evaluator-Optimizer。矩阵选型 + 组合栈。

5 阶段工作流

战略锚定 → 模式选择 → 实现合同 → 评估数据 → 收敛迭代。每阶段有明确输入/输出契约。

5 份实现合同

Intent / State / Tool / Guardrail / Handoff Contract。可直接交付给工程团队实施。

Pillar II: 数据模拟

Agent 自主调 LLM API 按维度批量生成评估数据。happy_path 60% + edge_case 20% + adversarial 10% + multi_turn 10%。LLM-as-Judge 质量验证。

Pillar III: 收敛迭代

多版本 Prompt/架构并行测试 + LLM-as-Judge 跨版本比较。量化择优、自动收敛。收敛判定:明确胜出→选择、差异不显著→选成本优、全不达标→新候选。

6 种场景蓝图

电商购物 / 餐饮点餐 / 客户服务 / 内容生成 / 编程助手 / 知识问答。即插即用参考。

命令参考

5 阶段工作流

按序执行

命令说明示例
Phase A战略锚定提取业务目标、延迟预算、工具边界、评估基线
Phase B模式选择从 12 模式矩阵选择组合栈 + 拒绝理由
Phase C实现合同5 份合同: Intent/State/Tool/Guardrail/Handoff
Phase D评估与数据评估计划 + 性能评估 + 数据模拟生成
Phase E收敛迭代多版本竞争 + LLM-as-Judge + 收敛判定

场景蓝图

按场景加载参考

命令说明示例
电商购物购物下单全流程references/scenarios/ecommerce-shopping.md
餐饮点餐点餐到配送references/scenarios/food-ordering.md
客户服务工单与升级references/scenarios/customer-service.md
编程助手代码生成与调试references/scenarios/coding-assistant.md
知识问答RAG 检索增强references/scenarios/knowledge-qa.md

12 种 Agent 模式

#模式延迟可预测性适用场景
CREX Rule Router50-500ms★★★★★FAQ / 导航
Slot Filling100-800ms★★★★☆订单 / 表单
Function Calling500ms-2s★★★★☆稳定 API
Workflow Agent1-5s★★★★☆确定性多步
ReAct3-15s★★☆☆☆探索 / 推理
Router-Expert500ms-3s★★★☆☆多域系统
MCP Tool Protocol变化★★★★☆可扩展工具
Handoff/Delegation变化★★★☆☆Agent-Agent/人工
Prompt Chaining1-5s★★★★★顺序分解
Parallelizing500ms-3s★★★★☆并发子任务
Orchestrator-Worker2-10s★★★☆☆动态委派
Evaluator-Optimizer5-30s★★★★☆迭代精炼

模式选择规则 (确定性)

  1. 延迟 < 1s → 优先 ①② + 缓存,禁用 ⑤⑪⑫
  2. 步骤固定 → ④ Workflow 或 ⑨ Prompt Chaining
  3. 步骤动态 → ⑤ ReAct 或 ⑪ Orchestrator-Worker
  4. 输出需要质量迭代 → ⑫ Evaluator-Optimizer
  5. 多领域意图歧义 → ⑥ Router-Expert + ⑧ Handoff
  6. 可并行子任务 → ⑩ Parallelizing
  7. 仅当单 Agent 无法满足 → 多 Agent (⑥⑧⑪)
  8. 需要外部知识 → Agentic RAG (⑤ + 检索工具)

5 份实现合同

Phase C 产出的可交付文档:

合同内容
Intent Contract意图注册表 + 参数定义
State Contract会话状态 + 记忆模型
Tool Contract工具/MCP 定义 + 调用约束
Guardrail Contract5 层安全架构
Handoff Contract升级/委托触发条件

Pillar II — 数据模拟生成

Agent 自主调 LLM API 按维度批量生成评估数据。

维度分配

维度比例说明
happy_path60%正常路径
edge_case20%边界情况
adversarial10%对抗测试(注入攻击变体)
multi_turn10%多轮对话
i18n_variant可选语言变体

质量验证

生成后使用强模型质量检查:

指标阈值
uniqueness (去重保留)≥ 90%
naturalness (自然度)≥ 4.0/5.0
completeness (字段完整)100%
diversity (意图覆盖)≥ 95%
adversarialRigor (对抗强度)≥ 3.5/5.0

Pillar III — 收敛迭代

多版本 Prompt/架构并行测试 + LLM-as-Judge 跨版本比较。

收敛流程

候选版本 (V1, V2, V3, ...)


每个版本跑全量 eval 数据集 → 输出评分


LLM-as-Judge 跨版本比较

     ├── 明确胜出     → 选择最优 → 更新 baseline
     ├── 差异不显著   → 选择成本/延迟更优的
     └── 全部不达标   → 诊断 → 生成新候选 → 下一轮


收敛判定 → 最优版本 + 分析报告

收敛判定标准

  • 赢阈值: 版本得分差 ≥ 5%,统计显著
  • 迭代上限: 通常 3-5 轮
  • 停止条件: 连续两轮改进 < 2% 时停止
  • 锁定: 选定版本冻结为 baseline

输出规范

Phase B-C 产出文档必须包含 6 段:

  1. 战略锚定 — 关键决策点明确
  2. 推荐模式栈 — 组合拓扑 + 理由
  3. 关键合同 — 可实施的接口规格
  4. 评估计划 — 离线测试 + 在线 KPI + 回归门禁
  5. 数据策略 — 合成数据维度与质量要求
  6. 收敛方案 — 迭代策略与择优逻辑

参考文档

技能内置丰富的模式参考和场景蓝图(Agent 按需加载):

类型文档加载时机
模式矩阵references/paradigms/pattern-matrix.mdPhase B
决策树references/paradigms/decision-tree.mdPhase B
独立模式references/patterns/01-*.md ... 12-*.md选中模式后
上下文工程references/paradigms/context-engineering.mdPhase C
Prompt 模式references/paradigms/prompt-patterns.mdPhase C
记忆架构references/paradigms/memory-architecture.mdPhase C
工具设计references/paradigms/tool-design.mdPhase C
安全护栏references/paradigms/safety-guardrails.mdPhase C
可观测性references/paradigms/observability.mdPhase C
性能基线references/paradigms/performance-benchmarking.mdPhase D
评估闭环references/eval-loop.mdPhase D
数据生成references/simulation/data-generation.mdPhase D
迭代协议references/convergence/iteration-protocol.mdPhase E
场景蓝图references/scenarios/*.md按业务场景

快速开始

Install
via skills.sh (推荐)
$npx skills add northseadl/norix-skills/llm-agent-dev
或手动安装
$git clone https://github.com/northseadl/norix-skills.git
$ln -s norix-skills/llm-agent-dev <SKILLS_DIR>/llm-agent-dev
验证
$自然语言触发
OK Skill ready.

Built for AI Agents, by Norix