三支柱协议: 设计范式 + 数据模拟 + 收敛迭代
Tri-Pillar Protocol:12 种 Agent 模式选型、5 份实现合同、Pillar II 合成数据生成 (LLM API 批量)、Pillar III 收敛迭代 (多版本竞争 + LLM-as-Judge)。6 种业务场景蓝图。
FEATURES
CREX Rule Router / Slot Filling / Function Calling / Workflow / ReAct / Router-Expert / MCP / Handoff / Prompt Chaining / Parallelizing / Orchestrator-Worker / Evaluator-Optimizer。矩阵选型 + 组合栈。
战略锚定 → 模式选择 → 实现合同 → 评估数据 → 收敛迭代。每阶段有明确输入/输出契约。
Intent / State / Tool / Guardrail / Handoff Contract。可直接交付给工程团队实施。
Agent 自主调 LLM API 按维度批量生成评估数据。happy_path 60% + edge_case 20% + adversarial 10% + multi_turn 10%。LLM-as-Judge 质量验证。
多版本 Prompt/架构并行测试 + LLM-as-Judge 跨版本比较。量化择优、自动收敛。收敛判定:明确胜出→选择、差异不显著→选成本优、全不达标→新候选。
电商购物 / 餐饮点餐 / 客户服务 / 内容生成 / 编程助手 / 知识问答。即插即用参考。
REFERENCE
按序执行
| 命令 | 说明 | 示例 |
|---|---|---|
Phase A | 战略锚定 | 提取业务目标、延迟预算、工具边界、评估基线 |
Phase B | 模式选择 | 从 12 模式矩阵选择组合栈 + 拒绝理由 |
Phase C | 实现合同 | 5 份合同: Intent/State/Tool/Guardrail/Handoff |
Phase D | 评估与数据 | 评估计划 + 性能评估 + 数据模拟生成 |
Phase E | 收敛迭代 | 多版本竞争 + LLM-as-Judge + 收敛判定 |
按场景加载参考
| 命令 | 说明 | 示例 |
|---|---|---|
电商购物 | 购物下单全流程 | references/scenarios/ecommerce-shopping.md |
餐饮点餐 | 点餐到配送 | references/scenarios/food-ordering.md |
客户服务 | 工单与升级 | references/scenarios/customer-service.md |
编程助手 | 代码生成与调试 | references/scenarios/coding-assistant.md |
知识问答 | RAG 检索增强 | references/scenarios/knowledge-qa.md |
| # | 模式 | 延迟 | 可预测性 | 适用场景 |
|---|---|---|---|---|
| ① | CREX Rule Router | 50-500ms | ★★★★★ | FAQ / 导航 |
| ② | Slot Filling | 100-800ms | ★★★★☆ | 订单 / 表单 |
| ③ | Function Calling | 500ms-2s | ★★★★☆ | 稳定 API |
| ④ | Workflow Agent | 1-5s | ★★★★☆ | 确定性多步 |
| ⑤ | ReAct | 3-15s | ★★☆☆☆ | 探索 / 推理 |
| ⑥ | Router-Expert | 500ms-3s | ★★★☆☆ | 多域系统 |
| ⑦ | MCP Tool Protocol | 变化 | ★★★★☆ | 可扩展工具 |
| ⑧ | Handoff/Delegation | 变化 | ★★★☆☆ | Agent-Agent/人工 |
| ⑨ | Prompt Chaining | 1-5s | ★★★★★ | 顺序分解 |
| ⑩ | Parallelizing | 500ms-3s | ★★★★☆ | 并发子任务 |
| ⑪ | Orchestrator-Worker | 2-10s | ★★★☆☆ | 动态委派 |
| ⑫ | Evaluator-Optimizer | 5-30s | ★★★★☆ | 迭代精炼 |
Phase C 产出的可交付文档:
| 合同 | 内容 |
|---|---|
| Intent Contract | 意图注册表 + 参数定义 |
| State Contract | 会话状态 + 记忆模型 |
| Tool Contract | 工具/MCP 定义 + 调用约束 |
| Guardrail Contract | 5 层安全架构 |
| Handoff Contract | 升级/委托触发条件 |
Agent 自主调 LLM API 按维度批量生成评估数据。
| 维度 | 比例 | 说明 |
|---|---|---|
| happy_path | 60% | 正常路径 |
| edge_case | 20% | 边界情况 |
| adversarial | 10% | 对抗测试(注入攻击变体) |
| multi_turn | 10% | 多轮对话 |
| i18n_variant | 可选 | 语言变体 |
生成后使用强模型质量检查:
| 指标 | 阈值 |
|---|---|
| uniqueness (去重保留) | ≥ 90% |
| naturalness (自然度) | ≥ 4.0/5.0 |
| completeness (字段完整) | 100% |
| diversity (意图覆盖) | ≥ 95% |
| adversarialRigor (对抗强度) | ≥ 3.5/5.0 |
多版本 Prompt/架构并行测试 + LLM-as-Judge 跨版本比较。
候选版本 (V1, V2, V3, ...)
│
▼
每个版本跑全量 eval 数据集 → 输出评分
│
▼
LLM-as-Judge 跨版本比较
│
├── 明确胜出 → 选择最优 → 更新 baseline
├── 差异不显著 → 选择成本/延迟更优的
└── 全部不达标 → 诊断 → 生成新候选 → 下一轮
│
▼
收敛判定 → 最优版本 + 分析报告Phase B-C 产出文档必须包含 6 段:
技能内置丰富的模式参考和场景蓝图(Agent 按需加载):
| 类型 | 文档 | 加载时机 |
|---|---|---|
| 模式矩阵 | references/paradigms/pattern-matrix.md | Phase B |
| 决策树 | references/paradigms/decision-tree.md | Phase B |
| 独立模式 | references/patterns/01-*.md ... 12-*.md | 选中模式后 |
| 上下文工程 | references/paradigms/context-engineering.md | Phase C |
| Prompt 模式 | references/paradigms/prompt-patterns.md | Phase C |
| 记忆架构 | references/paradigms/memory-architecture.md | Phase C |
| 工具设计 | references/paradigms/tool-design.md | Phase C |
| 安全护栏 | references/paradigms/safety-guardrails.md | Phase C |
| 可观测性 | references/paradigms/observability.md | Phase C |
| 性能基线 | references/paradigms/performance-benchmarking.md | Phase D |
| 评估闭环 | references/eval-loop.md | Phase D |
| 数据生成 | references/simulation/data-generation.md | Phase D |
| 迭代协议 | references/convergence/iteration-protocol.md | Phase E |
| 场景蓝图 | references/scenarios/*.md | 按业务场景 |
INSTALL