Claude Code 多智能体编排实战:wshobson/agents 深度解析
缘起
前段时间写了 OpenClaw 那篇文章,讲怎么用编排层管理多个 AI 代理。最近发现一个 GitHub 项目 wshobson/agents,这是一个专门为 Claude Code 打造的多智能体编排系统。不是那种概念性的演示,而是真刀真枪的生产级工具。
让我震撼的几个数字:
- 112 个专业 AI Agent
- 16 个多智能体工作流编排器
- 146 个 Agent Skills
- 79 个开发工具
- 72 个独立插件
这已经不是”用 AI 辅助编程”了,这是用 AI 团队替代开发团队。
核心架构:插件化设计
wshobson/agents 最聪明的设计是插件化。
它不是给你一个大而全的系统,让你把所有东西都加载进来。而是拆成 72 个独立的插件,每个插件只做一件事,但做到极致。
为什么要插件化?
上下文窗口是有限的资源。如果你一次性加载 112 个 Agent 和 146 个 Skills, token 消耗会爆炸。
插件化的解决方案:按需加载。
举个例子:
1 | # 安装 Python 开发插件 |
这个插件只加载:
- 3 个 Python 专业 Agent
- 1 个脚手架工具
- 16 个专业 Skills
总共约 1000 个 token,而不是整个市场的几万 token。
插件的分类
72 个插件分成 24 个类别,每个类别 1-6 个插件:
| 类别 | 插件数量 | 典型插件 |
|---|---|---|
| 开发 | 4 | debugging, backend, frontend, multi-platform |
| 工作流 | 5 | git, full-stack, TDD, Conductor, Agent Teams |
| 语言 | 7 | Python, JS/TS, JVM, 系统语言等 |
| 基础设施 | 5 | K8s, 云, CI/CD, 部署 |
| AI/ML | 4 | LLM 应用, Agent 编排, MLOps |
| 安全 | 4 | 扫描, 合规, API 安全 |
| 营销 | 4 | SEO 内容, 技术 SEO, 内容营销 |
这种结构的好处是:想用啥装啥,绝不多加载。
三层模型策略
这个项目最让我印象深刻的是它的模型分层策略。
不是一刀切地用同一个模型,而是根据任务复杂度分配不同的 Claude 模型:
| 层级 | 模型 | Agent 数量 | 用途 |
|---|---|---|---|
| Tier 1 | Opus 4.6 | 42 | 关键架构、安全审计、代码审查、生产级编码 |
| Tier 2 | Inherit | 42 | 复杂任务,由用户选择模型 |
| Tier 3 | Sonnet | 51 | 中等复杂度任务 |
| Tier 4 | Haiku | 18 | 快速操作任务 |
为什么 Opus 4.6 负责关键任务?
几个硬指标:
- SWE-bench 80.8% — 行业领先
- 复杂任务 token 减少 65%
- 最适合架构决策和安全审计
虽然 Opus 单价高($5/$25 每百万 token),但因为 token 效率更高,实际成本往往更低。
Tier 2 的灵活性
Tier 2 的 Agent 标记为 inherit,意思是使用你当前会话的默认模型。
怎么用?
1 | # 启动会话时指定模型 |
这样你可以根据当前任务灵活选择,不用改配置。
Agent Teams:真正的并行工作流
这是我觉得最实用的功能:多智能体并行。
安装 Agent Teams 插件:
1 | /plugin install agent-teams@claude-code-workflows |
7 个预设团队
| 团队 | 用途 |
|---|---|
| review | 并行代码审查 |
| debug | 假设驱动的调试 |
| feature | 并行功能开发 |
| fullstack | 全栈开发 |
| research | 并行调研 |
| security | 安全审计 |
| migration | 迁移支持 |
实战示例:并行代码审查
1 | /team-review src/ --reviewers security,performance,architecture |
这个命令会:
- 启动 3 个审查 Agent(安全、性能、架构)
- 每个 Agent 独立审查代码
- 汇总结果,生成综合报告
传统的代码审查是串行的:一个人看完再给下一个人。现在是三个人同时看,时间从几小时缩短到几分钟。
实战示例:假设驱动调试
1 | /team-debug "API returns 500" --hypotheses 3 |
系统会:
- 生成 3 个关于 500 错误的假设
- 每个假设分配一个 Agent 去验证
- 并行执行验证
- 返回最可能的根因
这比一个人一个个尝试 hypotheses 快多了。
Conductor:项目管理的 AI 化
另一个强大的插件是 Conductor,它把 Claude Code 变成了项目管理工具。
1 | /plugin install conductor@claude-code-workflows |
核心工作流
1. 交互式项目初始化
1 | /conductor:setup |
这个命令会:
- 创建产品愿景
- 确定技术栈
- 定义工作流规则
- 生成代码风格指南
2. 基于 Track 的开发
1 | /conductor:new-track |
生成规格说明和分阶段实施计划。
3. TDD 工作流
1 | /conductor:implement |
执行任务,带验证检查点。
4. 语义化回滚
1 | /conductor:revert |
按逻辑单元回滚(track、phase 或 task)。
状态持久化
项目上下文跨会话持久保存。你今天设置的项目,明天打开 Claude Code 还能继续。
Skills:渐进式知识披露
146 个 Skills 是 wshobson/agents 的知识层。
每个 Skill 是一个专门的知识包,遵循渐进式披露架构:
| 层级 | 内容 | 加载时机 |
|---|---|---|
| Metadata | 名称和激活条件 | 始终加载 |
| Instructions | 核心指导 | 激活时加载 |
| Resources | 示例和模板 | 按需加载 |
Skills 的分类
语言开发:
- Python(5 个):async 模式、测试、打包、性能、UV 包管理
- JavaScript/TypeScript(4 个):高级类型、Node.js 模式、测试、ES6+
基础设施:
- Kubernetes(4 个):manifest、Helm、GitOps、安全策略
- 云基础设施(4 个):Terraform、多云、混合网络、成本优化
- CI/CD(4 个):流水线设计、GitHub Actions、GitLab CI、密钥管理
AI/ML:
- LLM 应用(8 个):LangGraph、Prompt Engineering、RAG、评估、embedding、相似性搜索、向量调优、混合搜索
区块链:
- Web3(4 个):DeFi 协议、NFT 标准、Solidity 安全、Web3 测试
激活示例
当你使用 Python 开发插件时,相关 Skills 会自动激活:
1 | 用户:"创建一个 FastAPI 微服务" |
你不需要手动选择,系统根据上下文自动加载。
实战:从零搭建全栈功能
让我用一个完整示例展示这套系统的能力。
场景:添加用户认证功能
传统方式:
- 设计数据库表(1 小时)
- 写后端 API(4 小时)
- 写前端页面(4 小时)
- 写测试(2 小时)
- 代码审查(1 小时)
- 部署(1 小时)
使用 wshobson/agents:
1 | # 安装必要插件 |
系统会协调 7+ 个 Agent:
- backend-architect → 设计 API 架构
- database-architect → 设计数据库 schema
- frontend-developer → 实现登录 UI
- test-automator → 生成单元测试和 E2E 测试
- security-auditor → 安全审计
- deployment-engineer → 配置部署
- observability-engineer → 设置监控
这些 Agent 并行工作,不是串行。
结果:
- 时间从 13 小时缩短到 30 分钟
- 包含安全审计和测试覆盖
- 自动部署和监控
安全加固示例
1 | /plugin install security-scanning |
这个命令会启动多 Agent 安全评估:
- SAST 扫描
- 依赖项扫描
- 代码审查
- 合规检查
Python 项目脚手架
1 | /plugin install python-development |
自动激活的 Skills:
async-python-patterns- AsyncIO 和并发python-testing-patterns- pytest 和 fixturesuv-package-manager- 快速依赖管理
生成的项目包含:
- 生产级 FastAPI 结构
- 异步模式最佳实践
- 完整的测试套件
- Dockerfile 和 docker-compose
- CI/CD 配置
成本分析
大家最关心的:这得花多少钱?
模型成本
| 模型 | 输入 | 输出 |
|---|---|---|
| Opus 4.6 | $5/百万 token | $25/百万 token |
| Sonnet 4.6 | $3/百万 token | $15/百万 token |
| Haiku 4.5 | $1/百万 token | $5/百万 token |
实际使用成本
一个小型项目团队(3-5 人)的月度估算:
- 日常开发(Sonnet):$50-100/月
- 关键架构审查(Opus):$30-50/月
- 自动化任务(Haiku):$10-20/月
总计:$90-170/月
对比:
- 一个初级开发者的工资:$3000-5000/月
- 这个系统的成本:1/30
ROI 非常明显。
省钱技巧
用
inherit模式灵活选择模型- 日常开发用 Sonnet
- 关键任务切换到 Opus
合理拆分任务
- 大任务拆成小任务
- 减少单次调用的 token 消耗
利用 Skills 的渐进披露
- 只在需要时加载详细知识
- 避免不必要的资源加载
与 OpenClaw 的对比
有人可能会问:这个和之前写的 OpenClaw 有什么区别?
| 维度 | wshobson/agents | OpenClaw |
|---|---|---|
| 平台 | Claude Code 原生 | 独立编排层 |
| Agent 数量 | 112 个专业 Agent | 自定义配置 |
| 集成深度 | 深度集成 | 外部编排 |
| 使用门槛 | 较低(安装插件即可) | 较高(需要配置) |
| 灵活性 | 结构化工作流 | 自由编排 |
| 成本模型 | 按 token 计费 | 自托管成本 |
我的建议:
- 如果你已经在用 Claude Code,直接上 wshobson/agents
- 如果你需要更灵活的编排或有特殊需求,考虑 OpenClaw
- 两者也可以结合:用 OpenClaw 做高层编排,wshobson/agents 做具体执行
个人思考
用了一段时间 wshobson/agents,有几个感触:
1. 专业化分工是趋势
不是让一个大模型做所有事,而是让多个专业 Agent 各做各的。
就像真正的开发团队:
- 架构师做设计
- 后端写 API
- 前端做界面
- 测试写用例
- 运维管部署
AI Agent 也在走这条路。
2. 编排层的价值被低估了
很多人关注单个 Agent 的能力,但编排层才是放大器。
好的编排可以让 10 个普通 Agent 发挥 100 个 Agent 的效果。
3. 上下文管理是关键
wshobson/agents 的插件化和渐进披露设计,本质上是在解决上下文管理问题。
有限的上下文窗口 → 按需加载 → 最大化利用
这是所有 AI 系统都要面对的挑战。
4. 成本可控比想象中容易
很多人被 Opus 的价格吓到,但:
- 大部分任务用 Sonnet 就够了
- Opus 的 token 效率更高
- 合理分层后,实际成本很低
5. 未来是”人机协作团队”
不是 AI 替代人类,而是人类+AI 团队替代传统团队。
一个产品经理 + wshobson/agents = 一个完整开发团队
这不是科幻,是现在就能实现的事。
如何开始
第一步:添加插件市场
1 | /plugin marketplace add wshobson/agents |
第二步:浏览可用插件
1 | /plugin |
第三步:安装你需要的
1 | # 基础开发 |
第四步:开始使用
1 | # 并行审查 |
写在最后
wshobson/agents 让我看到了 AI 辅助开发的下一个阶段。
不是更好的单轮对话,不是更长的上下文窗口,而是系统化的多智能体协作。
112 个 Agent、16 个编排器、146 个 Skills — 这些数字背后是一个清晰的愿景:
让一个人拥有整个团队的能力。
这不是取代人类,而是给人类超能力。
你仍然是决策者、架构师、审查者。但执行层面的工作,可以交给这个永不疲倦的 AI 团队。
未来已来,只是分布不均。
参考
- 项目地址:https://github.com/wshobson/agents
- Claude Code 文档:https://code.claude.com
- Agent Teams 文档:项目中查看
/agent-teams - Conductor 文档:项目中查看
/conductor