自改进的AI编排系统
前两天刷推看到一个案例,一个哥们用 8 天时间搞了 4 万行 TypeScript,17 个插件,3000 多个测试。而且最主要的是,这活儿基本全是 AI 干的。
我当时第一反应是:这特么怎么做到的?
不是”用 AI 写代码”那么简单
我仔细看了下他的做法,发现跟我平时用 Claude Code 的思路不太一样。
我们平时用 AI 编码,基本是这种模式:
- 打开一个需求
- 跟 AI 说:帮我实现这个功能
- AI 写代码,我们 review
- 提交,等 CI,改 bug
- 下一个需求
问题在哪?瓶颈不是 AI 写代码的速度,是你切来切去的时间。
你搞完一个需求,AI 在写代码的时候,你干啥?刷 GitHub 等 PR?看 CI 有没有挂?等 Review 反馈?
这哥们说得好:”你自动化了工程,然后用项目管理替换了它。糟糕的项目管理。”
他的解法:让编排器代替你当”项目经理”
这哥们一开始也是写 bash 脚本,搞 tmux 会话、git worktree,让每个 AI 代理有自己的隔离环境。大概写了 2500 行脚本。
然后他想了个狠招:让 AI 代理去改进这个 bash 脚本本身。
结果代理搞出了 v1 版本,v1 又管理构建 v2 的代理,v2 从那以后一直在改进自己。
这就有意思了。
关键是,这个编排器本身也是一个 AI 代理。不是仪表板,不是 cron 任务,不是轮询脚本。它会读你的代码库,理解你的待办列表,决定怎么把一个功能拆成并行任务,分配给不同的编码代理,然后监控进度。
CI 挂了?它把错误日志丢给代理,代理自己读、自己修。
Review 有评论?它带着上下文转发给对应代理。
你什么时候介入?只在真正需要人类决策的时候。
最让我震惊的数字
他说这 8 天里,大概只花了 3 天实际专注工作。其他时间是:
- 睡前设置好会话,让代理通宵跑
- 早上审查合并,设置新会话
- 重复
最夸张的一天,2 月 14 号,一天合并了 27 个 PR。
整个平台交付:核心服务、CLI、web 仪表板、17 个插件、npm 发布。他审查 PR 的速度比阅读速度还快,因为每个 PR 都已经过了 CI 和自动化代码审查。
我算了下,40K 行代码,722 次提交,700 多条自动化代码审查评论。其中 68% 的问题代理自己修了,7% 解释为有意的,只有 4% 推到下个 PR。
这已经不是”用 AI 辅助写代码”了,这是一个自我运转的系统。
核心洞察:编排比单个代理重要
这哥们有个观点我挺认同:
“上限不是 ‘Claude Code 在 TypeScript 方面有多好’,而是 ‘一个系统在部署、观察和改进并行工作的数十个代理方面能有多好’。那个上限要高得多。”
很多人盯着哪个模型更强,Claude 4 还是 GPT-5。但这案例告诉我们,真正重要的是如何协调、管理和改进多个代理。
编排器的智能程度,决定了整个系统的上限。
他设计了一个 8 槽位的插件系统:
- Tracker - 拉取问题(GitHub 或 Linear)
- Workspace - 创建隔离环境
- Runtime - 启动会话
- Agent - Claude Code、Aider 等
- Terminal - 实时观察
- SCM - 创建 PR
- Reactions - CI 失败或评论时自动响应
- Notifier - 只在需要人类时通知
每个都可以换。不用 tmux?换进程运行时。不用 GitHub?换 Linear。这套东西本身不绑定任何具体工具。
最狠的设计:自改进系统
我觉得最牛的是这个:
每个代理会话都会产生信号——哪些提示词导致了干净的 PR?哪些螺旋进入了 12 次 CI 失败循环?哪些模式导致冲突?
大部分 AI 工具用完就丢了,会话结束,下一个从零开始。
但他的系统会记录性能,跟踪会话结果,运行回顾。它学习哪些任务一次成功,哪些需要更紧的护栏。
代理构建功能 → 编排器观察什么有效 → 调整管理方式 → 代理构建更好的功能。
循环复合,而且每次循环都会放大效果。
因为代理构建了编排器,而编排器让代理更有效,那些代理又继续改进编排器——它是递归的。
工具通过它管理的代理改进自己。
这让我想到一个问题
未来会不会出现越来越多的”一人公司”?
以前你需要一个团队:前端、后端、测试、运维、产品经理。现在,一个人加一个 AI 编排系统,理论上是能完成所有这些角色的工作的。
当然,前提是你有足够的领域知识、架构思维,来设计和指导这个系统。
人类角色在重新定义:不再是”写代码的人”,而是”做架构决策的人”。编码、测试、审查、修复,交给 AI。人类只负责那些真正需要判断和创造的事情。
几个我觉得特别值得借鉴的点
1. 闭环自动化
从 PR 创建 → 自动审查 → 自动修复 → 人工决策 → 反馈学习,整个流程几乎没有人工干预。最夸张的例子:一个 PR 经历了 12 个 CI 失败→修复循环,零人工干预,干净交付。
2. 不依赖代理自我报告
Claude Code 会写结构化的 JSONL 事件文件。编排器直接读这些文件,而不是问代理”你在干啥”。因为代理会撒谎,或者至少会困惑。
3. Git trailer 追踪每次提交的模型
总提交 722 次,Opus 4.6 处理难的东西(复杂架构、跨包集成),Sonnet 处理量(插件实现、测试、文档)。人类做了什么、代理做了什么,一目了然。
4. 只在真正需要时才打扰你
配置大概长这样:
1 | reactions: |
CI 失败?代理接手。审查者要改?代理自己读评论修代码。PR 通过?Slack 通知你。41 个 CI 失败全部自我纠正,就是这么来的。
这玩意儿对我有什么启发
说实话,这个项目让我意识到,我目前用 AI 的方式还太原始了。
我还在”一个需求一个需求地跑”,人家已经在”批量编排代理通宵干活”了。
差距在哪?
不是工具,是思维模式的差距。
我还在把 AI 当成”更聪明的代码补全”,人家已经把 AI 当成”可以并行工作的团队成员”了。
这个案例给我的启发是:
- 别盯着单个代理的能力上限,要想怎么让多个代理协同工作
- 建立反馈闭环,让系统从每次运行中学习
- 人类只负责关键决策,其他交给自动化
- 关注信号收集,什么提示词有效、什么模式容易失败,这些数据很有价值
写在最后
这个项目已经开源了:Agent Orchestrator
我还没试过,但从文档看,安装挺简单的:
1 | git clone https://github.com/ComposioHQ/agent-orchestrator.git |
接下来我打算找个周末试试看,看看在自己项目里能不能跑起来。
如果成了,以后说不定真能体验”睡前布置任务,睡醒合并 PR”的感觉。