2026年5月18日

AI Agent 失败后怎么复盘：给数字员工设计错误处理闭环

这篇文章以万象片场的自动发布流程为例，拆解 AI Agent 失败后如何记录异常、定位原因、生成修复动作，并把错误处理沉淀成数字员工的长期能力。

AI自动化数字员工Agent实战错误处理

电脑屏幕上的代码与工作流界面，象征 AI Agent 任务失败后的错误排查和复盘闭环

在很多人的想象里，AI Agent 最理想的状态是“一次指令，全程自动完成”。但在万象片场的实际内容系统里，我越来越确信：真正可靠的数字员工，不是永远不失败，而是失败以后知道怎么交代、怎么修、怎么避免下次再犯。

自动化任务只要开始长期运行，就一定会遇到意外：网页加载慢了、登录状态失效了、接口限流了、图片地址失效了、构建警告变成错误了、部署成功但线上缓存没刷新。只要这些问题没有被记录和复盘，Agent 就会变成一个“偶尔很厉害、偶尔让人摸不着头脑”的黑箱。

这篇文章记录我给数字员工设计错误处理闭环的思路。目标不是把系统做得很复杂，而是让每一次失败都能变成下一次更稳定的材料。

一、失败不是异常，无法解释才是异常

很多自动化系统会把“成功”和“失败”看成两个简单状态：任务完成就是成功，命令报错就是失败。但真实工作里，状态往往更细。

以博客自动发布代理为例，它可能遇到这些情况：

Markdown 写好了，但 frontmatter 字段不符合内容集合要求；
本地预览能打开，但首页排序没有出现新文章；
图片 URL 返回 200，却在浏览器里加载很慢或尺寸异常；
npm run build 通过了，但部署命令需要重新认证；
Cloudflare Pages 显示部署成功，但生产站点仍然读到旧缓存；
Git 提交时发现仓库里有其他任务留下的未提交文件。

这些都不能简单归类成“失败了”。更准确的做法是让 Agent 说明：失败发生在哪一层、是否已经处理、是否需要人工介入、是否可以安全重试。

所以我给数字员工的第一条错误处理原则是：失败可以接受，无法解释的失败不可以接受。

二、把错误拆成五个层级

如果 Agent 只把所有问题都写成“执行失败”，后续就很难优化。更好的方式是给错误分层，让每一种问题都有对应处理策略。

1. 输入层错误

输入层错误通常来自任务前置条件不清楚，比如计划文件缺失、主题重复、必要素材不存在、用户授权边界不明确。

这类错误不应该硬做。正确处理是停止高风险动作，给出缺失项，并尽量提供安全替代方案。比如发现标题已经发布过，就不要换个近似标题继续写，而是重新读取文章列表，选择同一栏目下未覆盖的选题。

2. 生成层错误

生成层错误发生在内容或代码产出过程中，比如文章太空泛、品牌感缺失、结构不完整、脚本语法不合法。

这类问题适合自动修复。数字员工可以根据固定质量门槛自查：是否有清晰导语，是否有小标题，是否有可执行清单，是否自然体现万象片场，是否避免泛泛 AI 新闻。

3. 执行层错误

执行层错误来自命令、浏览器、API、网络和依赖环境。比如端口被占用、构建失败、部署超时、浏览器页面没有正常渲染。

这类错误要保留原始证据，但汇报时不必把所有终端输出都贴出来。对人最有用的是：哪条命令失败、关键错误是什么、已经尝试了哪种修复、当前是否可继续。

4. 验证层错误

验证层错误最容易被忽略。任务看似完成，但验证没有通过：文章页打不开、图片未加载、首页没出现、线上链接还是旧内容。

这类错误说明“执行完成”不等于“交付完成”。数字员工必须把验证当成正式步骤，而不是附加动作。没有通过验证，就不能直接报告已发布。

5. 资产层错误

资产层错误是长期风险，比如 Git 混入无关文件、同一主题重复发布、站点导航没有更新、文章没有沉淀到后续 SOP 或资源包。

这类错误短期不一定会让任务失败，但会慢慢损害内容资产库的质量。万象片场的博客不是一次性内容流，而是主资产库，所以资产层错误必须被记录。

三、错误处理闭环的最小流程

我会把数字员工的错误处理设计成一个很小的闭环：

发现异常
  ↓
定位层级
  ↓
判断风险
  ↓
尝试修复或停止
  ↓
重新验证
  ↓
写入复盘

这个流程看起来简单，但关键在于每一步都要有明确输出。

发现异常时，Agent 不能只说“出错了”，而要写出触发条件。定位层级时，要判断是输入、生成、执行、验证还是资产问题。判断风险时，要区分可以自动重试和必须停止等待授权的动作。尝试修复后，必须重新跑验证，而不是假设修好了。

最后一步“写入复盘”尤其重要。很多自动化任务失败后，只留下了一堆原始日志；下一次运行时，Agent 并没有吸收任何经验。真正的闭环应该把经验变成规则，比如：

如果生产站点短时间仍显示旧内容，下次验证自动加 cache-busting 参数；
如果图片加载不稳定，下次优先换更稳定的公开图源或本地化图片；
如果同类标题容易重复，下次选题前必须读取所有已有标题；
如果构建错误来自 Markdown frontmatter，下次写入前增加字段格式检查。

这才是数字员工逐步变可靠的方式。

四、哪些错误可以自动修，哪些必须停下来

不是所有错误都应该由 Agent 自动处理。一个成熟的数字员工要知道自己的权限边界。

我会把处理权限分成三类：

可以自动修复

Markdown 格式问题；
标题和描述的小幅优化；
本地预览端口占用后更换端口；
构建前发现缺少必要字段并补齐；
线上验证遇到缓存延迟后使用带时间戳的 URL 复查。

这些动作风险较低，且属于任务本身范围内。

可以自动重试，但要记录

临时网络失败；
Cloudflare Pages 部署短暂超时；
浏览器页面首次加载不完整；
图片远程响应较慢。

这类问题可以重试，但不能悄悄吞掉。因为如果连续多次发生，就说明流程需要优化。

必须停止或等待明确授权

删除线上资源；
修改账号资料、安全设置、支付设置；
覆盖已有域名服务；
在 Git 中提交明显无关的大量文件；
绕过登录、人机验证或平台风控限制。

数字员工不是权限越大越好。越是能操作真实资产，越需要清楚知道什么时候该停。

五、给 Agent 的失败复盘模板

为了让错误处理可执行，我会给每个数字员工准备一份固定复盘模板：

任务目标：
异常发生步骤：
错误层级：输入 / 生成 / 执行 / 验证 / 资产
关键证据：
已尝试处理：
当前结果：已恢复 / 已停止 / 需人工确认
是否影响线上资产：
下次改进规则：

这份模板不追求长，但要能回答三个问题：

这次到底哪里出问题？
Agent 有没有在权限范围内正确处理？
下次如何减少同类问题？

如果每次失败都能留下这样的记录，自动化系统就不再只是“跑任务”，而是在积累自己的操作经验。

六、从“会做事”到“会复盘”

万象片场接下来会继续把博客、小红书、公众号和素材生产流程串起来。任务越多，越不能只依赖“AI 很聪明”这件事。真正能长期运行的系统，需要的是清晰边界、稳定验证和可复盘的错误处理。

我的判断是：个人使用 AI Agent 的分水岭，不是能不能让它完成一次惊艳演示，而是能不能让它在连续 30 天的真实任务里，遇到问题不乱做、修复问题有证据、每次复盘都让系统变得更稳。

这也是我给万象片场数字员工的下一步要求：不仅要会写文章、会部署、会检查页面，还要在失败时像一个可靠同事一样，把原因、处理和下一步改进讲清楚。只有这样，AI 自动化才会从一次性工具，变成真正可以托付的内容生产基础设施。