AI Agent 证据链:让数字员工用结果证明自己真的做完了
这篇文章记录万象片场如何给 AI Agent 设计证据链:用文件变更、预览截图、构建日志、线上链接和 Git 状态,让数字员工的交付从“我做了”变成“可验证”。
在万象片场的博客自动化里,我越来越不满足于让 AI Agent 只回答一句“任务完成了”。真正可用的数字员工,不能只会执行,还要能把执行结果留下证据:改了哪个文件、预览是否正常、构建有没有通过、线上链接能不能打开、Git 是否同步干净。
这就是我最近开始强化的概念:AI Agent 证据链。
证据链不是为了把流程做复杂,而是为了让自动化任务从“相信它应该做了”变成“我可以随时检查它确实做到了”。当一个 Agent 每天定时写文章、部署网站、更新内容系统时,最危险的不是偶尔失败,而是失败后看起来像成功。比如 Markdown 已写入但 build 失败;部署命令执行了但线上还没更新;首页能打开但具体文章 404;Git 提交里混入了无关文件。这些问题如果没有证据链,很容易被一句漂亮总结盖过去。
所以,万象片场现在把每一次数字员工交付都拆成一组可验证证据。
一、为什么“任务完成”不是一个合格交付
人类同事说“我做完了”,通常背后默认包含很多隐性证明:文件在共享盘、页面能打开、客户已收到、测试已通过。但 AI Agent 的“完成”经常只是根据当前上下文做出的语言判断。
对自动化系统来说,这不够。
一个合格的 Agent 交付至少要回答五个问题:
| 问题 | 需要的证据 |
|---|---|
| 产物在哪里? | 文件路径、文章路径、生成物路径 |
| 本地是否正常? | 预览页面、截图、DOM/图片加载检查 |
| 构建是否通过? | build 命令退出码和关键日志 |
| 线上是否可访问? | 生产 URL、页面标题、具体内容片段 |
| 版本是否同步? | git status、commit hash、push 结果 |
如果缺少这些证据,“完成”就只是一个态度,不是一个可托付的结果。
二、证据链的最小结构
我不会一开始就上复杂的监控系统。早期最实用的方式,是给每类任务规定一个最小证据包。
以博客自动发布为例,证据包可以这样设计:
- 内容证据:新文章的 Markdown 路径、标题、frontmatter 是否完整;
- 预览证据:本地首页、归档页、文章页能打开,标题显示正确;
- 资源证据:图片
complete、naturalWidth、naturalHeight正常; - 构建证据:
npm run build通过,没有阻断错误; - 部署证据:
npm run deploy成功,返回 Pages 部署结果; - 线上证据:生产文章链接可打开,正文包含关键标题;
- 版本证据:只提交本次相关文件,push 后工作区干净。
这套结构不追求花哨,但足够让数字员工每次交付都有迹可循。
三、证据要贴近真实风险
证据链最容易写成形式主义:跑了一个命令、截了一张图、最后仍然不知道风险有没有覆盖。
更好的做法是从真实失败点反推证据。
比如万象片场的博客系统里,过去最值得防的风险包括:
- 标题重复,导致内容计划被浪费;
- frontmatter 缺少
heroImage或日期格式不对; - 本地看起来正常,但线上 CDN 仍显示旧页面;
- 只验证首页,没有打开具体文章页;
- Git 提交时把无关修改一起带上;
- raw HTTP 检查误判 Cloudflare 页面,缺少浏览器验证。
对应的证据就不能只写“部署成功”。它必须包含:读取已有文章标题、检查目标文件、构建日志、缓存破坏参数、具体文章 URL、Git diff 范围。证据链不是记录热闹,而是覆盖最可能出问题的地方。
四、给数字员工一份交付报告模板
我现在更喜欢让 Agent 在任务末尾输出短报告,但短报告必须有固定字段。
一个实用模板是:
标题:
产物路径:
本地预览:已检查 / 未检查及原因
构建:通过 / 失败及原因
部署:成功 / 失败及原因
线上链接:
Git 状态:commit hash / push 状态 / 工作区是否干净
遗留问题:
这份报告不需要很长,但每一项都对应一个可追溯证据。以后如果某篇文章没有上线、某个页面显示异常,我可以顺着报告倒查,而不是在终端历史和聊天记录里猜。
五、证据链会反过来训练 Agent 的工作方式
一旦把证据链写进任务要求,Agent 的行为会自然变化。
它不再只追求“生成一篇文章”,而会主动想到:写完要预览,预览后要 build,部署后要看线上,提交前要查 Git 状态。这种变化很重要,因为数字员工的可靠性不是靠一句“更认真一点”提升的,而是靠验收标准和证据结构训练出来的。
对万象片场来说,证据链还有一个长期价值:它会积累成运营资产。每天的发布报告、失败原因、修复动作,最后都能变成 SOP、检查清单、甚至未来的付费模板。内容系统不只是生产内容,也在生产一套可复用的数字员工管理方法。
下一步
下一步我会继续把万象片场的 Agent 工作流拆成更细的模块:输入契约、任务拆解、风险预检、执行证据、复盘台账和增长待办。只有这些环节连起来,AI 自动化才不只是“能跑一次”,而是能长期像一个可信赖的数字员工一样值班。