2026年6月4日

AI Agent 证据链：让数字员工用结果证明自己真的做完了

这篇文章记录万象片场如何给 AI Agent 设计证据链：用文件变更、预览截图、构建日志、线上链接和 Git 状态，让数字员工的交付从“我做了”变成“可验证”。

AI自动化数字员工Agent实战验证闭环

在万象片场的博客自动化里，我越来越不满足于让 AI Agent 只回答一句“任务完成了”。真正可用的数字员工，不能只会执行，还要能把执行结果留下证据：改了哪个文件、预览是否正常、构建有没有通过、线上链接能不能打开、Git 是否同步干净。

这就是我最近开始强化的概念：AI Agent 证据链。

证据链不是为了把流程做复杂，而是为了让自动化任务从“相信它应该做了”变成“我可以随时检查它确实做到了”。当一个 Agent 每天定时写文章、部署网站、更新内容系统时，最危险的不是偶尔失败，而是失败后看起来像成功。比如 Markdown 已写入但 build 失败；部署命令执行了但线上还没更新；首页能打开但具体文章 404；Git 提交里混入了无关文件。这些问题如果没有证据链，很容易被一句漂亮总结盖过去。

所以，万象片场现在把每一次数字员工交付都拆成一组可验证证据。

一、为什么“任务完成”不是一个合格交付

人类同事说“我做完了”，通常背后默认包含很多隐性证明：文件在共享盘、页面能打开、客户已收到、测试已通过。但 AI Agent 的“完成”经常只是根据当前上下文做出的语言判断。

对自动化系统来说，这不够。

一个合格的 Agent 交付至少要回答五个问题：

问题	需要的证据
产物在哪里？	文件路径、文章路径、生成物路径
本地是否正常？	预览页面、截图、DOM/图片加载检查
构建是否通过？	build 命令退出码和关键日志
线上是否可访问？	生产 URL、页面标题、具体内容片段
版本是否同步？	git status、commit hash、push 结果

如果缺少这些证据，“完成”就只是一个态度，不是一个可托付的结果。

二、证据链的最小结构

我不会一开始就上复杂的监控系统。早期最实用的方式，是给每类任务规定一个最小证据包。

以博客自动发布为例，证据包可以这样设计：

内容证据：新文章的 Markdown 路径、标题、frontmatter 是否完整；
预览证据：本地首页、归档页、文章页能打开，标题显示正确；
资源证据：图片 complete、naturalWidth、naturalHeight 正常；
构建证据：npm run build 通过，没有阻断错误；
部署证据：npm run deploy 成功，返回 Pages 部署结果；
线上证据：生产文章链接可打开，正文包含关键标题；
版本证据：只提交本次相关文件，push 后工作区干净。

这套结构不追求花哨，但足够让数字员工每次交付都有迹可循。

三、证据要贴近真实风险

证据链最容易写成形式主义：跑了一个命令、截了一张图、最后仍然不知道风险有没有覆盖。

更好的做法是从真实失败点反推证据。

比如万象片场的博客系统里，过去最值得防的风险包括：

标题重复，导致内容计划被浪费；
frontmatter 缺少 heroImage 或日期格式不对；
本地看起来正常，但线上 CDN 仍显示旧页面；
只验证首页，没有打开具体文章页；
Git 提交时把无关修改一起带上；
raw HTTP 检查误判 Cloudflare 页面，缺少浏览器验证。

对应的证据就不能只写“部署成功”。它必须包含：读取已有文章标题、检查目标文件、构建日志、缓存破坏参数、具体文章 URL、Git diff 范围。证据链不是记录热闹，而是覆盖最可能出问题的地方。

四、给数字员工一份交付报告模板

我现在更喜欢让 Agent 在任务末尾输出短报告，但短报告必须有固定字段。

一个实用模板是：

标题：
产物路径：
本地预览：已检查 / 未检查及原因
构建：通过 / 失败及原因
部署：成功 / 失败及原因
线上链接：
Git 状态：commit hash / push 状态 / 工作区是否干净
遗留问题：

这份报告不需要很长，但每一项都对应一个可追溯证据。以后如果某篇文章没有上线、某个页面显示异常，我可以顺着报告倒查，而不是在终端历史和聊天记录里猜。

五、证据链会反过来训练 Agent 的工作方式

一旦把证据链写进任务要求，Agent 的行为会自然变化。

它不再只追求“生成一篇文章”，而会主动想到：写完要预览，预览后要 build，部署后要看线上，提交前要查 Git 状态。这种变化很重要，因为数字员工的可靠性不是靠一句“更认真一点”提升的，而是靠验收标准和证据结构训练出来的。

对万象片场来说，证据链还有一个长期价值：它会积累成运营资产。每天的发布报告、失败原因、修复动作，最后都能变成 SOP、检查清单、甚至未来的付费模板。内容系统不只是生产内容，也在生产一套可复用的数字员工管理方法。

下一步

下一步我会继续把万象片场的 Agent 工作流拆成更细的模块：输入契约、任务拆解、风险预检、执行证据、复盘台账和增长待办。只有这些环节连起来，AI 自动化才不只是“能跑一次”，而是能长期像一个可信赖的数字员工一样值班。