AI Agent 上线前检查清单:把数字员工从能跑变成可信任
这篇文章记录万象片场给 AI Agent 上线前设计的一套检查清单:从输入、权限、失败处理、验收证据到交接记录,让数字员工不只是能跑,而是值得长期托付。
在万象片场的自动发布系统里,我越来越少问“这个 AI Agent 能不能跑起来”,而是更关心另一个问题:它能不能被长期信任?
很多自动化任务第一次运行都能给人惊喜:它会读文件、写文章、执行命令、提交结果。但如果没有上线前检查清单,第二次、第三次运行就可能暴露问题:重复发布、漏掉验证、误提交无关文件、遇到登录问题还继续往下做,最后把“数字员工”变成新的不确定性来源。
所以我现在会把每个可长期运行的 Agent 任务,都当成一个小产品上线。上线前不只看功能,还要看输入、权限、失败处理、验收证据和交接记录。
一、先检查输入:它读到的是不是正确现场
AI Agent 最怕在错误上下文里执行正确动作。
以博客自动发布为例,早间任务开始前必须确认:
- 内容计划文件已经读取;
- 已发布文章标题已经检查;
- 本次槽位是 AI 自动化 / 数字员工 / Agent 实战;
- 禁止操作的项目边界清楚;
- 当前 Git 工作区没有无关改动。
这一步看起来像准备工作,其实是上线检查的第一道闸门。一个没有读取现场的 Agent,像一个没看工单就进车间的实习生:动作可能很快,但方向可能完全错。
在万象片场,我更愿意让数字员工先慢 30 秒确认现场,也不愿意它快 30 秒制造返工。
二、再检查权限:它能做什么,不能做什么
可信任的数字员工,不是权限越大越好,而是权限刚好够用。
我会把 Agent 权限分成三类:
- 可自动执行:读取文件、生成 Markdown、运行本地构建、检查公开网页;
- 低风险但要验证:部署静态站、提交 Git、更新已授权的内容页;
- 必须人工确认:账号改名、付费投放、群发私信、删除内容、购买服务、修改安全设置。
这套分级的意义,是防止一个内容生产任务突然越界成账号运营任务。比如“写一篇博客”不应该顺手去改小红书简介;“检查网站”也不应该顺手删除 DNS 记录。
Agent 上线前必须写清楚:哪些动作可以闭环,哪些动作遇到就停下来。
三、检查失败处理:出错时它会不会继续硬跑
很多自动化事故,不是因为第一步失败,而是因为失败后还继续执行。
一个可靠的 Agent 至少要知道这些规则:
- 本地预览打不开,就不要构建;
- 构建失败,就不要部署;
- 部署失败,就不要汇报“已发布”;
- 线上页面不是新文章,就不要提交完成;
- Git 工作区有无关文件,就不要一把
git add .; - 遇到登录、验证码、权限、支付相关问题,停止并标记需人工。
这也是我判断一个数字员工是否成熟的关键:它不是永远不出错,而是出错时不会扩大损失。
对个人内容系统来说,错误不可怕;可怕的是错误没有被拦住,还被包装成“任务完成”。
四、检查验收证据:完成不是一句话,而是一组可复查结果
Agent 上线前,我会要求每个任务都定义验收证据。
博客发布任务的证据可以很具体:
- 新文章文件路径;
- 本地预览页面正常;
- 首页 / 归档 / 文章页能看到标题;
- hero 图加载正常;
npm run build通过;npm run deploy成功;- 线上文章 URL 可访问;
- Git commit 和 push 成功。
这些证据不是为了形式主义,而是为了让自动化结果可追溯。人类不用相信 Agent 的自我描述,只需要看证据链是否完整。
万象片场的目标不是每天多生成一段文字,而是每天多沉淀一个可验证的内容资产。
五、检查交接记录:下一次运行能不能接上
如果一个 Agent 每天都像第一次上班,系统就很难积累。
上线前,我会要求它在最后输出固定交接信息:
标题:本次发布或处理的内容
路径:本地文件位置
线上链接:用户可访问 URL
部署状态:成功 / 失败 / 阻塞
Git 状态:已提交推送 / 未提交原因
下一步:可拆成什么短内容、模板或 SOP
这份交接记录让下一次任务有迹可循,也让人类能够快速判断今天的产出是否值得继续放大。
当交接记录稳定之后,数字员工就不只是一个命令执行器,而是一个能参与运营节奏的同事。
六、一个最小上线检查清单
如果要把上面的内容压缩成可复制模板,我会这样写:
AI Agent 上线前检查清单
1. 输入
- 是否读取正确计划 / 文件 / 页面?
- 是否检查历史结果,避免重复?
2. 权限
- 本次允许改哪些文件?
- 哪些动作必须停止并交给人?
3. 执行
- 步骤是否足够小?
- 每一步失败后是否有明确处理?
4. 验收
- 什么证据证明任务完成?
- 是否检查用户真正看到的线上结果?
5. 交接
- 是否留下路径、链接、状态和下一步?
- 下一次 Agent 能不能直接读懂?
这张清单适合博客发布,也适合内容切片、资源页更新、链接检查、周报生成、素材整理等低风险自动化任务。
结尾:数字员工上线,先要通过信任测试
一个 AI Agent 能跑起来,只说明它具备执行能力;能长期稳定运行,才说明它具备托付价值。
对万象片场来说,数字员工不是为了制造“全自动”的想象,而是为了把重复但重要的工作标准化:每天读取现场、执行任务、验证结果、留下证据,再把内容资产一点点堆起来。
下一步,我会继续把这类检查清单沉淀成更具体的 SOP:哪些任务适合自动闭环,哪些任务需要人工审批,哪些执行证据应该进入长期增长看板。真正可靠的自动化,不是少看一眼,而是每一步都能被放心地看见。