我现在的 AI 工具栈:Agent、图片、视频、博客和自动化
这篇文章梳理万象片场当前正在搭建的 AI 工具栈:从本机 Agent 到图片视频生成,再到博客发布和自动化验证。
如果把「万象片场」理解成一个人的内容片场,那么工具栈就是片场里的灯光、摄影机、剪辑台、场记和制片系统。它们单独看只是软件和账号,串起来以后,才会变成一条可以持续生产内容资产的流水线。
我现在不想追求“把所有热门 AI 工具都试一遍”。更重要的是搭一套能反复执行的最小系统:Agent 负责执行,图片和视频工具负责素材生产,博客负责沉淀,自动化脚本负责检查与发布。
这篇文章先做一次阶段性梳理:我当前的 AI 工具栈包含哪些层,每一层解决什么问题,以及下一步准备怎么把它们变成真正可用的数字员工系统。
第一层:本机 Agent,负责把任务从想法推到结果
我现在最核心的变化,是不再只把 AI 当聊天窗口,而是把 Agent 当成一个可以调用本机环境的执行助理。
普通聊天工具更适合回答问题、整理思路、生成草稿;Agent 的价值在于它可以进入具体项目目录,读取文件,修改 Markdown,运行构建命令,打开浏览器检查页面,最后把结果部署到线上。
以博客发布为例,一个合格的 Agent 工作流不是“帮我写一篇文章”这么简单,而是:
- 读取内容计划,判断今天应该写哪个方向;
- 检查已有文章,避免重复标题;
- 根据品牌定位生成结构化正文;
- 写入 Astro 博客的 Markdown 文件;
- 启动本地预览,检查首页、归档页、文章页;
- 检查封面图是否加载;
- 运行构建,确认没有 frontmatter 或路由错误;
- 部署到 Cloudflare Pages;
- 打开线上页面验证;
- 提交 GitHub,留下版本记录。
这就是我理解的“数字员工”:不是完全自由发挥,而是在明确边界内完成一串可验证动作。
第二层:图片工具,负责把抽象想法变成视觉资产
万象片场未来会有大量 AI 影像、原创 IP、纪录片和短视频项目。这里图片工具不是装饰品,而是内容生产的前置资产库。
我目前对图片工具的需求主要有三类:
- 概念图:把一个角色、场景、文明风格或视觉方向快速可视化;
- 封面图:为博客、小红书、视频封面提供统一调性的视觉入口;
- 参考资产:为后续视频生成提供角色一致性、服装、场景和构图参考。
对我来说,图片生成最重要的不是“一张图多惊艳”,而是能不能复用。比如一个原创角色,如果今天长这样,明天又完全变成另一个人,那它就不是资产,只是一次性结果。
所以后续我会把图片工作流拆得更细:角色设定、参考图、表情姿态、场景库、封面模板,尽量让每一次生成都能进入资产库,而不是散落在下载文件夹里。
第三层:视频工具,负责把资产变成可传播内容
图片解决“看见”,视频解决“传播”。但视频工具也是最容易让人冲动的部分:看到一个新模型,就想直接生成 60 秒大片,结果常常是角色崩、镜头乱、动作不连贯。
我现在更倾向于把 AI 视频当成分段生产,而不是一次生成成片。比较稳的方式是:
- 先确定角色和场景参考图;
- 把一个故事拆成多个 5-10 秒镜头;
- 每个镜头只要求完成一个动作;
- 生成后做筛选和复盘;
- 再进入剪辑、配音、字幕和发布。
这也是为什么博客必须存在。短视频平台只能展示结果,很难完整说明过程;博客可以记录提示词、失败镜头、参数、修复方法和工作流。未来如果我要卖 SOP、模板或课程,真正有价值的不是“我做出了一个视频”,而是我能解释这条视频生产线如何稳定复现。
第四层:博客系统,负责沉淀长期资产
博客是当前万象片场最重要的主资产库。原因很简单:它不像社交平台那样完全被推荐算法决定,也不像本地笔记那样只有自己能看见。
每一篇博客都应该承担三个任务:
- 对外:让搜索和读者知道我在真实搭建 AI 内容系统;
- 对内:沉淀流程、清单、复盘和可复用经验;
- 对未来:为服务、模板、产品和课程积累案例。
所以我不会把博客写成泛泛的 AI 新闻,也不会只写情绪化日记。更理想的文章应该像片场日志:今天搭了哪条流水线,遇到什么问题,怎么检查,哪些步骤可以复用,下一次怎么优化。
现在这套 Astro + Cloudflare Pages 博客,已经具备了一个内容资产库的基本条件:Markdown 写作、静态构建、线上部署、GitHub 版本记录、站点地图和搜索收录基础。接下来要做的是持续发布高质量实战文章,并逐渐把同类主题串成专题页。
第五层:自动化检查,负责降低发布风险
自动化不是“点一下就全自动”,真正重要的是检查机制。
比如博客发布,至少要有几道关卡:
- 文章 frontmatter 是否完整;
- 标题是否与已有文章重复;
- 本地页面是否能正常打开;
- 首页和归档页是否出现新文章;
- 封面图是否加载成功;
npm run build是否通过;- 部署命令是否成功;
- 线上文章页是否能在浏览器中打开;
- Git 状态是否干净。
这些步骤看似繁琐,但它们决定了数字员工能不能被信任。一个没有检查的自动化,只是在更快地制造错误;一个有边界、有验证、有日志的自动化,才有机会成为长期可用的工作系统。
我现在的最小可运行工具栈
如果压缩成一张清单,我当前的最小工具栈是:
- Agent 层:负责读取计划、编辑文件、运行命令、浏览器验证;
- 内容层:Markdown、选题计划、文章结构、品牌定位;
- 视觉层:图片生成、封面图、角色和场景参考资产;
- 视频层:短镜头生成、分镜、剪辑、配音和字幕;
- 发布层:Astro 博客、Cloudflare Pages、GitHub;
- 验证层:本地预览、构建、线上检查、图片加载检查。
这套系统目前还很早期,但它已经有一个清晰方向:让一个人不再靠临时热情做内容,而是靠流程、工具和数字员工持续生产。
下一步:把工具栈变成 SOP
工具栈只有列出来还不够,真正有价值的是把它变成可执行 SOP。
接下来我会继续在万象片场记录三类内容:第一,Agent 如何真实完成一项本机任务;第二,AI 图片和视频如何进入稳定生产线;第三,博客、小红书、公众号如何围绕同一个项目形成内容资产矩阵。
下一篇早间方向,我准备继续写一次更具体的实战复盘:我让 AI 帮我搭建并发布了这个博客。这会从“工具栈”进入“真实流程”,看看一个数字员工到底能不能把内容从选题一路推到线上。