AI 视频为什么总是崩?我用一个 10 秒镜头复盘
AI 视频失败通常不是一句提示词没写好,而是脚本、角色、镜头和动作没有被拆开。万象片场用一个 10 秒镜头复盘 AI 影像制作中最常见的崩坏原因和修复方法。
做 AI 视频时,最让人崩溃的不是画面不好看,而是它“前 3 秒很好,后 7 秒开始乱”。角色脸变了,手突然多出来,镜头方向飘走,背景像液体一样融化。更麻烦的是,你明明只想要一个简单镜头:角色从门口走到桌前,拿起一张纸,看向镜头。
这类失败如果只归因于“模型不行”,就很难进步。因为同一个模型,有的人能稳定做出短片,有的人每次都像抽卡。差别往往不在工具,而在制作方式:有没有把 10 秒镜头拆成可执行的动作、画面、角色和约束。
这篇文章是「万象片场」的一次基础复盘。我不把它写成工具评测,而是把一个 10 秒 AI 视频镜头拆开,看它为什么会崩,以及下一次怎样把失败变成可复用的制作流程。
一、先定义这个 10 秒镜头
假设我们要做一个原创 IP 短片里的镜头:
一个穿黄色雨衣的小角色推开门,走进温暖的工作室,拿起桌上的信封,抬头露出惊讶表情。
这个镜头看起来很简单,但它其实包含了很多任务:
- 角色要保持同一个外观;
- 场景要从门口延续到桌前;
- 动作有“推门、走路、拿信封、抬头”;
- 表情从平静变成惊讶;
- 镜头要跟随或固定;
- 光线和风格不能突然变化。
如果把这些全部塞进一条提示词,让模型一次性完成 10 秒连续动作,它很容易在中途自行补全信息。补全越多,崩坏越多。
所以第一个结论是:AI 视频不是“描述一个完整剧情”,而是“设计一个模型能完成的短镜头”。10 秒对人类导演来说很短,对生成模型来说已经是多个动作叠加。
二、崩坏原因一:角色没有固定识别点
很多失败视频的第一问题是角色不稳定。提示词只写“可爱的小角色”“穿黄色雨衣”“动画风格”,看似清楚,实际留给模型的自由度太大。
它可能在第一秒生成圆脸,第三秒变成尖脸;前半段雨衣是亮黄色,后半段变成橙色斗篷;手里本来没有东西,转身时突然多出一个包。观众不一定说得出哪里错,但会立刻感觉“不像同一个角色”。
修复方法不是把提示词写得更长,而是先固定识别点:
- 角色轮廓:圆头、短身体、两只小耳朵;
- 颜色规则:亮黄色雨衣、红色小挎包、白色鞋子;
- 禁止变化:不要帽子、不要长发、不要更换服装;
- 参考图:至少有正面、侧面、三分之二侧面;
- 视频输入:优先用稳定角色图做图生视频,而不是纯文生视频。
对原创 IP 来说,这一步非常关键。万象片场后续要做的不是一次性“好看的 AI 视频”,而是能反复出现、被观众记住的角色。角色不稳定,后面所有分镜都只是消耗。
三、崩坏原因二:动作太多,模型不知道主次
“推开门,走进工作室,拿起信封,抬头惊讶”这句话对人类很自然,但对 AI 视频来说是四个动作。模型会同时尝试完成它们,于是常见结果是:门还没推开,人已经出现在桌边;信封没拿起来,表情先变了;脚步和身体方向不一致。
一个更稳的做法,是把 10 秒拆成 3 个小镜头:
- 3 秒:推门进入。 只做推门和迈进一小步;
- 4 秒:走到桌前。 只做短距离移动,手暂时不拿东西;
- 3 秒:拿起信封并抬头。 只做手部动作和表情变化。
这样拆以后,每次生成只需要解决一个主要动作。失败时也更容易判断问题:如果第一段崩,是门和角色交互的问题;第二段崩,是走路和镜头的问题;第三段崩,是手部和表情的问题。
这也是 AI 影像制作里很实用的原则:不要让一个镜头同时承担剧情、动作、情绪和转场。尤其在早期测试阶段,宁愿多生成几段短镜头,也不要押注一条 10 秒长镜头一次成功。
四、崩坏原因三:镜头语言没有说清楚
很多提示词只描述“画面里有什么”,没有描述“镜头怎么拍”。模型就会自己决定机位、焦距、运动方式和构图。结果是镜头突然拉近、人物忽大忽小、背景漂移,甚至从正面变成俯拍。
更可控的写法应该包含镜头约束:
- 固定中景,角色半身到全身可见;
- 摄像机轻微跟随,不旋转,不快速推拉;
- 角色从画面左侧走向桌前,运动方向保持一致;
- 工作室背景保持稳定,桌子和信封位置不变;
- 电影感暖光,但不要过度景深和强烈运动模糊。
镜头语言不是为了显得专业,而是为了减少模型乱发挥。AI 视频最怕“既要电影感,又要复杂动作,还要长镜头”。如果镜头运动太花,角色和场景稳定性会一起下降。
我的经验是:早期测试原创 IP 时,先用稳定机位,少用大幅度环绕、俯冲、快速推拉。等角色和动作稳定以后,再给镜头增加风格。
五、崩坏原因四:没有保存失败样本
很多人做 AI 视频失败后,会直接删掉结果,然后重新抽一次。这会让每次失败都白白浪费。
更好的方式是把失败片段当作生产资料。每条失败视频至少记录三件事:
| 失败现象 | 可能原因 | 下次修复 |
|---|---|---|
| 第 4 秒角色变脸 | 参考图不足,转身角度不明确 | 增加侧面图,减少转身幅度 |
| 手拿信封时变形 | 手部动作太细,物体交互复杂 | 先生成拿起前一帧,再做短动作 |
| 背景像液体漂移 | 镜头运动太大,场景锚点不足 | 固定机位,明确桌子和门的位置 |
| 表情突然夸张 | 情绪变化写得太强 | 改成“轻微惊讶”,缩短表情段落 |
这张表看起来简单,但它会让制作从“凭感觉重试”变成“按问题修复”。当失败样本积累到 20 条,下一次写提示词时就会知道哪些动作不要合并,哪些镜头不要一开始就挑战。
六、我会怎样重做这个镜头
如果现在重新做这个 10 秒镜头,我会按下面流程执行:
- 先确认角色资产:一张正面图、一张侧面图、一张工作室内的角色参考图;
- 把镜头拆成 3 段,不追求一次生成完整 10 秒;
- 第一段只做“推门进入”,用固定中景;
- 第二段只做“走到桌前”,保持同一光线和背景;
- 第三段只做“拿起信封,轻微惊讶”;
- 每段生成 3-5 个版本,只选角色最稳定的版本;
- 把成功片段进入素材库,把失败原因写进复盘表;
- 最后用剪辑把三段接起来,而不是强迫模型完成一镜到底。
这个流程不会保证每次都成功,但会显著降低随机性。更重要的是,它会留下可复用的资产:角色图、镜头提示词、失败表、成功片段、剪辑节奏。下一次做新剧情时,不是从零开始。
七、给 AI 视频初学者的检查清单
下次生成一条 AI 视频前,可以先问自己 8 个问题:
- 这个镜头只有一个主要动作吗?
- 角色识别点是否明确?
- 是否有稳定参考图?
- 场景里有哪些不能变化的锚点?
- 镜头是固定、跟随,还是推拉?
- 动作方向是否清楚?
- 情绪变化是否过大?
- 失败以后能否判断是角色、动作、场景还是镜头问题?
如果这些问题回答不上来,提示词写得再华丽也不稳。AI 视频制作真正要训练的不是“形容画面的能力”,而是“把画面拆成可执行任务的能力”。
结尾:把崩坏变成片场日志
AI 视频崩坏并不可怕,可怕的是每次崩坏都没有记录。对万象片场来说,失败镜头不是废片,而是片场日志:它告诉我们角色资产还缺什么、镜头拆得是否太贪心、工具更适合完成哪类动作。
接下来我会继续把 AI 影像生产线拆成更小的模块:角色资产库、分镜模板、提示词版本管理、YouTube 成片发布、博客幕后复盘。最终目标不是偶尔生成一条惊艳视频,而是搭建一套一个人也能长期运转的 AI 内容片场。