2026年5月15日

AI 视频为什么总是崩？我用一个 10 秒镜头复盘

AI 视频失败通常不是一句提示词没写好，而是脚本、角色、镜头和动作没有被拆开。万象片场用一个 10 秒镜头复盘 AI 影像制作中最常见的崩坏原因和修复方法。

AI内容生产AI视频图片视频影像制作万象片场

做 AI 视频时，最让人崩溃的不是画面不好看，而是它“前 3 秒很好，后 7 秒开始乱”。角色脸变了，手突然多出来，镜头方向飘走，背景像液体一样融化。更麻烦的是，你明明只想要一个简单镜头：角色从门口走到桌前，拿起一张纸，看向镜头。

这类失败如果只归因于“模型不行”，就很难进步。因为同一个模型，有的人能稳定做出短片，有的人每次都像抽卡。差别往往不在工具，而在制作方式：有没有把 10 秒镜头拆成可执行的动作、画面、角色和约束。

这篇文章是「万象片场」的一次基础复盘。我不把它写成工具评测，而是把一个 10 秒 AI 视频镜头拆开，看它为什么会崩，以及下一次怎样把失败变成可复用的制作流程。

一、先定义这个 10 秒镜头

假设我们要做一个原创 IP 短片里的镜头：

一个穿黄色雨衣的小角色推开门，走进温暖的工作室，拿起桌上的信封，抬头露出惊讶表情。

这个镜头看起来很简单，但它其实包含了很多任务：

角色要保持同一个外观；
场景要从门口延续到桌前；
动作有“推门、走路、拿信封、抬头”；
表情从平静变成惊讶；
镜头要跟随或固定；
光线和风格不能突然变化。

如果把这些全部塞进一条提示词，让模型一次性完成 10 秒连续动作，它很容易在中途自行补全信息。补全越多，崩坏越多。

所以第一个结论是：AI 视频不是“描述一个完整剧情”，而是“设计一个模型能完成的短镜头”。10 秒对人类导演来说很短，对生成模型来说已经是多个动作叠加。

二、崩坏原因一：角色没有固定识别点

很多失败视频的第一问题是角色不稳定。提示词只写“可爱的小角色”“穿黄色雨衣”“动画风格”，看似清楚，实际留给模型的自由度太大。

它可能在第一秒生成圆脸，第三秒变成尖脸；前半段雨衣是亮黄色，后半段变成橙色斗篷；手里本来没有东西，转身时突然多出一个包。观众不一定说得出哪里错，但会立刻感觉“不像同一个角色”。

修复方法不是把提示词写得更长，而是先固定识别点：

角色轮廓：圆头、短身体、两只小耳朵；
颜色规则：亮黄色雨衣、红色小挎包、白色鞋子；
禁止变化：不要帽子、不要长发、不要更换服装；
参考图：至少有正面、侧面、三分之二侧面；
视频输入：优先用稳定角色图做图生视频，而不是纯文生视频。

对原创 IP 来说，这一步非常关键。万象片场后续要做的不是一次性“好看的 AI 视频”，而是能反复出现、被观众记住的角色。角色不稳定，后面所有分镜都只是消耗。

三、崩坏原因二：动作太多，模型不知道主次

“推开门，走进工作室，拿起信封，抬头惊讶”这句话对人类很自然，但对 AI 视频来说是四个动作。模型会同时尝试完成它们，于是常见结果是：门还没推开，人已经出现在桌边；信封没拿起来，表情先变了；脚步和身体方向不一致。

一个更稳的做法，是把 10 秒拆成 3 个小镜头：

3 秒：推门进入。 只做推门和迈进一小步；
4 秒：走到桌前。 只做短距离移动，手暂时不拿东西；
3 秒：拿起信封并抬头。 只做手部动作和表情变化。

这样拆以后，每次生成只需要解决一个主要动作。失败时也更容易判断问题：如果第一段崩，是门和角色交互的问题；第二段崩，是走路和镜头的问题；第三段崩，是手部和表情的问题。

这也是 AI 影像制作里很实用的原则：不要让一个镜头同时承担剧情、动作、情绪和转场。尤其在早期测试阶段，宁愿多生成几段短镜头，也不要押注一条 10 秒长镜头一次成功。

四、崩坏原因三：镜头语言没有说清楚

很多提示词只描述“画面里有什么”，没有描述“镜头怎么拍”。模型就会自己决定机位、焦距、运动方式和构图。结果是镜头突然拉近、人物忽大忽小、背景漂移，甚至从正面变成俯拍。

更可控的写法应该包含镜头约束：

固定中景，角色半身到全身可见；
摄像机轻微跟随，不旋转，不快速推拉；
角色从画面左侧走向桌前，运动方向保持一致；
工作室背景保持稳定，桌子和信封位置不变；
电影感暖光，但不要过度景深和强烈运动模糊。

镜头语言不是为了显得专业，而是为了减少模型乱发挥。AI 视频最怕“既要电影感，又要复杂动作，还要长镜头”。如果镜头运动太花，角色和场景稳定性会一起下降。

我的经验是：早期测试原创 IP 时，先用稳定机位，少用大幅度环绕、俯冲、快速推拉。等角色和动作稳定以后，再给镜头增加风格。

五、崩坏原因四：没有保存失败样本

很多人做 AI 视频失败后，会直接删掉结果，然后重新抽一次。这会让每次失败都白白浪费。

更好的方式是把失败片段当作生产资料。每条失败视频至少记录三件事：

失败现象	可能原因	下次修复
第 4 秒角色变脸	参考图不足，转身角度不明确	增加侧面图，减少转身幅度
手拿信封时变形	手部动作太细，物体交互复杂	先生成拿起前一帧，再做短动作
背景像液体漂移	镜头运动太大，场景锚点不足	固定机位，明确桌子和门的位置
表情突然夸张	情绪变化写得太强	改成“轻微惊讶”，缩短表情段落

这张表看起来简单，但它会让制作从“凭感觉重试”变成“按问题修复”。当失败样本积累到 20 条，下一次写提示词时就会知道哪些动作不要合并，哪些镜头不要一开始就挑战。

六、我会怎样重做这个镜头

如果现在重新做这个 10 秒镜头，我会按下面流程执行：

先确认角色资产：一张正面图、一张侧面图、一张工作室内的角色参考图；
把镜头拆成 3 段，不追求一次生成完整 10 秒；
第一段只做“推门进入”，用固定中景；
第二段只做“走到桌前”，保持同一光线和背景；
第三段只做“拿起信封，轻微惊讶”；
每段生成 3-5 个版本，只选角色最稳定的版本；
把成功片段进入素材库，把失败原因写进复盘表；
最后用剪辑把三段接起来，而不是强迫模型完成一镜到底。

这个流程不会保证每次都成功，但会显著降低随机性。更重要的是，它会留下可复用的资产：角色图、镜头提示词、失败表、成功片段、剪辑节奏。下一次做新剧情时，不是从零开始。

七、给 AI 视频初学者的检查清单

下次生成一条 AI 视频前，可以先问自己 8 个问题：

这个镜头只有一个主要动作吗？
角色识别点是否明确？
是否有稳定参考图？
场景里有哪些不能变化的锚点？
镜头是固定、跟随，还是推拉？
动作方向是否清楚？
情绪变化是否过大？
失败以后能否判断是角色、动作、场景还是镜头问题？

如果这些问题回答不上来，提示词写得再华丽也不稳。AI 视频制作真正要训练的不是“形容画面的能力”，而是“把画面拆成可执行任务的能力”。

结尾：把崩坏变成片场日志

AI 视频崩坏并不可怕，可怕的是每次崩坏都没有记录。对万象片场来说，失败镜头不是废片，而是片场日志：它告诉我们角色资产还缺什么、镜头拆得是否太贪心、工具更适合完成哪类动作。

接下来我会继续把 AI 影像生产线拆成更小的模块：角色资产库、分镜模板、提示词版本管理、YouTube 成片发布、博客幕后复盘。最终目标不是偶尔生成一条惊艳视频，而是搭建一套一个人也能长期运转的 AI 内容片场。