2026年5月18日

AI 视频角色一致性怎么修：从参考图到镜头锁定的排错清单

AI 视频角色一到第几秒就变脸，不一定是模型不行，而是参考图、镜头动作和生成策略没有被锁住。万象片场用这篇文章整理一套可复用的角色一致性排错清单。

AI内容生产AI视频原创IP角色一致性万象片场

暗色工作台上的分镜板、参考图和影像设备，象征 AI 视频角色一致性的排错与镜头锁定流程

AI 视频最让人崩溃的地方，经常不是画面不够美，而是角色不够稳定。第一秒像原角色，第三秒脸型变了，第五秒衣服改了，第八秒突然多出一个道具。单张图看都不错，连起来却不像同一个角色。

对「万象片场」来说，角色一致性不是一个审美小问题，而是原创 IP 能不能长期积累的底层问题。一个角色如果每条视频都变样，就很难被观众记住，也很难沉淀成小红书切片、YouTube 片段、博客案例和后续资源包。

这篇文章不把问题简单归因于“模型不够强”，而是把 AI 视频角色变脸拆成一套可检查、可修复的工作流。以后每次出现角色漂移，都可以按这张清单逐项排查。

一、先判断：到底是哪一种不一致

很多人看到角色变了，会直接重写提示词。但在修之前，先要判断问题类型。角色一致性通常分成五类：

脸部漂移：脸型、五官比例、眼睛大小、年龄感发生变化。
服装漂移：衣服颜色、帽子、包、鞋子或纹理被模型自动改写。
体型漂移：角色忽高忽矮、头身比变化、身体变成熟或变幼。
风格漂移：同一个角色从 3D 卡通变成写实、从手绘变成电影 CG。
身份漂移：单看每一帧都像“某个角色”，但已经不像原来的那个角色。

这五类问题的修法不同。脸部漂移要加强正脸和表情参考；服装漂移要强化不可变元素；体型漂移要控制镜头动作和构图；风格漂移要统一画面语言；身份漂移则说明前期角色资产包不够清楚。

所以第一步不是急着再生成，而是把失败片段截 3 张关键帧：开头、中段、结尾。然后问自己：到底是哪里变了？只有定位问题，后面的提示词和参考图才不会乱改。

二、参考图不是越多越好，而是要有主次

做 AI 视频时，很多人会把一堆角色图全部丢进去，希望模型自动理解“这是同一个人”。结果反而更乱：有些图角度不同，有些图服装不同，有些图风格不同，模型不知道应该听谁的。

更稳定的做法是给参考图分层：

主身份图：最重要的一张，正面或三分之二侧面，干净背景，展示角色轮廓、脸、服装和主色。
辅助角度图：只补充侧面、背面、表情或动作，不改变主身份。
禁止变化图或文字清单：明确哪些元素不能改，例如红色小包不能变、黄色雨衣不能换、圆眼睛不能拉长。

如果参考图之间互相矛盾，AI 视频会把矛盾放大。比如一张图是短外套，一张图是长风衣；一张图是软萌 3D，一张图是写实电影感；一张图有帽子，一张图没帽子。模型可能不是不听话，而是不知道哪个版本才是正式设定。

万象片场后续做原创 IP 时，会把每个角色先定一个“主身份图”，所有视频镜头都围绕这张图扩展。其他图只能补充，不能推翻。

三、镜头动作越复杂，角色越容易变脸

角色一致性和镜头难度高度相关。一个角色站着抬头，通常比转身奔跑稳定；中景挥手，通常比近景大幅表情变化稳定；固定机位，通常比快速环绕镜头稳定。

新角色刚开始测试时，不要直接做 15 秒复杂动作。可以先做四类低风险镜头：

1. 固定机位中景

角色站在场景中，只做轻微动作：眨眼、呼吸、抬手、看向某个方向。这个镜头用来测试角色身份能不能守住。

2. 简单方向动作

比如向前走两步、从左到右经过画面、轻轻回头。动作清楚，但不要求大幅变形。

3. 道具互动

让角色拿起固定道具、打开盒子、翻开书。道具最好也是角色资产的一部分，不要每次临时生成。

4. 情绪微变化

开心、疑惑、惊讶可以做，但不要一开始就做夸张大笑、哭喊、战斗表情。表情幅度越大，脸部结构越容易被模型重画。

如果低风险镜头都不稳定，说明角色资产或提示词还没准备好；如果低风险镜头稳定，再逐步加动作、角度和时长。

四、提示词要写“导演指令”，不要只堆形容词

“可爱、电影感、精致、8K、细节丰富”这类词对画面质感有帮助，但对角色一致性帮助有限。角色一致性需要的是导演式约束：谁不能变、什么动作、镜头多长、机位如何、哪些元素保持不变。

一个更可执行的提示词结构可以这样写：

角色：保持与参考图完全一致，圆脸、黄色雨衣、红色小包、短靴不变。
镜头：固定中景，角色站在雨后街角工作室门口，轻轻回头看向镜头。
动作：只做轻微回头和眨眼，不奔跑，不旋转，不改变服装。
风格：保持原参考图的 3D 手工动画质感，柔和暖光，浅景深。
限制：不要更换衣服颜色，不要增加帽子，不要改变年龄，不要改变脸型。

这里的重点不是文字多，而是每一句都承担约束。AI 视频提示词越像导演说明书，角色越容易被锁住；越像形容词堆砌，模型越容易自由发挥。

五、用分段生成代替一次性生成长视频

很多角色漂移发生在长视频后半段。时间越长，模型越容易把角色、场景和动作重新解释。早期更稳的方式，是把视频拆成多个短镜头。

例如不要一次生成 30 秒，而是拆成：

3 秒：角色站在门口，建立身份。
4 秒：角色走向桌子，做一个简单动作。
3 秒：角色拿起道具，切近一点。
4 秒：角色露出疑惑表情，留下钩子。

每一段都从同一张主身份图和同一套角色约束出发。后期再用剪辑连接，而不是指望模型在一次生成里完成完整表演。

这种方法看起来慢，但对原创 IP 更安全。因为我们要的不是偶然生成一条好看的视频，而是建立可重复生产的角色镜头库。

六、失败片段要留下来，变成角色测试记录

很多 AI 视频失败后被直接删掉，这是很可惜的。失败片段本身就是角色资产库的一部分，因为它告诉我们模型容易在哪些地方失控。

建议每个角色建立一个简单测试记录：

测试日期；
使用的主参考图；
工具和模型；
提示词版本；
失败类型：脸部 / 服装 / 体型 / 风格 / 身份；
失败发生在第几秒；
下次修正动作。

这样做三五次之后，就会发现规律：某个角色可能一转身就丢帽子，某个角色一近景就变成熟，某个场景光线会把衣服颜色带偏。规律一旦被记录，就能变成 SOP。

七、万象片场的最小排错清单

以后遇到 AI 视频角色不稳定，我会按这个顺序检查：

主身份图是否唯一、清晰、无矛盾？
辅助参考图是否改变了服装、风格或年龄感？
提示词里是否写明不可变元素？
镜头是否太长、动作是否太复杂？
是否要求了大幅转身、奔跑、夸张表情？
风格词是否和参考图冲突？
是否可以拆成 3-5 秒短镜头？
失败关键帧是否已经截图记录？

这张清单的价值在于，它把“感觉不稳定”变成了可以执行的排错流程。角色一致性不是一次提示词灵感，而是一套持续维护的生产规范。

下一步

下一步，万象片场会把这套角色一致性排错方法继续沉淀成两个资产：一个是原创 IP 的角色测试表，一个是 AI 视频短镜头分镜模板。博客负责写完整方法，小红书可以拆出“第几秒变脸怎么修”的短笔记，未来 YouTube 则可以用真实片段做案例复盘。

当角色不再每次重来，AI 视频才真正进入可生产阶段。原创 IP 也不是从一条爆款视频开始，而是从一个稳定、可识别、可反复出镜的角色开始。