2026年5月16日

角色参考图为什么比提示词更重要：AI 原创 IP 的一致性工作流

做 AI 原创 IP 时，提示词只能表达意图，角色参考图才是稳定生产的锚点。万象片场用这篇文章梳理一套从参考图到分镜、视频和多平台内容的角色一致性工作流。

AI内容生产原创IPAI视频角色一致性万象片场

桌面上的角色草图、色卡和分镜纸，象征 AI 原创 IP 制作中的角色参考图与一致性工作流

做 AI 原创 IP 时，很多人会把主要精力放在提示词上：角色要可爱、治愈、电影感、皮克斯风、赛博朋克、细节丰富、超高清。提示词越写越长，生成结果却越来越不可控。第一张图很好看，第二张图像同一个世界但不像同一个角色，第三张图换了衣服，到了视频里又变成另一个人。

这不是“提示词还不够高级”，而是生产顺序错了。提示词负责表达方向，参考图负责锁定身份。对于「万象片场」这样的 AI 影像与原创 IP 生产线来说，如果一个角色要反复出现在短剧、分镜、海报、小红书切片和未来 YouTube 视频里，它就不能只靠一句文字描述维持一致性。

这篇文章不讨论某一个工具的按钮，而是整理一套更底层的工作流：先用角色参考图建立身份锚点，再用提示词补充镜头、动作、情绪和场景。这样做，才能从“抽一张好图”走向“长期生产一个角色”。

一、提示词的优势和边界

提示词最擅长的是表达意图。比如：

这个角色是温暖的、冒失的、像小小探险家；
画面要有手工动画感；
场景是雨后的街角工作室；
镜头要中景、柔和暖光、轻微景深；
情绪是发现秘密前的一点好奇。

这些信息很重要，但它们并不能精确定义“这个角色是谁”。因为文字天然会留下大量解释空间。你写“圆脸、黄色雨衣、红色小包”，模型可能生成十个都符合描述、但彼此并不相同的角色。它们都没有错，却不能组成同一个 IP。

原创 IP 的核心不是“每次都好看”，而是“每次都能被认出来”。观众不需要知道你用了什么模型，但他们会下意识判断：这是不是上一条视频里的那个角色？如果答案经常变成“不确定”，角色资产就无法积累。

所以提示词的边界很清楚：它可以描述气质、动作和镜头，但很难独自承担身份一致性。

二、角色参考图是身份锚点

角色参考图的作用，不是给模型一张“好看的示意图”，而是建立可继承的视觉规则。一个合格的参考图至少要回答五个问题：

角色的整体轮廓是什么？是圆、方、长条、矮胖，还是头大身小？
最重要的识别点是什么？帽子、耳朵、发型、服装、道具还是配色？
颜色规则是什么？主色、辅助色、禁用色分别是什么？
角色在不同角度下是否还能被认出？正面、侧面、三分之二侧面是否对得上？
哪些元素不能变化？比如雨衣不能变斗篷，红色小包不能变背包，圆眼睛不能变细长眼。

当这些信息通过图像固定下来，提示词就不用每次重新解释角色身份，而是可以专注于当前镜头：今天是走路、回头、打开盒子，还是站在古文明遗址前看向远方。

这也是万象片场后续做 AI 视频时要坚持的原则：角色参考图先于视频生成，身份锚点先于镜头调度。

三、最小可用角色参考包

不需要一开始就做几十张设定图。早期更适合做“最小可用角色参考包”，先让角色进入生产，而不是停在美术设定阶段。

我会把它拆成 6 类资产：

1. 正面全身图

这是角色的身份证。它要尽量清楚地展示头身比例、服装结构、主色、固定道具和整体气质。不要一开始就追求复杂背景，最好是干净背景，方便后续抠图、透明 PNG、角色卡和图生视频使用。

2. 三分之二侧面图

很多视频镜头不会一直正对镜头。三分之二侧面能帮助模型理解脸部轮廓、身体厚度、服装层次和道具位置。它比纯侧面更常用，也更适合做海报和短视频封面。

3. 背面或侧面图

角色一旦走路、转身、进门、看向远方，背面信息就会被模型补全。如果没有背面规则，模型可能自动改掉帽子、衣摆、包带和发型。背面图不需要特别精美，但必须结构清楚。

4. 表情小样

至少准备 4 个高频表情：平静、惊讶、开心、疑惑。原创 IP 的记忆点往往来自重复出现的表情模式，而不是每次换一种复杂情绪。

5. 动作小样

先做低难度动作：站立、挥手、走两步、拿起道具、回头。它们是未来短剧和视频的动作积木。不要一开始就挑战跑酷、打斗、跳舞和大幅旋转。

6. 禁止变化清单

这部分经常被忽略，但非常关键。参考包里要明确写：不要改变服装颜色，不要增加新帽子，不要把小包换成书包，不要改变眼睛形状，不要让角色年龄感变成熟。

禁止变化清单让提示词从“请求模型做什么”变成“同时限制模型不要做什么”。

四、参考图和提示词怎么配合

参考图不是替代提示词，而是把提示词分工变得更清楚。

一个更稳的结构可以这样写：

使用指定角色参考图，保持角色轮廓、服装、颜色和红色小包不变。中景镜头，角色站在温暖的工作室门口，左手扶门，右手拿一封信，表情从疑惑变成惊讶。镜头固定，不旋转，不快速推拉，背景保持稳定，手部动作简单。

这里面有三层信息：

参考图负责角色身份：轮廓、服装、颜色、固定道具；
提示词负责镜头任务：站在哪里、做什么动作、是什么表情；
限制语负责降低失控：不旋转、不快速推拉、背景稳定、动作简单。

如果没有参考图，这段提示词就会把角色身份、动作、场景、镜头全部塞进文字里，模型需要同时理解太多东西。加入参考图以后，提示词变短了，但控制力更强。

五、从图片到视频：不要直接做长镜头

很多角色一致性问题是在视频阶段被放大的。一张图里角色稳定，不代表 10 秒视频里也稳定。尤其是转身、行走、拿东西、表情变化这些动作，会强迫模型重新计算身体结构和局部细节。

更稳的做法是：

先用参考图生成 3-5 张静态分镜，确认角色在不同画面里仍然像同一个人；
每张分镜只生成 3-6 秒短视频，不要一开始做 15 秒或 30 秒；
每段视频只承担一个动作，比如“回头”或“拿起信封”；
生成后记录失败原因：脸变了、道具变了、衣服变了、镜头飘了，分别归档；
把有效提示词和失败禁用词写回角色资产库。

这样做看起来慢，但它会让每一次测试都变成资产。今天修好的“回头不变脸”提示词，明天可以复用到另一个场景；今天确认的侧面图，后面可以继续服务 YouTube 片头、小红书封面和博客配图。

万象片场要沉淀的不是一条单独爆款视频，而是一套能持续生产的影像系统。

六、一个可执行检查清单

下一次你准备做 AI 原创 IP 或角色视频时，可以先用这份清单自查：

是否有一张清晰的正面全身参考图？
是否有至少一张侧面或三分之二侧面图？
角色主色、辅助色和固定道具是否明确？
有没有写出 5 条“禁止变化”规则？
表情和动作是否先从低难度开始？
视频是否拆成 3-6 秒的小镜头？
每次失败是否记录到资产库，而不是只重新抽卡？
博客、小红书、YouTube 是否都复用同一套角色身份规则？

如果这些问题没有答案，就不要急着生成长视频。先把角色站稳，再让它动起来。

结尾：先固定角色，再扩展世界

AI 内容生产最容易让人误以为“速度就是优势”。但在原创 IP 方向，真正的优势不是一天生成多少张图，而是一个角色能不能被稳定复用、持续出现、逐渐被观众记住。

参考图就是这个过程的起点。它把想象变成可继承的视觉规则，把提示词从玄学变成生产说明书，也让后续的视频、封面、分镜和多平台内容有了共同的角色底座。

下一步，万象片场会继续把这套方法往下拆：如何给一个原创角色建立“动作积木库”，以及如何把一组角色参考图扩展成一集可制作的 AI 短片。