角色参考图为什么比提示词更重要:AI 原创 IP 的一致性工作流

做 AI 原创 IP 时,提示词只能表达意图,角色参考图才是稳定生产的锚点。万象片场用这篇文章梳理一套从参考图到分镜、视频和多平台内容的角色一致性工作流。

AI内容生产原创IPAI视频角色一致性万象片场
桌面上的角色草图、色卡和分镜纸,象征 AI 原创 IP 制作中的角色参考图与一致性工作流

做 AI 原创 IP 时,很多人会把主要精力放在提示词上:角色要可爱、治愈、电影感、皮克斯风、赛博朋克、细节丰富、超高清。提示词越写越长,生成结果却越来越不可控。第一张图很好看,第二张图像同一个世界但不像同一个角色,第三张图换了衣服,到了视频里又变成另一个人。

这不是“提示词还不够高级”,而是生产顺序错了。提示词负责表达方向,参考图负责锁定身份。对于「万象片场」这样的 AI 影像与原创 IP 生产线来说,如果一个角色要反复出现在短剧、分镜、海报、小红书切片和未来 YouTube 视频里,它就不能只靠一句文字描述维持一致性。

这篇文章不讨论某一个工具的按钮,而是整理一套更底层的工作流:先用角色参考图建立身份锚点,再用提示词补充镜头、动作、情绪和场景。这样做,才能从“抽一张好图”走向“长期生产一个角色”。

一、提示词的优势和边界

提示词最擅长的是表达意图。比如:

  • 这个角色是温暖的、冒失的、像小小探险家;
  • 画面要有手工动画感;
  • 场景是雨后的街角工作室;
  • 镜头要中景、柔和暖光、轻微景深;
  • 情绪是发现秘密前的一点好奇。

这些信息很重要,但它们并不能精确定义“这个角色是谁”。因为文字天然会留下大量解释空间。你写“圆脸、黄色雨衣、红色小包”,模型可能生成十个都符合描述、但彼此并不相同的角色。它们都没有错,却不能组成同一个 IP。

原创 IP 的核心不是“每次都好看”,而是“每次都能被认出来”。观众不需要知道你用了什么模型,但他们会下意识判断:这是不是上一条视频里的那个角色?如果答案经常变成“不确定”,角色资产就无法积累。

所以提示词的边界很清楚:它可以描述气质、动作和镜头,但很难独自承担身份一致性。

二、角色参考图是身份锚点

角色参考图的作用,不是给模型一张“好看的示意图”,而是建立可继承的视觉规则。一个合格的参考图至少要回答五个问题:

  1. 角色的整体轮廓是什么?是圆、方、长条、矮胖,还是头大身小?
  2. 最重要的识别点是什么?帽子、耳朵、发型、服装、道具还是配色?
  3. 颜色规则是什么?主色、辅助色、禁用色分别是什么?
  4. 角色在不同角度下是否还能被认出?正面、侧面、三分之二侧面是否对得上?
  5. 哪些元素不能变化?比如雨衣不能变斗篷,红色小包不能变背包,圆眼睛不能变细长眼。

当这些信息通过图像固定下来,提示词就不用每次重新解释角色身份,而是可以专注于当前镜头:今天是走路、回头、打开盒子,还是站在古文明遗址前看向远方。

这也是万象片场后续做 AI 视频时要坚持的原则:角色参考图先于视频生成,身份锚点先于镜头调度。

三、最小可用角色参考包

不需要一开始就做几十张设定图。早期更适合做“最小可用角色参考包”,先让角色进入生产,而不是停在美术设定阶段。

我会把它拆成 6 类资产:

1. 正面全身图

这是角色的身份证。它要尽量清楚地展示头身比例、服装结构、主色、固定道具和整体气质。不要一开始就追求复杂背景,最好是干净背景,方便后续抠图、透明 PNG、角色卡和图生视频使用。

2. 三分之二侧面图

很多视频镜头不会一直正对镜头。三分之二侧面能帮助模型理解脸部轮廓、身体厚度、服装层次和道具位置。它比纯侧面更常用,也更适合做海报和短视频封面。

3. 背面或侧面图

角色一旦走路、转身、进门、看向远方,背面信息就会被模型补全。如果没有背面规则,模型可能自动改掉帽子、衣摆、包带和发型。背面图不需要特别精美,但必须结构清楚。

4. 表情小样

至少准备 4 个高频表情:平静、惊讶、开心、疑惑。原创 IP 的记忆点往往来自重复出现的表情模式,而不是每次换一种复杂情绪。

5. 动作小样

先做低难度动作:站立、挥手、走两步、拿起道具、回头。它们是未来短剧和视频的动作积木。不要一开始就挑战跑酷、打斗、跳舞和大幅旋转。

6. 禁止变化清单

这部分经常被忽略,但非常关键。参考包里要明确写:不要改变服装颜色,不要增加新帽子,不要把小包换成书包,不要改变眼睛形状,不要让角色年龄感变成熟。

禁止变化清单让提示词从“请求模型做什么”变成“同时限制模型不要做什么”。

四、参考图和提示词怎么配合

参考图不是替代提示词,而是把提示词分工变得更清楚。

一个更稳的结构可以这样写:

使用指定角色参考图,保持角色轮廓、服装、颜色和红色小包不变。中景镜头,角色站在温暖的工作室门口,左手扶门,右手拿一封信,表情从疑惑变成惊讶。镜头固定,不旋转,不快速推拉,背景保持稳定,手部动作简单。

这里面有三层信息:

  • 参考图负责角色身份:轮廓、服装、颜色、固定道具;
  • 提示词负责镜头任务:站在哪里、做什么动作、是什么表情;
  • 限制语负责降低失控:不旋转、不快速推拉、背景稳定、动作简单。

如果没有参考图,这段提示词就会把角色身份、动作、场景、镜头全部塞进文字里,模型需要同时理解太多东西。加入参考图以后,提示词变短了,但控制力更强。

五、从图片到视频:不要直接做长镜头

很多角色一致性问题是在视频阶段被放大的。一张图里角色稳定,不代表 10 秒视频里也稳定。尤其是转身、行走、拿东西、表情变化这些动作,会强迫模型重新计算身体结构和局部细节。

更稳的做法是:

  1. 先用参考图生成 3-5 张静态分镜,确认角色在不同画面里仍然像同一个人;
  2. 每张分镜只生成 3-6 秒短视频,不要一开始做 15 秒或 30 秒;
  3. 每段视频只承担一个动作,比如“回头”或“拿起信封”;
  4. 生成后记录失败原因:脸变了、道具变了、衣服变了、镜头飘了,分别归档;
  5. 把有效提示词和失败禁用词写回角色资产库。

这样做看起来慢,但它会让每一次测试都变成资产。今天修好的“回头不变脸”提示词,明天可以复用到另一个场景;今天确认的侧面图,后面可以继续服务 YouTube 片头、小红书封面和博客配图。

万象片场要沉淀的不是一条单独爆款视频,而是一套能持续生产的影像系统。

六、一个可执行检查清单

下一次你准备做 AI 原创 IP 或角色视频时,可以先用这份清单自查:

  • 是否有一张清晰的正面全身参考图?
  • 是否有至少一张侧面或三分之二侧面图?
  • 角色主色、辅助色和固定道具是否明确?
  • 有没有写出 5 条“禁止变化”规则?
  • 表情和动作是否先从低难度开始?
  • 视频是否拆成 3-6 秒的小镜头?
  • 每次失败是否记录到资产库,而不是只重新抽卡?
  • 博客、小红书、YouTube 是否都复用同一套角色身份规则?

如果这些问题没有答案,就不要急着生成长视频。先把角色站稳,再让它动起来。

结尾:先固定角色,再扩展世界

AI 内容生产最容易让人误以为“速度就是优势”。但在原创 IP 方向,真正的优势不是一天生成多少张图,而是一个角色能不能被稳定复用、持续出现、逐渐被观众记住。

参考图就是这个过程的起点。它把想象变成可继承的视觉规则,把提示词从玄学变成生产说明书,也让后续的视频、封面、分镜和多平台内容有了共同的角色底座。

下一步,万象片场会继续把这套方法往下拆:如何给一个原创角色建立“动作积木库”,以及如何把一组角色参考图扩展成一集可制作的 AI 短片。