AI 短剧生产流程:剧本、分镜、图片、视频、配音怎么串起来
AI 短剧不是把一句剧情丢给视频模型,而是把剧本、镜头表、角色资产、图片、视频、配音和剪辑拆成一条可复盘的生产线。
很多人第一次尝试 AI 短剧,会直接从“生成一段视频”开始:写一句剧情,选一个视频模型,等待它吐出 10 秒画面。这个方法可以拿来玩,但很难变成稳定内容生产。因为短剧的核心不是某个镜头好不好看,而是人物、冲突、节奏、镜头、声音和剪辑能不能连续。
我在「万象片场」里更愿意把 AI 短剧看成一条小型影视流水线:先有剧本,再有镜头表,再有角色和场景资产,再把关键帧变成短视频,最后用配音、音效、字幕和剪辑把它们串起来。这样做慢一点,但每一步都能复盘,也更适合长期做原创 IP。
这篇文章先不讨论某个单一工具的按钮,而是拆一套可执行流程:一个人如何从一个短剧想法出发,把剧本、分镜、图片、视频、配音串成一条能重复使用的 AI 影像生产线。
先定目标:AI 短剧不是长片缩小版
短剧尤其适合 AI,是因为它可以把复杂叙事拆成小单元:一个冲突、一个反转、一个情绪点、一个角色动作。对 AI 视频来说,短镜头比长镜头稳定;对个人创作者来说,短剧也比一上来做 10 分钟动画更现实。
我会先把 AI 短剧分成三种目标:
- 角色测试短剧:验证一个原创角色有没有记忆点,比如性格、表情、口头禅、动作习惯。
- 世界观切片短剧:展示一个设定,比如未来城市、古文明、童话工厂、怪物办公室。
- 社交平台钩子短剧:用 15-45 秒讲一个反差故事,适合小红书、短视频和博客文章预告。
这三类短剧的工作重点不同。角色测试要先保一致性;世界观切片要先保氛围;社交钩子要先保开头 3 秒。不要在一个项目里同时追求“角色稳定、剧情完整、画面电影级、口播完美、平台爆款”,那会让流程很快失控。
万象片场目前更适合从角色测试短剧和世界观切片短剧开始,因为它们能沉淀角色资产、场景资产和分镜模板,为后面的 YouTube 频道或原创 IP 系列铺路。
第一步:把想法压缩成一句剧情钩子
短剧剧本的第一步不是写对白,而是写一句能被执行的剧情钩子。格式可以很简单:
一个什么角色,在什么场景里,遇到什么意外,最后发生什么反转。
例如:
- 一个快递纸箱机器人,在废弃仓库里发现自己送错了宇宙级包裹;
- 一个古埃及小书记员,在记录税粮时发现神庙账本被人篡改;
- 一个厨房里的调料罐角色,发现自己每天被误认为糖,其实它是盐。
这一步要避免两个坑。
第一,不要写太宏大的设定。比如“一个少年拯救世界”太大,AI 短剧前期很难承接。更好的写法是“一个少年在第一天上班时,发现办公室电梯通向古代王朝”。
第二,不要写无法视觉化的抽象概念。比如“主角理解了孤独的意义”不好生成;“主角坐在空荡影厅,银幕里出现另一个自己”就更容易转成镜头。
一句剧情钩子写清楚后,后面所有步骤都围绕它展开。它是剧本、分镜、封面、小红书标题和博客复盘的共同源头。
第二步:剧本只写 30-60 秒,不要先写一集
AI 短剧前期最容易犯的错,是一开始就写完整一集。结果剧本很热闹,但到了制作阶段会发现:角色太多、场景太多、动作太复杂、镜头太长,任何一个环节失败都会拖垮整条生产线。
我更建议先写 30-60 秒的微短剧。结构可以用四段式:
- 开场 0-5 秒:一个反常画面或一句冲突台词;
- 铺垫 5-15 秒:说明角色在做什么;
- 升级 15-35 秒:意外出现,角色做出反应;
- 反转 35-60 秒:给一个笑点、悬念或情绪落点。
例如一个原创 IP 测试短剧可以这样写:
- 开场:纸箱机器人站在门口,包裹里传出心跳声;
- 铺垫:它查看订单,发现地址写着“月球背面 17 号”;
- 升级:包裹自己打开,飞出一张会说话的星图;
- 反转:星图说:“你迟到了三百年。”
这样的剧本不复杂,但足够生成 5-8 个短镜头,也能测试角色、道具、配音和剪辑节奏。如果这一分钟做不稳,就没必要急着写十集大纲。
第三步:把剧本拆成镜头表,而不是直接丢给视频模型
AI 视频模型不擅长理解完整剧本,但它更容易执行单个镜头。因此短剧剧本写完后,必须拆成镜头表。
一个基础镜头表至少包含:
| 镜头 | 时长 | 画面 | 动作 | 台词/声音 | 资产 |
|---|---|---|---|---|---|
| 1 | 4 秒 | 门口中景,纸箱机器人抱着包裹 | 包裹轻微震动 | 低频心跳声 | 角色图、包裹图 |
| 2 | 5 秒 | 订单屏幕特写 | 地址文字闪烁 | 无 | 道具图 |
| 3 | 6 秒 | 包裹打开,光从缝隙里冒出 | 角色后退一步 | 角色喘气 | 角色图、场景图 |
| 4 | 6 秒 | 星图漂浮在空中 | 星图旋转 | “你迟到了三百年。” | 星图图、配音 |
镜头表的价值在于,它把“剧情”翻译成“生产任务”。每个镜头都可以独立生成、独立失败、独立重做。这样即使第三个镜头崩了,也不会影响第一个和第二个镜头。
对万象片场来说,镜头表还可以变成长期资产。以后做同类短剧时,可以复用“开场钩子镜头”“道具特写镜头”“角色反应镜头”“反转台词镜头”这些模板,而不是每次从零开始。
第四步:先做角色和场景资产,再生成关键帧
短剧进入视觉阶段后,不要先点视频生成。更稳的顺序是:
- 角色定妆图;
- 关键道具图;
- 主要场景图;
- 每个镜头的关键帧;
- 图片到视频。
角色定妆图要尽量简单清楚:正面、半身、主要颜色、标志性道具、表情特征。原创 IP 角色越复杂,视频阶段越容易崩。前期可以先牺牲一点细节,换取更高的一致性。
场景图也不要一开始做得太拥挤。一个短剧测试项目最好先控制在 1-2 个场景内,例如“仓库门口”和“仓库内部”。如果每个镜头都换场景,生成和剪辑成本会迅速上升。
关键帧是连接图片和视频的桥。它不是单纯追求好看,而是要服务镜头表:这个镜头需要中景还是特写?角色在画面左侧还是右侧?道具是否清楚?后面要不要加字幕?有没有给运动留空间?
我现在的判断标准是:如果一张关键帧本身不能让人看懂镜头意图,就不要急着转视频。先修图,后生成,效率反而更高。
第五步:视频生成只负责短动作,不负责完整表演
到了图片转视频阶段,提示词要像导演说明书,而不是情绪形容词堆砌。
不稳定的写法是:
让角色惊恐地发现神秘包裹,电影感,震撼,超高质量。
更可执行的写法是:
保持角色外观、颜色和包裹形状一致。固定中景镜头,包裹轻微震动并发出柔和蓝光,角色向后退半步,头部看向包裹,背景保持稳定,动作自然,不改变角色设计。
AI 短剧里,每个视频片段最好只承担一个动作:
- 转头;
- 后退;
- 抬手;
- 包裹震动;
- 门缝透光;
- 角色眨眼;
- 镜头轻微推进。
如果一个镜头同时要求“角色奔跑、镜头旋转、背景爆炸、道具飞出、表情变化、衣服飘动”,失败概率会非常高。短剧的节奏可以靠剪辑完成,不必让每个 AI 片段都承担全部戏剧动作。
这也是我对 AI 视频的基本定位:它不是整段表演生成器,而是短镜头素材生成器。真正的导演工作,仍然在镜头设计和剪辑里。
第六步:配音、音效和字幕要提前规划
很多 AI 短剧看起来“不像作品”,不是因为画面差,而是因为声音和字幕没有设计。声音是短剧连续性的胶水。画面之间略有不稳定时,统一的旁白、角色声音、环境音和音乐,可以显著提高观看连贯性。
我会把声音分成四层:
- 角色台词:短句、口头禅、反应声;
- 旁白:解释背景或制造悬念;
- 音效:脚步、门响、风声、机械声、魔法声;
- 音乐:控制整体情绪,不要盖过台词。
在剧本阶段就要标注哪些镜头有台词,哪些镜头只需要音效。否则到了剪辑时才补声音,常常会出现节奏不匹配:嘴型不需要强求完全同步,但情绪、停顿和字幕节奏必须对上。
字幕也不要只是“把台词贴上去”。短剧字幕要服务手机观看:短、清楚、有停顿。尤其是社交平台切片,很多人是静音浏览,字幕本身就是剧情的一部分。
第七步:剪辑时按“可用片段”组织,不按“生成顺序”组织
AI 生成的视频经常不是整条可用。一个 6 秒片段里,可能前 2 秒稳定,后 4 秒角色变形;也可能中间 1 秒动作最好。剪辑时不要迷信生成顺序,而要按可用片段重组。
我会建立一个简单素材标记规则:
- A:可直接使用;
- B:需要裁切或遮挡后可用;
- C:只适合作为参考或废片复盘;
- R:需要重做。
每个镜头生成 3-5 条候选片段后,先粗选,再剪一个 20-60 秒版本。不要等所有镜头完美才开始剪。因为只有放进时间线,才知道节奏是否成立、台词是否过长、镜头是否需要补拍。
真正的短剧生产不是“生成完再剪”,而是“生成、剪辑、发现问题、补镜头”。这和真人拍摄很像,只是 AI 把摄影棚变成了提示词、关键帧和模型队列。
一个最小可执行 SOP
如果明天要在万象片场里做第一条 AI 短剧测试,我会按这个顺序执行:
- 写一句剧情钩子;
- 写 30-60 秒四段式剧本;
- 拆 5-8 个镜头;
- 做 1 个主角定妆图、1 个主场景图、1-2 个关键道具图;
- 为每个镜头生成关键帧;
- 每个关键帧转 3 条短视频候选;
- 选出 A/B 级片段进剪辑;
- 加角色配音、音效、音乐和字幕;
- 输出一个短剧版本;
- 记录失败镜头、成功提示词和下次要复用的模板。
这个 SOP 的重点不是一次做出爆款,而是建立可重复流程。只要流程稳定,后面就可以逐步增加角色、场景、集数和平台分发。
最容易踩的 6 个坑
第一,剧本太大。一个人刚开始做 AI 短剧,不要写多角色、多场景、大战斗。先做一个角色、一个空间、一个反转。
第二,角色资产不统一。今天的主角是圆脸,明天变成长脸,观众很难建立记忆点。原创 IP 前期必须优先保角色一致性。
第三,镜头动作太满。AI 视频更适合短动作,复杂表演要拆镜头。
第四,文字直接进生成图。海报文字、品牌名、字幕最好后期加,不要指望图片或视频模型稳定生成文字。
第五,没有声音设计。没有配音、音效和字幕的 AI 短剧,很容易像素材拼贴,不像作品。
第六,不做复盘。每次生成完只看成败,不记录提示词、参数、关键帧和失败原因,就无法形成生产线。
下一步:把短剧流程沉淀成原创 IP 资产
AI 短剧真正有价值的地方,不只是发布一条视频,而是把每次制作沉淀成可复用资产:角色设定、场景库、镜头模板、配音风格、字幕样式、失败清单和分发脚本。
这也是「万象片场」接下来要持续记录的方向:不是炫耀某个模型生成了多漂亮的片段,而是把一个人做 AI 影像项目的幕后流程拆开,让每一步都能被复用、改进和资产化。
下一步,我会继续把这套流程往原创 IP 方向推进:从角色设定到透明 PNG 资产,再到角色表情、动作和短剧镜头库。只有当角色资产稳定下来,AI 短剧才可能从一次性实验,变成真正可连续生产的内容系列。