AI 视频分镜拆解:不要直接生成 60 秒,先做 3 段 10 秒

AI 视频早期最容易失败的做法,是直接让模型生成一条完整长片。万象片场用这篇文章整理一套更稳的分镜拆解方法:先把 60 秒内容拆成 3 段 10 秒关键镜头,再逐步扩展。

AI内容生产AI视频分镜YouTube万象片场
桌面上的相机、镜头和分镜笔记,象征把 AI 视频长片拆成可控的短镜头

很多人第一次做 AI 视频,会直接给工具一个大任务:生成一条 60 秒短片,讲清一个故事,画面要电影感,角色要稳定,镜头要连贯,最好还能有情绪起伏。

这个想法很自然,但也是 AI 视频最容易崩的地方。模型可以在几秒钟里给你一个不错的画面,却不一定能在 60 秒里稳定维护同一个角色、同一套空间关系、同一个动作逻辑和同一种叙事节奏。

在「万象片场」的内容生产里,我更倾向把 AI 视频当成一组镜头,而不是一次性生成整条片。尤其是原创 IP、YouTube 纪录片预告、AI 影像幕后短片这些方向,早期不要追求“一口气成片”,而要先训练自己把 60 秒拆成 3 段 10 秒关键镜头。

一、为什么不要一开始就生成 60 秒

一条 60 秒视频看起来只是时间更长,但对 AI 模型来说,它等于同时承担了很多任务:

  1. 角色不能变脸;
  2. 场景不能突然跳;
  3. 动作要有前后因果;
  4. 镜头语言要连续;
  5. 情绪要逐步推进;
  6. 结尾还要有记忆点。

只要其中一个环节失控,整条视频就会从“完整作品”变成“随机片段合集”。你可能前 5 秒觉得很惊艳,第 9 秒角色突然换衣服,第 18 秒场景方向反了,第 30 秒已经不知道主角在做什么。

AI 视频的早期策略不是把模型当成完整导演,而是把它当成一个镜头生成助手。人负责结构,AI 负责画面生成。先把结构拆清楚,模型才有机会在每个小任务里发挥。

二、万象片场的 3 段 10 秒法

我现在会用一个简单方法来拆 60 秒内容:

10 秒开场:建立角色和场景
10 秒动作:让角色完成一个关键动作
10 秒结果:展示变化、反转或钩子

注意,这不是说最终视频只有 30 秒,而是先用 3 段 10 秒做“骨架”。如果这 3 段成立,再扩展到 45 秒、60 秒,成功率会高很多。

1. 开场 10 秒:观众先看懂谁在哪里

开场不要塞太多信息。它只需要完成两件事:

  • 谁是主角;
  • 主角现在处在什么环境里。

例如原创动画可以这样写:

一个固定造型的卡通小导演站在迷你片场中央,脖子上挂着小相机,面前是一块写着“今日镜头”的分镜板。镜头缓慢推进,角色抬头看向分镜板,表情期待又紧张。

历史文明纪录片可以这样写:

日出时的古代城市遗址,航拍镜头从远处缓慢推进,金色光线照亮石柱和街道,画面中没有现代物品,整体气氛安静、宏大、像纪录片开场。

开场镜头的目标不是“发生大事”,而是让观众进入世界。只要角色、场景和风格稳定,后面才有叙事空间。

2. 动作 10 秒:只安排一个核心动作

第二段才开始让角色做事。但这个动作一定要小,不要同时安排奔跑、跳跃、转身、爆炸、镜头环绕。

一个 10 秒镜头最好只有一个核心动作:

  • 角色按下按钮;
  • 角色打开盒子;
  • 镜头从道具推到角色表情;
  • 古城大门缓慢打开;
  • 一束光从地图上扩散到城市模型。

例如:

固定角色保持不变。卡通小导演伸手按下分镜板旁边的红色按钮,按钮亮起,片场背景从普通摄影棚缓慢切换成古文明遗迹。角色后退半步,露出惊讶表情。镜头保持中景,不要快速切换。

这里最重要的是“保持不变”和“镜头保持中景”。AI 视频一旦动作太多,模型就容易用画面变化掩盖逻辑错误。我们要让它少做一点,但做得更准。

3. 结果 10 秒:给观众一个继续看的理由

第三段不是简单收尾,而是展示动作带来的结果。它可以是反转、发现、危险、笑点,也可以是下一条视频的钩子。

例如:

片场完全变成古文明遗迹后,分镜板自己翻页,出现一行发光文字:“下一场:失控的太阳神庙”。卡通小导演看向镜头,表情从惊讶变成兴奋。画面停在分镜板和角色同框的构图上。

这个结尾没有解决所有问题,但它给了观众一个明确预期:下一段要进入太阳神庙。对 YouTube Shorts、小红书短视频、博客嵌入视频来说,这种钩子比“画面很美但不知道然后呢”更有用。

三、每段 10 秒都要写成可检查的镜头任务

拆成 3 段之后,不要只写概念,要把每段都写成可检查的镜头任务。我会用这张小表:

段落任务检查标准
开场建立角色和场景角色造型是否稳定,观众是否看懂地点
动作完成一个核心动作动作是否单一,镜头是否没有乱切
结果展示变化或钩子结尾是否有记忆点,是否能接下一条

如果一个镜头生成后不能通过检查,就不要急着进入下一段。先修这 10 秒:改角色描述、限制镜头运动、减少动作、固定场景元素。AI 视频制作最怕“带病扩展”,前 10 秒不稳,后面 50 秒只会放大问题。

四、适合 3 段法的三种内容类型

1. 原创 IP 小短集

原创角色最适合用 3 段法。先让角色在一个小场景里完成一个小动作,不要一上来做复杂剧情。比如:角色发现一扇门、按错一个按钮、打开一个会发光的盒子。

这种内容可以长期积累角色动作库:站立、转头、惊讶、伸手、后退、奔向道具。动作库越多,后面做系列动画越稳。

2. 历史文明纪录片预告

如果要做 YouTube 历史文明频道,3 段法也很适合。开场给文明场景,动作给一个变化,结果给一个问题。

例如:古城日出 → 神庙大门打开 → 地图上出现一条失落路线。这样比直接生成“60 秒古文明纪录片”更容易控制,也更容易后期配旁白。

3. AI 影像幕后内容

万象片场还可以把 3 段法本身做成幕后内容。比如展示:原始提示词、失败画面、修正后的镜头、最终拼接版本。这样一条视频不只是成片,也是一篇博客、一组小红书笔记、一个未来课程或 SOP 的素材。

五、下一步:先做一张 3 镜头分镜卡

如果今天只做一个动作,我建议不要立刻打开 AI 视频工具,而是先写一张 3 镜头分镜卡:

项目名称:
主角固定描述:
场景固定描述:

镜头 1:开场 10 秒
镜头任务:
提示词草稿:
检查标准:

镜头 2:动作 10 秒
镜头任务:
提示词草稿:
检查标准:

镜头 3:结果 10 秒
镜头任务:
提示词草稿:
检查标准:

先把这张卡写清楚,再去生成画面。你会发现,AI 视频真正的控制力,往往不是来自某一个神奇提示词,而是来自前面的拆解方式。

这也是「万象片场」想持续沉淀的方向:把每一次 AI 影像尝试,都从随机生成变成可复盘的生产流程。下一步,可以把这套 3 段 10 秒法应用到一个具体原创角色或历史文明选题上,记录提示词、失败片段和最终版本,逐步搭出一条真正能长期更新的视频生产线。