2026年5月23日

AI 视频分镜拆解：不要直接生成 60 秒，先做 3 段 10 秒

AI 视频早期最容易失败的做法，是直接让模型生成一条完整长片。万象片场用这篇文章整理一套更稳的分镜拆解方法：先把 60 秒内容拆成 3 段 10 秒关键镜头，再逐步扩展。

AI内容生产AI视频分镜YouTube万象片场

很多人第一次做 AI 视频，会直接给工具一个大任务：生成一条 60 秒短片，讲清一个故事，画面要电影感，角色要稳定，镜头要连贯，最好还能有情绪起伏。

这个想法很自然，但也是 AI 视频最容易崩的地方。模型可以在几秒钟里给你一个不错的画面，却不一定能在 60 秒里稳定维护同一个角色、同一套空间关系、同一个动作逻辑和同一种叙事节奏。

在「万象片场」的内容生产里，我更倾向把 AI 视频当成一组镜头，而不是一次性生成整条片。尤其是原创 IP、YouTube 纪录片预告、AI 影像幕后短片这些方向，早期不要追求“一口气成片”，而要先训练自己把 60 秒拆成 3 段 10 秒关键镜头。

一、为什么不要一开始就生成 60 秒

一条 60 秒视频看起来只是时间更长，但对 AI 模型来说，它等于同时承担了很多任务：

只要其中一个环节失控，整条视频就会从“完整作品”变成“随机片段合集”。你可能前 5 秒觉得很惊艳，第 9 秒角色突然换衣服，第 18 秒场景方向反了，第 30 秒已经不知道主角在做什么。

AI 视频的早期策略不是把模型当成完整导演，而是把它当成一个镜头生成助手。人负责结构，AI 负责画面生成。先把结构拆清楚，模型才有机会在每个小任务里发挥。

我现在会用一个简单方法来拆 60 秒内容：

10 秒开场：建立角色和场景
10 秒动作：让角色完成一个关键动作
10 秒结果：展示变化、反转或钩子

注意，这不是说最终视频只有 30 秒，而是先用 3 段 10 秒做“骨架”。如果这 3 段成立，再扩展到 45 秒、60 秒，成功率会高很多。

开场不要塞太多信息。它只需要完成两件事：

例如原创动画可以这样写：

一个固定造型的卡通小导演站在迷你片场中央，脖子上挂着小相机，面前是一块写着“今日镜头”的分镜板。镜头缓慢推进，角色抬头看向分镜板，表情期待又紧张。

历史文明纪录片可以这样写：

日出时的古代城市遗址，航拍镜头从远处缓慢推进，金色光线照亮石柱和街道，画面中没有现代物品，整体气氛安静、宏大、像纪录片开场。

开场镜头的目标不是“发生大事”，而是让观众进入世界。只要角色、场景和风格稳定，后面才有叙事空间。

第二段才开始让角色做事。但这个动作一定要小，不要同时安排奔跑、跳跃、转身、爆炸、镜头环绕。

一个 10 秒镜头最好只有一个核心动作：

例如：

固定角色保持不变。卡通小导演伸手按下分镜板旁边的红色按钮，按钮亮起，片场背景从普通摄影棚缓慢切换成古文明遗迹。角色后退半步，露出惊讶表情。镜头保持中景，不要快速切换。

这里最重要的是“保持不变”和“镜头保持中景”。AI 视频一旦动作太多，模型就容易用画面变化掩盖逻辑错误。我们要让它少做一点，但做得更准。

第三段不是简单收尾，而是展示动作带来的结果。它可以是反转、发现、危险、笑点，也可以是下一条视频的钩子。

例如：

片场完全变成古文明遗迹后，分镜板自己翻页，出现一行发光文字：“下一场：失控的太阳神庙”。卡通小导演看向镜头，表情从惊讶变成兴奋。画面停在分镜板和角色同框的构图上。

这个结尾没有解决所有问题，但它给了观众一个明确预期：下一段要进入太阳神庙。对 YouTube Shorts、小红书短视频、博客嵌入视频来说，这种钩子比“画面很美但不知道然后呢”更有用。

拆成 3 段之后，不要只写概念，要把每段都写成可检查的镜头任务。我会用这张小表：

如果一个镜头生成后不能通过检查，就不要急着进入下一段。先修这 10 秒：改角色描述、限制镜头运动、减少动作、固定场景元素。AI 视频制作最怕“带病扩展”，前 10 秒不稳，后面 50 秒只会放大问题。

原创角色最适合用 3 段法。先让角色在一个小场景里完成一个小动作，不要一上来做复杂剧情。比如：角色发现一扇门、按错一个按钮、打开一个会发光的盒子。

这种内容可以长期积累角色动作库：站立、转头、惊讶、伸手、后退、奔向道具。动作库越多，后面做系列动画越稳。

如果要做 YouTube 历史文明频道，3 段法也很适合。开场给文明场景，动作给一个变化，结果给一个问题。

例如：古城日出 → 神庙大门打开 → 地图上出现一条失落路线。这样比直接生成“60 秒古文明纪录片”更容易控制，也更容易后期配旁白。

万象片场还可以把 3 段法本身做成幕后内容。比如展示：原始提示词、失败画面、修正后的镜头、最终拼接版本。这样一条视频不只是成片，也是一篇博客、一组小红书笔记、一个未来课程或 SOP 的素材。

如果今天只做一个动作，我建议不要立刻打开 AI 视频工具，而是先写一张 3 镜头分镜卡：

项目名称：
主角固定描述：
场景固定描述：

镜头 1：开场 10 秒
镜头任务：
提示词草稿：
检查标准：

镜头 2：动作 10 秒
镜头任务：
提示词草稿：
检查标准：

镜头 3：结果 10 秒
镜头任务：
提示词草稿：
检查标准：

先把这张卡写清楚，再去生成画面。你会发现，AI 视频真正的控制力，往往不是来自某一个神奇提示词，而是来自前面的拆解方式。

这也是「万象片场」想持续沉淀的方向：把每一次 AI 影像尝试，都从随机生成变成可复盘的生产流程。下一步，可以把这套 3 段 10 秒法应用到一个具体原创角色或历史文明选题上，记录提示词、失败片段和最终版本，逐步搭出一条真正能长期更新的视频生产线。