从「随机抽卡」到「可控生成」——建立一套让 AI 视频产出稳定、一致、可预期的流程方法论
2026 年 6 月,我花了一整个下午和你(Claude)深入讨论一个 AI 微电影的想法——《迷茫的骑士》。讨论的核心不是「能不能生成」,而是「生成的东西能不能用」:角色换一件衣服就变了脸、场景切换后光影逻辑断裂、同一角色两帧之间判若两人。
这些问题指向同一个根因:AI 视频生成的核心瓶颈不是画质,是可控性。而对「可控性」的追求,恰好是产品设计师的系统思维 + AI 工具深度使用者的交叉地带——这是我的独特竞争力。
如何在 AI 视频生成中建立角色一致性、场景连续性和风格统一性——让 AI 的随机性在可控范围内发挥,而不是任由它自由发散。
独立探索 · 全流程。从 Continuity Bible 概念设计、Anchor Image 策略制定,到即梦/Runway 多平台对比测试、失败案例归档与修正路径设计。
经过大量试错,我提炼出一套三级约束体系——从顶层设定到底层执行,层层锁定。
角色身份证系统:每人一份不可变的视觉档案——发型、五官、服装、色板、典型姿态
每个场景 1 张锚点帧——手工精修或优选生成帧——后续所有帧以此对齐光线、构图、角色位置
定义「什么不能出现」比定义「什么必须出现」更有效:禁止换发型、禁止改服装颜色、禁止新角色
背景 → 角色 → 特效。分层生成后合成,每层独立控制参数,问题隔离不污染全图
「AI 视频的随机性不是 bug,是 feature。关键在于建立足够强的约束系统——Continuity Bible + Anchor Image + 禁止项——让随机性在可控范围内发挥创造力,而不是在不可控的范围里制造灾难。」
借鉴影视工业的「场记」概念,为 AI 生成建立一套数字化的角色一致性管理工具。每个角色有一份不可协商的视觉档案,所有生成必须以此为锚。
| 姓名 | 骑士 K |
| 年龄 | 28 岁 |
| 脸型 | 方下颌,颧骨略突出 |
| 发型 | 黑色短发,左侧分,发尾微卷至耳下 |
| 瞳色 | 深褐色 #4a3728 |
| 盔甲材质 | 深灰金属 #3a3a3e,右肩狮头浮雕 |
| 披风 | 暗红色 #8B0000,无花纹,及小腿 |
| 体态 | 宽肩窄腰,站立略前倾 |
| 身高 | 185cm |
| 面部污渍 | 随战斗程度递增 |
| 披风破损 | 打斗后增加撕裂 |
| 表情 | 剧情驱动(凝重→坚定→释然) |
| 血迹 | 关键战斗后出现 |
| ❌ | 改变发型(长度/颜色/分线方向) |
| ❌ | 改变盔甲颜色或材质 |
| ❌ | 改变瞳色 |
| ❌ | 添加新角色到场景中 |
| ❌ | 现代元素(建筑/车辆/电子设备) |
| ❌ | 披风变色或消失 |
每人一份:姓名、年龄、核心特征、正/侧/背三视图参考、服装色板、禁止变更项(发型/瞳色/体态)
明确列出每角色不可变元素:骑士的头盔形状、披风颜色、马的毛色——这些在任何 prompt 中不得更改
每场景一套固定色调 + 光源参数:黄昏=2700K暖光、雨夜=5600K冷光+蓝色调——跨镜头保持一致
每个关键场景锁定一张 Anchor Image——优先从生成结果中优选最接近目标的一帧,或手工合成一张「理想帧」。后续该场景所有生成帧以此锚点为基准进行比对和约束。
AI 视频生成最大的坑:一次性生成「角色+背景」会让两者融合——披风边缘变雾、盔甲纹理混入岩石。分层生成是解决这个问题的核心方法。
纯场景,不含角色。Prompt 明确写 "empty scene, no人物"——生成废墟/森林/城堡空镜
纯色/绿幕背景生成角色,抠出。锚定 Anchor Image——每帧面部特征保持一致
烟雾/火焰/粒子独立生成。特效不污染角色和背景——不满意可单独替换
Premiere/达芬奇/CapCut 合成。调色统一——各层独立可调,不互相污染
「分层生成的本质是把 AI 的'不确定'锁死在每一层内部。角色层只管角色、背景层只管背景——层与层之间的边界是设计师决定的,不是 AI 决定的。这额外 30-40% 的工作量,是整个流程中 ROI 最高的一次投入。」
角色和背景融合 → 改一个重来全部 → 色调在不同镜头间跳跃 → 生成 10 帧只有 2 帧能用。可用率 ~25%。
改背景不动角色 → 调色统一所有层 → 每层独立参数控制。可用率从 25% 提升到 85%+。这是整个工作流中 ROI 最高的优化。
三平台各有优劣,关键是根据场景选对工具——不是哪个最强,而是哪个最合适当前任务。
| 维度 | 即梦 (Jimeng) | Runway Gen-4 | NanoBanana2 |
|---|---|---|---|
| 角色一致性 | ⭐⭐⭐ 参考图模式尚可,但切换景别后漂移明显 | ⭐⭐⭐⭐ Act-One 面部捕捉强,但全身镜头不稳定 | ⭐⭐⭐⭐⭐ 图像到图像生成最稳定,适合逐帧精修 |
| 场景连续 | ⭐⭐ 视频延长时色调偏移,需后期调色 | ⭐⭐⭐ 帧插值平滑,但光影逻辑偶尔断裂 | ⭐⭐⭐⭐ 风格迁移一致性好,适合保持场景色调 |
| 运动质量 | ⭐⭐⭐ 大幅运动模糊严重,小幅动作自然 | ⭐⭐⭐⭐⭐ Gen-4 运动自然度目前最强 | ⭐⭐⭐ 静态/微动场景强,大动作不如 Runway |
| 可控性 | ⭐⭐ 提示词响应不够精准,偏随机 | ⭐⭐⭐⭐ 支持多参考图+运动笔刷,可控性高 | ⭐⭐⭐⭐ 图像输入→输出路径短,设计师可控感强 |
| 最佳场景 | 概念探索 · 风格发散 | 主体叙事 · 人物表演 | 风格锁定 · 逐帧精修 |
1. 项目刚起步,方向不确定? → 即梦跑 20 张概念图,快速筛选方向
2. 方向确定了,需要锁定角色面部? → NanoBanana2 生成 Anchor Image(图像→图像一致性最好)
3. 需要人物表演/叙事镜头? → Runway Gen-4(运动自然度最强,Act-One 面部捕捉)
4. 需要空镜/过渡镜头/色调统一? → NanoBanana2(风格迁移一致性最好)
5. 需要逐帧精修/分层合成? → NanoBanana2 逐层生成 → 后期合成
💡 核心原则:不是哪个平台最强,是哪个平台最合适当前阶段的任务。把「生成」和「判断」分开——AI 负责生成,你负责判断。
最有价值的不是「成功案例」,而是翻车之后的分析和修正——这正是「控制 AI 随机性」能力的核心证据。
问题:同一个骑士角色,在远景、中景、特写三个镜头中面部特征完全不同——远景像中年、中景像少年、特写像完全不同的人。原因:每个镜头独立生成,prompt 中只写了「a knight」,没有提供面部的视觉锚点。
✅ 修正 建立角色的 Anchor Image——用 NanoBanana2 生成一张理想的骑士面部特写作为所有镜头的参考图。后续所有 prompt 中加入「same face as reference image」,并将 Anchor Image 作为 img2img 输入。可用率从 20% 提升到 ~75%。
问题:一段 4 秒的黄昏场景,光线色温在 2700K→5600K→3200K 之间跳跃,画面像在「开关灯」。原因:Runway 帧插值对光源信息敏感,但 prompt 中只写了「sunset lighting」,没有锁定具体色温和光源方向。
✅ 修正 在 Continuity Bible 中加入场景光源规范:每个场景锁定色温(K值)、主光源方向(角度)、光源类型(点光/环境光/逆光)。生成 prompt 中加入「2700K warm sunset, god rays from 45° left, consistent lighting throughout」。配合 Anchor Image 的光源基准帧,光跳问题基本解决。
问题:Runway 一次性生成角色+背景时,AI 倾向把角色和背景「融合」——角色的披风边缘变成迷雾,盔甲纹理混入岩石。根本原因:AI 不理解「角色」和「背景」是两个独立图层。
✅ 修正 改为分层生成策略:背景单独生成(不含角色),角色在纯色/绿幕背景生成后抠出,最终在后期合成。虽然增加 30-40% 工作量,但可用率从 50% 提升到 85%+。这是整个流程中 ROI 最高的一次优化。
最有价值的不是成功案例,而是翻车后的分析。每次生成都记录——这不仅是给面试官看的「过程证据」,更是你自己的方法论积累。
• 轮次编号 — 追踪迭代次数
• 平台+目标 — 明确当轮任务
• 参考图 — 用了哪个 Anchor
• 完整 Prompt — 含正负面词
• 结果判定 — ✅/❌/⚠️
• 失败原因 — 具体的技术原因
• 修正方案 — 下一轮改什么
面试官问「你是怎么控制 AI 随机性的」——你不是在讲故事,是在展示一套可复现的系统。日志就是你的工程日记。AI 岗位最稀缺的人才不是「会用 AI 的人」,是「能量化改进 AI 产出的人」。
这套工作流的终极验证是《迷茫的骑士》——一部完全由 AI 辅助生成的微电影。目前处于前期制作阶段。
这不是「调一个好 prompt」的项目——这是建立一套系统让 AI 的随机输出变得可预期、可复用、可规模化。这是 AI 产品/设计岗位最稀缺的能力。
即梦 + Runway + NanoBanana2 三平台深度使用经验。更重要的是知道什么时候用哪个——不是堆工具,是选工具。
Continuity Bible 本质是设计系统的 AI 版本——将「设计一致性」的方法论迁移到「AI 生成一致性」上。这是设计师独有的结构化思维。
~60 轮迭代,每轮都记录失败原因和修正策略。这不是「一键出片」的运气——这是可复现的方法论。