AI 视频工作流探索 · 从随机到可控

Background

为什么要做这个项目

2026 年 6 月，我花了一整个下午和你（Claude）深入讨论一个 AI 微电影的想法——《迷茫的骑士》。讨论的核心不是「能不能生成」，而是「生成的东西能不能用」：角色换一件衣服就变了脸、场景切换后光影逻辑断裂、同一角色两帧之间判若两人。

这些问题指向同一个根因：AI 视频生成的核心瓶颈不是画质，是可控性。而对「可控性」的追求，恰好是产品设计师的系统思维 + AI 工具深度使用者的交叉地带——这是我的独特竞争力。

🎯 核心问题

如何在 AI 视频生成中建立角色一致性、场景连续性和风格统一性——让 AI 的随机性在可控范围内发挥，而不是任由它自由发散。

🧩 我的角色

独立探索 · 全流程。从 Continuity Bible 概念设计、Anchor Image 策略制定，到即梦/Runway 多平台对比测试、失败案例归档与修正路径设计。

Core Methodology

三件武器：Bible · Anchor · Pipeline

经过大量试错，我提炼出一套三级约束体系——从顶层设定到底层执行，层层锁定。

1

Continuity Bible

角色身份证系统：每人一份不可变的视觉档案——发型、五官、服装、色板、典型姿态

2

Anchor Image

每个场景 1 张锚点帧——手工精修或优选生成帧——后续所有帧以此对齐光线、构图、角色位置

3

禁止项清单

定义「什么不能出现」比定义「什么必须出现」更有效：禁止换发型、禁止改服装颜色、禁止新角色

4

分层生成

背景 → 角色 → 特效。分层生成后合成，每层独立控制参数，问题隔离不污染全图

「AI 视频的随机性不是 bug，是 feature。关键在于建立足够强的约束系统——Continuity Bible + Anchor Image + 禁止项——让随机性在可控范围内发挥创造力，而不是在不可控的范围里制造灾难。」

Tool #1

Continuity Bible · 角色一致性管理系统

借鉴影视工业的「场记」概念，为 AI 生成建立一套数字化的角色一致性管理工具。每个角色有一份不可协商的视觉档案，所有生成必须以此为锚。

📋 [Continuity Bible 截图占位] 角色档案 · 禁止项清单 · 视觉锚点规范 — 截一张飞书/Notion 文档全貌

▲ 待替换：Continuity Bible 完整文档截图。下方是实战模板——在飞书/Notion 建好文档后截图即可

📋 Continuity Bible · 实战模板

🔒 不可变属性（任何 prompt 不得更改）

姓名	骑士 K
年龄	28 岁
脸型	方下颌，颧骨略突出
发型	黑色短发，左侧分，发尾微卷至耳下
瞳色	深褐色 #4a3728
盔甲材质	深灰金属 #3a3a3e，右肩狮头浮雕
披风	暗红色 #8B0000，无花纹，及小腿
体态	宽肩窄腰，站立略前倾
身高	185cm

🔄 可变属性（随剧情推进变化）

面部污渍	随战斗程度递增
披风破损	打斗后增加撕裂
表情	剧情驱动（凝重→坚定→释然）
血迹	关键战斗后出现

🚫 禁止项（Prompt 中必须明确排除）

❌	改变发型（长度/颜色/分线方向）
❌	改变盔甲颜色或材质
❌	改变瞳色
❌	添加新角色到场景中
❌	现代元素（建筑/车辆/电子设备）
❌	披风变色或消失

👤 角色档案

每人一份：姓名、年龄、核心特征、正/侧/背三视图参考、服装色板、禁止变更项（发型/瞳色/体态）

🚫 禁止项

明确列出每角色不可变元素：骑士的头盔形状、披风颜色、马的毛色——这些在任何 prompt 中不得更改

🎨 场景色板

每场景一套固定色调 + 光源参数：黄昏=2700K暖光、雨夜=5600K冷光+蓝色调——跨镜头保持一致

Tool #2

Anchor Image · 视觉锚点策略

每个关键场景锁定一张 Anchor Image——优先从生成结果中优选最接近目标的一帧，或手工合成一张「理想帧」。后续该场景所有生成帧以此锚点为基准进行比对和约束。

⚓ [Anchor Image 占位] 关键场景锚点帧

🔄 [生成对比占位] 基于 Anchor 的生成帧 vs 无 Anchor 的失控帧

▲ 左：锚点帧 · 右：基于锚点的生成对比（待替换实际截图）

Key Technique

分层生成 · 最关键的技巧

AI 视频生成最大的坑：一次性生成「角色+背景」会让两者融合——披风边缘变雾、盔甲纹理混入岩石。分层生成是解决这个问题的核心方法。

L1

背景层

纯场景，不含角色。Prompt 明确写 "empty scene, no人物"——生成废墟/森林/城堡空镜

L2

角色层

纯色/绿幕背景生成角色，抠出。锚定 Anchor Image——每帧面部特征保持一致

L3

特效层

烟雾/火焰/粒子独立生成。特效不污染角色和背景——不满意可单独替换

FX

合成

Premiere/达芬奇/CapCut 合成。调色统一——各层独立可调，不互相污染

「分层生成的本质是把 AI 的'不确定'锁死在每一层内部。角色层只管角色、背景层只管背景——层与层之间的边界是设计师决定的，不是 AI 决定的。这额外 30-40% 的工作量，是整个流程中 ROI 最高的一次投入。」

❌ 不分层的问题

角色和背景融合 → 改一个重来全部 → 色调在不同镜头间跳跃 → 生成 10 帧只有 2 帧能用。可用率 ~25%。

✅ 分层后的效果

改背景不动角色 → 调色统一所有层 → 每层独立参数控制。可用率从 25% 提升到 85%+。这是整个工作流中 ROI 最高的优化。

Platform Comparison

即梦 vs Runway vs NanoBanana2

三平台各有优劣，关键是根据场景选对工具——不是哪个最强，而是哪个最合适当前任务。

维度	即梦 (Jimeng)	Runway Gen-4	NanoBanana2
角色一致性	⭐⭐⭐ 参考图模式尚可，但切换景别后漂移明显	⭐⭐⭐⭐ Act-One 面部捕捉强，但全身镜头不稳定	⭐⭐⭐⭐⭐ 图像到图像生成最稳定，适合逐帧精修
场景连续	⭐⭐ 视频延长时色调偏移，需后期调色	⭐⭐⭐ 帧插值平滑，但光影逻辑偶尔断裂	⭐⭐⭐⭐ 风格迁移一致性好，适合保持场景色调
运动质量	⭐⭐⭐ 大幅运动模糊严重，小幅动作自然	⭐⭐⭐⭐⭐ Gen-4 运动自然度目前最强	⭐⭐⭐ 静态/微动场景强，大动作不如 Runway
可控性	⭐⭐ 提示词响应不够精准，偏随机	⭐⭐⭐⭐ 支持多参考图+运动笔刷，可控性高	⭐⭐⭐⭐ 图像输入→输出路径短，设计师可控感强
最佳场景	概念探索 · 风格发散	主体叙事 · 人物表演	风格锁定 · 逐帧精修

▲ 基于 ~60 轮实际生成测试的主观评分（待补充对比截图矩阵）

🧭 平台选择决策树

1. 项目刚起步，方向不确定？ → 即梦跑 20 张概念图，快速筛选方向

2. 方向确定了，需要锁定角色面部？ → NanoBanana2 生成 Anchor Image（图像→图像一致性最好）

3. 需要人物表演/叙事镜头？ → Runway Gen-4（运动自然度最强，Act-One 面部捕捉）

4. 需要空镜/过渡镜头/色调统一？ → NanoBanana2（风格迁移一致性最好）

5. 需要逐帧精修/分层合成？ → NanoBanana2 逐层生成 → 后期合成

💡 核心原则：不是哪个平台最强，是哪个平台最合适当前阶段的任务。把「生成」和「判断」分开——AI 负责生成，你负责判断。

Failed Iterations

失败案例 × 修正过程

最有价值的不是「成功案例」，而是翻车之后的分析和修正——这正是「控制 AI 随机性」能力的核心证据。

❌ 失败

案例 #1：骑士在不同镜头里「换了三次脸」

问题：同一个骑士角色，在远景、中景、特写三个镜头中面部特征完全不同——远景像中年、中景像少年、特写像完全不同的人。原因：每个镜头独立生成，prompt 中只写了「a knight」，没有提供面部的视觉锚点。

✅ 修正建立角色的 Anchor Image——用 NanoBanana2 生成一张理想的骑士面部特写作为所有镜头的参考图。后续所有 prompt 中加入「same face as reference image」，并将 Anchor Image 作为 img2img 输入。可用率从 20% 提升到 ~75%。

❌ 失败

案例 #2：黄昏场景的光线在 4 秒视频里跳变了 3 次

问题：一段 4 秒的黄昏场景，光线色温在 2700K→5600K→3200K 之间跳跃，画面像在「开关灯」。原因：Runway 帧插值对光源信息敏感，但 prompt 中只写了「sunset lighting」，没有锁定具体色温和光源方向。

✅ 修正在 Continuity Bible 中加入场景光源规范：每个场景锁定色温（K值）、主光源方向（角度）、光源类型（点光/环境光/逆光）。生成 prompt 中加入「2700K warm sunset, god rays from 45° left, consistent lighting throughout」。配合 Anchor Image 的光源基准帧，光跳问题基本解决。

❌ 失败

案例 #3：背景生成精美但角色「融进去了」

问题：Runway 一次性生成角色+背景时，AI 倾向把角色和背景「融合」——角色的披风边缘变成迷雾，盔甲纹理混入岩石。根本原因：AI 不理解「角色」和「背景」是两个独立图层。

✅ 修正改为分层生成策略：背景单独生成（不含角色），角色在纯色/绿幕背景生成后抠出，最终在后期合成。虽然增加 30-40% 工作量，但可用率从 50% 提升到 85%+。这是整个流程中 ROI 最高的一次优化。

Process Documentation

生成日志 · 每轮迭代的记录模板

最有价值的不是成功案例，而是翻车后的分析。每次生成都记录——这不仅是给面试官看的「过程证据」，更是你自己的方法论积累。

📝 生成日志 · 轮次 #23
平台：Runway Gen-4
目标：黄昏战场 · 骑士拔剑特写
参考图：Anchor Frame 03（战场黄昏锚点）
Prompt："dark grey metal armored knight drawing sword, sunset battlefield, 2700K warm lighting, god rays from 45° left, same face as Anchor03, #3a3a3e armor, #8B0000 cape, no helmet change, no color shift — negative: bronze tone, helmet removal, modern elements"

        ❌ 失败
        问题：盔甲从深灰变青铜色，光照方向偏移 ~30°。原因：prompt 未锁定盔甲颜色 hex 值，光照描述不够精确。
      

        ✅ 修正方案
        1) 盔甲颜色锁定为 hex #3a3a3e；2) 光照增加精确角度参数 "45° left, azimuth 135°, elevation 30°"；3) 负面 prompt 加入 "bronze tone"。下轮测试。
      

📋 日志的关键字段

• 轮次编号 — 追踪迭代次数
• 平台+目标 — 明确当轮任务
• 参考图 — 用了哪个 Anchor
• 完整 Prompt — 含正负面词
• 结果判定 — ✅/❌/⚠️
• 失败原因 — 具体的技术原因
• 修正方案 — 下一轮改什么

💡 为什么要这样做

面试官问「你是怎么控制 AI 随机性的」——你不是在讲故事，是在展示一套可复现的系统。日志就是你的工程日记。AI 岗位最稀缺的人才不是「会用 AI 的人」，是「能量化改进 AI 产出的人」。

Current Status

微电影「迷茫的骑士」进行中

这套工作流的终极验证是《迷茫的骑士》——一部完全由 AI 辅助生成的微电影。目前处于前期制作阶段。

🏇 待替换概念图

迷茫的骑士 · AI 微电影

整体进度60%

✅ Continuity Bible 完成 ✅ Anchor Image 体系建立 🔄 逐场景生成中 ⏳ 后期合成待启动

Why This Matters

为什么这个项目对 AI 岗位是硬通货

🎯 控制 AI 随机性

这不是「调一个好 prompt」的项目——这是建立一套系统让 AI 的随机输出变得可预期、可复用、可规模化。这是 AI 产品/设计岗位最稀缺的能力。

🔧 工具链整合

即梦 + Runway + NanoBanana2 三平台深度使用经验。更重要的是知道什么时候用哪个——不是堆工具，是选工具。

📐 系统思维

Continuity Bible 本质是设计系统的 AI 版本——将「设计一致性」的方法论迁移到「AI 生成一致性」上。这是设计师独有的结构化思维。

🔄 迭代能力

~60 轮迭代，每轮都记录失败原因和修正策略。这不是「一键出片」的运气——这是可复现的方法论。