🔬 进行中的探索

AI 视频工作流探索

从「随机抽卡」到「可控生成」——建立一套让 AI 视频产出稳定、一致、可预期的流程方法论

~60生成轮次
3AI 平台对比
25%→85%可用率提升
2026持续探索中
Background

为什么要做这个项目

2026 年 6 月,我花了一整个下午和你(Claude)深入讨论一个 AI 微电影的想法——《迷茫的骑士》。讨论的核心不是「能不能生成」,而是「生成的东西能不能用」:角色换一件衣服就变了脸、场景切换后光影逻辑断裂、同一角色两帧之间判若两人。

这些问题指向同一个根因:AI 视频生成的核心瓶颈不是画质,是可控性。而对「可控性」的追求,恰好是产品设计师的系统思维 + AI 工具深度使用者的交叉地带——这是我的独特竞争力。

🎯 核心问题

如何在 AI 视频生成中建立角色一致性场景连续性风格统一性——让 AI 的随机性在可控范围内发挥,而不是任由它自由发散。

🧩 我的角色

独立探索 · 全流程。从 Continuity Bible 概念设计、Anchor Image 策略制定,到即梦/Runway 多平台对比测试、失败案例归档与修正路径设计。

Core Methodology

三件武器:Bible · Anchor · Pipeline

经过大量试错,我提炼出一套三级约束体系——从顶层设定到底层执行,层层锁定。

1

Continuity Bible

角色身份证系统:每人一份不可变的视觉档案——发型、五官、服装、色板、典型姿态

2

Anchor Image

每个场景 1 张锚点帧——手工精修或优选生成帧——后续所有帧以此对齐光线、构图、角色位置

3

禁止项清单

定义「什么不能出现」比定义「什么必须出现」更有效:禁止换发型、禁止改服装颜色、禁止新角色

4

分层生成

背景 → 角色 → 特效。分层生成后合成,每层独立控制参数,问题隔离不污染全图

「AI 视频的随机性不是 bug,是 feature。关键在于建立足够强的约束系统——Continuity Bible + Anchor Image + 禁止项——让随机性在可控范围内发挥创造力,而不是在不可控的范围里制造灾难。」

Tool #1

Continuity Bible · 角色一致性管理系统

借鉴影视工业的「场记」概念,为 AI 生成建立一套数字化的角色一致性管理工具。每个角色有一份不可协商的视觉档案,所有生成必须以此为锚。

📋 [Continuity Bible 截图占位] 角色档案 · 禁止项清单 · 视觉锚点规范 — 截一张飞书/Notion 文档全貌
▲ 待替换:Continuity Bible 完整文档截图。下方是实战模板——在飞书/Notion 建好文档后截图即可

📋 Continuity Bible · 实战模板

🔒 不可变属性(任何 prompt 不得更改)
姓名骑士 K
年龄28 岁
脸型方下颌,颧骨略突出
发型黑色短发,左侧分,发尾微卷至耳下
瞳色深褐色 #4a3728
盔甲材质深灰金属 #3a3a3e,右肩狮头浮雕
披风暗红色 #8B0000,无花纹,及小腿
体态宽肩窄腰,站立略前倾
身高185cm
🔄 可变属性(随剧情推进变化)
面部污渍随战斗程度递增
披风破损打斗后增加撕裂
表情剧情驱动(凝重→坚定→释然)
血迹关键战斗后出现
🚫 禁止项(Prompt 中必须明确排除)
改变发型(长度/颜色/分线方向)
改变盔甲颜色或材质
改变瞳色
添加新角色到场景中
现代元素(建筑/车辆/电子设备)
披风变色或消失

👤 角色档案

每人一份:姓名、年龄、核心特征、正/侧/背三视图参考、服装色板、禁止变更项(发型/瞳色/体态)

🚫 禁止项

明确列出每角色不可变元素:骑士的头盔形状、披风颜色、马的毛色——这些在任何 prompt 中不得更改

🎨 场景色板

每场景一套固定色调 + 光源参数:黄昏=2700K暖光、雨夜=5600K冷光+蓝色调——跨镜头保持一致

Tool #2

Anchor Image · 视觉锚点策略

每个关键场景锁定一张 Anchor Image——优先从生成结果中优选最接近目标的一帧,或手工合成一张「理想帧」。后续该场景所有生成帧以此锚点为基准进行比对和约束。

[Anchor Image 占位] 关键场景锚点帧
🔄 [生成对比占位] 基于 Anchor 的生成帧 vs 无 Anchor 的失控帧
▲ 左:锚点帧 · 右:基于锚点的生成对比(待替换实际截图)
Key Technique

分层生成 · 最关键的技巧

AI 视频生成最大的坑:一次性生成「角色+背景」会让两者融合——披风边缘变雾、盔甲纹理混入岩石。分层生成是解决这个问题的核心方法。

L1

背景层

纯场景,不含角色。Prompt 明确写 "empty scene, no人物"——生成废墟/森林/城堡空镜

L2

角色层

纯色/绿幕背景生成角色,抠出。锚定 Anchor Image——每帧面部特征保持一致

L3

特效层

烟雾/火焰/粒子独立生成。特效不污染角色和背景——不满意可单独替换

FX

合成

Premiere/达芬奇/CapCut 合成。调色统一——各层独立可调,不互相污染

「分层生成的本质是把 AI 的'不确定'锁死在每一层内部。角色层只管角色、背景层只管背景——层与层之间的边界是设计师决定的,不是 AI 决定的。这额外 30-40% 的工作量,是整个流程中 ROI 最高的一次投入。」

❌ 不分层的问题

角色和背景融合 → 改一个重来全部 → 色调在不同镜头间跳跃 → 生成 10 帧只有 2 帧能用。可用率 ~25%。

✅ 分层后的效果

改背景不动角色 → 调色统一所有层 → 每层独立参数控制。可用率从 25% 提升到 85%+。这是整个工作流中 ROI 最高的优化。

Platform Comparison

即梦 vs Runway vs NanoBanana2

三平台各有优劣,关键是根据场景选对工具——不是哪个最强,而是哪个最合适当前任务。

维度即梦 (Jimeng)Runway Gen-4NanoBanana2
角色一致性 ⭐⭐⭐ 参考图模式尚可,但切换景别后漂移明显 ⭐⭐⭐⭐ Act-One 面部捕捉强,但全身镜头不稳定 ⭐⭐⭐⭐⭐ 图像到图像生成最稳定,适合逐帧精修
场景连续 ⭐⭐ 视频延长时色调偏移,需后期调色 ⭐⭐⭐ 帧插值平滑,但光影逻辑偶尔断裂 ⭐⭐⭐⭐ 风格迁移一致性好,适合保持场景色调
运动质量 ⭐⭐⭐ 大幅运动模糊严重,小幅动作自然 ⭐⭐⭐⭐⭐ Gen-4 运动自然度目前最强 ⭐⭐⭐ 静态/微动场景强,大动作不如 Runway
可控性 ⭐⭐ 提示词响应不够精准,偏随机 ⭐⭐⭐⭐ 支持多参考图+运动笔刷,可控性高 ⭐⭐⭐⭐ 图像输入→输出路径短,设计师可控感强
最佳场景 概念探索 · 风格发散 主体叙事 · 人物表演 风格锁定 · 逐帧精修
▲ 基于 ~60 轮实际生成测试的主观评分(待补充对比截图矩阵)

🧭 平台选择决策树

1. 项目刚起步,方向不确定? → 即梦跑 20 张概念图,快速筛选方向

2. 方向确定了,需要锁定角色面部? → NanoBanana2 生成 Anchor Image(图像→图像一致性最好)

3. 需要人物表演/叙事镜头? → Runway Gen-4(运动自然度最强,Act-One 面部捕捉)

4. 需要空镜/过渡镜头/色调统一? → NanoBanana2(风格迁移一致性最好)

5. 需要逐帧精修/分层合成? → NanoBanana2 逐层生成 → 后期合成

💡 核心原则:不是哪个平台最强,是哪个平台最合适当前阶段的任务。把「生成」和「判断」分开——AI 负责生成,你负责判断。

Failed Iterations

失败案例 × 修正过程

最有价值的不是「成功案例」,而是翻车之后的分析和修正——这正是「控制 AI 随机性」能力的核心证据。

❌ 失败

案例 #1:骑士在不同镜头里「换了三次脸」

问题:同一个骑士角色,在远景、中景、特写三个镜头中面部特征完全不同——远景像中年、中景像少年、特写像完全不同的人。原因:每个镜头独立生成,prompt 中只写了「a knight」,没有提供面部的视觉锚点。

✅ 修正 建立角色的 Anchor Image——用 NanoBanana2 生成一张理想的骑士面部特写作为所有镜头的参考图。后续所有 prompt 中加入「same face as reference image」,并将 Anchor Image 作为 img2img 输入。可用率从 20% 提升到 ~75%。

❌ 失败

案例 #2:黄昏场景的光线在 4 秒视频里跳变了 3 次

问题:一段 4 秒的黄昏场景,光线色温在 2700K→5600K→3200K 之间跳跃,画面像在「开关灯」。原因:Runway 帧插值对光源信息敏感,但 prompt 中只写了「sunset lighting」,没有锁定具体色温和光源方向。

✅ 修正 在 Continuity Bible 中加入场景光源规范:每个场景锁定色温(K值)、主光源方向(角度)、光源类型(点光/环境光/逆光)。生成 prompt 中加入「2700K warm sunset, god rays from 45° left, consistent lighting throughout」。配合 Anchor Image 的光源基准帧,光跳问题基本解决。

❌ 失败

案例 #3:背景生成精美但角色「融进去了」

问题:Runway 一次性生成角色+背景时,AI 倾向把角色和背景「融合」——角色的披风边缘变成迷雾,盔甲纹理混入岩石。根本原因:AI 不理解「角色」和「背景」是两个独立图层。

✅ 修正 改为分层生成策略:背景单独生成(不含角色),角色在纯色/绿幕背景生成后抠出,最终在后期合成。虽然增加 30-40% 工作量,但可用率从 50% 提升到 85%+。这是整个流程中 ROI 最高的一次优化。

Process Documentation

生成日志 · 每轮迭代的记录模板

最有价值的不是成功案例,而是翻车后的分析。每次生成都记录——这不仅是给面试官看的「过程证据」,更是你自己的方法论积累。

📝 生成日志 · 轮次 #23
平台:Runway Gen-4
目标:黄昏战场 · 骑士拔剑特写
参考图:Anchor Frame 03(战场黄昏锚点)
Prompt:"dark grey metal armored knight drawing sword, sunset battlefield, 2700K warm lighting, god rays from 45° left, same face as Anchor03, #3a3a3e armor, #8B0000 cape, no helmet change, no color shift — negative: bronze tone, helmet removal, modern elements"
❌ 失败 问题:盔甲从深灰变青铜色,光照方向偏移 ~30°。原因:prompt 未锁定盔甲颜色 hex 值,光照描述不够精确。
✅ 修正方案 1) 盔甲颜色锁定为 hex #3a3a3e;2) 光照增加精确角度参数 "45° left, azimuth 135°, elevation 30°";3) 负面 prompt 加入 "bronze tone"。下轮测试。

📋 日志的关键字段

轮次编号 — 追踪迭代次数
平台+目标 — 明确当轮任务
参考图 — 用了哪个 Anchor
完整 Prompt — 含正负面词
结果判定 — ✅/❌/⚠️
失败原因 — 具体的技术原因
修正方案 — 下一轮改什么

💡 为什么要这样做

面试官问「你是怎么控制 AI 随机性的」——你不是在讲故事,是在展示一套可复现的系统。日志就是你的工程日记。AI 岗位最稀缺的人才不是「会用 AI 的人」,是「能量化改进 AI 产出的人」。

Current Status

微电影「迷茫的骑士」进行中

这套工作流的终极验证是《迷茫的骑士》——一部完全由 AI 辅助生成的微电影。目前处于前期制作阶段。

🏇 待替换概念图

迷茫的骑士 · AI 微电影

整体进度60%
✅ Continuity Bible 完成 ✅ Anchor Image 体系建立 🔄 逐场景生成中 ⏳ 后期合成待启动
Why This Matters

为什么这个项目对 AI 岗位是硬通货

🎯 控制 AI 随机性

这不是「调一个好 prompt」的项目——这是建立一套系统让 AI 的随机输出变得可预期、可复用、可规模化。这是 AI 产品/设计岗位最稀缺的能力。

🔧 工具链整合

即梦 + Runway + NanoBanana2 三平台深度使用经验。更重要的是知道什么时候用哪个——不是堆工具,是选工具。

📐 系统思维

Continuity Bible 本质是设计系统的 AI 版本——将「设计一致性」的方法论迁移到「AI 生成一致性」上。这是设计师独有的结构化思维。

🔄 迭代能力

~60 轮迭代,每轮都记录失败原因和修正策略。这不是「一键出片」的运气——这是可复现的方法论