AI 纸雕故事书视频完整实操:从角色参考表到成片的 9 阶段工作流
2026-02-04 · Tech Guides
这篇文章来自一条很长的 X 线程(作者 Glenn Williams),内容是他亲手摸索 3 个月后的完整制作流程:如何做出“看起来不像 AI 的”纸雕故事书动画。它不是一个“技巧清单”,而是一个可以直接照做的系统工作流。本文把流程拆成 9 个阶段,补上制作中最容易踩坑的细节,并整理成可执行的操作步骤 + 提示词模板 + 生产清单。
如果你想做的是下面这种效果:
- 画面有清晰的纸纤维质感
- 翻页过场自然、像小时候翻纸书的肌肉记忆
- 角色一致、没有“每一帧都像换了人”
- 画面有微妙的停格动画感,而不是流畅的 3D 动画
那这篇就是你要的长文实操指南。
原始素材来自: https://x.com/GlennHasABeard/status/2018670793555587339

一、成片目标:你到底要做什么
在开始之前,先把“成片形态”说清楚。这个流程的目标不是 15 秒的酷炫转场,而是2-3 分钟的故事书动画(示例是 4 分钟),节奏很像传统绘本:
- 观众先看到一本打开的书
- 镜头慢慢推进,进入书页里的场景
- 场景有细微的动效(烟雾、光影、水波)
- 镜头慢慢拉回书页
- 翻页,进入下一个场景
重点不在“动作多快”,而在“质感和连贯性”。
目标拆成 3 个关键词:
- 纸感(Paper Texture)
- 一致性(Consistency)
- 书本节奏(Book Rhythm)
只要围绕这三个关键词做所有决策,你的作品就会接近“看起来不像 AI”的质感。
二、工具栈:每个环节只用一个工具
Glenn 的工作流有一个强约束:每个阶段只用一个工具,避免重复与风格漂移。
他的工具栈如下:
- Adobe Firefly (Boards):生成角色参考表、场景关键帧、书页合成图
- Veo 3.1 Fast(在 Firefly Boards 内):生成场景微动画
- Kling 01(通过 ElevenLabs): 翻页动画与缩放转场
- ElevenLabs:旁白 + 特效
- Suno:全片音乐
- Premiere Pro:最终剪辑与合成
这样分工的好处是:
- 每个工具做它最擅长的事
- 风格一致性更容易管理
- 你不会在两个生成器之间来回切换而导致风格漂移

三、Phase 1:角色参考表(Character Reference Sheets)
如果你只能记住一个原则,那就是:
没有角色参考表,就不会有一致性。
在故事书里,角色要在 11 个场景里反复出现。你不能每一张都重新“描述一个女孩”,否则 AI 会把头发、眼睛、服饰细节全部漂移掉。
所以第一步是做角色参考表:
1.1 角色参考表模板
8K, hyper-realistic photography of layered paper character reference sheet, hand-cut paper [CHARACTER DESCRIPTION] shown in [VIEWS], [SPECIFIC DETAILS], detail callouts showing [CALLOUT ELEMENTS], watercolor textures in [COLORS], visible paper fibers, plain [BACKGROUND COLOR] background, stop-motion paper cut-out look, soft even diffused lighting, crafted collage aesthetic, character design reference sheet
你只需要把 [CHARACTER DESCRIPTION]、[VIEWS]、[SPECIFIC DETAILS] 等占位替换成你角色的真实描述即可。
1.2 标准负面提示词
photorealistic skin, modern clothing, harsh lighting, hard shadows, digital textures, plastic, glossy, metallic, 3D rendered, CGI, neon colors, text, logos, multiple characters, busy background
负面提示词的目的是抑制 AI “默认风格”:现代感、塑料感、硬光感、3D 感。
1.3 一致性标记(必须写下来)
完成参考表后,你要把角色的“稳定元素”写成一行清单,并在每个场景提示词里复用。
示例(女主角):
- 墨绿色连衣裙 + 野花刺绣
- 长发 + 白色花饰
- 手持陶罐(凯尔特纹样)
- 温柔但坚定的表情
这些元素就是你的“角色指纹”。任何一帧丢失它们,观众都会觉得角色变了。

四、Phase 2:场景关键帧(Scene Keyframes)
每个场景先做“静帧”,所有动画都从这些静帧展开。
2.1 场景关键帧模板
8K, hyper-realistic photography of layered paper [SETTING], hand-cut paper [CHARACTERS], watercolor textures, visible paper fibers, dimensional stacked paper layers, stop-motion paper cut-out look, soft diffused lighting, gentle shadows between layers, crafted collage aesthetic, warm storybook tone
2.2 文化修饰(Cultural Modifiers)
如果你的故事来自某个文化背景,你需要把文化符号写成固定修饰词。
例如 Glenn 的威尔士故事使用:
- Celtic knotwork border patterns
- Mossy greens, stone grays, heather purples
- Weathered parchment textures
- Spiral and triskele motifs
这一步非常关键。它让场景有统一的文化视觉语言,而不是“随机拼贴”。
2.3 A/B 关键帧
某些场景需要“变化过程”,例如怪物从水面升起。这时你要做两张关键帧:
- A:怪物未出现
- B:怪物出现
后续动画只需要在 A/B 之间过渡即可。

五、Phase 3:场景动画(Scene Animations)
关键帧只是静态图,真正“活起来”的是微动画。
3.1 动画的原则
- 慢:像定格动画,而不是电影镜头
- 微:烟雾、微风、水波,不要角色大幅运动
- 纸感优先:所有元素必须保持纸纤维质感
3.2 单帧动画模板
{ "prompt": "Gentle environmental movement only. Paper smoke wisps drift lazily from cottage chimneys. Paper sheep shift slightly on hillsides. Misty layers drift slowly. All elements maintain paper cut-out texture. No character movement. No camera movement.", "negative_prompt": "fast movement, camera shake, morphing, distortion, smooth animation, 3D movement, character walking, running, dramatic action", "reference_image": "[Scene 1 keyframe]", "motion_intensity": "subtle", "duration": "5 seconds", "sound_design": "soft wind through valley, distant sheep bells, faint birdsong, crackling hearth fire undertone" }
3.3 A/B 动画模板
{ "prompt": "Dramatic paper cut-out emergence. Monster rises from water in stop-motion style. Water splashes as layered paper shapes. Armored plates catch light as creature surfaces. Maintain paper fiber textures throughout. Movement should feel handcrafted, not fluid.", "negative_prompt": "smooth fluid motion, morphing transformation, camera shake, modern effects, CGI movement, fast action", "reference_image_start": "[Scene 8A keyframe]", "reference_image_end": "[Scene 8B keyframe]", "motion_intensity": "moderate", "duration": "5 seconds", "sound_design": "deep water churning, heavy splashing, low rumbling growl, dripping water echoes" }

六、Phase 4:书页合成(Book Spreads)
这是让“场景”变成“故事书”的关键步骤。
你需要一个固定的书本底图,然后把每个场景贴到左/右页上。
4.1 书本底图模板
8K, hyper-realistic photography of vintage open storybook lying flat on weathered wooden art table, cream-colored aged pages with subtle foxing and worn edges, hand-tooled leather cover with Celtic knotwork embossing visible on spine and corners, book lies completely flat and still, soft diffused overhead lighting, gentle shadows from book thickness, warm nostalgic atmosphere, no text on pages, pages ready for illustration
4.2 书页合成模板
{ "prompt": "Open storybook on wooden art table, pages lying flat and completely still", "left_page": "replace with [KEYFRAME A], fill entire left page", "right_page": "replace with [KEYFRAME B], fill entire right page" }
如果你的故事有 11 个场景,很可能会产生 20+ 个书页合成图(开书、过渡、结尾都需要)。

七、Phase 5:翻页动画(Page Turns)
翻页是“故事节奏”的连接器。如果翻页不统一,整片的节奏会散。
5.1 翻页提示词
{ "prompt": "right page turn" }
5.2 翻页规则
- 同速度
- 同光照
- 同桌面背景
它的作用不是“炫技”,而是让观众有一个自然的节奏点。

八、Phase 6:缩放转场(Zoom Transitions)
缩放让观众“从书页进入故事,再回到书页”。
6.1 缩放模板
{ "prompt": "Slow camera dolly in, static scene", "motion": "slow", "speed": "slow" }
6.2 原则
- 只做镜头动,不做画面动
- 速度统一
- 缩放节奏和旁白/音乐配合
这是让故事“沉浸感”成立的关键环节。
九、Phase 7:Premiere Pro 合成
在 Premiere 里,你要把所有元素拼成“重复结构”。一个标准场景结构是:
[Book Spread] -> [Zoom In] -> [Scene Animation] -> [Zoom Out] -> [Page Turn]
按场景复制这个结构,整个故事就成立了。
节奏上有两个注意点:
- 旁白永远在 zoom-in 结束后进入
- 旁白在 zoom-out 前结束,留出一个呼吸点

十、Phase 8:声音设计(Music + Narration + SFX)
声音是“纸感”的另一半。
8.1 音乐(Suno)
建议生成一条完整音乐,不要每个场景单独生成。连续音乐能提供情绪流。
8.2 旁白(ElevenLabs)
选择“火炉边讲故事”的声音,而不是播音腔。旁白不要太快,要留出观众观看空间。
8.3 音效
- 使用 Veo 的原生环境音(纸张、风、树叶)
- ElevenLabs 做点缀音效(翻页、怪物、风声)


十一、Phase 9:导出与发布
推荐的导出设置如下:
- Format: H.264
- Resolution: 4K 或 1080p
- FPS: 24 或 30
- Audio: AAC 320kbps
这里不追求“极致清晰度”,而是稳定可用。
十二、完整制作清单(可复制)
角色与素材
- [ ] 角色参考表(多视角 + 细节标记)
- [ ] 角色一致性清单(颜色、装饰、道具)
场景
- [ ] 所有场景关键帧
- [ ] A/B 场景关键帧
动画
- [ ] 单帧场景动画
- [ ] A/B 场景动画
- [ ] 书页合成图
- [ ] 翻页动画
- [ ] 缩放转场
音频
- [ ] 连续音乐(Suno)
- [ ] 旁白(ElevenLabs)
- [ ] 关键音效(翻页、风、动作)
剪辑
- [ ] 场景节奏安排
- [ ] 旁白与转场对齐
- [ ] 导出设置
十三、常见失败点与修复方法
1. 角色漂移
原因:没有固定参考表/一致性标记。
修复:每张提示词都带上一致性标记,不仅写“女主”,还要写“墨绿色连衣裙 + 白色花饰 + 陶罐”。
2. 纸感不够
原因:负面提示词太弱,AI 自动回到数码风格。
修复:加入 “visible paper fibers / layered paper / hand-cut paper / stop-motion paper cut-out look”。
3. 翻页不自然
原因:翻页动画使用不同素材或光照。
修复:统一书本底图与桌面纹理,保持“同一张桌子”。
4. 动画过快
原因:默认参数过快或加了镜头运动。
修复:明确提示 “subtle / slow / no camera movement”。
十四、提示词库(可直接复制)
下面是常用提示词的可复用版本。你可以在其上叠加场景与角色细节。
14.1 纸雕质感基底
hand-cut paper, layered paper, visible paper fibers, watercolor textures, stop-motion paper cut-out look, soft diffused lighting, gentle shadows between layers, crafted collage aesthetic
14.2 统一背景基底(故事书书页)
vintage open storybook, aged pages, subtle foxing, weathered wooden art table, warm nostalgic atmosphere, no text on pages
14.3 通用负面提示
photorealistic, modern objects, harsh lighting, hard shadows, digital textures, plastic, glossy, metallic, 3D rendered, CGI, neon colors, text, logos, camera shake, morphing, distortion
14.4 轻微环境动效模板
Gentle environmental movement only. Paper smoke wisps drift lazily. Misty layers drift slowly. All elements maintain paper cut-out texture. No character movement. No camera movement.
十五、生产节奏建议(3 天内完成的版本)
如果你想在 3 天内完成一个 2-3 分钟作品,可以按下面节奏安排:
第 1 天:设计与静帧
- 完成角色参考表(主角 + 配角)
- 列出 8-12 个场景
- 生成所有关键帧(含 A/B)
第 2 天:动画与书页
- 生成所有场景动画
- 制作书页合成图
- 生成翻页动画与缩放转场
第 3 天:剪辑与音频
- 旁白脚本与配音
- 生成配乐
- 剪辑 + 导出
这个安排不是死规则,但能帮助你避免“只生成了 30 张图,最后无成片”的拖延。
十六、文件组织建议(减少混乱)
当场景数量超过 10 时,文件组织决定你的效率。建议如下结构:
project/
01-characters/
hero-sheet.png
villain-sheet.png
02-keyframes/
scene-01.png
scene-02.png
scene-08a.png
scene-08b.png
03-animations/
scene-01.mp4
scene-02.mp4
scene-08.mp4
04-book-spreads/
spread-01.png
spread-02.png
05-transitions/
page-turn-01.mp4
zoom-in-01.mp4
zoom-out-01.mp4
06-audio/
music.mp3
narration.wav
sfx/
07-edit/
premiere-project.prproj
只要你保持命名规范,后期剪辑会轻松很多。
十七、FAQ:你可能会问的问题
Q1:我能用 Midjourney / SDXL 替代 Firefly 吗?
可以,但要确保生成器对“纸纤维 + 叠层纸”理解稳定。只要保证风格一致,工具可以换。
Q2:为什么必须做书页合成?
因为“故事书”是一种叙事框架,它比孤立场景更能形成节奏。书页是“舞台”,让每个场景看起来属于同一部作品。
Q3:可不可以不用缩放?
可以,但作品会更像“幻灯片”。缩放让观众进入场景,从“看书”变成“入戏”。
Q4:旁白一定要有吗?
不是必须,但强烈建议有。旁白能给动画提供意义层,而不是只是“漂亮画面”。
十八、你可以怎么开始(最小化版本)
如果你不想一次做完 9 个阶段,可以从最小版本开始:
- 只做 3 个场景
- 每个场景只做单帧动画
- 只做 2 次翻页
- 音频只用一条音乐
你会得到一个 60-90 秒的短片,它能验证你的整个流程是否有效。
十九、结语:这不是模板,而是可复用的生产线
Glenn 提到了一点非常关键:
当你完成第一条完整工作流,第二条只要一半时间,第三条只要四分之一。
原因是:
- 角色模板可复用
- 书页模板可复用
- 动画提示词可复用
- 音频流程可复用
这是一个可以重复生产的内容管线,而不是一次性的“AI 随机生成”。
如果你希望把“纸雕故事书”变成一个系列作品,这套流程会是你真正的生产线。
