AI 视频生成教程：从脚本到短视频的完整工作流

Q: 第二步：拆分镜

分镜要具体到画面主体和动作。比如： 1. 堆满文件的办公桌，员工搜索资料。 2. 屏幕上出现知识库搜索界面。 3. 文档片段被高亮，连接到 AI 对话框。 4. AI 回答旁边显示引用来源。 5. 团队在会议室查看统一知识库。 6. 结尾出现简洁流程图：文档 → 检索 → 回答 → 引用。 每个分镜单独生成，不要试图让一个模型一次生成完整 60 秒视频。

Q: 常见坑

| 现象 | 原因 | 修法 | |||| | 人物和物体变形 | 单段视频太长或动作太复杂 | 48 秒一段，只保留一个镜头动作 | | 屏幕文字乱码 | 让视频模型生成 UI 字 | 用真实截图或后期字幕叠加 | | 镜头风格跳变 | 每段提示词差异太大 | 固定色彩、光线、镜头语言，只改主体 | | 成片节奏拖 | 旁白没有按镜头切分 | 先写分镜表，再生成视频 | | 发布后版权风险 | 使用名人、品牌或未授权参考图 | 只用自有素材、授权素材或纯生成元素 | 导出前检查：

AI文章编辑部2026-06-10视频

围绕短视频生产讲清 AI 视频工作流：脚本拆镜、分镜提示词、图生视频、配音字幕、剪辑合成、质量检查和工具替代方案。

AI 视频工具很适合做短视频原型、广告分镜、教程片头和社媒素材。但如果你只输入一句“生成一个科技感视频”，结果通常不可控。真正可用的流程是：先写脚本，再拆分镜，生成关键帧，做图生视频，配音和字幕，最后剪辑合成。本文用“介绍 RAG 知识库”的 60 秒短视频作为案例。

适用人群

适合内容运营、课程作者、产品营销、短视频团队和独立开发者。如果你要拍真人口播或复杂剧情，AI 视频还不能完全替代拍摄；如果你要做概念展示、背景镜头、产品解释动画，AI 视频非常高效。

第一步：写 60 秒脚本

短视频脚本要短句、单观点、强节奏。以 RAG 为例：

“公司文档很多，员工却总是找不到答案。RAG 的做法是先检索你的知识库，再让 AI 基于资料回答。它不会凭空记住内部制度，而是把相关段落找出来，附上来源。适合客服、行政、产品手册和培训资料。关键不是接一个模型，而是整理文档、做好权限、让答案可引用。”

这段脚本可以拆成 6 到 8 个镜头，每个镜头 5 到 8 秒。

第二步：拆分镜

分镜要具体到画面主体和动作。比如：

堆满文件的办公桌，员工搜索资料。
屏幕上出现知识库搜索界面。
文档片段被高亮，连接到 AI 对话框。
AI 回答旁边显示引用来源。
团队在会议室查看统一知识库。
结尾出现简洁流程图：文档 → 检索 → 回答 → 引用。

每个分镜单独生成，不要试图让一个模型一次生成完整 60 秒视频。

第三步：先生成关键帧

很多 AI 视频工具支持图生视频。比起直接文生视频，先生成关键帧更稳定。你可以用图片生成工具为每个镜头做一张清晰画面，再送到 Runway、Pika、Luma、可灵、Veo 等工具生成 4 到 8 秒动态。

关键帧提示词要避免文字和复杂 UI。屏幕内容可以后期叠加真实截图或简单图形，不要让视频模型生成可读界面，它很容易出乱码。

分镜表模板

| 镜头 | 时长 | 画面 | 动作 | 旁白 | 工具 |
|------|------|------|------|------|------|
| 1 | 0-6s | 办公桌堆满文档 | 镜头缓慢推进 | 公司文档很多... | 图生视频 |
| 2 | 6-12s | 知识库搜索界面 | 高亮搜索词 | RAG 会先检索资料 | 录屏 + 动效 |
| 3 | 12-20s | 文档连接到 AI 对话框 | 线条连接 | 再基于资料回答 | AI 视频 |

剪辑工程结构

video-project/
  script.md
  storyboard.md
  assets/keyframes/
  assets/video-clips/
  assets/voiceover/
  exports/vertical-9x16/
  exports/horizontal-16x9/

界面验收图要包含三张：分镜表、视频工具生成片段界面、剪辑软件时间线。尤其是时间线截图，能让读者看到 AI 片段、字幕、配音到底怎么合在一起。

第四步：生成视频片段

图生视频提示词重点描述运动：slow camera push in、documents floating gently、highlighted text connecting to chat bubble、team reviewing dashboard。每段只控制一个动作，动作越复杂越容易变形。人物镜头要谨慎，手、脸和走路仍然是常见翻车点。

生成后先挑稳定片段，不要执着于完全符合想象。AI 视频的现实工作流更像选素材，而不是精确导演。

第五步：配音、字幕和剪辑

配音可以用 AI TTS，也可以真人录音。教程类视频建议语速略快但清楚，60 秒脚本大约 150 到 180 个中文字。字幕必须人工校对，尤其是英文缩写、产品名和数字。

剪辑时按脚本节奏排列片段，加上轻微转场、标题条、流程图和来源说明。AI 视频片段负责视觉氛围，真正传达信息的是脚本、字幕和图形叠加。

质量检查清单

导出前至少检查五件事。第一，信息是否准确，尤其是产品名、数字、时间和结论。第二，画面是否有明显变形，比如人物手指、屏幕文字、物体穿帮。第三，镜头节奏是否匹配字幕，观众是否来得及读完。第四，声音是否清楚，背景音乐是否压过旁白。第五，版权是否安全，参考图、配乐、字体和素材都要可商用。

如果是给品牌账号发布，还要准备不同平台版本。抖音、视频号、小红书更适合竖版 9:16；B 站和官网更适合横版 16:9；封面图要单独设计，不要直接截视频里的一帧。AI 视频只是素材生成环节，平台适配仍然决定最终效果。

团队分工

一个小团队可以按四个角色协作：脚本负责人管信息准确，视觉负责人管分镜和关键帧，剪辑负责人管节奏和字幕，审核负责人管品牌与合规。人数少时也要保留这四个检查视角。否则很容易出现画面很炫，但信息不准、字幕错字、版权不清的问题。

如果要连续更新，建议把每期视频的脚本、分镜提示词、关键帧、成片链接和数据表现记录下来。哪类开头留存高，哪类镜头容易生成失败，哪种旁白节奏更适合账号，都可以从复盘里沉淀。AI 视频的效率优势，只有在模板和复盘累积后才会真正显出来。

预算有限时，不必每个镜头都用最高档生成。开头三秒和转折镜头值得多试几版，过渡镜头可以用简单背景、录屏或静态图动效替代。把预算花在影响完播率的位置，比平均铺在所有镜头上更划算。

常见坑

| 现象 | 原因 | 修法 | |------|------|------| | 人物和物体变形 | 单段视频太长或动作太复杂 | 4-8 秒一段，只保留一个镜头动作 | | 屏幕文字乱码 | 让视频模型生成 UI 字 | 用真实截图或后期字幕叠加 | | 镜头风格跳变 | 每段提示词差异太大 | 固定色彩、光线、镜头语言，只改主体 | | 成片节奏拖 | 旁白没有按镜头切分 | 先写分镜表，再生成视频 | | 发布后版权风险 | 使用名人、品牌或未授权参考图 | 只用自有素材、授权素材或纯生成元素 |

导出前检查：

[ ] 竖版 9:16 和横版 16:9 分开导出
[ ] 字幕逐字校对
[ ] 片头 3 秒能说明主题
[ ] 所有 UI 字幕为后期叠加
[ ] 素材来源可追溯

替代方案

如果你需要教程录屏，直接用 Screen Studio、CapCut、剪映录屏加 AI 字幕更快。如果你需要产品广告，可以用 Runway / Pika / 可灵生成氛围镜头，再用传统剪辑完成。如果你需要规模化短视频，可以把脚本、分镜、配音、字幕做成模板流水线。

小结

AI 视频生成最稳的路径不是一句话出片，而是“脚本 → 分镜 → 关键帧 → 图生视频 → 后期合成”。把视频模型当成素材生成器，而不是完整导演，你会更容易做出可发布的短视频。