AI 视频工具很适合做短视频原型、广告分镜、教程片头和社媒素材。但如果你只输入一句“生成一个科技感视频”,结果通常不可控。真正可用的流程是:先写脚本,再拆分镜,生成关键帧,做图生视频,配音和字幕,最后剪辑合成。本文用“介绍 RAG 知识库”的 60 秒短视频作为案例。
适用人群
适合内容运营、课程作者、产品营销、短视频团队和独立开发者。如果你要拍真人口播或复杂剧情,AI 视频还不能完全替代拍摄;如果你要做概念展示、背景镜头、产品解释动画,AI 视频非常高效。
第一步:写 60 秒脚本
短视频脚本要短句、单观点、强节奏。以 RAG 为例:
“公司文档很多,员工却总是找不到答案。RAG 的做法是先检索你的知识库,再让 AI 基于资料回答。它不会凭空记住内部制度,而是把相关段落找出来,附上来源。适合客服、行政、产品手册和培训资料。关键不是接一个模型,而是整理文档、做好权限、让答案可引用。”
这段脚本可以拆成 6 到 8 个镜头,每个镜头 5 到 8 秒。
第二步:拆分镜
分镜要具体到画面主体和动作。比如:
- 堆满文件的办公桌,员工搜索资料。
- 屏幕上出现知识库搜索界面。
- 文档片段被高亮,连接到 AI 对话框。
- AI 回答旁边显示引用来源。
- 团队在会议室查看统一知识库。
- 结尾出现简洁流程图:文档 → 检索 → 回答 → 引用。
每个分镜单独生成,不要试图让一个模型一次生成完整 60 秒视频。
第三步:先生成关键帧
很多 AI 视频工具支持图生视频。比起直接文生视频,先生成关键帧更稳定。你可以用图片生成工具为每个镜头做一张清晰画面,再送到 Runway、Pika、Luma、可灵、Veo 等工具生成 4 到 8 秒动态。
关键帧提示词要避免文字和复杂 UI。屏幕内容可以后期叠加真实截图或简单图形,不要让视频模型生成可读界面,它很容易出乱码。
分镜表模板
| 镜头 | 时长 | 画面 | 动作 | 旁白 | 工具 |
|------|------|------|------|------|------|
| 1 | 0-6s | 办公桌堆满文档 | 镜头缓慢推进 | 公司文档很多... | 图生视频 |
| 2 | 6-12s | 知识库搜索界面 | 高亮搜索词 | RAG 会先检索资料 | 录屏 + 动效 |
| 3 | 12-20s | 文档连接到 AI 对话框 | 线条连接 | 再基于资料回答 | AI 视频 |剪辑工程结构
video-project/
script.md
storyboard.md
assets/keyframes/
assets/video-clips/
assets/voiceover/
exports/vertical-9x16/
exports/horizontal-16x9/界面验收图要包含三张:分镜表、视频工具生成片段界面、剪辑软件时间线。尤其是时间线截图,能让读者看到 AI 片段、字幕、配音到底怎么合在一起。
第四步:生成视频片段
图生视频提示词重点描述运动:slow camera push in、documents floating gently、highlighted text connecting to chat bubble、team reviewing dashboard。每段只控制一个动作,动作越复杂越容易变形。人物镜头要谨慎,手、脸和走路仍然是常见翻车点。
生成后先挑稳定片段,不要执着于完全符合想象。AI 视频的现实工作流更像选素材,而不是精确导演。
第五步:配音、字幕和剪辑
配音可以用 AI TTS,也可以真人录音。教程类视频建议语速略快但清楚,60 秒脚本大约 150 到 180 个中文字。字幕必须人工校对,尤其是英文缩写、产品名和数字。
剪辑时按脚本节奏排列片段,加上轻微转场、标题条、流程图和来源说明。AI 视频片段负责视觉氛围,真正传达信息的是脚本、字幕和图形叠加。
质量检查清单
导出前至少检查五件事。第一,信息是否准确,尤其是产品名、数字、时间和结论。第二,画面是否有明显变形,比如人物手指、屏幕文字、物体穿帮。第三,镜头节奏是否匹配字幕,观众是否来得及读完。第四,声音是否清楚,背景音乐是否压过旁白。第五,版权是否安全,参考图、配乐、字体和素材都要可商用。
如果是给品牌账号发布,还要准备不同平台版本。抖音、视频号、小红书更适合竖版 9:16;B 站和官网更适合横版 16:9;封面图要单独设计,不要直接截视频里的一帧。AI 视频只是素材生成环节,平台适配仍然决定最终效果。
团队分工
一个小团队可以按四个角色协作:脚本负责人管信息准确,视觉负责人管分镜和关键帧,剪辑负责人管节奏和字幕,审核负责人管品牌与合规。人数少时也要保留这四个检查视角。否则很容易出现画面很炫,但信息不准、字幕错字、版权不清的问题。
如果要连续更新,建议把每期视频的脚本、分镜提示词、关键帧、成片链接和数据表现记录下来。哪类开头留存高,哪类镜头容易生成失败,哪种旁白节奏更适合账号,都可以从复盘里沉淀。AI 视频的效率优势,只有在模板和复盘累积后才会真正显出来。
预算有限时,不必每个镜头都用最高档生成。开头三秒和转折镜头值得多试几版,过渡镜头可以用简单背景、录屏或静态图动效替代。把预算花在影响完播率的位置,比平均铺在所有镜头上更划算。
常见坑
| 现象 | 原因 | 修法 | |------|------|------| | 人物和物体变形 | 单段视频太长或动作太复杂 | 4-8 秒一段,只保留一个镜头动作 | | 屏幕文字乱码 | 让视频模型生成 UI 字 | 用真实截图或后期字幕叠加 | | 镜头风格跳变 | 每段提示词差异太大 | 固定色彩、光线、镜头语言,只改主体 | | 成片节奏拖 | 旁白没有按镜头切分 | 先写分镜表,再生成视频 | | 发布后版权风险 | 使用名人、品牌或未授权参考图 | 只用自有素材、授权素材或纯生成元素 |
导出前检查:
[ ] 竖版 9:16 和横版 16:9 分开导出
[ ] 字幕逐字校对
[ ] 片头 3 秒能说明主题
[ ] 所有 UI 字幕为后期叠加
[ ] 素材来源可追溯替代方案
如果你需要教程录屏,直接用 Screen Studio、CapCut、剪映录屏加 AI 字幕更快。如果你需要产品广告,可以用 Runway / Pika / 可灵生成氛围镜头,再用传统剪辑完成。如果你需要规模化短视频,可以把脚本、分镜、配音、字幕做成模板流水线。
小结
AI 视频生成最稳的路径不是一句话出片,而是“脚本 → 分镜 → 关键帧 → 图生视频 → 后期合成”。把视频模型当成素材生成器,而不是完整导演,你会更容易做出可发布的短视频。