想做口播视频,但不想露脸、普通话不够标准、或者根本挤不出时间天天拍——这是 AI 数字人最大的市场。它能用一个虚拟或克隆的形象,配上 AI 声音,把你写好的文字变成一个「人」在镜头前讲出来的视频。这篇把整个流程拆开讲:形象从哪来、声音怎么配、口型怎么对得上、脚本该怎么写,以及怎么让数字人少一点「一看就是假人」的僵硬感。最后专门说肖像和声音的合规问题,这块踩坑代价不小。
适用人群与数字人能干什么
这篇适合三类人:做知识科普、产品讲解、课程口播但不想或不便出镜的个人;需要批量产出标准化讲解视频的企业(比如同一套内容出多语言版本);以及想试试低成本做视频号、不想在拍摄和剪辑上耗太多时间的人。数字人最适合的是「内容比形象重要」的口播——观众是来听你讲什么的,不是来看脸的。靠个人魅力、要真实互动、需要现场感的内容,数字人替代不了真人出镜。
先有个合理预期:现在的数字人,远看、中景、规规矩矩讲话还行;但大特写、丰富表情、夸张肢体动作,破绽还很明显。把它用在它擅长的场景,效果才好。
第一步:选形象,三条路各有取舍
数字人的形象主要有三种来源。第一种是用平台提供的现成虚拟人,挑一个顺眼的直接用,最省事,缺点是大家都能用、没辨识度,容易撞脸。第二种是克隆你自己——录一段你出镜说话的视频上传,平台生成一个长得像你、能替你讲话的数字分身,辨识度高、有真人感,适合打造个人 IP。第三种是用 AI 生成一个独一无二的虚拟形象,介于两者之间。
选哪种看你的目的。就想快速产内容、形象无所谓,用现成的;要做个人品牌、希望观众记住「这个人」,克隆自己最值。克隆自己时,录制素材的质量直接决定成片效果——光线均匀、背景干净、正对镜头、口齿清楚地说上几分钟,生成出来的分身才自然。素材糊、光线乱,做出来的数字人就别扭。
第二步:配音,声音决定一半质感
数字人讲话的声音有两种来源:用平台的 AI 配音库挑一个音色,或者克隆你自己的声音。AI 配音库现在的自然度已经很高,挑个合适的音色、调好语速和停顿,听感不错。想要更强的个人特征,就克隆自己的声音——录一段清晰的朗读素材,生成你的声音模型,让数字人用「你的声音」讲话。
声音这块最影响质感的是「断句和情绪」。AI 配音容易平,一马平川没有起伏,听久了犯困。改善办法是在脚本里标好停顿、重音,好的工具支持调节语气和节奏,多花点时间调,别用默认设置一遍过。中英文混排、专有名词、数字读法是 AI 配音的老大难,这些地方一定要试听,错了就调整写法(比如把数字写成中文、给多音字注音)。
第三步:写脚本,口播文案和书面文案不一样
很多人做数字人效果差,根子在脚本——拿一篇书面文章直接让数字人念。书面语是给眼睛看的,长句、从句、专业表达,听起来累。口播文案是给耳朵听的,得短句、口语、一句话一个意思。同样的内容,改成「像跟朋友讲话」那样,数字人念出来就顺耳得多。
写口播脚本记住几点:开头三秒要抓人,别铺垫;多用「你」,像在跟具体某个人说话;一段话讲清一个点,别绕;适当留口语词和停顿,显得自然。可以让 AI 帮你把书面材料改写成口播脚本,给它交代「改成适合口播的、口语化的、每句不要太长」,再自己读一遍,拗口的地方顺掉。脚本顺了,数字人的「假」会减轻一大半,因为它念的是人话。
第四步:合成、对口型和成片
把形象、声音、脚本凑齐,平台会自动合成——让数字人按你的音频对上口型、生成视频。这一步基本是自动的,但出来的初版往往需要调。重点检查口型对不对得上(尤其中文,对口型比英文难)、表情和停顿自不自然、有没有诡异的瞬间。不满意的片段重新生成或换种处理。
成片之后别忘了「包装」。光一个数字人对着镜头讲到底,还是单调。加上字幕(很多观众静音看)、配点背景音乐、插入相关的画面或图表、做好封面,整体观感会专业很多。数字人负责「把话讲出来」,这些包装负责「让人愿意看下去」,两者都做到位,视频才立得住。
常见坑与合规提醒
第一个坑,也是最该重视的:肖像和声音的授权。克隆别人的脸或声音必须经本人同意,未经授权用他人(尤其是名人、明星)的形象声音做数字人,是明确的侵权,平台和法律都管得越来越严。克隆自己没问题,碰别人之前先拿到授权。第二个坑是没标注 AI 合成,很多平台和法规要求 AI 生成的人物视频要做出标识,别试图蒙混成真人,该标就标。第三个坑是追求大特写和复杂表情,数字人在这些场景容易露馅,扬长避短用中景、用平稳的讲述。第四个坑是脚本照搬书面语,前面说过,这是数字人显假的主因。第五个坑是全自动一遍过,口型、配音、表情都需要检查和微调,省这道工序成片质量上不去。
替代方案与什么时候别用数字人
数字人不是万能的。需要真实情感、现场反应、个人魅力的内容——vlog、访谈、才艺、需要建立信任的带货——真人出镜的效果数字人比不了。预算够、形象重要的,自己拍加 AI 辅助剪辑可能更好。纯音频场景(播客、音频课)只要 AI 配音就够,不必做数字人。
数字人真正的甜区是「标准化、批量、形象不关键」的口播:知识科普、产品功能讲解、企业培训、多语言版本、需要日更但内容为王的账号。把它用在这些地方,它能帮你把出镜和拍摄的成本压到极低,一个人顶一个小团队的产量。想清楚自己的内容靠不靠形象吃饭,再决定要不要让数字人替你上镜,比盲目跟风做数字人实在得多。