有时候你需要一段讲话视频，但不想出镜，或者没有条件拍摄。D-ID 是一个 AI 视频生成工具，它的核心能力是：让一张照片"说话"——给一张人脸照片配上语音，AI 生成嘴部动作与声音完全同步的口播视频，看起来就像真人在说话一样。

D-ID 是什么

D-ID（Digital Identity）是一家以色列 AI 公司，成立于 2017 年，专注于人脸生成和视频合成技术。公司最知名的产品是"照片说话"技术——上传一张人像照片，配上文字或者录音，AI 生成人物开口说话的视频。

这项技术的商业化产品叫做 D-ID Creative Reality Studio，是一个面向内容创作者、教育机构、企业营销团队的 AI 视频生成平台。2023 年随着数字人和 AI 视频的热潮，D-ID 的用户量快速增长。

核心功能

照片说话（Photo to Talking Video）

这是 D-ID 的起家功能，也是最广为人知的能力。上传一张人像照片，提供语音（可以输入文字用 TTS 生成，也可以上传自己录制的音频），D-ID 生成人物说话的视频。

嘴型和声音同步精度是核心指标，D-ID 在这方面的技术积累比很多竞品更早，效果也相对成熟。人物的头部会有轻微的自然移动，而不是完全僵硬，增加了真实感。

这个功能的应用场景：

数字人讲解视频（不想出镜的内容创作者）
历史人物还原（让历史照片里的人"开口"）
给儿童内容制作说话的角色
产品讲解、培训内容的数字人出镜

AI 数字人（AI Presenters）

在"照片说话"的基础上，D-ID 提供了预设的 AI 数字人形象库，用户可以直接使用这些预设形象制作讲解视频，不需要上传真人照片。这些 AI 形象有不同的外观风格、性别、年龄、种族，可以选择符合内容定位的形象。

对于需要制作大量内容但不想反复使用同一张真人照片的用户，预设形象库提供了更多选择。

文字转语音配音

内置了多种语言和音色的文字转语音功能，覆盖英语、中文、日语、法语等几十种语言。对于需要多语言版本的内容（同一个视频脚本生成英文、中文、西班牙文版本），这个功能节省了大量配音成本。

克隆形象（Custom Avatar）

用户可以上传自己的视频素材，D-ID 从中学习人脸特征，创建专属的数字人形象。之后可以用文字输入让这个数字人替你说话，而不需要每次都重新出镜录制。

对于需要频繁更新视频内容的讲师、KOL 来说，这相当于创建了一个"数字分身"。

和同类工具的比较

vs HeyGen：HeyGen 是 D-ID 最直接的竞争对手，两者都主打数字人视频和视频本地化功能。HeyGen 在数字人的形象精细度和表情自然程度上评价更高，整体产品成熟度也更高；D-ID 的照片说话技术更有独特性，特别是在处理单张照片动态效果方面技术更深。两者价格接近，实际使用建议都试用后再选。

vs Synthesia：Synthesia 专注于企业级标准化视频制作（培训视频、产品说明），客户以大企业为主，注重数据安全和合规。D-ID 用户群更广，包括个人创作者和中小企业。

vs Akool：Akool 也提供 AI 数字人和视频本地化功能，还有换脸、背景生成等功能，在某些细分场景（换脸、出海内容）上更有优势。D-ID 的照片说话技术历史更久，核心能力更专注。

vs RunwayML：Runway 专注于视频生成和视频编辑，能力更强大，但主要是文本生成视频或视频特效，不是照片说话这个方向。

谁适合用 D-ID

不想出镜的内容创作者：想做视频内容但不喜欢在镜头前讲话，用 D-ID 生成 AI 数字人代替出镜，保持视频的"人脸讲解"形式。

在线教育和培训机构：需要制作大量视频课件，用 AI 数字人讲解，更新内容时只需要改文字重新生成，不需要重拍。

多语言内容创作者：同一套内容脚本，用 D-ID 生成多语言版本，向不同地区用户推送，本地化成本低。

历史和文化教育内容：让历史照片里的名人"开口"讲述自己的故事，增加历史教育内容的趣味性和沉浸感（注意：商业使用需要考虑肖像权问题）。

价格

有免费试用额度（有限的视频生成次数）。付费计划：

Lite：约 $6/月，基础功能，有水印
Pro：约 $36/月，去水印，更多功能
Advanced 及以上：更多使用量和高级功能

具体价格以官网为准。

局限和注意事项

效果有"恐怖谷"问题：数字人视频看起来很真实，但仔细看还是能感觉到有点"不对劲"，高质量产出还是和真实视频有差距。

肖像权和伦理问题：使用他人照片生成说话视频，在法律和伦理上有潜在风险，必须确保有相关人员的授权。自己的照片没问题，他人照片需要谨慎。

深度伪造（Deepfake）风险：这类技术存在被滥用于制作虚假视频的风险，平台有内容审核机制，但使用时仍需要遵守平台条款和相关法律。

国内访问速度：作为海外平台，国内访问可能需要代理。

D-ID 是照片说话技术领域的先行者之一，技术成熟度高，适合需要在不出镜的情况下制作人脸讲解视频的创作者和企业用户。

D-iDNew