2024 年 2 月，OpenAI 发布了 Sora 的演示视频，整个 AI 圈和影视圈同时震动。那几段视频——奔跑中的猛犸象、东京街头的女孩、海浪拍打礁石——质量高到让很多视频从业者第一次产生了"这东西以后会抢走我工作"的真实担忧。但是从 2 月发布演示到正式开放，中间等了将近一年。这期间很多问题被拿出来反复讨论：它到底能做什么，实际产品质量和演示视频的差距有多大，什么时候真正可以用？这篇文章把这些问题说清楚。

Sora 是什么

Sora 是 OpenAI 开发的视频生成模型，能够根据文字描述（Text to Video）生成视频，也支持图片转视频（Image to Video）和对已有视频进行延伸或编辑。

在技术架构上，Sora 和生成图片的扩散模型不同，它用的是 Diffusion Transformer（DiT）架构——把 Transformer 引入视频生成，让模型能更好地处理时序信息、理解物理世界的运动规律。这正是 OpenAI 宣传的核心：Sora 不只是生成"看起来像视频的图像序列"，而是能理解"物体在真实世界里如何运动"。

正式版产品的现状

Sora 于 2024 年 12 月正式向公众开放，集成在 ChatGPT 的界面里，ChatGPT Plus（$20/月）和 Pro（$200/月）用户可以使用。

目前的能力：

生成最长 20 秒的视频（Pro 用户）
分辨率最高 1080p
多种宽高比：16:9、9:16、1:1
文生视频、图生视频
故事板模式（Storyboard）：类似 After Effects 关键帧，可以控制视频不同时间点的画面内容
混合（Blend）：把两段视频的风格融合
循环（Loop）：生成无缝循环的视频片段

使用限制：

Plus 用户每月有 50 次有限分辨率的视频生成
Pro 用户无限生成（低分辨率），高分辨率每月有限额
在中国大陆不可访问，需要科学上网

实际质量和演示视频的差距

这是很多人最关心的问题。坦率说：演示视频的质量确实高于普通用户日常生成的水准。演示视频里的那些片段，是 OpenAI 团队通过大量调整 prompt、多次生成再精选出来的，而不是"随便输入几个词就出来了"。

普通用户的真实使用体验：

强项：

场景的视觉质量确实较高，尤其是自然场景（海浪、山脉、云彩）
镜头运动的流畅度不错，慢动作、推拉摇移基本能按预期实现
在 16 秒以内的片段里，场景连贯性比多数竞品好

弱项：

人物面部细节和复杂动作仍然容易变形
涉及多个物体交互时（比如两个人握手、物体碰撞）物理效果不自然
对 prompt 的理解有时候会忽略某些细节，需要多次尝试
生成时间较长，高质量视频可能需要等待几分钟

故事板功能：Sora 最有创意的功能

如果说 Sora 有哪个功能真正和其他 AI 视频工具拉开差距，故事板（Storyboard）是最值得一提的。

你可以在时间轴上设置多个关键帧，每个关键帧对应一个 prompt（和可选的参考图片），然后让 Sora 在关键帧之间生成过渡——相当于告诉它"0秒时这样，5秒时变成这样，10秒时变成这样"，它来负责中间的运动和变化。

这让视频生成从"随机生成"变成了"有规划的创作"，导演和创作者对内容有了更多控制权。对于想做短片、广告、MV 的用户来说，这个功能让它的实际可用性上了一个台阶。

它对哪些人有价值

视频博主和内容创作者： 生成 B-Roll（补充镜头）、背景画面、氛围视频——不需要出去拍摄，AI 生成几段符合主题的场景视频，剪辑进自己的主视频里。这是目前最实际的用法。

广告创意和品牌营销： 快速制作视觉提案、概念视频、活动预告。拿一个 AI 生成的概念视频去跟客户讨论视觉方向，比纯用语言描述直观得多。

电影和影视前期： 用来做分镜参考、验证镜头构想，成本远低于实际拍摄。一些导演已经在用 AI 视频工具做"视觉草稿"。

艺术家和实验性创作： Sora 生成的一些片段（尤其是风格化的超现实场景）有独特的美学质感，作为艺术媒介本身也有人在探索。

现阶段不太适合： 需要精确控制的叙事视频、涉及具体人物角色的故事（角色一致性弱）、企业的正式对外宣传片。这些场景目前 AI 视频还是辅助工具，不能独立承担。

和竞品比较

vs Runway Gen-3： Runway 的产品更成熟、工具链更完整（有大量视频编辑功能），与专业工作流集成更好。Sora 在视频质量（尤其是物理真实感）上有优势，但产品功能上 Runway 更完整。

vs Kling AI（快手）： Kling 在中文场景、人物生成上有竞争力，国内访问无障碍，价格更亲民。Sora 的整体视觉质量在某些场景更高，但需要科学上网。

vs Pika： Pika 更适合快速测试想法，Sora 质量更好但生成时间更长，适合更认真的创作。

价格和访问

Sora 集成在 ChatGPT 内：

ChatGPT Plus（$20/月）：每月有限次数的 Sora 视频生成，480p 分辨率
ChatGPT Pro（$200/月）：更多生成次数，720p/1080p 分辨率，优先队列

未来方向

OpenAI 对 Sora 的定位一直不只是"视频生成工具"，而是"世界模拟器"——通过理解物理规律来生成逼真的视频，最终可能用于机器人训练、游戏引擎、科学模拟等更宏大的方向。在这个视角下，视频生成只是它能力的一个显现形式。

当然这些是更长期的愿景。现阶段，Sora 作为一个创意工具，在特定场景下已经有了实用价值。对于视频内容创作者来说，2025 年是值得认真了解和上手试用的时机——等你搞清楚它能做什么不能做什么，用起来才不会失望也不会错过它真正有价值的地方。