RiffusionNew

AI生成不同风格的音乐,基于Stable Diffusion

AI音视频免费额度
Riffusion 预览

2022 年底,当所有人都在用 Stable Diffusion 画图时,两个工程师业余时间冒出一个疯狂念头:能不能用画图的模型来"画"音乐? 思路精妙到近乎诡异——声音可以画成声谱图(spectrogram,横轴时间、纵轴频率的图像),那么让 SD 生成新的声谱图,再把图转回声音,不就生成了音乐?他们真的做出来了,开源放出,瞬间在技术圈刷屏。Riffusion 由此成为 AI 创作史上一个标志性的"黑客式创新":用图像模型干音频的活,证明了生成式 AI 的能力可以跨模态迁移。

这个故事还有后续:Riffusion 团队后来转向了更专业的音频模型路线,推出了正经的 AI 音乐产品——但它最初那个"用 SD 画音乐"的脑洞,才是它留在技术史里的名字。

Riffusion 是什么

Riffusion(riffusion.com)最初是一款基于 Stable Diffusion 的 AI 音乐生成工具,原理独一无二:把声谱图当图像处理——SD 生成声谱图,声谱图转码成音频。文字描述风格,即得对应音乐片段。项目开源,在 AI 音乐和技术社区影响深远,启发了后续诸多探索。

理解它的关键是定位:它首先是个技术实验,其次才是个工具——这决定了它的迷人与局限都源于同一处。

核心功能

文字生成音乐

输入风格描述("acoustic guitar, folk, relaxing""electronic dance, energetic"),生成对应片段。风格覆盖从民谣到电子、爵士到嘻哈极其多样。但质量带着鲜明的"实验感"——时好时坏,不稳定,这正是图像模型干音频活的副作用:它对声谱图的"画法"未必总能转回悦耳的声音。这种不可预测性,在追求成品的人眼里是缺陷,在玩实验的人眼里是惊喜。

风格插值:独门绝活

Riffusion 最有趣也最少见的能力:在两种风格之间做"插值"——从"平静钢琴"渐变到"激烈金属",生成一段连续过渡的音乐。这直接受益于其图像模型基因(SD 的潜空间插值是图像生成的经典玩法,被原样搬到了音乐上)。风格融合、创意探索的玩法,主流 AI 音乐工具基本没有,这是 Riffusion 的技术美学最闪光的体现。

图像转声音

因为本质在处理声谱图,任意图片都能被它"读"成声音——一张照片转成音频。纯实验性、艺术性的玩法,日常无用,但在声音艺术、跨媒介创作里有独特的探索价值。

开源与本地部署

代码全开源,可本地运行、可二次开发——这是它对研究社区持续影响力的根基,也是它"实验项目"身份的最佳注脚。

与同类工具的对比

vs Suno/Udio:当今 AI 音乐的成品之王(完整歌曲、人声、稳定质量);论出成品,Riffusion 完全不是对手。但 Suno 们是"产品",Riffusion 是"实验"——要可用的歌找前者,要玩技术边界和风格插值找后者,根本不在一个赛道。

vs Stable Audio:同源思路的"正规军版本"——Stability AI 用专门的音频模型做生成,音质与稳定性远超用图像模型硬改的 Riffusion。某种意义上,Stable Audio 走的是 Riffusion 启发但更专业的路。

vs Meta AudioCraft/MusicGen:同为开源音频生成,AudioCraft 用专门音频架构,质量更稳;两者都是研究友好的开源选项,Riffusion 胜在那个独特的技术故事和现成的在线界面。

vs Mubert:Mubert 做功能性背景音流,场景完全不同。

谁适合用 Riffusion

对 AI 技术好奇的人:"用画图模型画音乐"这个脑洞本身就值得了解——它是理解"生成式 AI 跨模态迁移"最生动的案例,科普价值大于实用价值。

音乐与声音的实验创作者:风格插值、图像转声音这些玩法,在声音艺术和创意探索里有主流工具给不了的独特性——不追求成品,追求可能性的人。

开发者与研究者:开源代码是学习 AI 音乐生成、做二次开发的优质参考,技术社区的常青教材。

怀旧与历史爱好者:想体验"AI 音乐元年"那个标志性项目长什么样的人。

局限性

实话实说:作为生产工具,质量不稳、片段短、不能出完整歌曲——它从设计上就不是为"做出能用的音乐"而生的。要稳定成品,Suno/Udio 是答案,别为难 Riffusion。

研究性项目的通病:更新与用户支持不如商业产品积极,遇问题多需自助;且其原始的"SD 画声谱图"形态已被团队自身的新产品和更专业的方案超越。

价格

在线版提供免费体验,开源版可本地免费部署;团队后续的商业产品另有其定价,以官网当前形态为准。

Riffusion 的真正价值,或许不在它能生成多好的音乐,而在它示范了一种思维方式:当你有了一个强大的通用工具(SD),不妨想想它还能被用到哪些意想不到的地方。这个"用图像模型画音乐"的黑客式脑洞,本身就是 AI 创作时代最好的灵感教材——即便它今天已不是最好用的音乐工具,在 AI 史册里,它的位置无人能替。