ColossalChat

免费开源的AI聊天机器人

热度AI聊天免费
ColossalChat 预览

2022 年底 ChatGPT 引爆全球之后,AI 研究界面临一个尴尬的处境:所有人都知道 ChatGPT 的核心能力来自 RLHF(基于人类反馈的强化学习),但 RLHF 的完整训练需要的计算资源,普通大学实验室和中小型研究机构根本承受不起。

这不只是"做不起"的问题,更是"学不到"的问题——如果没有人用可访问的方式实现和开源这套流程,AI 技术就会变成少数超级计算机集群才能玩的游戏。

ColossalChat 是 HPC-AI Tech 团队(也就是 ColossalAI 项目背后的团队)对这个问题的一个回答。

ColossalChat 是什么

ColossalChat 是基于 ColossalAI 框架构建的开源 AI 对话系统,核心目标是用相对有限的计算资源,完整复现 ChatGPT 背后的 RLHF 训练流程。2023 年初,这个项目以极快的速度得到了大量关注,是当时开源 AI 社区对 ChatGPT 能力进行复现的最早、最完整的尝试之一。

需要先说清楚:ColossalChat 不是一个功能和 ChatGPT 对标的产品,对话能力和 ChatGPT 有明显差距。它的核心价值在于"完整的 RLHF 训练流程实现"和"让更广泛的研究者能够实验大模型训练技术",而不是"最好用的 AI 助手"。

技术背景:什么是 RLHF

要理解 ColossalChat 的意义,需要先理解 RLHF 是什么。

GPT 类的语言模型预训练后,只是在预测下一个词,并不知道什么样的回答是"好的回答"。RLHF 解决的就是这个问题:通过让人类评估者对不同回答打分,训练出一个"奖励模型"来代替人类判断;然后用强化学习(PPO 算法)让对话模型不断优化,让自己的回答获得更高的奖励分数。

最终结果是:模型不只是"能回答",而是"能给出人类认为好的回答"——更有帮助、更无害、更真实。这就是 ChatGPT 和纯粹 GPT 预训练模型之间最关键的技术差异。

核心技术实现

完整三阶段训练流程

ColossalChat 实现了 RLHF 的完整三阶段流程,并且开源了全部代码:

阶段一:监督微调(SFT) 在基础语言模型上用人类对话数据进行微调,让模型学会"对话的格式和基本的有帮助行为"。这一步相对简单,但是奠定后续阶段的基础。

阶段二:奖励模型训练(Reward Model) 收集相同问题的不同回答,让人类标注者对这些回答进行优劣排序;用这些数据训练一个打分模型,使其能自动评估回答质量。这个"打分模型"在后续强化学习阶段充当人类反馈的替代。

阶段三:强化学习优化(PPO) 用奖励模型给出的分数作为信号,用近端策略优化(PPO)算法反复训练对话模型,让模型学会给出高分回答。这是 RLHF 流程里技术难度最高、计算资源消耗最大的部分。

ColossalChat 的贡献是把这三个阶段全部实现了,而且做到了开源可复现——这在 2023 年初是相当罕见的。

ColossalAI 框架的资源优化

HPC-AI Tech 的 ColossalAI 框架本身是一个专注于大模型训练效率的系统,通过多种并行策略(数据并行、张量并行、流水线并行)的组合,让同样的训练任务可以用更少的 GPU 完成:

  • 同样规模的模型,ColossalAI 可以在更少卡的机器上训练
  • 或者在同样的机器上,训练更大的模型
  • 内存优化技术让有限显存也能处理更大的模型

这些优化让 ColossalChat 能在相对普通的 GPU 服务器上完成 RLHF 训练,而不需要像 OpenAI 那样拥有大规模计算集群。

开源代码和可复现性

所有代码都在 GitHub 上开源,包括:

  • 完整的训练脚本(三个阶段各自的代码)
  • 数据处理工具
  • 推理代码
  • 模型权重(相对较轻量的版本)

这种完全开源的姿态,是 ColossalChat 对整个 AI 研究社区最重要的贡献——任何人都可以下载代码、在自己的服务器上从头跑一遍 RLHF 训练流程,亲眼看到这个过程是怎么运作的。

ColossalChat 与同期开源项目的比较

2023 年上半年,AI 开源社区非常活跃,多个团队在争相复现 ChatGPT 的核心能力,ColossalChat 是这场竞争里的重要参与者:

对比 Alpaca(斯坦福):Alpaca 是斯坦福用指令微调(不含强化学习)训练的 LLaMA 衍生模型,只做了三阶段里的第一步(SFT),实现相对简单但影响广泛;ColossalChat 在技术上更完整,完整实现了 RLHF 的三个阶段。

对比 Vicuna(伯克利):Vicuna 同样是基于 LLaMA 的指令微调模型,没有完整 RLHF;在对话流畅度上有不错表现,和 ColossalChat 各有侧重。

对比 OpenAssistant(LAION):OpenAssistant 也在做开源 RLHF,走的是众包数据标注路线,数据积累量最终更大;ColossalChat 在训练效率优化上有独特优势。

对比 LLaMA/LLaMA-2(Meta):Meta 开源的 LLaMA 系列是基础模型,ColossalChat 是在基础模型上做 RLHF 训练的方法和框架,两者不在同一个层次。

适合哪些人

AI 研究者和研究生:学习 RLHF 的实际实现,ColossalChat 提供了可以运行的参考代码,比看论文直观得多,适合想深入了解大模型对齐技术的研究人员。

想自训练对话模型的工程师和团队:需要构建特定领域的对话 AI,但从零实现 RLHF 难度大,ColossalChat 的开源代码提供了一个可以修改和扩展的起点。

AI 系统工程师:学习 ColossalAI 框架的分布式训练技术,了解如何用有限资源高效训练大模型——这些技术经验在工程上很有价值。

AI 历史研究者:2023 年初的开源 AI 复现运动是 AI 发展史上的一个关键节点,ColossalChat 是这段历史的重要组成部分。

局限性

对话能力有限:作为研究项目的产出,ColossalChat 的对话质量和 ChatGPT、Claude 等商业产品相比有明显差距,不适合日常用作 AI 助手。

技术门槛高:真正用好 ColossalChat(包括本地训练、修改代码做实验)需要较强的深度学习工程背景,对普通用户几乎没有直接使用价值。

更新节奏:作为研究机构维护的开源项目,更新速度和商业公司的产品不在同一个量级,AI 技术发展快,项目可能在一段时间后相对过时。

价格

完全开源免费,代码托管在 GitHub(github.com/hpcaitech/ColossalAI)。在线演示界面免费使用,不需要注册。

ColossalChat 是 2023 年开源 AI 运动里的一个重要节点——它向研究社区证明了:RLHF 不是只有超大规模计算集群才能做的事,普通研究团队也可以实现、可以实验、可以改进。这种技术民主化的意义,可能比它当前的对话质量更为深远。