当地时间4月12日,微软宣布开源DeepSpeed-Chat,帮助用户轻松训练类ChatGPT等大语言模型。据悉,Deep Speed Chat是基于微软Deep Speed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(基于人类反馈的强化学习)技术,可将训练速度提升15倍以上,而成本却大大降低。
简单来说,用户只需要通过Deep Speed Chat提供的“傻瓜式”操作,就能以最短的时间、最高效的成本训练类ChatGPT大语言模型。
近来,ChatGPT及类似模型引发了AI行业的一场风潮。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署ChatGPT等模型,AI开源社区进行了各种尝试。然而,目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类ChatGPT模型十分困难。
微软在Deep Speed Chat介绍文档中表示,“为了让ChatGPT类型的模型更容易被普通数据科学家和研究者使用,并使RLHF训练真正在AI社区普及,我们发布了DeepSpeed-Chat。
”据介绍,为了实现无缝的训练体验,微软在DeepSpeed-Chat中整合了一个端到端的训练流程,包括以下三个主要步骤:监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比SFT小的)奖励模型(RW);RLHF训练,利用Proximal Policy Optimization(PPO)算法,根据RW模型的奖励反馈进一步微调SFT模型。
总体来说,DeepSpeed-Chat具有以下三大核心功能:简化ChatGPT类型模型的训练和强化推理体验;DeepSpeed-RLHF模块;DeepSpeed-RLHF系统。DeepSpeed-RLHF系统在规模化训练中具有出色的效率,使复杂的RLHF训练变得快速、经济并且易于大规模推广。此外,此次开源有望实现RLHF训练的普及化。
微软表示,仅凭单个GPU,DeepSpeed-HE就能支持训练超过130亿参数的模型。