2023年4月12日,Databricks发布了Dolly 2.0,这是两周前发布的类ChatGPT人类交互性(指令遵循)大语言模型(LLM)的又一个新版本。Databricks表示,Dolly 2.0是业内第一个开源、遵循指令的LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。
这意味着Dolly 2.0可用于构建商业应用程序,无需支付API访问费用或与第三方共享数据。
Databricks还发布了Dolly 2.0在其上进行微调的数据集,称为databricks-dolly-15k。这是由数千名Databricks员工生成的超过1.5万条记录的语料库,Databricks称这是“第一个开源的、人工生成的指令语料库,专门设计用于让大型语言能够展示出ChatGPT的神奇交互性。”
Dolly 2.0是120亿参数的语言模型,它基于开源EleutherAI pythia模型系列,专门针对小型开源指令记录语料库进行了微调(databricks-dolly-15k),该数据集由Databricks员工生成,许可条款允许出于任何目的使用、修改和扩展,包括学术或商业应用。
“databricks-dolly-15k”数据集包含15000个高质量的人类生成的prompt/回复对,由5000多名Databricks员工在2023年3月和4月期间撰写,专门设计用于指令调优大型语言模型。这些训练记录自然、富有表现力,旨在代表广泛的行为,从头脑风暴、内容生成到信息提取和总结。
Dolly团队表示,根据最初的客户反馈,像这样的能力可在整个企业中进行广泛的应用。因为很多企业希望拥有自己的模型,以此为自己的特定领域应用创建更高质量的模型,而不是将自己的敏感数据交给第三方。Dolly 2的开源为构建更好的大模型生态开了一个好头。开放源代码的数据集和模型鼓励评论、研究和创新,有助于确保每个人都从人工智能技术的进步中受益。