全球首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

2023年4月12日，Databricks发布了Dolly 2.0，这是两周前发布的类ChatGPT人类交互性（指令遵循）大语言模型（LLM）的又一个新版本。Databricks表示，Dolly 2.0是业内第一个开源、遵循指令的LLM，它在透明且免费提供的数据集上进行了微调，该数据集也是开源的，可用于商业目的。

这意味着Dolly 2.0可用于构建商业应用程序，无需支付API访问费用或与第三方共享数据。

Databricks还发布了Dolly 2.0在其上进行微调的数据集，称为databricks-dolly-15k。这是由数千名Databricks员工生成的超过1.5万条记录的语料库，Databricks称这是“第一个开源的、人工生成的指令语料库，专门设计用于让大型语言能够展示出ChatGPT的神奇交互性。”

Dolly 2.0是120亿参数的语言模型，它基于开源EleutherAI pythia模型系列，专门针对小型开源指令记录语料库进行了微调（databricks-dolly-15k），该数据集由Databricks员工生成，许可条款允许出于任何目的使用、修改和扩展，包括学术或商业应用。

“databricks-dolly-15k”数据集包含15000个高质量的人类生成的prompt/回复对，由5000多名Databricks员工在2023年3月和4月期间撰写，专门设计用于指令调优大型语言模型。这些训练记录自然、富有表现力，旨在代表广泛的行为，从头脑风暴、内容生成到信息提取和总结。

Dolly团队表示，根据最初的客户反馈，像这样的能力可在整个企业中进行广泛的应用。因为很多企业希望拥有自己的模型，以此为自己的特定领域应用创建更高质量的模型，而不是将自己的敏感数据交给第三方。Dolly 2的开源为构建更好的大模型生态开了一个好头。开放源代码的数据集和模型鼓励评论、研究和创新，有助于确保每个人都从人工智能技术的进步中受益。