全球首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

作者: 泽南、蛋酱

来源: 机器之心(ID:almosthuman2014)

发布日期: 2023-04-14 12:25:50

Databricks发布了Dolly 2.0,这是一个开源的、遵循指令的大语言模型,专门设计用于商业应用,无需支付API费用或与第三方共享数据。该模型基于开源EleutherAI pythia模型系列,使用由Databricks员工生成的高质量数据集进行微调,旨在展示ChatGPT的交互性。

2023年4月12日,Databricks发布了Dolly 2.0,这是两周前发布的类ChatGPT人类交互性(指令遵循)大语言模型(LLM)的又一个新版本。Databricks表示,Dolly 2.0是业内第一个开源、遵循指令的LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。

这意味着Dolly 2.0可用于构建商业应用程序,无需支付API访问费用或与第三方共享数据。

Databricks还发布了Dolly 2.0在其上进行微调的数据集,称为databricks-dolly-15k。这是由数千名Databricks员工生成的超过1.5万条记录的语料库,Databricks称这是“第一个开源的、人工生成的指令语料库,专门设计用于让大型语言能够展示出ChatGPT的神奇交互性。”

Dolly 2.0是120亿参数的语言模型,它基于开源EleutherAI pythia模型系列,专门针对小型开源指令记录语料库进行了微调(databricks-dolly-15k),该数据集由Databricks员工生成,许可条款允许出于任何目的使用、修改和扩展,包括学术或商业应用。

“databricks-dolly-15k”数据集包含15000个高质量的人类生成的prompt/回复对,由5000多名Databricks员工在2023年3月和4月期间撰写,专门设计用于指令调优大型语言模型。这些训练记录自然、富有表现力,旨在代表广泛的行为,从头脑风暴、内容生成到信息提取和总结。

Dolly团队表示,根据最初的客户反馈,像这样的能力可在整个企业中进行广泛的应用。因为很多企业希望拥有自己的模型,以此为自己的特定领域应用创建更高质量的模型,而不是将自己的敏感数据交给第三方。Dolly 2的开源为构建更好的大模型生态开了一个好头。开放源代码的数据集和模型鼓励评论、研究和创新,有助于确保每个人都从人工智能技术的进步中受益。

UUID: b8f170be-8e30-4544-bca3-566948eedb66

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-04-14_全球首款真开源类ChatGPT大模型Dolly20,可随意修改商用.txt

是否为广告: 否

处理费用: 0.0052 元