科技巨头所声称的开源 AI 模型,是否是真正意义上的开源模型?近期 Nature 上的⼀篇报道或许可以给我们⼀些启示。⽇前,Nature 杂志编辑 Elizabeth Gibney 刊⽂深⼊分析了⼤语⾔模型(LLM)的透明度和开放性,揭示了所谓的“开源”背后隐藏的问题。作者指出,许多声称开源的 AI 模型,实际上在数据和训练⽅法上并不透明,⽆法满⾜真正的科学研究需求。
这种“开源洗⽩”(open-washing)现象严重阻碍了科学的可重复性和创新。
通过对多种模型的详细评估,⽂章提出了⼀份开放性排⾏榜,揭示了当前 AI 开源的现状。尤其值得关注的是,⼀些⼩型公司和研究团队在有限资源下,反⽽表现出了更⾼的透明度和开放性。在这个 GenAI 时代,真正的开源不仅仅是代码的开放,更是数据、训练⽅法和模型细节的全⾯透明。这不仅是为了科学的进步,也是为了确保 AI 技术在社会中的负责任应⽤。
许多⽀持聊天机器⼈的 LLM 被声称是开源的,但限制了对代码和训练数据的访问。分析了许多流⾏聊天机器⼈模型的研究⼈员表示,像 Meta 和微软这样的科技巨头将他们的 AI 模型描述为“开源”,但未能披露有关底层技术的重要信息。关于 AI 模型的开源定义尚未达成⼀致,但⽀持者表示,“完全”开源有助于科学研究,并且让 AI 更加负责任也⾄关重要。
当欧盟的⼈⼯智能法案⽣效时,什么算作开源可能会变得更加重要。该⽴法将对被归类为开源的模型实施不那么严格的监管。⼀些⼤公司声称拥有开源模型,并从中获益,但试图“尽可能少地披露信息”,这种做法被称为“开源洗⽩”。
Dingemanse 和他的同事、计算语⾔学家 Andreas Liesenfeld ⼀起创建了⼀个排⾏榜,列出了开源最多和开源最少的模型。Dingemanse 说:“令我们惊讶的是,资源相对较少的⼩公司却开源更多。” 他们的研究结果于 6 ⽉ 5 ⽇发表在 2024 ACM FAccT 的会议论⽂集中。
开源模型到底有多“开源”?两位语⾔科学家评估了各种聊天机器⼈模型的不同组件是否是开源、部分开源或闭源。都柏林圣三⼀学院的认知科学家、位于加州 Mountain View 的⾮营利组织 Mozilla Foundation 的⼈⼯智能问责顾问 Abeba Birhane 表示,这项研究消除了“围绕当前开源辩论的许多炒作和废话”。
“开源”⼀词来源于软件领域,意指可以访问源代码且对程序的使⽤或发⾏没有限制。但考虑到⼤型 AI 模型的复杂性和涉及的数据量庞⼤,使它们开源远⾮易事,专家们仍在努⼒定义开源 AI。Dingemanse 表示,将模型所有⽅⾯开源对于公司来说并不总是可取的,因为这可能会使它们⾯临商业或法律⻛险。但被贴上开源的标签也能带来巨⼤好处。
开发者通过展示⾃⼰严谨和透明的形象,已经可以获得公共关系的回报,⽽且很快会产⽣法律上的影响。
Dingemanse 和 Liesenfeld 评估了 40 个⼤语⾔模型,这些系统通过在⼤量数据中进⾏词语和短语之间的关联来学习⽣成⽂本。所有这些模型都声称是“开源”或“开放”的。他们通过评估模型在代码和训练数据的可⽤性、发布的⽂档内容以及模型的易访问性等 14 个参数,制作了⼀个开放性排⾏榜。对于每个参数,他们判断这些模型是开源的、部分开源的还是闭源的。
研究⼈员发现,许多声称是开放或者开源的模型,包括 Meta 的 Llama 和 Google DeepMind 的 Gemma,实际上只是“开放权重”。这意味着外部研究⼈员可以访问和使⽤这些训练过的模型,但不能检查或⾃定义它们。他们也⽆法完全了解这些模型是如何针对特定任务进⾏微调的;例如,使⽤⼈类反馈。
作者们表示,特别令⼈担忧的是,模型训练数据不是透明的。他们表示,在他们分析的模型中,⼤约有⼀半没有提供关于数据集的详细信息,仅有泛泛的描述。⾕歌发⾔⼈表示,公司对描述模型使⽤的语⾔“⾮常精准”,选择将其 Gemma ⼤型语⾔模型标为开放⽽⾮开源。微软的发⾔⼈称,公司试图“尽可能准确地描述可⽤的内容及其程度”。
分析发现,⼩型公司和研究团队制作的模型往往⽐⼤科技公司制作的模型更开源。作者们以由⼀个国际性、主要是学术合作项⽬构建的 BLOOM 为例,强调它是⼀个真正开源的 AI。他们发现,详细介绍这些模型的科学论⽂极其罕⻅。同审评审似乎“⼏乎完全过时了”,被挑选案例的博客⽂章或缺乏细节的公司预印本所取代。
⽬前尚不清楚这些模型中有多少符合欧盟对开源的定义。根据该法案,开源指的是在“⾃由和开放”的许可下发布的模型,例如允许⽤户修改模型,但对访问训练数据没有任何规定。该论⽂指出,细化这⼀定义可能会成为“企业游说和⼤公司瞄准的⼀个焦点”。Dingemanse 表示,开放性对科学发展很重要,因为它对可重复性⾄关重要。“如果你⽆重复它,那就很难称之为科学,”他说。
研究⼈员创新的唯⼀⽅法是通过调整模型来实现,⽽要做到这⼀点,他们需要⾜够的信息来构建⾃⼰的版本。不仅如此,模型还必须接受审查。Dingemanse 说:“如果我们⽆法了解内部运作,我们也不知道是否应该对此印象深刻。”例如,如果⼀个模型通过了某个特定测试,但它是通过⼤量训练测试样本实现的,那就不算是⼀个成就。⽽且没有数据问责制,没⼈知道是否使⽤了不当或有版权的数据,他补充道。
Liesenfeld 说,他们希望帮助同⾏科学家在寻找⽤于教学和研究的模型时,避免“陷⼊我们曾经陷⼊的同样陷阱”。