似乎每天都会有⼀个新的⼤型语⾔模型(LLM)诞⽣,其创造者和学术界也都会对其响应⼈类提示的⾮凡能⼒进⾏疯狂般的评论。它可以修复代码!它可以写⼀封推荐信!它能快速总结⼀篇⽂章!我是⼀名正在使⽤和教授此类模型的政治和数据科学家,从我的⻆度来看,学者们需要对LLM持谨慎态度。
最⼴受吹捧的LLMs是专有的和封闭的:由商业公司运营,不公开其基础模型,⽆法供他⼈独⽴检查或验证,研究⼈员和公众不知道这些模型是在哪些⽂件上训练的。急于将此类⼈⼯智能(AI)模型纳⼊研究是⼀个问题。它们的使⽤威胁着来之不易的研究伦理学进展和结果的可重复性。相反,研究⼈员需要通⼒合作,开发透明的、不依赖公司的开源LLM。诚然,专有模型很⽅便,“开箱即⽤”。
但是,当务之急是投资于开源的LLM,既要帮助建⽴它们,⼜要将它们⽤于研究。我很乐观地认为,它们将被⼴泛采⽤,就像开源统计软件⼀样,专有的统计程序在最初会很受欢迎,但如今社区⼤多使⽤的是R或Python等开源平台。⼀个开源的LLM,BLOOM,已于去年7⽉发布,其他建⽴开源LLM的努⼒也在进⾏中。这类项⽬很好,但我认为我们需要更多的合作,并汇集国际资源和专业知识。
开源的LLM的资⾦通常不如⼤公司充⾜。⽽且,他们还需要在奔跑中站稳脚跟:这个领域的发展如此之快,以⾄于LLM的⼀个版本在⼏周或⼏个⽉内就变得过时了。加⼊这些努⼒的学者,越多越好。⽽且,使⽤开源的LLM对可重复性⾄关重要。封闭式LLM的所有者可以在任何时候改变他们的产品或其训练数据——这可以改变科学研究的结果。
例如,⼀个研究⼩组可能会发表⼀篇论⽂,测试⼀个专有的LLM给出的建议是否能够帮助临床医⽣更有效地与病⼈沟通。如果另⼀个⼩组试图复制这项研究,他们不知道模型的基础训练数据是否相同,甚⾄该技术是否仍然得到⽀持。OpenAI的GPT-3已经被GPT-4所取代,⽀持早期版本的LLM将不再是该公司的主要优先事项。
相⽐之下,对于开源的LLM,研究⼈员可以查看模型的很多细节,以了解它是如何⼯作的,定制它的代码并标记错误。这些细节包括模型的可调整参数和它所训练的数据。社区的参与和监督有助于使这些模型⻓期保持稳定。此外,在科学研究中使⽤专有的LLM对研究伦理也有令⼈不安的影响。⽤于训练这些模型的⽂本是未知的:它们可能包括社交媒体平台上⽤户之间的直接消息,或由在法律上⽆法同意共享其数据的⼉童编写的内容。
尽管制作公开⽂本的⼈们可能已经同意了平台的服务条款,但这也许不是研究⼈员希望看到的知情同意标准。在我看来,科学家应尽可能在⾃⼰的⼯作中不再使⽤这些模型。我们应该转⽽使⽤开放的LLM,并尽⼒推⼴它们。此外,学者们,尤其是那些拥有⼤量社交媒体粉丝的学者,不应该告诉他⼈使⽤专有模型。如果价格飙升,或者公司倒闭,研究⼈员可能会后悔推⼴了那些让同事被困在昂贵合同中的技术。
⽬前,研究⼈员可以求助于私⼈组织制作的开放式LLM。例如,我和我的同事们正在使⽤Meta公司的开放式LLM OPT-175B。LLaMA和OPT-175B都是免费使⽤的。但从⻓远来看,这样做的坏处是使科学依赖于企业的“仁慈”,这是⼀个充满不稳定性的局面。因此,应该有与LLM合作的学术⾏为准则,以及监管。但这些都需要时间。我预计,这种规定最初会很笨拙,⽽且⽣效缓慢。
同时,⼤规模的合作项⽬迫切需要⽀持,为研究训练开源模型。政府应该通过拨款增加资⾦。该领域正在以闪电般的速度发展,现在需要开始协调国家和国际的努⼒。科学界最适合评估由此产⽣的模型的⻛险,且需要谨慎向公众推荐这些模型。但是很明显,开放的环境才是正确的。