虽然ChatGPT似乎让人类正在接近重新创造智慧,但迄今为止,我们从来就没有完全理解智能是什么,不论自然的还是人工的。认识智慧的原理显然很有必要,如何理解大语言模型的智力?OpenAI给出的解决方案是:问问GPT-4是怎么说的。5月9日,OpenAI发布了最新研究,其使用GPT-4自动进行大语言模型中神经元行为的解释,获得了很多有趣的结果。
可解释性研究的一种简单方法是首先了解AI模型各个组件(神经元和注意力头)在做什么。传统的方是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。
所以OpenAI提出了一种自动化方法——使用GPT-4来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元——此处他们选择了GPT-2为实验样本,并公开了这些GPT-2神经元解释和分数的数据集。
这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性这个定量概念:它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性,我们现在可以衡量理解神经网络计算目标的进展了。OpenAI表示,利用他们设立的基准,用AI解释AI的分数能达到接近于人类的水平。OpenAI联合创始人Greg Brockman也表示,我们迈出了使用AI进行自动化对齐研究的重要一步。
具体方法使用AI解释AI的方法包括在每个神经元上运行三个步骤:步骤一:用GPT-4生成解释。给定一个GPT-2神经元,通过向GPT-4展示相关文本序列和激活来生成对其行为的解释。步骤二:使用GPT-4进行模拟。再次使用GPT-4,模拟被解释的神经元会做什么。步骤三:对比。根据模拟激活与真实激活的匹配程度对解释进行评分。
主要发现使用自己的评分方法,OpenAI开始衡量他们的技术对网络不同部分的效果,并尝试针对目前解释不清楚的部分改进技术。例如,他们的技术对较大的模型效果不佳,可能是因为后面的层更难解释。OpenAI表示,虽然他们的绝大多数解释得分不高,但他们相信自己现在可以使用ML技术来进一步提高他们产生解释的能力。
OpenAI希望随着解释的改进,他们可能会迅速发现对模型计算的有趣的定性理解。目前,该方法还存在一些局限性,OpenAI希望在未来的工作中可以解决这些问题:该方法专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,因而用简洁地语言无法描述;OpenAI希望最终自动找到并解释整个神经回路实现复杂的行为,神经元和注意力头一起工作。