在人类的进化史中,制作和使用工具是关键的转折点。如今,在Google Deepmind等最新的研究中,大语言模型也具备了相似的能力,进化成了工具制作者。我们知道,大语言模型(LLM)在广泛的NLP任务中已经表现出卓越的能力,甚至展现出能够实现通用人工智能某些方面的良好迹象。此外,与人类的智能进化类似,LLM在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。
需要注意的是,这些工具使用方法的适用性很大程度上取决于是否有合适的工具。从人类进化的里程碑可以发现,人类进化的关键转折点是人类有能力制造工具来解决出现的困难。
受到制造工具对人类重要性的启发,在本文中,Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于LLM领域,进行了初步探索。
他们提出了一个闭环框架,在这个框架中LLM作为工具制作者(LLMs As Tool Makers,LATM),使其能够生成自己的可重新使用的工具来处理新任务。该方法包括两个关键阶段:工具制作和工具使用。两阶段设计允许LATM在每个阶段将作业分配给最合适的LLM。一方面,需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型(例如GPT-4)。
另一方面,相对简单的使用工具过程,可以分配给轻量、经济高效的模型(例如GPT-3.5 Turbo)。这种设计不仅增强了LLM解决问题的能力,并能够显著降低处理一系列任务的平均计算成本。
由于工具制作过程只需要对给定的功能执行一次,因此生成的工具可以在不同的任务实例中反复使用。这种设计为处理复杂任务开拓了可扩展、成本高效的解决方案。
例如,假设一个任务,用户要求LLM安排一个适合每个人的会议(例如在电子邮件对话中)。涉及复杂算术推理的任务对于像GPT-3.5 Turbo这样的轻量级模型来说是艰巨的挑战。相比之下,更强大的模型(例如GPT-4)虽然推理成本要高得多,但是能够找到正确的解决方案。LATM能够克服这种困难,是因为它将强大但昂贵的模型当作工具制作者,并将工具传递给工具使用者——经济型模型进行使用。
工具制作完成后,轻量级工具使用者可以用它来高效、高性能地解决任务。
本文的实验能够验证这种方法在复杂的推理任务上(包括几个具有挑战性的Big-Bench任务)的有效性。结果表明,LATM可以达到与资源密集型模型相当的性能,同时具有更高的成本效益。这种新颖的LLM方法,模仿了人类在创建和使用工具方面的进化飞跃,为开辟使用LLM生成的工具的社区提供了无限可能。