9⽉14⽇发表的⼀项研究指出,⼤型语⾔模型(LLM)⼈⼯智能(AI)对话机器⼈在创造性思维任务上能够超越⼤部分⼈类。该任务要求受试者想出⽇常⽤品的替代⽤途,这是发散性思维的⼀个例⼦。不过,得分最⾼的⼈类受试者依然能超过对话机器⼈的最佳答案。发散性思维通常是指与创造性相关的⼀类思维过程,需要为特定任务想出各种不同创意或对策。
发散性思维⼀般通过替代⽤途任务(AUT)进⾏评估,受试者被要求在短时间内想出某个⽇常⽤品的其他⽤途,越多越好。受试者的回答从4个类别进⾏打分:流利度、灵活性、原创性和精细度。
在这项研究中,ChatGPT3、ChatGPT4和Copy.Ai完成了4个物品,即绳⼦、盒⼦、铅笔、蜡烛的AUT,芬兰图尔库⼤学的Mika Koivisto和挪威卑尔根⼤学的Simone Grassini随后将其与⼈类的答案进⾏了⽐较。研究⼈员根据语义距离即回答与物品原始⽤途的相关度,和创造性回答的原创性打分。
他们⽤⼀个计算⽅法在0~2的范围⾥量化语义距离,同时让不知道作答者身份的⼈类打分者在1~5的范围⾥客观评价创造性。平均⽽⾔,对话机器⼈的回答在语义距离(0.95相对于0.91)和创造性(2.91相对于2.47)的得分上显著⾼于⼈类的回答。⼈类回答在这两项的得分差距更⼤——最低分远低于AI的回答,但最⾼分普遍⽐AI⾼。最佳⼈类回答在8个评分项中的7项都超过了所有对话机器⼈的最佳回答。
这项研究结果表明,当前AI对话机器⼈的创意能⼒已与⼈类相当。但作者也指出,他们只评价了涉及创造性评估的单项任务的表现。作者认为,今后的研究或探索如何将AI融⼊创造性过程来提升⼈类表现。