在无数次关于AI与人类能力的讨论中,创造力被很多人视为人类文明优势的最后一道护城河。在LMECC(Large Models Education & Correction Committee)发起的第四期关于大模型教育与校正的评估测试中,我们选了7个考验解决问题逻辑与创造力的场景,用以考察10个国内外主流大模型,能否在人们概念里“AI最不擅长”的领域,给人类一些灵魂暴击呢?
这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试。从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。
在考察创造力的维度上,我们设计了两个问题,一个是凝练语言创造成语以及合理编故事的能力;另一个是贴近生活的:为餐厅创造一个并不那么讨人喜欢的菜品。创造成语测试国内的大模型整体水平要整体高于国外,超过30%得票率的答案几乎清一色来自国内,其中又要数商汤和讯飞表现最为优越。
虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:教猫用抽水马桶。Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。
试想一下,AI将自己作为主体或客体,带入人类视角,面对不同的问题,能否发挥自己的想象力和创造力分析可能会发生的问题?解决问题并且脱离困境吗?这是对AI解决问题及创造力综合能力的考验。