AI与人类创造力的较量

在无数次关于AI与人类能力的讨论中，创造力被很多人视为人类文明优势的最后一道护城河。在LMECC（Large Models Education & Correction Committee）发起的第四期关于大模型教育与校正的评估测试中，我们选了7个考验解决问题逻辑与创造力的场景，用以考察10个国内外主流大模型，能否在人们概念里“AI最不擅长”的领域，给人类一些灵魂暴击呢？

这期我们测试的是大模型“大模型逻辑与创造能力”，也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。我们采纳了网友的建议，隐藏了大模型的名字，做了一次双盲测试。从投票的结果来看，或许人们的“大模型刻板印象”对于结果的影响，并不如大家想象中那么大。

在考察创造力的维度上，我们设计了两个问题，一个是凝练语言创造成语以及合理编故事的能力；另一个是贴近生活的：为餐厅创造一个并不那么讨人喜欢的菜品。创造成语测试国内的大模型整体水平要整体高于国外，超过30%得票率的答案几乎清一色来自国内，其中又要数商汤和讯飞表现最为优越。

虽然每期我们给大模型抛出的待解决问题都挺离谱的，但这次我们是基于对于大模型解决问题能力的考量，提出一个确实困扰很多人并试图尝试解决的真正存在的（离谱）问题：教猫用抽水马桶。Claude和Chatgpt4的确是解决问题的好手，即使在双盲且随机答案的测试中，这两个大模型的回答，也能获得超过50%的票数。

试想一下，AI将自己作为主体或客体，带入人类视角，面对不同的问题，能否发挥自己的想象力和创造力分析可能会发生的问题？解决问题并且脱离困境吗？这是对AI解决问题及创造力综合能力的考验。