近年来,随着人工智能技术的不断发展,通用人工智能(AGI)已经成为全球关注的焦点。通用人工智能的未来形态将是“智商”与“情商”的结合,既能解决复杂任务,又能提供情绪价值。近期,OpenAI和Google分别发布了GPT-4o和Gemini Live模型,智谱AI的GLM-4-Plus也在上周的KDD 2024上正式亮相,均体现出了人机交互的全新趋势。
目前,国内外针对大模型的主流评测,如MMLU、GSM8K等,多聚焦于评测大模型的“智商”类问题,考察大模型解决各类复杂任务的能力。与之相对,对于大模型的“情商”评测仍是空白,亟需建立相关基准。为此,SuperBench团队于2024年7月推出了社交智能评测基准,以衡量大语言模型在社会情境中感知人类认知过程和心理状态的能力。近期,我们发布了《SuperBench大模型社交智能评测报告》。
在此评测中,我们选取了14个海内外具有代表性的模型进行评测。社交智能评测主要衡量个体在社交环境中的认知、情感以及行为表现能力,这些能力通常涉及到理解、交流、适应和解决人际互动中的问题。本次评测主要衡量大语言模型的心智(Theory-of-Mind)和情商(Emotional Intelligence)水平,使用ToMBench和EmoBench作为评测集。
评测结果显示,国际一流模型GPT-4o、Claude3.5 Sonnet和Llama-3.1-405B-Instruct 依然处于领先地位,在心智任务和心智能力的评测中均包揽前三;国内模型中GLM-4-Plus、moonshot-v1-8k和DeepSeek-V2在两个维度的评测中均排名国内前三,但是对比国外模型仍有一定差距。
在情商能力评测中,GPT-4o和Claude3.5 Sonnet在情绪理解维度仍然领先国内模型,而Llama-3.1-405B-Instruct则被国内模型反超。
总结本次社交智能评测综合结果如下:根据评测结果,我们得出以下几个主要结论:整体来说,GPT-4o、Claude3.5 Sonnet和Llama-3.1-405B-Instruct等国际一流模型在社交智能专题评测中依然领先国内模型,包揽了前三名。国内模型GLM-4-Plus总排名第四,国内排名第一,在国内模型中表现较为均衡。
国内模型中,GLM-4-Plus、DeepSeek-V2和moonshot-v1-8k排名Top3,其中,GLM-4-Plus获得了ToMBench两项评测的国内榜首;DeepSeek-V2在EmoBench-情绪理解维度获得了总榜第三,国内第一的好成绩;国内其他模型中,Baichuan 4在EmoBench-情绪应用评测中获得国内第一名。