清华系大模型公司聆心智能发布CharacterGLM:玩转AI角色扮演,6B模型已开源

来源: 学术头条

发布日期: 2023-09-26 11:21:37

聆心智能团队开发了CharacterGLM,这是一个用于定制角色进行对话交互的AI模型,具有6B、12B和66B的参数量,并已开源6B模型。该模型在多个性能测试中表现优异,特别是在访谈场景下显著优于竞争对手。

为了实现千人千面的社交对象的可定制化,聆心智能团队开发了用于定制角色进行对话交互的CharacterGLM。CharacterGLM以ChatGLM模型为底座,具有6B、12B和66B的参数量。聆心智能团队表示,他们将对社会开放12B和66B模型的API访问,并将CharacterGLM-6B模型进行开源,从而促进AI角色扮演及AI在心理学中的应用。

此外,团队也将于近期发布技术报告,披露更多CharacterGLM模型细节,供学术界以及工业界研究使用。

开源地址:https://huggingface.co/LingxinAI/CharacterGLM-6b API调用地址:CharacterGLM API: https://bigmodel.cn/dev/api#characterglm 性能评估据介绍,聆心智能团队采用了人工交互的方式评测CharacterGLM与业界最强的竞争对手(以下简称JP)的性能。

他们定制了数十个角色,它们的类型分布于名人类、生活类、游戏影音类和虚拟恋爱类,并要求标注者与每个角色至少交互20轮,每轮对话由两个模型生成回复。标注者选择胜出的回复继续展开对话,若回复偏好相同则随机选择。然后,他们按角色类别统计两个模型的win/tie/lose比率。结果如表1所示,CharacterGLM在大多数类别上的表现均优于JP。

为了衡量CharacterGLM在不同话题下的表现,他们进一步将对话话题限定在常见的闲聊、访谈和恋爱场景下进行交互测试,评测方式与上面相同,结果如表2所示,CharacterGLM在闲聊和恋爱场景下与JP持平,但在访谈场景下显著优于JP。长程的对话交互是用户对模型的情绪依赖程度的直接体现,这就要求模型具有良好的建模长程对话的能力。

为此,团队进一步分析了CharacterGLM在不同轮次范围内的角色表现,结果如表3所示,CharacterGLM在对话的前期略次于JP,但随着对话的推进,CharacterGLM的优势则逐渐凸显。交互样例下面展示了从交互测评数据中采样的名人类、生活类、游戏影音类和虚拟恋爱类角色的交互样例。名人类角色注:JP竞争产品诱导出了指令对话的格式,完全不像是拟人对话的过程,缺少对话的自然性。

生活类角色注:JP竞争产品倾向于做出附和、通用化的回复,信息量不足,拟人化程度较低。游戏影音类角色注:JP竞争产品没有主动推动剧情发展的意识,难以引起用户的兴趣。虚拟恋爱类角色注:JP竞争产品在恋爱场景中表现出“低情商、直白”的特性,难以满足该场景下的用户期待。

UUID: 967adbb0-9a52-4acc-aa63-27223af619fb

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-26_清华系大模型公司聆心智能发布CharacterGLM:玩转AI角色扮演,6B模型已开源.txt

是否为广告: 否

处理费用: 0.0031 元