这篇顶会文章,助你徒手搭建任务导向对话系统

作者: AITimer-鸽鸽

来源: AI TIME 论道

发布日期: 2020-07-23

本文介绍了清华大学朱祺团队开发的CrossWOZ数据集和ConvLab-2对话平台,这两个工具为任务导向对话系统的研究和开发提供了重要的资源和平台。CrossWOZ是第一个中文大规模任务导向对话数据集,而ConvLab-2则是一个支持最新模型搭建、评估和诊断对话系统的开源工具包。

近年来,任务导向对话受到了越来越多的关注,涌现出许多数据集和基于神经网络的模型。为了推动多领域对话的研究和填补中文数据的空白,朱祺及其团队提出了CrossWOZ,第一个中文大规模任务导向对话数据集,文章发表于TACL 2020。

此外,为了对多种形式构建的对话系统进行统一端到端评测,开发了ConvLab-2对话平台,支持用最新的模型快速搭建、评估、诊断对话系统,被ACL 2020 demo track接收。特别提醒:ConvLab-2和CrossWOZ将被用于今年DSTC9比赛呢!

一个典型的基于管道方法的任务导向对话系统由四个模块组成:自然语言理解(NLU):对来自用户的自然语言描述进行识别,解析成结构化的信息;对话状态追踪(DST):更新当前对话的状态,和背后数据库或知识库进行交互,查询满足用户条件的实体;对话策略(DP):根据当前对话状态,选择下一步系统需要回复的结构化信息;自然语言生成(NLG):将接收的结构化信息转换成自然语言,并反馈给用户。

CrossWOZ数据集具有中文特性,且涉及领域较多,平均每轮对话涉及3个领域。且对话轮次较长,每个槽位(slot)可能的取值也较多,这意味着对分类器的挑战更大。此外,挑战域间依赖性。CrossWOZ跨领域的约束更加自然,是一个在对话开始后动态决定的过程,系统推荐和用户选择都会动态地影响不同领域的数据流。最后,标注信息丰富。

该语料库在用户端和系统端为对话状态和对话行为进行了丰富的注释,为研究跨领域对话建模,比如对话状态跟踪、策略学习等提供了一个新的实验平台。

ConvLab-2继承了ConvLab的框架,但集成了更强大的对话模型并支持更多的数据集。此外,朱祺的团队还开发了一个分析工具和一个交互工具来帮助研究人员诊断对话系统。分析工具提供了丰富的统计数据和图表展示,并对模拟数据中的常见错误进行汇总,便于错误分析和系统改进。交互工具提供了一个用户模拟器界面,允许开发人员通过与系统交互并修改系统组件的输出来诊断组装好的对话系统。

UUID: 3ea3c5f0-c116-47eb-ba6f-16804d4c1c72

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2020年-下/2020-07-23_这篇顶会文章,助你徒手搭建任务导向对话系统.txt

是否为广告: 否

处理费用: 0.0046 元