CoAI

任务导向型对话系统

  • 2020年11月20日 20:16

研究领域概述

任务导向型对话系统(下简称任务型系统)旨在通过对话交互的形式,有效率地帮助用户完成一些特定的任务,譬如预约餐馆、查询天气、预订机票、推荐音乐。现实中常见的一些应用例如 Amazon AlexaApple SiriGoogle Assistant

通常而言,一个完整的任务型系统包括自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块,其中对话管理又包含对话状态追踪(DST)、对话策略(DP)两个模块。语言理解接受用户语句并实现两个功能,一是意图识别,二是语义槽填充;对话管理记录当前的对话状态并决定下一步采取什么策略;语言生成则生成最后的文本回复给用户。

此外,任务型系统需要结合知识领域和后端的数据库或应用接口链接以完成具体操作。近年来,也有一些端到端(E2E)模型的研究尝试通过一个单一模型搭建任务型系统。

我们的工作

System-wise Evaluation (SIGDIAL 2020, Best paper)

近年来,任务导向型对话系统引起许多研究者的关注,各个模块均有大量的新算法和模型被提出。

然而,大部分工作忽视了去评价一个完整的对话系统的性能。这些新算法基本只在相应模块内进行比较验证,而没有评估该算法嵌入一个对话系统中的表现。如下图所示,根据细粒度和具体模型不同,各个模块和模型之间可以有多种拼接方式组成一个对话系统。

image.png

此外,模块内的评价基本只是在单论对话的设定下进行,而一个完整的对话应当由系统和用户进行多轮交互达成的。如下图所示,面对一个长度为5轮次的对话,系统A和系统B都有80%的回复成功率。但显然系统A的表现更差,因为第一轮就预测错误的话,之后的预测得再正确都失去了意义。

image.png

故我们在本工作中尝试比较不同模块、不同细粒度、不同配置下各个目标导向型对话系统,以作系统级的性能评估。搭建完的对话系统通过与模拟用户或真实用户进行多轮对话交互,并使用对话级别的评价指标进行实验。

image.png

模拟评测实验表明,总体上流水线系统(1-4)比联合系统(5-14)和端到端系统(15-16)有着更好的系统性能,这是因为流水线系统利用到了更细的监督信号,同时也说明了其余系统目前技术上的缺陷。

image.png

人工评测结果显示模拟评测和真人评测之间有着适中的相关程度,一定程度上说明了模拟评测作为对话系统自动评测指标的合理性。

更多的实验设定及实验结果可参考原论文:https://arxiv.org/abs/2005.07362

ConvLab (ACL 2019 demo, Best demo paper nominee)ConvLab-2 (ACL 2020 demo)

详见平台工具