研究领域概述
任务导向型对话系统(下简称任务型系统)旨在通过对话交互的形式,有效率地帮助用户完成一些特定的任务,譬如预约餐馆、查询天气、预订机票、推荐音乐。现实中常见的一些应用例如 Amazon Alexa,Apple Siri,Google Assistant。
通常而言,一个完整的任务型系统包括自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块,其中对话管理又包含对话状态追踪(DST)、对话策略(DP)两个模块。语言理解接受用户语句并实现两个功能,一是意图识别,二是语义槽填充;对话管理记录当前的对话状态并决定下一步采取什么策略;语言生成则生成最后的文本回复给用户。
此外,任务型系统需要结合知识领域和后端的数据库或应用接口链接以完成具体操作。近年来,也有一些端到端(E2E)模型的研究尝试通过一个单一模型搭建任务型系统。
我们的工作
System-wise Evaluation (SIGDIAL 2020, Best paper)
近年来,任务导向型对话系统引起许多研究者的关注,各个模块均有大量的新算法和模型被提出。
然而,大部分工作忽视了去评价一个完整的对话系统的性能。这些新算法基本只在相应模块内进行比较验证,而没有评估该算法嵌入一个对话系统中的表现。如下图所示,根据细粒度和具体模型不同,各个模块和模型之间可以有多种拼接方式组成一个对话系统。
此外,模块内的评价基本只是在单论对话的设定下进行,而一个完整的对话应当由系统和用户进行多轮交互达成的。如下图所示,面对一个长度为5轮次的对话,系统A和系统B都有80%的回复成功率。但显然系统A的表现更差,因为第一轮就预测错误的话,之后的预测得再正确都失去了意义。
故我们在本工作中尝试比较不同模块、不同细粒度、不同配置下各个目标导向型对话系统,以作系统级的性能评估。搭建完的对话系统通过与模拟用户或真实用户进行多轮对话交互,并使用对话级别的评价指标进行实验。
模拟评测实验表明,总体上流水线系统(1-4)比联合系统(5-14)和端到端系统(15-16)有着更好的系统性能,这是因为流水线系统利用到了更细的监督信号,同时也说明了其余系统目前技术上的缺陷。
人工评测结果显示模拟评测和真人评测之间有着适中的相关程度,一定程度上说明了模拟评测作为对话系统自动评测指标的合理性。更多的实验设定及实验结果可参考原论文:https://arxiv.org/abs/2005.07362。
ConvLab (ACL 2019 demo, Best demo paper nominee),ConvLab-2 (ACL 2020 demo)
详见平台工具。
CoAI论文列表
Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness
AACL 2020
Zheng Zhang, Lizi Liao, Xiaoyan Zhu, Tat-Seng Chua, Zitao Liu, Yan Huang, Minlie Huang
Continual Learning for Natural Language Generation in Task-oriented Dialog Systems
Findings of EMNLP (Long Paper)
Fei Mi, Liangwei Chen, Mengjie Zhao, Minlie Huang, Boi Faltings
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition
ACL 2020
Ryuichi Takanobu, Runze Liang, Minlie Huang
ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and Diagnosing Dialogue Systems
ACL 2020 (Demo Paper)
Qi Zhu, Zheng Zhang, Yan Fang, Xiang Li, Ryuichi Takanobu, Jinchao Li, Baolin Peng, Jianfeng Gao, Xiaoyan Zhu, Minlie Huang
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation
SIGDIAL 2020 (Best Paper)
Ryuichi Takanobu, Qi Zhu, Jinchao Li, Baolin Peng, Jianfeng Gao, Minlie Huang
CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset
TACL 2020
Qi Zhu, Kaili Huang, Zheng Zhang, Xiaoyan Zhu, Minlie Huang
Guided Dialog Policy Learning: Reward Estimation for Multi-Domain Task-Oriented Dialog
EMNLP 2019
Ryuichi Takanobu, Hanlin Zhu, Minlie Huang
ConvLab: Multi-Domain End-to-End Dialog System Platform
ACL 2019 (Best Demo Paper Nomination)
Sungjin Lee, Qi Zhu, Ryuichi Takanobu, Xiang Li, Yaoqin Zhang, Zheng Zhang, Jinchao Li, Baolin Peng, Xiujun Li, Minlie Huang, Jianfeng Gao
Meta-Learning for Low-resource Natural Language Generation in Task-oriented Dialogue Systems
IJCAI 2019
Fei Mi, Minlie Huang, Jiyong Zhang, Boi Faltings
Neural Multimodal Belief Tracker with Adaptive Attention for Dialogue Systems
WWW 2019
Zheng Zhang, Lizi Liao, Minlie Huang, Xiaoyan Zhu, Tat-Seng Chua
Memory-augmented Dialogue Management for Task-oriented Dialogue Systems
TOIS 2019, 37(3): 1-30
Zheng Zhang, Minlie Huang, Zhongzhou Zhao, Feng Ji, Haiqing Chen, Xiaoyan Zhu
A Weakly Supervised Method for Topic Segmentation and Labeling in Goal-oriented Dialogues via Reinforcement Learning
IJCAI-ECAI 2018
Ryuichi Takanobu, Minlie Huang, Zhongzhou Zhao, Fenglin Li, Haiqing Chen, Liqiang Nie, Xiaoyan Zhu