The Annual Meeting of the Association for Computational Linguistics,ACL年会是计算语言学和自然语言处理领域的顶级国际会议之一,CCF A类会议。ACL年会由国际计算语言学学会主办,每年举办一届,ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,但因新冠肺炎疫情改为线上会议。ACL 2020共收到3429个投稿,是计算语言学领域首个投稿量超过3000的会议。Transactions of the Association for Computational Linguistics,简称 TACL,计算语言学领域顶级期刊,每月收稿一次,审稿人均为领域资深学者,由MIT出版社出版。清华大学人工智能研究院交互智能(CoAI)小组有三篇长文和一篇demo论文被ACL录用,两篇文章被TACL录用并将在ACL 2020展示。以下是论文简介:
标题:KNIVES: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation (ACL 2020 long)
作者:周昊,郑楚杰,黄凯莉,黄民烈,朱小燕
简介:由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。在本文中,我们提出了一个中文的多领域的知识驱动的对话数据集KNIVES (Knowledge-driven Conversation Dataset),其使用知识图谱为多轮对话中使用的知识进行标注。我们的语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。为了方便在这个数据集上的研究工作,我们提供了几个生成式和检索式的基准对话模型。实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。本文提出的数据集和基准模型将会公开供学术研究使用。
标题:Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition (ACL 2020 long)
作者:高信龙一,梁润泽,黄民烈
简介:近年来,许多研究都采用用户模拟器来获得大量的模拟用户体验,以满足强化学习算法在对话策略中的训练。然而,建模一个逼真的用户模拟器是具有挑战性的。为了避免构建用户模拟器,我们提出了多代理对话策略学习法MADPL,将系统和用户均视作对话代理。两个代理之间交互对话并联合学习。该方法基于行为者-批评者框架来促进预训练并提高可扩展性。我们还提出了混合价值网络HVN用于角色感知的奖励分解,以整合各代理在任务导向型对话中角色特定的领域知识。结果表明,我们的方法可以同时成功地构建一个系统策略和一个用户策略,两个代理通过合理的对话交互可以达成较高的任务成功率。
标题:A Self-Training Method for Machine Reading Comprehension with Soft Evidence Extraction (ACL 2020 long)
作者:牛艺霖,焦方锴,周曼桐,姚婷,许静芳,黄民烈
简介:基于神经网络的阅读理解模型大多由两个模块组成:证据抽取模块和答案预测模块。前者从参考文档中抽取和问题相关的内容,后者基于抽取出来的证据回答问题。证据标签对于训练证据抽取模块而言很重要,然而,在非抽取式阅读理解任务中,我们无法自动化地获取证据标签,并且人工标注费时费力。为了解决这个问题,我们提出了一种迭代式的自训练方法。在每一轮迭代中,首先用标准答案和上一轮生成的证据标签作为监督,训练阅读理解模型;然后使用该模型生成新的证据标签,并从中选出置信度较高的标签,作为下一轮迭代的监督信号。我们在三个阅读理解任务、共七个数据集上进行了实验,结果表明,在不同的阅读理解模型、任务设定下,使用自训练方法后,证据抽取性能和任务相关指标都有提升。
标题:ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and Diagnosing Dialogue Systems (ACL 2020 demo track, collaboration with MSR)
作者:朱祺,张正,方言,李响,高信龙一,李金超,彭宝霖,高剑锋,朱小燕,黄民烈
简介:为了便于研究人员用最新的模型轻松搭建对话系统,进行端到端评估,以及诊断系统的缺陷,我们开发了ConvLab-2开源工具包。作为ConvLab的后继者,ConvLab-2优化了接口和框架,集成了更新更强大的模型,支持多种数据集。除此之外,我们还开发了分析工具和交互工具。分析工具可用于从模拟的对话中提取丰富的统计信息,总结常见的错误,便于对系统进行错误分析和改进。交互工具将对话系统部署在后台,使其通过网页端的用户界面与真人交互,各个模块的输出均可实时查看和修改。ConvLab-2也将作为第九届 Dialog System Technology Challenge (Multi-domain Task-oriented Dialog Challenge II track) 使用的平台于开赛前公开。
标题:CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset (TACL)
作者:朱祺,黄凯莉,张正,朱小燕,黄民烈
简介:为了推动多领域(特别是跨领域)任务导向对话的研究和填补中文任务导向对话数据的空白,我们提出了CrossWOZ,第一个大规模跨领域中文任务导向对话数据集。数据集包含6K个对话,102K个句子,涉及5个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及3.2个领域,远超之前的多领域对话数据集。相比之前的多领域对话数据集,我们精心设计的用户目标使对话中领域之间的依赖性更强,领域切换更自然。数据集标注信息全面,提供了对话双方的对话意图和双方的对话状态,可以用于任务导向对话系统中各个任务的研究。为了便于对比和评估模型,我们提供了流水线式对话系统各个模块的基准模型以及用户模拟器。实验结果说明,跨领域的对话在多个任务上都具有挑战性。数据和代码已放出:https://github.com/thu-coai/CrossWOZ
标题:A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation (TACL)
作者:关健,黄斐,赵志浩,朱小燕,黄民烈
简介:故事生成,即根据给定的上文生成合理的故事,是一项重要但具有挑战性的任务。现有的神经语言生成模型(例如GPT-2)尽管在建模流畅性和局部连贯性方面取得了成功,但仍然会产生重复、逻辑冲突以及缺乏长距离连贯性的问题。这是由于这些生成模型难以关联相关常识、理解因果关系以及按适当的时间顺序来规划故事中的实体和事件。在本文中,我们为常识性故事生成设计了一个知识增强型的预训练模型,利用在外部知识库中常识知识上的后训练来生成合理的故事。进一步地,我们采用了多任务学习来捕获合理故事中句子之间的因果和时间依存关系,在微调过程同时训练语言模型及区分真假故事。自动和人工评估表明,与最好的生成模型相比,我们的模型可以在逻辑性和全局一致性上生成更合理的故事。代码:https://github.com/thu-coai/CommonsenseStoryGen