CoAI

清华CoAI课题组近期论文速递

  • 2020年11月15日 17:35

清华大学计算机系对话交互式人工智能课题组(CoAI)隶属于清华大学人工智能研究的知识智能研究中心、智能信息获取研究中心。CoAI小组的研究兴趣主要集中在对话系统、语言生成、泛问答、常识推理等自然语言处理方向。近期,课题组的相关研究成果被自然语言处理领域的国际会议EMNLP 2020、AACL 2020 接收。其中,EMNLP是计算语言学和自然语言处理领域的顶级国际会议,AACL是亚洲ACL分会,2020年是第一届。


标题:SentiLARE: Sentiment-aware LAnguage REpresentation Learning with Linguistic Knowledge

作者:柯沛,计昊哲,柳思杨,黄民烈,朱小燕

关键词:情感分析,语言学知识,预训练语言模型

类型:EMNLP 2020, Long Paper

论文地址:https://arxiv.org/abs/1911.02493

GitHub:https://github.com/thu-coai/SentiLARE

简介:现有的多数预训练语言模型均没有考虑使用语言学知识,而已有工作表明,有效利用语言学知识可以提升模型在自然语言理解任务(例如情感分析)上的性能。本工作将词级别的语言学知识(包括词性和词的情感极性)引入预训练语言模型中,提出了一种适用于情感分析任务的语言表示模型SentiLARE。该模型主要包含两个模块:1) 知识获取:通过上下文感知的情感注意力机制从SentiWordNet上获取词的情感极性;2) 知识融合:以标签感知的掩码语言模型作为预训练任务来构建知识增强的预训练语言模型。实验表明SentiLARE在各类情感分析任务上均能取得当前最佳性能。


标题:Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph

作者:计昊哲,柯沛,黄绍晗,韦福如,黄民烈,朱小燕

关键词:语言生成,常识推理

类型:EMNLP2020, Long Paper

论文地址:https://arxiv.org/abs/2009.11692

GitHub: https://github.com/cdjhz/multigen

简介:生成式预训练语言模型在常识推理相关的文本生成任务中仍难以很好地利用基础知识生成合理的文本。现有的常识融合的预训练语言模型仅通过在独立的知识三元组上后训练来学习知识库中的关系知识,而忽略了知识图谱的结构化信息。本文提出了GRF模型,在每一步解码时刻模型在图谱的多关系路径上进行动态多跳推理,并选择拷贝关键实体用于生成。我们在常识解释生成、归因常识推理、故事结局生成三个文本生成任务上进行了实验,自动指标和人工评测均表明我们的模型优于现有的基线模型。(注:与微软亚洲研究院合作)


标题:UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation

作者:关健,黄民烈

关键词:开放端语言生成评价,自监督学习

类型:EMNLP 2020, Long paper

论文地址:https://arxiv.org/abs/2009.07602

GitHub:https://github.com/thu-coai/UNION

简介:尽管现有的有参考指标(如BLEU和MoverScore)已经在机器翻译评价等任务上有较好的表现,但是对于开放端语言生成评价(如故事生成、对话生成)等具有一对多特性的任务, 这些指标仍然与人工评价有较低的相关性。其中,一对多是指,对于同一个输入,有许多种合理的输出,这些输出在字面和语义上可能有较大差异,因此有限的参考文本难以完全覆盖这些输出。为了缓解这个问题,我们为开放端故事生成评价提出了一个可学习的无参考指标UNION (UNreferenced metrIc for evaluating Open-eNded story evaluation),可以不需要任何参考文本即可对生成故事的质量进行评价。UNION建立在BERT的基础上,通过微调来区分人撰写的故事和负样本,同时恢复负样本中的扰动。我们通过模仿在现有的语言生成模型中常被观察到的错误来构建这些负样本,包括重复、矛盾、上下文不一致等。在两个故事数据集上的实验表明,UNION在评价生成故事的质量上是一个更可靠的评价指标,与人工评价有更好的相关性,同时也比现有的SOTA评价指标更好的泛化性。


标题:Dialogue Distillation: Open-domain Dialogue Augmentation Using Unpaired Data

作者:张荣升,郑银河(共同第一作者),邵建智,毛晓曦,席亚东,黄民烈

关键词:对话系统,数据增广,模型蒸馏

类型:EMNLP 2020, Long Paper

论文地址:https://arxiv.org/abs/2009.09427

GitHub: https://github.com/njuzrs/dialogue_distillation

简介:目前开放领域对话模型的训练过程极大地依赖于大规模对话数据,但是,收集高质量的对话数据是非常消耗人力和物力的事情。本文中,我们提出了一个可适用于开放领域对话的数据增广的方法:“对话蒸馏”。我们的方法中使用了非平行数据来增广对话对。具体来说,我们首先设计了一个数据层面的蒸馏过程,在这一过程中,我们根据现有的对话对,在非配对数据中检索相似的句子,从而组成增广后的对话对。我们还提出了一个模型层面的蒸馏过程,这一过程中我们首先使用少量高质量的对话数据训练得到了一个Teacher模型,然后再基于增广后的数据,将这一teacher模型蒸馏到一个student模型中。自动和人工评测均表明,我们的方法可以生成高质量的增广数据,并且我们所提出的对话蒸馏方法可以进一步帮我们提升开放领域对话模型的性能。(注:与网易伏羲实验室合作)


标题:Difference-aware Knowledge Selection for Knowledge-grounded Conversation Generation

作者:郑楚杰,曹云波,姜大昕,黄民烈

关键词:对话生成,知识选择

类型:Findings of EMNLP, Long Paper

论文地址:https://arxiv.org/abs/2009.09378

GitHub: https://github.com/chujiezheng/DiffKS

简介:在基于知识的多轮对话生成任务中,现有的知识选择模型往往忽略了不同轮次所选知识之间的关联。在本文中,我们提出了知识选择模型DiffKS,其显式建模并利用多轮对话所选知识之间的差异信息以促进知识选择。我们进一步设计了两种模型变体,其中差异信息与上下文信息彼此融合或相互解耦。我们在Wizard of Wikipedia和Holl-E两个基准数据集上进行评估,自动评价、人工观测评价和交互评价的结果均表明,DiffKS在知识选择和对话生成方面均显著优于现有的知识选择模型。(注:与腾讯、微软工程院合作)


标题:Continual Learning for Natural Language Generation in Task-oriented Dialog Systems

作者:糜飞,陈良玮,赵梦杰,黄民烈,Boi Faltings

关键词:自然语言生成,连续学习

类型:Findings of EMNLP, Long Paper

简介:现有的自然语言生成模型多数是针对限定领域的离线模型。为了更好的反应现实应用场景,本文提出了连续学习的自然语言生成框架。为了解决其中关键的灾难性遗忘问题,我们提出了一个名为ARPER (Adaptively Regularized Prioritized Exemplar Replay) 的模型。ARPER包括了:(1) 具有优先级的样本回放;(2) 基于EWC的动态的正则项。我们在MultiWoZ-2.0数据集上对自然语言生成任务的灾难性的遗忘问题进行了诊断,并对ARPER和多种连续学习的方法进行了全面评估。结果表明ARPER对于自然语言生成的连续学习任务显著优于现有方法,并且更好的防止灾难性遗忘问题。(注:第一作者为EPFL博士生)


标题:Robustness to Modification with Shared Words in Paraphrase Identification

作者:施舟行,黄民烈

关键词:模型鲁棒性,对抗样本

类型:Findings of EMNLP, Short paper

论文地址:https://arxiv.org/abs/1909.02560

简介:自然语言处理模型的鲁棒性对模型在特殊或困难输入上的表现有重要意义。本文从一个新的视角研究同义复述模型的鲁棒性缺陷。对于一个原始样本句子对,我们替换其中一些两个句子的共有词,或是引入新的共有词,由此构建令模型预测出错的合法新样本。我们设计规则限制可修改位置,利用BERT masked language model为指定位置生成替换词,并使用beam search找到替换方案。常规模型在经修改的样本上准确率大幅下降,这揭示了模型面对共有词修改时存在鲁棒性缺陷。我们也使用了对抗训练减轻这一缺陷。


标题:Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness

作者:张正,廖黎姿,朱小燕,蔡达成,刘子韬,黄琰,黄民烈

类型:AACL 2020, Long Paper

关键词:任务导向对话,对话策略,非合作式对话,强化学习

论文地址:https://arxiv.org/abs/2004.09731

简介:任务导向对话领域现有的大部分策略学习方法都是基于强化学习,专注于系统策略的训练,简单地将用户策略当作环境的一部分。然而在现实世界中,对手的策略往往可以被推测出来并加以利用,以辅助系统决策。在人类活动中,这种行为很常见。基于这种行为,我们提出了一种考虑对手行为的对话策略学习框架。在这个框架中,我们首先估计对手的策略,然后将这些策略视作系统策略的一部分,辅助系统策略进行决策。我们的方法在合作式和非合作式对话任务上都取得了不错的结果。(注:与好未来、新加坡国立合作)


标题:Generating Commonsense Explanation by Extracting Bridge Concepts from Reasoning Paths

作者:计昊哲,柯沛,黄绍晗,韦福如,黄民烈

关键词:解释生成,常识推理

类型:AACL 2020, Long Paper

论文地址:https://arxiv.org/abs/2009.11753

GitHub: https://github.com/cdjhz/CommExpGen

简介:常识解释生成任务旨在考察模型针对反常识陈述生成合理解释的能力。尽管这项任务对人类来说难度不大,但机器仍然难以生成合理且具有信息量的解释。本工作提出了一个两阶段的方法,首先根据输入陈述从图谱上抽取出实体,然后结合实体生成最终的解释。我们建立的实体抽取模型在 ConceptNet 中提取的路径上进行显式推理,通过对三元组评分并在路径上传播节点分数,最后抽取出相关实体用于解释生成。我们在常识解释生成任务上进行了实验,我们的模型在自动评估和人工评估方面都优于现有的基线模型。(注:与微软亚洲研究院合作)