CoAI

KdConv:多领域知识驱动的中文多轮对话数据集

  • 2020年11月22日 12:55

KdConv是一个中文的多领域的知识驱动的对话数据集。相比于之前的知识驱动的对话数据集,KdConv有三大特点:标注信息精细、知识交互全面、领域覆盖多样。它使用知识图谱为多轮对话中的每一句发言所使用的知识进行标注,这为知识驱动的对话建模提供了更细致的监督信号。它还包含了来自三个领域(电影、音乐和旅游)的4.5K个对话、86K个句子,这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。


由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。我们的语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。为了方便在这个数据集上的研究工作,我们提供了几个生成式和检索式的基线对话模型。实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。论文已被ACL2020 会议接收,KdConv数据集和基线模型将会公开供学术研究使用。

论文链接:https://arxiv.org/abs/2004.04100

数据和代码地址:https://github.com/thu-coai/KdConv


1605430403949906.png

KdConv的一个对话样例,下划线的文本是在对话中使用的相关知识。


相比于之前的知识驱动的对话数据集,KdConv有三大特点:

  1. 标注信息精细。KdConv 除了提供对话相关的知识图谱信息外,还为数据集中每一句对话标注了其相关的知识三元组信息,这种句子级的知识标注可以为知识驱动的对话生成任务提供细致的监督信号,而且可以在对话历史中进行知识规划的建模。

  2. 知识交互全面。KdConv 提供了包含结构化的知识图谱以及非结构化的长文本作为背景知识的全面的知识来源,同时由于在构造对话的过程中,没有指定任何目标约束,使得对话中的知识交互方式包含问答、讨论、迁移等全面的交互方式。

  3. 领域覆盖多样。KdConv 提供了包含电影、音乐和旅游三种领域的知识驱动的对话数据,结果显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。

 

数据收集过程


收集数据时模拟的对话场景是两名用户讨论某一个领域的话题,通过对话的形式丰富双方的知识,具体包含以下两个步骤:

  1. 知识图谱构建:由于知识图谱的稀疏性和庞大的数据规模难以处理,我们通过从几个领域相关的网站上抓取最受欢迎的电影和电影明星、音乐和歌手、景点作为起始实体,缩小了特定领域知识的范围。过滤掉知识三元组较少的起始实体后,电影/音乐/旅游领域分别包含559/421/476个起始实体。给定起始实体作为种子,我们从XLORE(一个大规模的英汉双语知识图谱)中检索出它们的邻居实体。我们将起始实体和这些检索到的实体和关系合并成特定领域知识图谱。构建KdConv时使用的知识图谱的统计结果见下表。


    1605430409633302.png

    知识图谱统计信息

  2. 对话数据收集:我们通过众包的方式招募标注者来生成与特定领域知识图谱相关的多轮对话。在对话过程中,没有任何预设目标或约束,两个对话者都可以访问知识图谱。允许两个参与者访问知识,在我们的语料库中,双方可以动态地改变角色,作为领导者或跟随者,这对人类对话来说更自然、更真实。除了制作对话语料之外,如果标注者根据某些语料库生成的语料,还要求标注者记录相关的知识三元组。为了保证生成的对话的自然性,我们过滤掉了低质量的对话,其中包含语法错误、知识事实的不一致等低质量的对话。

 


数据统计


KdConv数据集相关的知识图谱与对话的数据统计信息如下表所示。

1605430415100004.png

KdConv 数据集统计信息

 

基线模型


由于精细的标注信息,全面的知识交互,多样的领域覆盖, KdConv数据集可用于多种对话任务的研究。我们提供了基于检索式和生成式的基线对话模型性能,实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。

1605430424359429.png

自动评价指标。生成模型和检索模型的最佳结果分别用黑体下划线表示。"+know "指的是引入知识图谱的模型。