个人简介
郑银河,2017年底加入清华大学计算机系博士后流动站与三星中国研究院博士后工作站,博士后合作导师为黄民烈老师。其主要研究方向为自然语言处理与对话系统,包括自然语言理解与自然语言生成。博士后在站期间,郑银河在AAAI2020,EMNLP2018,以及IEEE/ACM TASLP等国际会议与期刊上发表多篇文章,其关于个性化对话的工作获得NeurIPS2019 ConvAI Workshop Best Paper提名,并与合作导师黄民烈共同获得吴文俊人工智能科技进步奖一等奖。
科研经历
2017年冬,我以博士后的身份加入了清华大学AI研究院的交互式人工智能(CoAI)课题组,跟随合作导师黄民烈老师在自然语言处理和对话系统领域开展了相关的研究工作。在加入CoAI课题组前,我于2017年6月在中国地质大学(北京)获得工学博士学位,毕业后供职于三星中国研究院,负责三星智能语音助手Bixby中Deep NLU引擎的开发。
博士在读期间,我曾赴美国劳伦斯伯克利国家实验室交流访问。由于机缘巧合,在伯克利访学期间我有幸接触到了深度神经网络的一系列研究进展,并被其惊人的效果所吸引,因此在获得博士学位后我加入了三星,从事起了自然语言处理领域的工作。当时三星电子正在探索研发基于深度神经网络的智能语音助手Bixby,我有幸加入了这一项目并与其他优秀的同事一起完成了Bixby1.0的预研与商用化。
加入CoAI课题组后,我在黄老师的建议下在个性化对话系统方向展开了工作。为了解决个性化对话数据不足的问题,我与课题组的同学一起在微博数据的基础上构建了个性化对话数据集PersonalDialog。这一数据集包含约2千万轮对话,并且包含了各发话人的个性化信息。为了积攒这些对话数据,我们所构建的分布式爬虫持续运行了将近半年时间。在收集数据的这段时间内,我深入了解了对话系统这一领域的最新研究进展,并且在每周的组会上从CoAI课题组其他优秀的同学身上收获了很多新的知识和科研经验。在这样一个严谨和专业的学术氛围中,我们在个性化对话方向上取得了进展,相关的成果也发表在AAAI2020和NeurIPS2019 ConvAI Workshop上。同时,在PersonalDialog数据集的基础上,我们也与哈工大SCIR课题组共同组织了SMP2019中文人机对话技术评测,吸引了众多团队参赛。
博士后研究期间,CoAI课题组为我提供了很好的科研环境。朱小燕老师和黄民烈老师认真负责、严谨治学的态度也给我留下了深刻的印象。黄老师对课题组所有的产出均要严格把关,有的工作甚至需要修改数十次才能投稿。我也非常幸运可以有机会接受朱老师和黄老师的指导,并与CoAI课题组才华横溢的同学们讨论各自的想法,与同学们一同成长。博士后期间,我也参与了课题组与其他单位的合作项目,并有幸结识了来自阿里、网易等企业的优秀工程师。
在后续的研究中,我试图解决困扰产品级NLU系统的异常点检测问题,在探索解决方案的过程中,课题组的老师和同学为我提供了很好的建议和帮助。最终我们的成果发表在IEEE/ACM TASLP上,并应用于Bixby的研发过程中。我们还在风格化对话生成领域进行了探索,相关工作目前正在投稿过程中。
我的博士后工作站三星中国研究院为我的博士后研究提供了很好的支持,在部门长朱璇、刘松,以及工作站合作导师史媛媛的支持下,我每周可以有一半时间在清华大学的工作室参与CoAI课题组的讨论,研究院所提供的宽松环境也为我的研究工作起到了很大的帮助作用。
科研体会
我博士期间的研究领域与博士后差距较大,但是本科阶段在数学专业中学到的知识和博士阶段所受到的科研训练帮助我快速适应了这一转变。我感到非常幸运可以在两个截然不同的领域上与优秀的科研工作者共事,并有机会在相关领域的顶级期刊和会议上发表文章,得到对方的认可。
科研是一项风险很高且投入产出比剧烈震荡的工作。虽然有很多的技巧可以帮助我们扩大产出,并在一定程度上降低风险,但是这些技巧并不能在本质上改变科研工作的高风险性,因为科学研究的目的是为了探索人类认知的边界,这一边界之外的事物是没人可以预知的,而这恰恰也是科研工作迷人的地方。
我觉得科研工作中最重要的事情是放平心态,我们很难像管理生产性项目一样管理一个科研项目,太过急功近利不但不会在短期内促进我们的科研产出,在长期看来更会妨碍我们开展深入的探索。所以一定要管理自己的情绪并保持一个积极探索的心态。
我有幸见证了深度学习领域的发展,并且有幸参与到了这些成果的推进过程中,这一活跃的领域中每天都可以涌现出无数新的方法、模型和理论,非常令人兴奋,这也是让我保持科研动力的主要原因之一。
文章列表
1. Yinhe Zheng, Rongsheng Zhang, Xiaoxi Mao, Minlie Huang. A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data. AAAI2020.
2. Yinhe Zheng, Guanyi Chen, Minlie Huang. Out-of-domain Detection for Natural Language Understanding in Dialog Systems, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020.
3. Yinhe Zheng, Guanyi Chen, Minlie Huang, Song Liu, Xuan Zhu. Persona-aware Dialogue Generation with Enriched Profile, NeurIPS2019 conversational AI workshop.
4. Yinhe Zheng, Guanyi Chen, Minlie Huang, Song Liu, Xuan Zhu. Personalized dialogue generation with diversified traits. arXiv:1901.09672.
5. Yimeng Zhuang, Jinghui Xie, Yinhe Zheng, Xuan Zhu. Quantifying Context Overlap for Training Word Embeddings, EMNLP2018.