基于深度学习的中文代词消解及其在问答系统中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sxytsxyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言中存在的指代和省略现象使得有一些话语独立来看存在语义缺失,这给机器理解带来了巨大的挑战。如何利用上下文信息对话语进行语义恢复是一项重要的研究任务。代词消解是语义恢复的重要方法,目前很多方法还停留在浅层的、显性的语义特征,并没有挖掘更深层次的语义关联。本文使用词向量作为输入,利用深度学习方法挖掘出较深层次的语义特征,实现中文代词消解算法,并应用到问答系统中。首先,研究中文显性代词消解表述对的深层语义特征表示方法。之前的代词消解算法抽取表述对的显性语义特征,如性别、数量,本文引入词向量,表示代词、候选先行语及上下文在语言学和隐含语义方面的特征,并与显性语义特征合并,共同作为表述对特征,训练神经网络分类器,相比于二者单独的使用,性能取得了显著的提升。接着,研究中文零代词消解算法,包括零代词识别和消解两个子任务。本文在零代词识别方面提出了基于循环神经网络、不依赖句法分析的算法;在消解方面沿用了显性代词消解的表述对模型,放弃其中的显性语义特征,增加更多有效的词向量特征,如相关动词和宾语,提出了基于神经网络的零代词消解算法;然后,通过引入长短期记忆网络,计算表述对的更深层语义特征表示,提出了基于长短期记忆网络的进阶消解算法。本文提出的零代词消解算法在识别和消解子任务上超越了基线方法。最后,设计实现了交互式问答系统。其中,提出了基于词语共现模型的省略恢复算法,与代词消解一同构成语义补全模块,应用到系统中,利用短期历史提问信息,从指代和省略两个方面,对待检索问题进行语义补全,使用补全语义的待检索问题进行检索,提高系统检索的准确性。
其他文献
背景:冠状动脉粥样硬化性心脏病(coronary atherosclerotic heart disease, CAD)是严重危害人类健康、生命的常见病。本病多发在40岁以后,男性多于女性。在欧美发达国家常见,
在“三位一体”虚词用法知识库的基础上,分别采用基于规则、基于CRF模型和神经网络模型门循环单元,对助词“的”用法进行自动识别,识别的准确率分别为34.4%,77.5%和81.3%。在
为解决复杂装备故障诊断中的知识获取和决策制定问题,提出一种数据驱动的故障诊断方法。利用模糊贝叶斯风险模型以风险最小化原则挖掘数据中有价值知识,得到相对最优属性子集
语文阅读教学的根本是为学生提供良好的基础知识,培养良好的阅读习惯,树立正确的阅读理念。新课程背景下,要求教师创新教学理念,以学生为主体,教师要起到引导作用。但是,根据
综述了有机化合物对明胶的化学交联改性方法,包括醛类、烷烯类、糖类、植物单宁等对明胶的交联改性。
会计电算化在我国出现已经三十几个年头了,其间经历了漫长的发展过程。特别是近些年以来,随着科学技术的进步,电子计算机的广泛应用,会计电算化得到了普及和发展。但在一段快
<正>1引言世博轴是中国2010年上海世博会主人口和主轴线,地下地上各两层,为半敞开式建筑。这是一届规模空前的人类盛会:246个国家和国际组织参展,逾7308万人次的海内外游客参
会议
水土资源是人类赖以生存的宝贵资源,其中表土资源尤为珍贵。简述了表土资源的价值、剥离表土在开发建设项目中的作用、表土利用的现状及问题,提出,剥离表土在开发建设项目中
针对配属西宁机务段HX_D1C型(高原)电力机车多起牵引变流器直流母排故障,详细分析直流母排故障原因,提出了改进方案,并通过仿真分析和试验验证了优化效果。该方案装车考核通
炎症性肠病(IBD)是一组病因不明的慢性肠道炎症性疾病,主要有溃疡性结肠炎(UC)和克罗恩病(CD)两种疾病类型,炎症反应是最主要的特征之一。Nod样受体蛋白3(NLRP3)是多种蛋白质