结合知识和神经网络的文本表示方法的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sgrwflh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示是很多自然语言处理应用的关键任务,比如文本分类,文本聚类,推荐系统以及情感分析等等。它的目标是将非结构化文本映射到低维的向量空间中去,以便可以用数学的方法对文本进行计算。而不同的文本表示可以捕捉和解析隐藏在文本中的不同方面的隐性内容。因此如何学习较好的文本表示用以更好地解决自然语言处理问题已经引起了学术界和工业界大量的兴趣。大多数现有的方法通用利用神经网络模型来生成文本的表示。然而这些方法都没有考虑过文本领域的数据的一些独特的属性。与其他领域不同,文本本身在语义上通常是模糊的,并且反应的信息通常是不充分的。除此之外,文本数据本身是具有层次性结构的。在语义上,较长的表达式(例如文档)的含义来自于其成分的含义和用于组合它们的规则;在结构上,文档是由一系列句子组成,而每个句子都由一系列词组成。出于这些原因,研究如何将外部知识和文本的层次性结构引入神经网络模型用以生成更加信息充分的文本表示是很值得研究的。具体来说,本文的主要工作可以总结为如下几个方面:(1)本文研究了将概率形知识库和基于神经网络的分布式文本表示进行结合的模型框架。该框架能够对文本进行概念化并且生成概念层面的分布式文本表示。通过外部的概率形知识库,该框架可以识别文本中的实体,并且通过上下文对实体进行消歧得到其准确的概念,从而将原始的由词构成的文本概念化为一组由概念构成的文本。在这之后该框架通过分布式文本表示算法来得到文本的低维的向量形式的表示。(2)本文提出了一种新型的知识驱动的层次神经网络模型。这个模型将多元关系知识图谱融入到神经网络中并且通过使用层次结构的模型来对应文本的层次结构。在外部知识上,该模型使用多元关系知图谱来生成知识图谱实体向量作为对原始文本的背景知识的补充;在模型结构上该模型使用两个双向门控循环单元(Gated Recurrent Unit)编码器生成句子层面的表示,之后再通过两个长短期记忆网络(Long Short-Term Memory)编码器生成文档层面的表示。这种层次化的模型结构正好对应了文本的层次化结构特点。(3)本文提出了一种结合attention机制和外部知识图谱的层次神经网络模型。这个模型除了融入了多元关系知识图和层次性网络结构之外还将attention机制添加到了模型中,可以看作是上一个模型的一种改进和扩展。在生成句子表示部分,该模型通过引入外部知识图谱实体向量,来作为对原始文本外部信息的补充。在生成文档表示部分,首先通过双向长短期记忆网络(Long Short-Term Memory)编码器对句子进行编码,再通过句子层面的attention机制对能帮助文档进行更好表示的句子进行反馈。最后将双向LSTM每个单元的输出根据attention权重进行加权求和得到原始文档的向量形式表示。
其他文献
目前对等网络面临的重要问题就是如何高效的定位网络中的资源,基于DHT的结构化路由算法的提出使这一问题得到了相对优化的解决方案。本文针对典型结构化P2P路由协议Chord展开
当在数据库设计过程当中引进了一项新技术,必须在不同操作系统环境下测试新数据库系统的性能。通常,数据库测试会选择一套复杂的数据集和SQL查询集,并分别在引进新技术前后的数
随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化
互联网技术已广泛应用于民航、铁路以及道路旅客运输联网售票领域,尤其是互联网汽车票联网售票迎来飞速发展阶段。汽车票联网售票系统建设的前提是在互联网上获取该类主题数
本文将在比较与分析当前无线平台搭建技术的基础上,构建一个基于J2ME/J2EE平台以及GPRS网络的移动学习系统,以扩展网络学习系统无线领域的应用。本文研究的重点在于如何设计
近年来,随着语义网的发展,越来越多的结构数据以知识图谱的形式公开发布,并广泛应用于信息检索、推荐系统、问答系统等领域。知识图谱作为语义数据的重要组成部分,通常包含了大量
自1995年Peter Shor构造出第一个量子纠错码[[9,1,3]]码之后,量子纠错码的研究在最近十几年进展很快。CSS编码理论的提出建立了以经典线性纠错编码为基础的量子纠错编码的理论和
随着化石能源的消耗殆尽,太阳能作为一种理想的可再生能源,具有重要的研究价值。光伏发电系统是一种将太阳能转换成电能的发电系统,是目前最具发展前景的发电方式之一。最大
视频图像超分辨率重建技术能够突破视频图像采集设备的限制,获取高分辨率的视频图像,这不仅仅改善了视频图像的视觉效果,也为计算机对这些视频图像进行进一步的分析和处理奠
随着互联网的高速发展,XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而成为互联网信息发布和数据交换的标准。由于XML在语义表达方式上的局限性,RDF作为语义Web的