论文部分内容阅读
文本表示是很多自然语言处理应用的关键任务,比如文本分类,文本聚类,推荐系统以及情感分析等等。它的目标是将非结构化文本映射到低维的向量空间中去,以便可以用数学的方法对文本进行计算。而不同的文本表示可以捕捉和解析隐藏在文本中的不同方面的隐性内容。因此如何学习较好的文本表示用以更好地解决自然语言处理问题已经引起了学术界和工业界大量的兴趣。大多数现有的方法通用利用神经网络模型来生成文本的表示。然而这些方法都没有考虑过文本领域的数据的一些独特的属性。与其他领域不同,文本本身在语义上通常是模糊的,并且反应的信息通常是不充分的。除此之外,文本数据本身是具有层次性结构的。在语义上,较长的表达式(例如文档)的含义来自于其成分的含义和用于组合它们的规则;在结构上,文档是由一系列句子组成,而每个句子都由一系列词组成。出于这些原因,研究如何将外部知识和文本的层次性结构引入神经网络模型用以生成更加信息充分的文本表示是很值得研究的。具体来说,本文的主要工作可以总结为如下几个方面:(1)本文研究了将概率形知识库和基于神经网络的分布式文本表示进行结合的模型框架。该框架能够对文本进行概念化并且生成概念层面的分布式文本表示。通过外部的概率形知识库,该框架可以识别文本中的实体,并且通过上下文对实体进行消歧得到其准确的概念,从而将原始的由词构成的文本概念化为一组由概念构成的文本。在这之后该框架通过分布式文本表示算法来得到文本的低维的向量形式的表示。(2)本文提出了一种新型的知识驱动的层次神经网络模型。这个模型将多元关系知识图谱融入到神经网络中并且通过使用层次结构的模型来对应文本的层次结构。在外部知识上,该模型使用多元关系知图谱来生成知识图谱实体向量作为对原始文本的背景知识的补充;在模型结构上该模型使用两个双向门控循环单元(Gated Recurrent Unit)编码器生成句子层面的表示,之后再通过两个长短期记忆网络(Long Short-Term Memory)编码器生成文档层面的表示。这种层次化的模型结构正好对应了文本的层次化结构特点。(3)本文提出了一种结合attention机制和外部知识图谱的层次神经网络模型。这个模型除了融入了多元关系知识图和层次性网络结构之外还将attention机制添加到了模型中,可以看作是上一个模型的一种改进和扩展。在生成句子表示部分,该模型通过引入外部知识图谱实体向量,来作为对原始文本外部信息的补充。在生成文档表示部分,首先通过双向长短期记忆网络(Long Short-Term Memory)编码器对句子进行编码,再通过句子层面的attention机制对能帮助文档进行更好表示的句子进行反馈。最后将双向LSTM每个单元的输出根据attention权重进行加权求和得到原始文档的向量形式表示。