论文部分内容阅读
随着科学技术的发展和人工智能技术的进步,以及各类新业务、新需求的不断涌现,人们逐渐从信息匮乏走向了信息过载的时代。在当今这个信息爆炸的时代,人们迫切希望能够从海量的信息中获取与自身需要和吻合度更高的内容。为了满足人们的需求,多种应用应运而生,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等,而文本相似度计算技术就是其中的关键技术之一。近年来,文本相似度计算的研究受到的关注度越来越高,有研究学者对相关文献进行了整理,并总结了部分文本相似度计算方法。一般来说,文本相似度计算分为语义相似度计算和非语义相似度计算。传统的基于统计的文本相似度计算方法,如向量空间模型,隐含狄利克雷分布模型等。目前测量文本语义相似度常用的一种方法是利用word2vec等方法预先训练好的词嵌入,然后利用深度神经网络提取句子表征及其相互作用;接着,从表征和相互作用中训练出最终的多层感知器来适应文本语义相似度标签。还有一种方法是把句子长度和词汇相似度等多种独立于语言的特征信息综合起来,实现一个集成模型,但同时也需要更多的实时计算资源。本文在总结传统文本相似度计算的缺点以及借鉴近年来的文本相似度算法优点的基础上,针对句子级别的问题对进行文本语义相似度研究,提出了结合神经网络的文本语义相似度算法模型。该模型工作过程可如下描述:首先对文本数据进行预处理,训练词向量,该模型的词嵌入由不可训练的词嵌入,随机初始化的词嵌入,随机初始化的字符嵌入以及精确标识符四部分进行连接操作而得到;然后利用堆叠的Bi-LSTM神经网络和Attention机制的有效结合,每一层都使用连接注意力特征的串联信息,以及前面所有堆叠层的隐藏特征,对句子进行编码,获取更加丰富的句法和语义信息,继而通过句子匹配层,获取两个句子的交互信息,然后输入稠密连接的DenseNet网络层中解码,提取特征信息,最后经过全连接层分类,计算两个句子之间的语义相似度。本文模型的亮点在于(1)在词嵌入层采用了不可训练的Glove词嵌入和随机初始化的词嵌入拼接操作使得词嵌入的效果更好,并提升了模型效果:(2)采用了堆叠结构的Bi-LSTM神经网络,同时句子1和句子2的Bi-LSTM权重共享,即有Bi-LSTM1=Bi-LSTM2,并引入DenseNet网络的思想,当前层的输入不仅包括前一层的隐藏状态,还包括前一层的输入,通过参数的传递,一定程度上使得模型保留了前面的特征信息,增强了特征信息的传播;(3)引入了 Attention机制,不仅考虑了句子内部单词与单词之间的信息,同时考虑了句子1和句子2之间的交互信息,获取更加丰富的句子语义信息;(4)在Bi-LSTM对句子进行编码阶段,引入了 Autoencoder,随着网络的堆叠,拼接操作导致网络参数不断增加,通过Autoencoder进行降维操作,维护了网络的稳定,并提高了模型准确率;(5)在句子解码阶段,我们引入了 DenseNet网络,由于DenseNet网络结构的特点,增强了特征信息的传播,减轻了梯度弥散带来的问题,同时大大减少了参数量,使得网络更深入、更准确:(6)对交叉熵损失函数进行了正则化,避免了模型出现过拟合的问题。