论文部分内容阅读
随着网络的快速发展,以及互联网+经济模式的大力推行,人类日常生活中的信息大规模的向网络迁移,而在这些信息中含有大量的短文本信息,如何对这些信息进行快速有效的整理,提取有价值的信息成为企业和政府关注的热点问题,针对这一问题本文进行了相关研究。首先,根据中文自身的特性对现有的词向量模型进行改进,提升词向量的表征性能;其次,针对现有的特征提取网络在中文短文本中存在的不足进行相应地改进,提升网络的特征提取性能;最后,在改进后的词向量和特征提取网络的基础上,提出了一种基于多特征融合的中文短文文本分类模型。本文的主要工作包含以下几个方面:1.针对中文自身的特性通过引入词内字信息对现有的词向量模型进行改进。传统的Word2vec模型将词作为最小的语义单元,而在中文中单个汉字往往蕴含着丰富的语义信息,字信息的引入能够有效提升词向量的表征性能。针对该问题本文提出了一种基于字词信息结合的词向量模型,该模型首先通过神经网络提取词内的字信息特征,然后将提取的特征与预先训练好的词向量进行拼接压缩作为新的词向量表示,实验证明新的词向量相比原始的词向量具有更强的语义表达功能。2.针对传统卷积神经网络(Convolutional Neural Network,CNN)在短文本特征提取过程中存在的不足,通过引入Non-local注意力网络和Channel-attention网络构建双重注意力卷积神经网络(Dual Attention Convolutional Neural Network,DACNN)。Non-local注意力网络能够有效扩大卷积核的感受野,有助于网络提取文本的全局特征,Channel-attenion网络通过动态调节不同滤波器提取的特征,在文本最终特征构建中的权重系数,构建更优的文本特征。实现结果表明DACNN相比传统的CNN具有更强的特征提取能力。3.针对传统的长短期记忆网络(Long Short-Term Memory Network,LSTM)网络中忽视神经元序列信息的问题,本文引入有序神经元长短期记忆网络(Ordered Neurons Long Short-Term Memory Network,ON-LSTM)网络,该网络通过对神经元排序划分实现了对语句结构的层级划分,并在此基础上提出了层级更新机制,使得LSTM中记忆细胞的信息更加合理,从而有助于该网络提取更优的文本特征。实现结果表明该模型具有更强的特征提取能力。4综合以上研究,本文提出了一种多特融合的中文短文本分类模型。首先,使用改进后的词向量对文本进行表示;其次,使用改进后的特征提取网络DACNN和ON-LSTM网络构建双通道特征提取网络,避免单通道网络在提取特征中的局限性;最后,通过Attention网络实现不同通道提取特征的有效融合。该模型分别从词向量表示和特征提取两个方面对现有的模型进行改进,实验结果表明本文提出的模型具有一定的竞争力。