论文部分内容阅读
文本分类作为互联网文本处理以及文本挖掘的核心,已成为自然语言处理领域的重点研究问题。面对互联网上的各种文本数据呈爆炸式增长的趋势,如何有效利用这些文本数据,挖掘出蕴含在其背后的真正价值,具有非常重要的意义。针对文本分类问题,传统的方法主要以浅层机器学习为主,随着深度学习技术的快速发展,其在图像识别、语音识别领域巨大的研究突破,深度模型的特征学习能力进一步得到证明,本文基于深度学习的卷积神经网络(Convolution Neural Network,CNN)模型对新闻文本分类问题进行研究。具体研究内容及结果如下:1.在中文分词时,针对中文文本的特殊性以及本文所研究的领域方向性,本文采用基于Python语言的Jieba分词技术,为了实现较好的分词效果,在结合新闻领域相关专业词汇的基础上,对Jieba分词自带词典做了简单性扩充。2.为避免传统的特征提取以人工经验为主所导致的弊端,本文采用Skip-Gram模型对中文分词后的词向量特征表示,形成每个词的word embedding词向量表示形式,最终将训练好的word embedding纵向堆叠作为每条新闻文本的分布式特征,以二维矩阵的形式输入卷积神经网络模型。3.本文尝试引入深度学习相关理论,设计了卷积神经网络模型以实现新闻文本的分类任务,克服了浅层机器学习忽略了词与词在语义上的联系,且训练容易陷入局部最优。4.在对比实验设计环节,为了找到合适的词向量维数以及卷积核大小,分别设置两组不同维数和卷积核大小进行实验,实验结果表明:词向量维数取128,卷积核大小取3,4,5时效果最佳。为了证明基于卷积神经网络的新闻文本分类效果,将该方法与浅层机器学习算法以及高斯初始化的卷积神经网络模型做了对比,实验结果表明:卷积神经网络模型能克服浅层机器学习在文本分类上的相关缺陷,提高了新闻文本分类的正确率。