基于卷积神经网络的新闻文本分类问题研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:randygu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为互联网文本处理以及文本挖掘的核心,已成为自然语言处理领域的重点研究问题。面对互联网上的各种文本数据呈爆炸式增长的趋势,如何有效利用这些文本数据,挖掘出蕴含在其背后的真正价值,具有非常重要的意义。针对文本分类问题,传统的方法主要以浅层机器学习为主,随着深度学习技术的快速发展,其在图像识别、语音识别领域巨大的研究突破,深度模型的特征学习能力进一步得到证明,本文基于深度学习的卷积神经网络(Convolution Neural Network,CNN)模型对新闻文本分类问题进行研究。具体研究内容及结果如下:1.在中文分词时,针对中文文本的特殊性以及本文所研究的领域方向性,本文采用基于Python语言的Jieba分词技术,为了实现较好的分词效果,在结合新闻领域相关专业词汇的基础上,对Jieba分词自带词典做了简单性扩充。2.为避免传统的特征提取以人工经验为主所导致的弊端,本文采用Skip-Gram模型对中文分词后的词向量特征表示,形成每个词的word embedding词向量表示形式,最终将训练好的word embedding纵向堆叠作为每条新闻文本的分布式特征,以二维矩阵的形式输入卷积神经网络模型。3.本文尝试引入深度学习相关理论,设计了卷积神经网络模型以实现新闻文本的分类任务,克服了浅层机器学习忽略了词与词在语义上的联系,且训练容易陷入局部最优。4.在对比实验设计环节,为了找到合适的词向量维数以及卷积核大小,分别设置两组不同维数和卷积核大小进行实验,实验结果表明:词向量维数取128,卷积核大小取3,4,5时效果最佳。为了证明基于卷积神经网络的新闻文本分类效果,将该方法与浅层机器学习算法以及高斯初始化的卷积神经网络模型做了对比,实验结果表明:卷积神经网络模型能克服浅层机器学习在文本分类上的相关缺陷,提高了新闻文本分类的正确率。
其他文献
分组传送网络(PTN)是城域范围内新兴的面向IP化分组业务承载技术,是未来城域光分组传送网主要组网方式,本文根据基于TMPLS/MPLS-TP的PTN技术特性,从复杂网络组织、保护、QoS模型、
期刊
自从我国加入WTO后,企业的竞争日趋激烈,而企业竟争说到底是人才的竞争,人才竞争的条件之一是企业是否能建立一套科学、新型的与现代企业制度相适应的制度,然而目前我国企业对员
期刊
企业文化建设不仅是提升企业管理水平,谋求企业生存发展的需要,还是拓宽企业思想政治工作领域和渠道,展示思想政治工作新作为的需要。要想做好企业的思想政治工作首先先要建
期刊
在群与图的研究中,图的对称性一直是一个重要的研究课题.它主要通过图的自同构群具有某些传递性来描述.Cayley图因为它构造的简单性,高度的对称性和品种的多样性成为对称图的一
当前初中生普遍有追星心理,他们一旦喜欢某个明星,就会关注这个明星的所有事情,会自觉学唱或模仿这个明星的所有歌曲或一切行为。在校园中,这样的现象并不少见:许多学生挂着M
外墙渗漏是一个普遍存在而又难于解决的工程实际问题,它影响着人们的生产生活,给人们造成经济损失,甚至可能引起安全问题,是现今城市建设过程中不得不处理的问题,本文对工程中常见
期刊
本文对具有常余维数2k+5不动点集的(Z2)k作用进行了研究.设φ:(Z2)k×Mn→Mn是群(Z2)k={T1,T2,…,Tk|T2i=1,TiTj=TjTi}在光滑闭流形Mn上的作用,其不动点集F是Mn的有限个闭子流形的