基于深度神经网络的文本分类模型研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:fdc1027267648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中的信息伴随着无序和杂乱,于是信息的整理和归类便显现出了重要性。文本分类技术应运而生,该技术旨在能够快速并准确地分类文本。文本分类是自然语言处理领域最为基础的任务之一,已经进入了深度神经网络时代,深度神经网络能够克服传统文本表示存在的矩阵稀疏性、维度爆炸、难以表达语义等问题;能够弥补传统文本分类方法特征提取能力不足的劣势。本文主要研究了中文文档主题分类的相关技术,深入探究了多种深度神经网络在文本分类上的应用,并在此基础上设计并实现了一个适合于文档主题分类的文本分类模型。本文主要的研究工作内容包含以下几点:针对不同领域语料之间的文本语义存在的差异性问题,本文选取与实验数据集相同领域内的语料数据作为训练词向量的语料库内容,在最大程度上保证语义一致性;同时采用时下流行的神经语言模型Word2Vec去获取连续而稠密的词向量,以此作为后续任务的基础。针对如何实现循环神经网络较好地在短语上建模问题,本文使用卷积算法提取相应的短语(n-gram)特征;其次使用可以克服单向循环神经网络语义偏置问题的双向循环神经网络提取包含完整上下文语义信息的特征,以及使用能够捕捉数据内部相关性特点的注意力机制对特征做最后的整合。针对循环神经网络中的长短时记忆和门控循环单元会带来过多的时间损耗问题,本文采用了新的循环神经网络结构——简单循环单元,其结构能够在保持优异成绩的同时还能够较大幅度降低时间损耗。本文主要提出了一个基于混合深度神经网络的文本分类模型Conv-BSA,并且也将其放在实验上进行验证。就实验结果分析来看,模型Conv-BSA能够在多个模型中脱颖而出,这印证了模型Conv-BSA的有效性。
其他文献
《侵权责任法》第87条第一次对高空抛物致人损害民事责任作出了具体规定,解决了同案不同判的司法难题,但法律学术界对该条的合理性的争议从未停止。文章通过列举学术界存在的
众所周知,数学教学离不开解题教学.习题讲评一方面可以有效地提高学生解决问题的能力,另一方面还可以促进学生对已学过的基础知识、相关概念和运算规则的理解,对学生学好数学
美国政治极化问题颇受关注,面对美国内政问题一些人似乎认为其对中国有积极影响,但这可能恰恰相反,一直以来美国常因国内问题频发而刻意寻求“敌人”,因此抓住外交政策这一关
北约的“域外行动”指的是由北约在《北大西洋公约》第六条款划定的北约防区之外执行的,与北约利益相关但不属于集体防御性质的危机管理行动。北约“域外行动”问题产生于冷
从公元前206年刘邦建国,到公元220年汉献帝被曹操的儿子曹丕所取代,前后共427年,这就是历史上所说的“汉代”。又因为汉代政权的前二百来年是建都于西京长安,故历史上称之为“西
1935年11月,中央苏区创建的中华苏维埃共和国国家银行跟随中央红军经过长征到达陕北瓦窑堡。11月10日,中华苏维埃共和国中央执委会宣布在陕甘晋苏区设立苏维埃中央政府西北办
针对教学用双足步行机器人样机,建立五连杆物理模型,对前向运动进行分析,运用正运动学理论建立运动学方程,结合机器人样机实际参数,推导出该双足机器人各关节速度函数及重心
目的探讨尿液中上皮细胞和粘液丝对UF-50全自动尿沉渣分析仪测定管型结果的影响.方法用显微镜检查的上皮细胞、粘液丝、各种管型的尿液和正常尿液结果与UF-50尿沉渣仪测定结
本文阐述了法律文献资源的特点和法律文本特征,法律文献按照效力分为原始法律资源和二次法律资源。Westlaw Next数据库涵盖了美国、英国、欧盟、加拿大、香港等地的法律资料
一、案由我国是一个农业大国,“三农”问题在历年中央一号文件中出现,建立完善的医疗保障体系对改善农民的生活质量,提高农民的健康水平,促进农村经济的发展和社会的长冶久安,实现