基于深度学习的文本分类研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:stystill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网上的文本数据越来越多,这些文本数据有着丰富的信息。如果能将这些文本数据进行初分类,那么更有利于从这些海量的文本数据中提取出有用的信息,因此文本分类是文本处理过程中不可或缺的环节。构建知识图谱的过程就是对文本数据进行处理,挖掘其中有价值的信息。对人类而言,文体分类有助于构建文体意识,对写作和阅读理解有极大的帮助。对机器而言,文体分类同样有助于机器解读、接受文本传达的信息和生成用户需要的文本,对知识图谱后续的构建过程有极大的帮助,例如后续的实体抽取、关系抽取、摘要抽取、知识推理等过程。因此,文体分类对知识图谱的构建是十分有意义的。本文的研究目标是将输入文本分成记叙文、议论文和说明文三大类。各个领域海量的文本数据,可以简单分为短文本以及长文本。在特征提取过程中,短文本的信息量少,更注重关键词信息;长文本的信息量大,更注重上下文之间的联系。基于上述考虑,本论文分别对短文本和长文本的文体分类任务进行了研究,并采用深度学习的方法完成研究目标。本文的主要工作和贡献如下:1.针对短文本提出基于文体特征的文体分类模型。根据对短文本的文体分类特点分析,基于短文本的词法和句法特征设计了文体特征向量。由于目前的词向量未充分利用分类类别的文体特征信息,所以将文体特征向量与词向量融合,增强了词嵌入所蕴涵的分类类别信息量。再利用卷积神经网络对向量进行特征提取,构建基于文体特征向量的文体分类模型。2.针对长文本提出基于语序特征的文体分类模型。根据对长文本的文体特点分析,对长文本进行切分,结合BERT预训练模型的优点,用BERT模型得到长文本的句子向量表示。双向循环神经网络能够有效的识别并提取文本数据中的语义特征,因此利用双向循环神经网络学习文本的语序特征,并且引入Attention技术,提升分类模型的分类效果,最后将通过CNN网络提取到的局部特征作为特征补充,由此构建了一个基于语序特征的文体分类模型。3.通过对比实验证明了上述两种文体分类模型的有效性,基于上述思想设计并实现了文体自动分类系统。该系统分为模型训练部分和文本自动分类部分,模型训练部分通过调用数据库中的文本数据进行训练得到模型参数并保存,文本自动分类部分根据输入文本长度加载相应的模型,返回文体分类结果。
其他文献
我自2003年参加工作以来,一直不停地探索着信息技术教学的新模式,在不断的学习中,我发现游戏教学在信息技术课中起到了很好的辅助作用。现将本人工作以来的教学经验与大家分享。  一、游戏能激发学生的学习兴趣  游戏是孩子的天性。为什么不把游戏引入课堂呢?实践证明,在课堂中适当游戏,能激发学生的学习兴趣,使学生注意力集中,大大提高学习效率。  例如:我在讲授五年级幻灯片中的《设置动作路径》一课时,由于本
为了优化小学英语教学,文章立足于翻转课堂教学模式的基本内涵,从课前备课,让学生自主学习;课中组织教学活动;课后综合评价与反馈,帮助学生巩固复习三个方面探讨了翻转课堂教
测定了在恒温和自然温度处理下饲养的马尾松毛虫滞育与非滞育幼虫的过冷却点.结果表明,27℃恒温饲养的滞育幼虫的平均过冷却点较非滞育幼虫的平均过冷却点低,但无显著差异;而
<正>2020年我国将全面建立起新的高考制度. 这次高考制度改革是1977年恢复高考以来规模最大、涉及面最广、难度最艰巨的一次改革.这次高考改革是在我国出台新的课程标准,全面
研究目的:为加快我国"体育强国"建设,推动全面建设社会主义新农村,满足农民自身的发展需求。对农村体育公共服务供需矛盾研究有利于农村体育的开展和建设,有利于完善政府供给
本文从集体记忆、公共服务、史学研究、对外交流四个方面阐述了历史档案馆社会价值呈现递增趋势,分析了移动新媒体时代历史档案馆面临的机遇和挑战,并从基础业务、新业务、潜
随着经济发展和人民生活水平的提高,寿险在社会经济和居民生活中占据日益重要地位,居民投保寿险的知识和意愿也不断增长,对寿险购买方式的专业性、便捷性的要求也越来越高。寿险电话销售机构通过电话将专业的寿险产品和服务送到客户耳边,以更专业的产品介绍、更便捷的办理流程等优势,日益赢得消费者和寿险企业的认可和选择。与国外已经比较成熟寿险电话销售行业相比,国内寿险电话销售机构起步比较晚、水平比较低,发展参差不齐
为了在高中英语语法教学中让学生能够更精准地进行语法学习,文章从利用微课完成新知讲授、利用微课组织旧识回顾、利用微课点拨重点语法三方面论述了微课在高中英语语法教学