基于深度学习的中文新闻文本分类研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:xjtu_kendy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的快速发展,人们通过手机、电脑等电子设备获取新闻的方式多种多样,这些新闻通常以文本的形式存在于我们的日常生活当中,随着新闻文本规模地不断增加,需要对这些文本信息进行分类管理,如何基于大量的新闻文本数据设计出准确且高效的分类模型是一项具有重大意义的研究。自BERT(Bidirectional Encoder Representation from Transformers,BERT)预训练模型问世之后,极大提高了自然语言处理(Natural Language Processing,NLP)各项任务成绩,然而BERT模型仍然潜在存在一些问题:(1)汉字往往以词的方式为人们所理解,通过学习到词的语义信息能够更好地提高分类效果;(2)由于BERT模型结构十分复杂,性能较弱的硬件设备的训练过程会比较漫长,导致效率下降;(3)复杂的模型对于数据集的规模要求也较高,在实际任务中,数据集通常难以收集到充足的数量,最终导致模型出现过拟合、泛化能力低等问题。针对以上问题,设计出改进泛化能力的Go BERT(A Generalized Optimized BERT)文本分类模型,对上述问题进行了改进:(1)改进BERT的掩盖方式,将按字掩盖改为全词掩盖,提升模型的理解能力;(2)引入学习率衰减机制,凭借较高的初始学习率让模型在训练初期加速收敛,随着学习率衰减使得模型可以达到最优解;(3)通过数据增强技术对训练数据进行增扩以提高模型泛化能力,避免出现过拟合。基于清华大学提供的THUCNews和搜狐新闻数据集进行实验,实验结果证明Go BERT模型在提高分类效果的同时提高模型的泛化能力。将Go BERT和Text CNN相结合提出Go BERT-Text CNN模型并加入对抗训练进一步提高分类和泛化能力。实验结果表明Go BERT-Text CNN模型在准确率、精确率、召回率以及F1值等方面有了明显提升。
其他文献
美术馆的本职工作是为了向公众揭示艺术品的"经典"属性,展览则是这样一种处理图像史料关系的过程。如果只停留于信息的表层,对背后所反映的社会环境与生活观念探讨不足,即易割裂经典与当下的关系,当代性从经典中自由生长的可能亦会遭到忽视。本文以策展人的视角出发,分析江苏省美术馆陈列馆在2018-2019年度三场获得国家级、省部级项目资助的展览策划,是如何从冗杂的图像中找寻提炼,重组叙事线索,拓展美学以外更广
<正>静脉曲张是一个非常常见的疾病。如果你平时观察周围的亲朋好友,就会发现有人患静脉曲张。文献报道成人的静脉曲张患病率高达30%。但无论是公众,还是专业的血管外科专科医生,对静脉曲张的重视程度还远远不够。实际上,静脉曲张的发病率超过冠状动脉疾病、周围动脉疾病、充血性心理衰竭和脑卒中的总和。静脉曲张的历史可以追溯到公元前400多年,在雅典卫城的许愿碑上有人抱着因静脉曲张导致浮肿的腿,而在圣经中也有关
期刊
翻译课程的价值潜能突出,可供挖掘的思政元素丰富,教学过程中应着力凸显“技”与“道”的关系。以《习近平谈治国理政:第三卷》英译本的分析讲解为例,教师应从宏观着眼,引领学生深刻领会以国家意识为主的价值导向,以及在此导向下采取的政治语汇翻译策略。与此同时,还应强调话语传播中内外有别的原则,引导学生充分认识服务受众的意识与语篇翻译层面诸多变通技巧之间的关系。在讲解翻译策略的同时凸显以国家意识为主、受众意识
2020年10月15日,中共中央办公厅、国务院办公厅联合印发了《关于全面加强和改进新时代学校美育工作的意见》,意见指出以提高学生审美和人文素养为目标,弘扬中华美育精神,把美育纳入各级各类学校人才培养的全过程,并贯穿于学校教育各学段。在美育时代背景下,古诗词歌曲作为文学和音乐相互融合和碰撞的产物,以一种潜移默化的精神力量对个人的道德情操和精神世界起到美化和推动作用,富有重大的意义,然而在初中音乐课堂
准确评估电力系统惯量是保障高比例新能源接入后系统安全稳定运行的基础。由于新能源出力具有不确定性,其虚拟惯量响应能力难以量化评估。据此,本文提出一种考虑风电不确定性的电力系统惯量评估方法。首先分析新型电力系统惯量特性,明确系统惯量与频率、功率波动量之间的数学关系;构建考虑新能源不确定性的系统辨识模型,采用鲁棒最小二乘法求解待辨识系统惯量参数;最后通过含风电场的四机两区系统仿真验证了本文方法连续实时评
“三农”问题是关系国计民生的根本性问题。党的十九大提出了“乡村振兴战略”,其中产业兴旺的目标就是实现农业现代化。反映在区域特色农产品领域,市场对绿色、健康、无公害的区域特色农产品需求越来越大,但部分区域特色农产品出现增产不增收甚至出现滞销现象。本文中作为案例的中余黄桃,是实实在在的优质农产品,同样显现出产业增产不增收问题。本文聚焦“互联网+”区域特色农产品营销策略,从微观层面用互联网逻辑和技术破解
<正>大力培育“瞪羚”“独角兽”和“隐形冠军”企业,建立科技型企业上市培育储备库,推动与技术成熟度匹配的多轮次股权融资,探索以直接融资为主的科技型企业成长机制,大力培育创新主体,为产业发展注入活力。通过科技创新赋能,贵州不断加强科技服务、引入外部创新资源、孵化培育新兴企业,推进科技体制机制改革、完善开放式创新体系、促进创新平台建设,推动创新要素向企业集聚,强化企业创新主体地位,为实现高质量发展提供
期刊
习近平总书记在党的二十大报告中指出:“从现在起,中国共产党的中心任务就是团结带领全国各族人民全面建成社会主义现代化强国、实现第二个百年奋斗目标,以中国式现代化全面推进中华民族伟大复兴。”房地产行业在建设社会主义现代化强国中发挥着举足轻重的作用,对我国财政收入和国民经济有重要影响。基于此,论文在阐述房地产企业财务分析的目的、意义及特点的基础上,深入探讨房地产企业财务分析面临的困境,并有针对性地给出优
近年来,随着互联网在全球加速普及和数字技术蓬勃发展,全球进入数字经济时代,数字化产品(服务)贸易得以不断深化和扩张。数字贸易已成为拉动世界经济增长的新引擎,是世界各国争相发展的重点领域。因此,准确把握数字贸易国际发展趋势,明确我国数字贸易发展目标和定位,选择符合我国国情的数字贸易发展路径,是促进我国经济高质量发展,服务构建新发展格局必须研究和思考的问题。本文从数字贸易的内涵与外延出发,系统研究全球