【摘 要】
:
面对海量的文本数据,使用高准确率的分类模型进行文本管理,不仅能够细粒度地优化后台数据仓库,而且能够让用户快捷地获取所需的反馈信息。鉴于深度学习相比于传统的机器学习来说能够自动学习文本的高级特征,因此本文以深度学习为基础。针对目前长文本分类中存在的忽略文本明显语义特征问题以及现有的分层模型为浅层结构问题展开研究,以提升长文本分类准确率为目的。本文的主要工作如下:(1)针对BERT(Bidirecti
论文部分内容阅读
面对海量的文本数据,使用高准确率的分类模型进行文本管理,不仅能够细粒度地优化后台数据仓库,而且能够让用户快捷地获取所需的反馈信息。鉴于深度学习相比于传统的机器学习来说能够自动学习文本的高级特征,因此本文以深度学习为基础。针对目前长文本分类中存在的忽略文本明显语义特征问题以及现有的分层模型为浅层结构问题展开研究,以提升长文本分类准确率为目的。本文的主要工作如下:(1)针对BERT(Bidirectional Encoder Representations from Transformers)对输入文本长度有限制问题,提出了长文划分算法。通过将长文分割为小块作为BERT词向量模型的输入,将文本表示阶段的复杂度由O(n~2)降低为O(ns),其中n、s分别为输入文本的长度和划分后的小块文本长度。(2)针对当前的长文分类中的分层算法仅采用全局目标向量作为文本句向量表示,忽略文本明显的语义特征问题,提出了一种基于融合特征的分割注意力长文融合模型。融合卷积最大池化的特征向量和BERT模型生成的句向量两组目标向量,综合表示局部文本特征。在此基础上,通过双向长短期记忆网络获得文本的全局信息,并引入基础注意力机制关注重点,进行文本分类。(3)现有的分层模型是一种浅层结构,对长文档的结构特征有所忽略。受到中文长文结构以及层次注意力机制的启发,提出了基于自注意力机制的分层模型。该模型将文档划分为“词-句-段”三层结构,在每层结构上分别运用双向门控循环单元和自注意力机制。通过分层专注力,有针对性关注长文的关键位置,赋予重要的词、句、段更大的关注度,充分提高长文本分类模型的提取文档语义信息能力。本文收集了海事海商数据集与复旦大学中文数据集两个中文长文数据集,经过实验分析表明,所提出的两个长文分类模型能够获得较好的分类性能。
其他文献
党的十九届四中全会提出国家治理现代化的目标,并把“加强对法律实施的监督”、“坚持和完善党和国家监督体系,强化对权力运行的制约和监督”作为其中的重要组成部分。检察机关作为国家的法律监督机关,势必在国家治理体系和治理能力现代化建设中担负重要使命。作为国家治理现代化的重要途径,全面深化改革正处于纵深推进时期,中国特色社会主义进入了新时代,检察机关实现法律监督的具体职权体系也随着改革和社会治理状况而发生变
本研究基于批评隐喻分析理论,建构了教师话语的批评隐喻分析模型,分析了84篇“外教社杯”全国高校外语教学大赛参赛心得语篇中隐喻的运作模式和理解机制,探讨了高校外语教师如何利用隐喻建构其教师身份认同。研究发现,高校外语教师参赛心得语篇中的隐喻类型具有多样性和不均衡性的特点。高校外语教师多使用比赛隐喻和教学隐喻表达内心感受,并通过旅程类隐喻、战争类隐喻、戏剧类隐喻来建构教师是“知识探索者、自我发展者、积
目的 探究布南色林对MK-801诱导精神分裂症大鼠海马神经元损伤及PI3K/AKT/GSK3β信号通路的影响。方法 采用MK-801诱导精神分裂症模型,将48只SD大鼠随机分为正常组、模型组、布南色林组(1 mg/kg布南色林)、利培酮组(0.54 mg/kg利培酮)。通过刻板行为、旷场实验和Morris水迷宫实验观察大鼠行为学,用HE染色观察大鼠海马组织病理损伤并评分,检测血清糖脂代谢指标水平,
为确保检定、校准和检验检测数据准确可靠,对所开展的检定、校准和检验检测活动中所采用的方法进行有效控制。
<正>灵活就业人员规模日趋增大,但其不属于住房公积金制度强制缴存群体,无法享受住房公积金带来的住房保障,为提升住房公积金制度普惠性,响应国家支持多渠道灵活就业的号召,多地进行了灵活就业人员参与住房公积金制度的试点探索。本文将比较分析试点城市的缴存模式和制度推行障碍,提出促进灵活就业人员参与住房公积金制度的对策建议。
<正>为深入贯彻习近平总书记关于高校毕业生就业的重要指示精神,落实党中央、国务院决策部署及要求,全力做好稳就业保就业工作,服务和保障统筹疫情防控和稳定经济增长大局,促进高校毕业生更加充分更高质量就业。本刊特推出2022年上半年全国最新就业创业政策汇编。北京市支持灵活就业。鼓励高校毕业生到数字经济、平台经济等领域灵活就业。2020年及以后毕业离校2年内初次就业为灵活就业的本市高校毕业生,可申请最长不
美术学科核心素养是基于美术学科的特点,从落实立德树人和促进学生终身发展的角度提炼的。文化理解作为美术学科核心素养之一,侧重于从视觉、文化的角度分析、理解美术作品与美术现象。因此,文化理解素养的培养是美术学科之所长。该文在强调文化理解素养重要性的基础上引入“桥梁型”课程设计,以期为学生文化理解素养的培养提供新的思路和策略。
信息网络化的发展,加快了信息技术的更新。在新的发展形势下,经济呈现出新业态发展趋势,且促进了就业模式的变革。新就业模式变革环境中,灵活就业者增多。此种就业群体所体现出的特征,对传统社会养老保险产生了冲击。基于此,文章首先阐述新业态下就业模式的变革及对社会养老保险的冲击。其次,总结如何选择社会养老保险及借鉴美国养老保障体系。最后,总结社会养老保险如何应对就业模式变革。