【摘 要】
:
随着互联网的飞速发展,人们获取信息的方式变得更加多元便捷,网络数据总量也因此呈爆炸式增长。如何从海量数据中提取有价值的信息已成为当前人工智能领域的研究热点,文本分类技术也因此具有十分重要的研究价值。卷积神经网络在深度学习多个任务中表现优秀,但其深层结构在文本分类任务中的应用却具有争议。为了优化分类性能,本文从全局性、时序性、关键性、多样性四个方面针对深层卷积神经网络进行改进,提出了新型的短文本分类
【基金项目】
:
国家自然科学基金“基于深度学习的移位MIMO‘鬼’成像方法研究”(项目号:61871234); 江苏省研究生科研创新计划“基于深度学习的TCN文本分类算法研究”(项目号:46106CX20800)
论文部分内容阅读
随着互联网的飞速发展,人们获取信息的方式变得更加多元便捷,网络数据总量也因此呈爆炸式增长。如何从海量数据中提取有价值的信息已成为当前人工智能领域的研究热点,文本分类技术也因此具有十分重要的研究价值。卷积神经网络在深度学习多个任务中表现优秀,但其深层结构在文本分类任务中的应用却具有争议。为了优化分类性能,本文从全局性、时序性、关键性、多样性四个方面针对深层卷积神经网络进行改进,提出了新型的短文本分类算法,主要创新工作如下:(1)文本信息具有离散化与稀疏化的特点,为了优化卷积神经网络对文本间全局信息与时序信息的提取能力以及预处理阶段对文本的高维特征表示,本文提出了一种基于金字塔池化与时序卷积的短文本分类算法——深层金字塔时序卷积网络(Deep Pyramid Temporal Convolutional Network,DPTCN)和一种新型的混合区域嵌入方法。其中,金字塔池化加强了模型对文本全局特征的采样能力,时序卷积保留了文本间的序列信息。实验结果表明,DPTCN实现了深层卷积网络在短文本分类任务中的有效创新,混合区域嵌入方法在不增加语料库需求的情况下有效提升了分类精度。(2)文本信息间的关键特征通常在全局中分布不均,为了优化模型对关键信息的提取,本文提出了基于通道注意力机制的深层卷积神经网络SE-DPTCN以及ECA-DPTCN,通过引入通道注意力提升了模型对不同通道的敏感性,强化有效的特征并抑制无意义的特征,实现对卷积通道的注意力加权计算。其中,SE模块(Squeeze-and-Excitation,SE)主要在激励层中利用两个全连接层实现权重参数的训练,对通道间的相互依赖关系进行显式建模;ECA模块(Efficient Channel Attention,ECA)主要利用快速一维卷积实现了跨信道交互,减少了参与权重训练的参数量。实验结果表明,通道注意力机制的引入能够有效强化模型对文本关键信息的捕获能力,改进深层卷积神经网络的分类准确率。(3)通道注意力中的均值函数丢失了输入特征的多样性,为了解决这一问题,本文提出了基于多频谱注意力模块的FCA-DPTCN,通过引入多频谱注意力模块(Frequency Channel Attention,FCA)为各个特征通道分配不同频域分量,有效保留了特征多样性,优化了对输入的注意力加权。实验结果表明,相比基于平均池化和最大池化的特征压缩方式,利用多频谱注意力模块预处理通道信息的模型在分类任务上具有更优的分类性能。
其他文献
目的膀胱癌(BCa)是泌尿系统最常见的恶性肿瘤之一。既往研究显示,骨髓间充质干细胞(BMSC)来源的外泌体是转移内源性分子的载体,在BCa的发生发展中起着重要作用。本研究旨在探讨含BMSCs来源的外泌体中miR-9-3p在BCa恶性进展中的作用机制。方法第一部分:通过生物信息学分析从基因表达综合数据库(GEO)中筛选出在BCa中差异表达基因(DEGs),并在BCa组织和配对癌旁正常组织中用qRT-
国际上管理自然灾害最为常见和有效的方法是保险机制,地震保险制度的建立和发展有助于提升区域内地震风险保障水平。自汶川地震以来,政府和社会大力呼吁构建地震保险制度,目前,我国地震保险的顶层设计已经出炉,意味着地震保险的发展进入了快车道。然而地震保险的实际市场表现却不尽人意,经营风险高、盈利难导致保险经营者们始终对地震保险保持高度警惕状态,地震保险认知程度低极大程度上限制了有效需求和覆盖率,地震保险市场
随着网络服务终端站点数量的急剧增加、网络服务对于时延要求和安全性能的不断提高、及网络能耗的显著增大等发展趋势,新一代物联网系统面临着一系列新的技术挑战。本学位论文针对第六代移动通信的愿景展望和技术发展导向,紧密围绕着物联网系统的网络接入场景主要研究终端站点无线接入的安全性方案、物联网终端站点的无线充电与无线信息传输、异构物联网的干扰抑制、终端站点计算任务的时延理论分析、以及基于智能反射面的物联网接
本文主要是基于介质波导滤波器开展技术研究。这类滤波器与平面微带滤波器、介质集成波导滤波器相比,具有更高的Q值和功率容量;与金属波导滤波器、加载介质构成的介质谐振波导滤波器相比,具有更小的尺寸,非常便于集成于现代射频与微波电路中。近几年,随着陶瓷介质工艺的不断成熟,介质波导滤波器以其优异的性能被广泛应用于基站、终端等现代无线通信系统中,国内外学者陆续开展了大量的技术研究和相关工程应用。本文主要针对直
锂离子电池(LIBs)具有能量密度高、工作电压高、循环寿命长、自放电低、无记忆效应等特点,被认为是便携式电子设备和电动汽车的理想储能器件。一方面,工业化的石墨负极由于比容量低而无法满足锂离子电池对能量密度日益增长的需求;另一方面,具有高比容量的新型电化学活性材料,如金属氧化物、金属硫化物、硅等,在充放电过程中体积变化较大,导致严重的粉化和容量衰减。因此,具有分级结构的多孔碳电极材料受到了关注和开发
得益于基因组学技术、高通量测序技术及生物信息分析技术的迅猛发展,研究人员能够获得海量生物数据对疾病进行深入研究,并在许多领域取得了丰硕成果。然而,对复杂疾病的认识,并未如人们预期那样获得革命性突破,以GWAS研究为例,目前所识别主效应的位点只能解释表型变异的部分遗传度,即遗传性缺失(missing heritability)现象。事实上,复杂疾病的发生发展,是由外在环境暴露因素、内在遗传因素相互影
猪作为重要的农业动物和理想的潜在动物模型,在农业生产和生物医学研究中扮演着重要的角色。肌肉生长和脂肪沉积是猪的重要经济性状,且不同解剖学部位的肌肉和脂肪具有显著的表型差异,而带来这些差异的具体分子调控机制尚不明确。目前,猪的基因组(Sscrofa 11.1)虽完整度较高(Contig N50:48.23 Mb),但其基因组注释并不完善。因此,构建精准完善的转录组图谱(功能性的蛋白编码转录本和调控性
为了缓解用户有限认知能力与互联网海量信息之间的矛盾,信息检索已经成为互联网服务中一项不可或缺的技术。在信息检索的相关研究领域中,对其离线评价方法的研究一直以来都受到研究者们的广泛关注。为了使得离线评价方法的评价结果与真实用户的体验尽量吻合,在离线评价指标的设计中引入用户行为模型就成为了信息检索评价长期以来的研究热点。然而,现有的离线评价方法仍然存在一定局限:一方面,已有的离线评价指标在构建用户行为
细胞命运谱系追踪是发育生物学的经典问题之一。最早的谱系追踪研究甚至可以追溯到19世纪。斑马鱼早期胚胎发育完全透明,使其成为谱系追踪研究最合适的模式动物之一。脊椎动物内胚层主要贡献到未来由咽至肛门的呼吸道上皮,消化道上皮及其附属器官,如肝脏,胰腺,胆管系统,甲状腺,胸腺以及哺乳动物中的气管和肺脏(斑马鱼中的鳔)。内胚层器官前体的研究会为相关器官发育和疾病的研究提供重要线索。斑马鱼早期内胚层细胞呈单层
新时代,需要人才新理论;新时代,催生人才新理论。党的十八大以来,习近平立足新时代,回望党的初心与使命,展望国家的发展与未来,认识到人才对于民族振兴、国家富强具有极其重要的战略意义,并由此展开了对新时代人才问题的系统论述,形成了指导新时代人才工作的科学理论体系。当今世界正处于大发展大变革大调整时期,当代中国正处于近代以来最好的发展时期,中国共产党正处于革命性锻造的关键时期。新时代世情、国情、党情的新