【摘 要】
:
深度学习是文本分类任务目前的研究热点,常用结构包括循环神经网络与卷积神经网络,分别用于学习文本中的时序特征与空间特征。然而,现有的基于深度学习的文本分类模型普遍使用单通道词嵌入表示文本,单通道词嵌入空间维度过低,特征表示单一,卷积在单通道词嵌入矩阵上不能充分进行在图像领域上类似的高维空间特征学习过程,导致卷积在文本数据上的空间特征学习能力受限。在现有研究中,缺少一种文本在高维表示下的高效卷积算法。
论文部分内容阅读
深度学习是文本分类任务目前的研究热点,常用结构包括循环神经网络与卷积神经网络,分别用于学习文本中的时序特征与空间特征。然而,现有的基于深度学习的文本分类模型普遍使用单通道词嵌入表示文本,单通道词嵌入空间维度过低,特征表示单一,卷积在单通道词嵌入矩阵上不能充分进行在图像领域上类似的高维空间特征学习过程,导致卷积在文本数据上的空间特征学习能力受限。在现有研究中,缺少一种文本在高维表示下的高效卷积算法。其次,在现实环境中,长短文本混合存在,甚至长度相差极大,而单一模型容易受到文本长度的影响,如:擅长时序建模的循环神经网络在特征稀疏、时序性不足的短文本上不能充分发挥优势,而卷积神经网络不善于捕获长文本中的长期依赖关系。在现有研究中,缺少一种统一的面向长短混合场景下的文本分类方法。针对以上问题,提出了一种融合通道特征的混合神经网络文本分类模型,该模型通过双通道词嵌入丰富了文本的表示,增加了特征的空间维度,在卷积的过程中融合了通道特征,并优化了空间特征与时序特征结合的方式,取得了良好的分类性能。其次,为了弥补所提模型对文本长度敏感、易受噪声影响的缺点,提出了一种面向长短混合场景下的文本分类集成模型,在长短混合的文本数据集中具有良好且稳定的分类性能,不再对文本的长度敏感,抗噪声能力较强,并考虑了数据集中潜在的类别不平衡因素。主要研究内容有以下几点:(1)提出了一种融合通道特征的混合神经网络文本分类模型,使用基于预测与基于统计的方法构建了双通道词嵌入,增加了文本表示的空间维度,在此基础上对卷积过程进行改进,在卷积运算中融合了跨通道特征,使得卷积层的特征学习能力大大优于传统一维卷积。在融合通道特征的卷积基础上,模型优化了空间特征与时序特征结合的方式,在卷积的每一路均进行了时序特征的学习,显著提高了模型的分类性能。(2)提出了一种面向长短混合场景下的文本分类集成模型,以分组的形式生成每组基分类器,保证了组内分类器的差异性与组间分类器的差异性。结合文本的长度,根据分类器性能对所有分类器进行排序与重组,最终选择出部分高性能的分类器进行集成。集成模型在长短混合文本数据集中具有稳定且良好的分类性能,对于文本长度不再敏感。结合数据采样策略,集成模型的适用场景还可扩展到不平衡文本分类任务中,并具备较强抗噪能力。
其他文献
聚乙交酯-丙交酯(PGLA)是专门为生物医学应用而开发的,由于它具有生物降解性和体内可吸收性,因此在医疗领域显示了广阔的应用前景。
油菜属于十字花科芸薹属植物,同时也是我国和世界上最重要的油料作物之一。本研究采用RNA干扰技术,通过两种不同的路径提高油菜籽的含油量:(1)由于AP2基因是油脂合成的负调控
目前电力系统中分布式可再生电源及储能装置在不断的增多,分布式可再生能源在电力系统中的地位愈加重要。能源互联网作为未来电力系统的重要发展方向,可以有效解决分布式可再生能源的大量接入问题。能源互联网系统以电力系统为支撑,以通信网络为纽带耦合多种能源系统,实现多种能源的相互协作,有效保证可再生能源的可靠接入和消纳。能源互联网中微电网控制处理信息繁杂、通信信息量庞大,采用多代理系统可以有效满足能源互联网对
高能耗、低效率利用的粗放型经济发展模式造成的环境污染和资源浪费背离了可持续发展理念的要求。除了单纯的运用法律手段治理环境问题外,利用金融手段来调整经济行为对环境
动车组传动齿轮作为牵引传动系统中的重要组成部分,其主要作用是传递电机产生的运动和转矩,用以驱动列车行驶。在此过程中,由于列车长期服役在复杂随机-载荷环境中,致使传递齿轮极易产生失效,并最终对其安全可靠运行产生一定影响。此外,在当前传动齿轮设计与分析中虽然考虑了各种失效模式及其可靠性,但仅对失效导致的直接后果进行分析,如:接触应力增大、齿轮振动加剧、传递效率降低等,较少地研究失效模式及其相关性对可靠
TBM在掘进过程中要经过不同类型的围岩,在不同的围岩下需要选择适当的操作参数进行掘进。目前TBM的操作参数主要由操作人员来确定,操作人员根据传感器返回的掘进载荷数据对操作参数进行调节。当围岩发生变化时,如果操作人员没有及时发觉并对操作参数作出调整,可能会造成TBM无法适应当前的围岩条件,甚至出现卡机等后果。主要原因是缺乏围岩类型识别和操作参数决策方法。本文以吉林引松供水工程TBM3标段工程数据为基
紫花苜稽(Medicago SativaL.)是一种来自近东和中亚的优质多年生豆科牧草,被称作“牧草之王”,含有丰富的矿质元素、维生素、蛋白质和种类齐全的氨基酸,具有优良的适口性,广泛
电站金属合金材料在高温高压水环境甚至超临界水环境下的安全运行问题一直是超超临界发电技术的核心问题之一。长期服役于超临界水环境中的锅炉管材料在电站实际运行过程中的
目前图像描述是计算机视觉和模式识别领域的研究热点,在无噪声和小噪声图像方面取得了显著的成就。在实际应用中,当获取作为信息载体的图像时,由于受复杂环境、图像采集设备和显示设备等各种因素影响,会使图像被引入噪声,从而导致难以从噪声图像中获得具有高鉴别性的特征。本文针对传统图像描述方法在噪声条件下特征鲁棒性差、纹理区别能力不足的问题,提出了几种优化的局部特征提取算法和特征选择算法,并在四个公共的数据库上
随着我国经济转型步伐逐渐放开,商业园区将成为未来重要的电力用户。考虑风光等新能源的波动性和随机性特点,在商业园区配置一定规模的储能设备有效改善新能源利用率低的问题