【摘 要】
:
近年来,在数字化时代的背景下,随着网络信息技术在社交媒体、电子商务、信息检索和推荐等领域的广泛应用,互联网上复杂文本的数量呈指数增长,例如书籍/电影评论、在线新闻、产品介绍、电子邮件等,在大数据时代,非结构化文本数据的存在为数据的处理和管理提供了丰富的信息来源,如何更加有效地对文本数据进行处理、分类并挖掘有价值的知识,长期以来一直是工业界和学术界关注的焦点。目前,文本分类方法主要包括传统的机器学习
论文部分内容阅读
近年来,在数字化时代的背景下,随着网络信息技术在社交媒体、电子商务、信息检索和推荐等领域的广泛应用,互联网上复杂文本的数量呈指数增长,例如书籍/电影评论、在线新闻、产品介绍、电子邮件等,在大数据时代,非结构化文本数据的存在为数据的处理和管理提供了丰富的信息来源,如何更加有效地对文本数据进行处理、分类并挖掘有价值的知识,长期以来一直是工业界和学术界关注的焦点。目前,文本分类方法主要包括传统的机器学习方法和基于深度学习的方法。传统的机器学习方法通常使用特征工程和浅层机器学习分类模型的方式进行文本分类,但人工特征工程依赖领域知识,文本特征表达能力较弱,在文本分类中并没有取得令人满意的结果。随着深度学习模型算法在自然语言处理(Natural Language Processing,NLP)领域的广泛应用和不断发展,为了从文本数据中提取更好的特征,诸如Word2vec、Glo Ve等分布式表示模型和以卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)为代表的深度学习模型已被用于学习文本数据表示和分类,与传统的文本分类模型相比,这些模型取得了显著的改进。虽然这些深度学习模型优先考虑局部性和顺序性,能够捕获文档中的局部语义顺序信息,但在具有非连续和长距离语义的语料库中,忽视了语料库文本中的全局词共现关系。最近,图神经网络(Graph Neural Network,GNN)引起了学者的广泛关注,GNN能够有效地处理具有丰富关系结构的任务,并保存图的全局结构信息,此外,GNN可以为自然语言文本中的复杂语义关系建模,被广泛用于文本分类、语义角色标记、机器翻译等NLP任务。但基于GNN的文本分类方法忽视了文档的上下文顺序信息,其次,由于过平滑问题,GNN在文本中的应用层数较浅,无法捕捉文本图中节点之间的远距离依赖信息。如何在文本分类中有效融合文档中单词的上下文顺序特征和文档图中单词的结构特征并构建一个更深层次的图神经网络成为了本文的研究重点。本文通过改进图神经网络算法进行文本分类,主要研究内容和工作如下:(1)序列特征传播方案。本文提出了一种基于序列的特征传播方案,用于文本分析和表示,语料库中的每一个文档都被训练成一个单独的文档图,学习文档中每个单词的上下文顺序特征和图结构特征并得到文本表示。(2)深层图神经网络构建。本文通过解耦图卷积神经网络(Graph Convolutional Network,GCN)中的特征变换和传播过程,并利用注意力机制自动提取网络中每层的信息,完成深层GNN的改进,称为DGNN。(3)基于Bi-LSTM(Bidirectional Long-Short Term Memory)的序列图神经网络模型。本文提出了融合Bi-LSTM的图神经网络算法模型,通过利用Bi-LSTM捕捉语料库文档中单词之间的上下文语义顺序特征以及DGNN对文档图中单词节点之间的结构特征的提取进行文本表示,并在开源的英文文本分类数据集上与Bi-LSTM、Text GCN等基线模型进行实验对比分析,显示了本文模型的优势。(4)基于BERT(Bidirectional Encoder Representation from Transformers)的序列图神经网络模型。本文提出了融合BERT的图神经网络算法模型,算法思想是通过利用预训练的BERT模型获取语料库文档中每个单词含上下文语义顺序信息的特征向量,并作为文档图的初始嵌入特征,从而使用DGNN模型实现文档图的分类,通过与BERT、Transformer等基线模型的对比分析验证了本文模型的有效性。
其他文献
<正>定西市位于甘肃省中部,通称“陇中”,地处黄土高原、青藏高原和西秦岭交汇地带,大部分地方山大沟深,坡陡弯急,道路交通环境极其复杂。自2022年以来,甘肃省定西市公安局交警支队积极发挥市道路交通安全委员会办公室(市道安办)牵头抓总职能作用,坚持问题导向,大胆创新,探索推出“三项举措”,不断健全“主体在县、
科技创新是驱动产业升级的重要引擎。新中国成立以来,国内科技创新经历了从自力更生到引进消化再创新,再到高水平自立自强的目标和方向的演变,科技创新既推动了制造业的转型升级,也对制造业发展提出了更高要求。从新时代高水平自立自强的要求来看,我国当前制造业仍面临关键核心技术受制于人、共性技术供给缺位、工业基础能力薄弱、创新资源重复分散、创新人才结构性短缺、创新环境不佳等问题。宜坚持问题导向,从科技创新驱动产
<正>绩效考核数据采集于医院年度统计信息报表及财务报表,其能有效反映运营各个环节的效益及医疗工作的质量。医院在参与绩效考核数据持续提升的过程中,通过加强医疗关键环节与重点部门管理,积极应用核算新方法,可以进一步提升工作效率,对不具备发展价值的环节进行有效的精简。随着财务信息化的发展,医院需要重点做好合理控制成本、科学核算成本项目等工作。在绩效考核时,对各科室直接成本进行指标监控,
可中和多种病毒变异株的广谱中和抗体(broadly neutralizing antibodies,bNAbs),可阻断病毒传播、清除感染病毒及增强机体免疫力,在RNA病毒感染防治中具有巨大的潜力。成熟的B细胞需经历多轮体细胞高频突变,才能进化出高亲和力bNAbs,但其中影响B细胞高频突变的遗传因素尚不明确。本研究拟建立LCMV-CL13病毒慢性感染小鼠模型,识别B细胞发育的关键调节因子并筛选出影
近年来,推荐系统受到了广泛的关注和研究,其中,基于图神经网络的推荐模型研究是该领域的热点之一,许多基于图神经网络的推荐模型在近年来被提出,虽然这些模型取得了不错的推荐效果,但依然存在一些不足。首先,在Top-N推荐任务中,现有的基于图神经网络的推荐模型对两类重要关系的挖掘和利用不够充分,使得模型无法准确建模出用户的兴趣偏好,限制了模型的精度。其次,在基于会话的推荐任务中,现有的基于图神经网络的会话
本文主要就正念疗法应用于精神分裂症的方式、效果、局限性进行综述,旨在了解将正念疗法应用于精神分裂症患者的适用性及局限性,为延缓精神分裂症患者功能衰退,减轻社会负担提供参考意见。
介绍了5G物联网时代发展的趋势和形态,以4G技术为比较,详细阐述了5G技术的高速率、高密度、高流量、低延时、高流动性和高频谱的特点,实现了数据洪流时代社会资源快速的优化、分配与再生。基于当前的行业特点与需求,文章分析了5G+物联网在eMBB、uRLLC及mMTC的三种应用场景,介绍了该技术在AR/VR、车联网及智慧城市行业中所带来的影响。5G物联网技术令我们的生活产生翻天覆地的变化,最终将带给我们
为全面评估沈阳市大气污染物排放状况,文章收集和整理了相关活动水平信息和排放因子数据并采用排放因子法建立了2016年沈阳市人为大气污染物排放清单。结果显示:2016年沈阳市人为源CO、NOx、SO2、NH3、VOCs、PM2.5、PM10、BC、OC的排放总量分别为38.64×104、10.63×104、3.17×104、5.28×104、14.03×104、5.54×104、10.59×104、0
卫星欺骗式干扰会影响到电力无人机自主巡检的效率。文章研究无人机作业的动态情况下北斗抗欺骗式干扰技术。首先,对于无人机飞行作业的高动态性,引入了粒子滤波器模型以提高无人机的定位和测速性能;然后,针对欺骗式干扰的特点,建立抗欺骗式干扰方案,方案主要包括欺骗式干扰检测和识别2个部分;最后,通过仿真无人机飞行和欺骗式干扰环境进行实验。结果显示,在无人机动态情况下,基于粒子滤波器模型的定位和测速精度较传统的