【摘 要】
:
文本数据作为最常见的数据形式之一,涵盖范围广、数据量大,又有密度不均的特点,不同平台中存储的文本数据结构不定相同,结构化文本数据、半结构化文本数据和非结构化文本数据并存。文本挖掘工作便是从这些海量、密度不均、异构的文本数据中提取隐含的、有价值信息以供决策或预测等使用。特征提取作为文本挖掘工作中不可缺少的关键步骤,其提取出的特征项的优劣会直接影响文本挖掘后续工作,将深度学习人工神经网络模型用于特征提
论文部分内容阅读
文本数据作为最常见的数据形式之一,涵盖范围广、数据量大,又有密度不均的特点,不同平台中存储的文本数据结构不定相同,结构化文本数据、半结构化文本数据和非结构化文本数据并存。文本挖掘工作便是从这些海量、密度不均、异构的文本数据中提取隐含的、有价值信息以供决策或预测等使用。特征提取作为文本挖掘工作中不可缺少的关键步骤,其提取出的特征项的优劣会直接影响文本挖掘后续工作,将深度学习人工神经网络模型用于特征提取步骤不仅可以提高特征提取工作效率,借助复杂模型还可以提升特征项的质量,以更好反映文本数据特性。本文主要工作如下:首先对现阶段常用的传统特征提取有关技术进行阐述,其次阐述了深度学习相关理论和自然语言处理部分技术,分析了深度学习在特征提取方面可能存在的优化效果,以及分析了深度学习人工神经网络模型RNN、LSTM在文本特征提取方面存在的局限性,最后针对前述问题提出一种结合BERT预训练模型和HAN网络的特征提取模型,从文本数据预处理方面与层次化分析文本数据视角,进行文本特征提取工作,通过设置五组模型在中英各两个数据集上进行二分类的对比实验,验证本文提出的特征提取模型的有效性及一定的优越性,实验结果表明本文提出的特征提取模型在对上下文信息的学习上、语义学习、词的多层特征学习上均有良好表现,同时对长距离依赖问题有着一定弱化效果。
其他文献
机器人学是一个涵盖范围非常广的领域,移动机器人学被认为是其中的一个重要分支,是国际信息学科研究的热点问题。移动机器人物理位置不固定,其具有在其环境中移动的能力,可以是自主的,也可以依靠引导装置在相对受控的空间中导航。路径规划技术是智能化移动机器人领域的重要研究方向。随着科技的不断进步与发展,单方向移动机器人难以完成复杂的工作,而多方向移动机器人在工作效率上具有很强大的优势。因此成为广大学者研究的热点。移动机器人要完成特定的任务,需要从起始地点沿着规划好的轨迹移动到目标地点
通过在井下安装传感器和地层流体控制阀,智能井系统可以实时监测地层油气藏动态,并实现对地层流体的实时动态控制,故智能完井能有效提高油气藏的开采效率和最终采收率,因此得到广泛重视。地层流体控制阀是智能井系统的关键装置,而井下阀门开度的实时准确检测则是实现阀门实时控制的前提。本文针对井下复杂工况,研制了一套具有井下流体冲蚀保护功能的非接触式地层流体控制阀开度检测装置,主要研究内容和阶段性研究成果如下:1
沉降罐在石油化工行业作为油水分离的主要设备,有着非常重要的地位。其工作原理是物理分离法,油水混合物静置一定时间,油上浮,水下沉,达到沉降分离的目的。油水分层后,人工打开阀门,排出底部的水,这个过程称为人工切水。人工切水主要依靠工人的经验来判断,油、水分离的时间易受混合状态等多种因素的影响,因此很难保证切水的精确性和可靠性,易造成原油的浪费和环境的污染,而且费工费时。目前我国很多地区都进入了高含水原
油田开采进入二、三次采油阶段后,层间矛盾突出,产层含水上升,水来源不明堵水困难,合采不能充分动用油层的可采储量,无法提高采收率。因此准确地摸清某一开采区块监控井的含水、单层产量等参数是油田目前实行分层采油的首要工作。通过对各层流量的调控,可提高采收率。论文结合井下油水混合流体的特点以及工作环境,采用超声波时差法测量分层采油中的流量参数。由于井下影响超声波流量测量精度的因素复杂,本文主要研究井下环境
钢丝绳合股过程是钢丝绳生产过程中重要的环节,合股机是钢丝绳生产的主要设备之一。针对咸阳宝石钢管钢绳有限公司钢丝绳生产过程中合股环节所面临的上盘过程繁琐、工作效率低的问题,为提高合股机的生产效率、降低工人劳动强度和人工成本,结合GGZ-18型合股机的结构和工艺要求,设计出了一套自动化上盘机器人,完成了GGZ-18型合股机自动上盘机器人的整体结构设计。基于机器人运动学理论进行了自动上盘机器人运动学分析
本文采用基于密度泛函理论的第一性原理计算方法并结合Vienna ab initio simulation package(VASP)软件包系统地研究了多种气体分子(CO、NO、H_2S、SO_2和NO_2)在蓝磷烯上的吸附特性。通过比较优化后最稳定吸附体系的能量、最稳定的吸附结构、相应的能带结构和态密度以及差分电荷密度来分析蓝磷烯基气体传感器的气敏机理。通过引入多种不同的金属原子(Li、Al、Fe
甲烷是大气污染气体之一,也是易燃易爆气体。实时监测甲烷气体浓度对于环境保护、安全生产具有重大意义。敏感材料涂覆光纤表面等离子共振(SPR)传感器具有抗电磁干扰、电绝缘、耐腐蚀、可多点复用等诸多优点,广泛应用于工业气体在线监测和空气质量监测等领域。本文围绕甲烷气敏材料涂覆光纤SPR传感器,开展了以下几方面的工作:首先,阐述了光纤SPR甲烷气体传感器的研究目的与意义。对甲烷气体传感器的国内外研究现状进
湿度测量在农业、医疗卫生、生物工程、化学工程、环境监测、食品药品加工、文物保护及森林防火等领域具有重要的地位。传统的电类湿度传感器灵敏度高并具有广泛的应用市场,但其响应速度较慢、无法在极端环境下测量。光纤湿度传感器抗电磁干扰、响应速度快、体积小、质量轻、耐腐蚀,具有重要的研究意义和应用前景。模间干涉型光纤干涉仪与传统光纤干涉仪相比,不仅降低了系统的复杂程度,而且提高了系统的稳定性,在湿度传感领域中
在光纤传感领域中,温度一直都是与人类的生产和生活密切相关的物理参量。本文在光纤温度传感技术的研究基础上,分别提出并制作了基于聚合物填充石英毛细管的三种不同的高灵敏度温度传感器。所研制的F-P腔型光纤微结构传感器不仅灵敏度高,而且制备方法极其简单,极易重复,成本极低,这些优势都将使得这些传感器在温度传感领域有更大的应用前景。本文的研究工作主要如下:(1)分析了各种液态温敏材料的物理特性,总结了液态温
流量测量是现代测试计量技术的重要组成部分,流量传感器广泛应用于工业生产和生活的各个领域。传统的流量传感器普遍有体积大,结构复杂,准确度差和易受电磁干扰等缺点,利用光纤光栅和传统流量传感器结合,使用光信号替代电信号制作而成的新型光纤光栅流量传感器,则可以很大程度上克服传统流量传感器的缺点,因此基于光纤光栅的流量传感器已经受到科研人员越来越多的重视。本文在传统流量传感器的基础上,结合光纤光栅传感技术,