基于泛化信息和记忆信息的短文本分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gailuen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及以及其硬件水平的快速更新,短文本的数量呈现爆炸式增长的趋势,这种趋势在用户量巨大的社交网络平台上尤为明显,例如Twitter、Facebook、微博等。这些社交软件的用户规模已经达到数十亿,尤其是活跃用户的日常评论导致了短文本的规模不断猛增。因此,迫切需要自动语言理解技术来处理和分析这些文本。在这些技术中,文本分类被证明是一种基本的,关键的,在各种场景中都很有用的自然语言处理任务方法,但是在字符个数较少的短文本中如何充分的利用其信息方法将在很大程度上影响短文本分类的准确度。目前,短文本分类的主流方法包括传统机器学习文本分类方法和深度学习文本分类方法这俩种,传统的机器学习方法中存在着文本表示高纬稀疏、特征工程复杂和分类器选择的问题,这导致了短文本分的效果不理想。虽然深度学习方法在一定程度上解决了上述的这三个问题,但是其对文本局部相关性的信息利用也并不充分。基于上述的问题和需求,本文利用记忆信息的记录已知信息的相关性和共现性的优点以及泛化信息低纬稠密和可表现未知新特征的优点,提出了基于泛化信息和记忆信息的短文本分类技术。通过在深度学习CNN模型上集成泛化信息和记忆信息提出了GM-CNN模型,GM-CNN较充分的利用文本信息,实验中的结果也好于现有的一些基准模型。在提出了GM-CNN模型后,接着研究了GM-CNN模型中尚待优化的一些问题。基于这些问题,利用批正则技术和一维分段最大化池化技术进行了改进,提出了IGM-CNN模型。实验结果表明IGM-CNN比GM-CNN模型取得了更好的分类效果。同时也对分段最大化池化的段数大小进行了实验,使得可以在保持模型较好分类效果的前提下最大程度的降低模型的参数数量和模型的复杂度。
其他文献
随着深度学习技术的不断发展,对特定目标检测的准确性和检测速度都得到了极大的提升,用于军事侦测的目标检测技术也逐渐落地。迷彩作为一种伪装手段常用于保护己方作战单位,它能够使伪装目标的反射光波同周围景物发射的光波相似,从而达到迷惑敌人的效果。在卫星可见光图像中,使用了迷彩的目标是否可以影响目标检测的检测结果是一个值得研究的安全问题。本文收集相关的卫星可见光图像数据,使用最新的目标检测技术,对迷彩目标进
由于现有的很多程序都是由内存操作不安全的语言编写而成,比如C或C++语言,从而容易受到基于内存安全的攻击。例如,攻击者可以利用一个缓冲区溢出漏洞,覆盖并篡改内存中的某个函数返回地址或程序分支变量数据,从而改变程序的执行流程,影响程序的运行结果。为了应对现有攻击,近年来,业界研究人员提出了许多保护机制来抵御基于内存安全的攻击。然而,经过分析发现,大多数现存的保护机制都是针对程序的控制数据提供保护,比
目前,癌症已成为威胁人类公共健康的世界性难题,传统的治疗方法存在许多的缺点,为克服这些缺点,寻找一种更为智能、安全的癌症治疗方法是十分必要的。近年来,纳米载体靶向递送抗肿瘤药物在肿瘤的治疗方面受到了广泛关注。氧化石墨烯(GO)具有优良的生物相容性、强亲水性、高比表面积,且表面富含各种活性基团,易于进行共价修饰或非共价修饰,因而氧化石墨烯在生物医学领域有着很大的应用潜力。但是未经修饰的氧化石墨烯在生
近年来,随着金融应用、传感器网络等领域的迅速发展,新的数据每分每秒都在产生。为了从海量的新数据中持续实时地获取分析结果,许多大型互联网公司采用流计算来处理数据。作为流计算的底层通信主干,分布式消息系统被广泛采用。随着数据量不断增大,分布式消息系统的性能问题逐渐暴露出来。为了更好地支持不同的应用场景,分布式消息系统提供了大量可供配置的参数。但是,对于大多数用户来说,如何配置这些参数来提高分布式消息系
目的:黄豆苷元能够有效的治疗多重心血管疾病。然而,由于其极难溶于水和油的性质导致了它的口服生物利用度也很低。从而限制了它的口服应用。为了提高黄豆苷元的溶解性质,我们选择制备黄豆苷元纳米混悬剂,接着通过冷冻干燥并装填入胶囊进一步提高制剂的稳定性。方法:本课题用高压均质法和沉淀法结合高压均质法两种方法来制备黄豆苷元纳米混悬剂,正交实验用于处方筛选和优化,通过考察粒径和多分散指数来评价制剂的性质。再将黄
钢悬链式立管是海洋油气开采的关键设备,通过柔性接头为立管和平台之间提供一种承压连接,通过锚固的方式把立管底部固定在海床井口。立管顶端受平台振动运动和海洋环境荷载的作用产生高应力循环而发生疲劳损伤,同时引起立管与海床土的往复运动,使得立管触地区成为疲劳破坏的高发区。因此本文以在管土耦合作用下钢悬链式立管与浮体的整体分析作为主要的研究对象进行数值模拟研究。首先,以钢悬链式立管与浮式平台分析模型为重点研
全球信息化加速,互联网改变了人们的生活方式,在线社交网络取代了传统的交互方式,越来越多的用户倾向于使用社交软件进行即时通讯、信息共享、热点讨论等行为。然而,在线社交网络是一把双刃剑,它在提供用户便利的同时,却也悄无声息地泄漏着用户的隐私。在线社交网络的发展滋生了用户展示自身的欲望,用户热衷于在社交软件中分享动态信息,无论是心情随笔还是出行动态,他们渴望同社交好友进行交流互动。用户的不同动态都有其对
2019年10月24日,习近平总书记在中央政治局第十八次集体学习时指出:"要探索利用区块链数据共享模式,实现政务数据跨部门、跨区域共同维护和利用,促进业务协同办理。"深入贯彻
水凝胶是一种交联的聚合物网络结构和水的聚集体。水凝胶广泛的存在于自然界中,从植物的表皮树叶到动物组织例如肌腱等,都属于水凝胶的范畴。而人工合成的水凝胶,根据其所使用单体的种类,水凝胶的内部结构,以及水凝胶中添加的填料的不同,可以呈现出不同的响应性,力学性能以及离子吸附等功能;又因为水凝胶本身的生物相容性和含水量的可控性,水凝胶在传感器,载药,驱动以及组织工程等领域的具有广泛的应用。因此,在近三十年
海洋管道是海洋平台的重要组成部分之一,大多为长细比较大的柔性立管。作为输流通道,管道内通常会有高速油或气通过,对管道的振动幅值和频率产生较大的影响,但当前对海洋立管管道内流振动响应的研究涉及较少。本文运用CFD数值模拟方法,研究大长细比的柔性管道在内外流工况下的双向流固耦合,分析管道内流对管道涡激振动的影响。首先,运用单向流固耦合方法模拟只有内流工况下管道的振动响应。研究发现管道在一端固定另一端铰