【摘 要】
:
文本分类技术是一种用来有效管理大量文本信息的有效途径,文本分类技术目前为止已经取得了较好的发展,近年来伴随着互联网及计算机技术的高速发展,逐渐出现了微博、微信等社
论文部分内容阅读
文本分类技术是一种用来有效管理大量文本信息的有效途径,文本分类技术目前为止已经取得了较好的发展,近年来伴随着互联网及计算机技术的高速发展,逐渐出现了微博、微信等社交平台,相应的短文本形式的内容成为人们日常交流以及获取信息的主要方式,短文本形式的数据以爆发式增长,这些短文本如微博动态、评论等,无论对于用户还是商家甚至是政府、科研人员来说,将其进行处理,从而挖掘出数据背后的价值非常具有现实意义和应用价值,短文本分类技术便是其中一个研究方向。短文本具有特征稀疏、表达信息能力不足的特点,直接地使用传统的文本分类算法不切实际。针对短文本的分类算法近年来虽然已有很多研究,微博等平台也有分类功能,但是微博短文本在目前科技飞速发展的情况下,出现爆炸式的增长是时代所趋,对于它的研究并不过时,而且短文本分类技术仍然有改进的空间。本文便是针对短文本的高稀疏性,表达信息能力差的特点,先对短文本的文本特征进行扩展处理然后再进行分类任务。并在分类任务中引入深度学习,使用卷积神经网络作为分类器对其进行分类。本文研究涉及到了短文本分类的详细流程,包括爬虫、文本预处理、中文分词技术、特征扩展算法、分类器训练以及分类等步骤。其中在特征扩展中使用对算法进行改进,扫描数据得到关联规则,然后关联规则库作为扩展特征的根据,为了确保创建的特征关联规则库能够覆盖到样本数据中的各种类别,分别按类别计算每一类的特征关联规则。对于短文本中高频却没有影响的词语及噪声,在文本预处理阶段将使用停用词表进行过滤处理。短文本分类的分类阶段,通过实验分析,分类器设计了3个较小卷积核叠加的卷积神经网络结构,以便使得能保证网络分类性能的基础上,还能更好的还原特征、刻画特征。实验证明,比起如支持向量机、贝叶斯网络、决策树算法等传统的机器学习方法,本文提出的基于特征扩展后的卷积神经网络分类模型成功提高了微博短文本的分类精确率。
其他文献
量子计算和量子模拟有很大的应用前景和科研潜力,人们在这方面已经投入了许多研究并做出了许多卓越的工作。离子阱体系由于其易于单比特操作、与外界环境相干小、比特间信息
整形飞秒激光脉冲对原子分子体系各种动力学过程的量子相干控制一直是人们重点关注的研究领域。我们采用正弦位相调制下的偏振整形脉冲诱导N2O分子的电离,并通过改变正弦位相
随着互联网的极速发展,网络媒体成为媒体传播的重要手段,海量的网络媒体信息为用户带来了极丰富的语料资源。除了新闻传播以外,论坛、博客、微博等新的网络媒体形式不断出现,网络媒体的内涵和外延也正不断发生演化。面对浩瀚的网络语料数据集,如何充分挖掘其价值,以可视化方法针对特定话题进行分析成为亟待解决的问题。在此基础上,网络媒体监测应运而生,成为了分析语料数据的一种必要手段。本文构建的网络媒体语料库系统的主
目的血小板源性生长因子-BB(platelet derived growth factor-BB,PDGF-BB)是一类可刺激组织细胞增长的肽类调节因子[1],具有诱导血管内皮细胞的增生、迁移和管腔形成的功能[2-4],还可以通过招募周细胞维持血管结构的完整性[5-7]。糖尿病视网膜病变(diabetic retinopathy,DR)是常见的糖尿病致盲性眼底并发症,其主要的致盲机制是由于眼底微循
由温室气体排放引发的全球气候变暖危机正成为全人类面临的挑战,建筑行业产生的温室气体在全球温室气体中占较大比重。因此,建筑低碳化对全球温室效应控制意义重大,也是人类文明可持续发展的重要保障。高大空间建筑因其体量大、人流量大、热环境复杂等特征,是建筑业中碳排放强度最高的建筑类型。夏热冬冷地区建筑需同时满足冬夏季的热舒适要求,建筑使用阶段碳排放较高,具有很大的节碳空间。因此,从低碳角度下的高大空间建筑设
近年来,随着美丽乡村建设与乡村振兴战略的提出,乡村的发展与复兴越来越成为国家建设的主流,因此,乡村旅游的发展也成为乡村复兴发展的重要途径,乡村旅游的发展不仅改善了乡村居民的生活,带动了乡村经济水平的提高,也给城市居民带来了乡村风情、民俗民风等体验,将乡村特有文化通过乡村旅游的渠道和艺术介入的途径发扬传承。与此同时,也遇到了一些问题,如乡村环境资源在旅游开发的过程中遭到破坏、大量外来艺术文化的介入使