基于图卷积神经网络的主题模型文本分类研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ares_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,文本信息资源不但呈爆炸性增长,同时还蕴藏了大量可利用资源。因此通过机器学习、模式识别、深度学习的相关方法对文本数据进行多维度、多样性以及统计模型的建立,实现对文本数据的分类显得愈发重要。文本的特征提取是文本分类中最需要解决的核心问题,对此本文提出了一种基于图卷积神经网络的主题模型文本分类模型。该分类模型将两种分类算法融合,其中第一种算法主要为解决基于概率的主题模型特征提取方法存在文本主题容易混淆的问题,在传统潜在狄利克雷分布(LDA)主题模型中融入文本类别信息的词频-逆文档频次算法(TF-IDF),提出Labeled-LDA模型学习文本主题特征;第二种算法中使用图卷积神经网络克服卷积神经网络仅能适用于欧几里得结构数据进行特征提取的缺点,首先利用词共现率学习词项之间的关联性,并且使用BM25学习词与文档之间的关联度,然后构建具有词项、词与文档特征的图结构向量,输入图卷积神经网络提取文本特征信息;最后,将方法一与方法二产生的文本特征信息矩阵多源融合,完成文本分类。通过对新闻文本数据集的实验,实验结果表明:基于图卷积神经网络的主题模型文本分类的精准率为76.4%,召回率为75.2%,F1值为75.8%,较图卷积神经网络文本分类方法精准率提高了3%,召回率提高了3.4%,F1值提高了3.2%,较Labeled-LDA模型文本特征提取方法的文本分类精准率提高了3.5%,召回率提高了1%,F1值提高了2.3%,证明了本文提出的方法能够有效的提升文本分类的准确度。
其他文献
固着生长的植物在长期进化过程中形成了多种抵御不利环境的应答机制,活性氧(Reactive Oxygen Species,ROS)作为第二信使在植物响应生物和非生物胁迫中起重要作用。由保卫细胞构成的气孔是气体和水分交换的主要通道,也是病原菌入侵植物叶片的重要途径。植物应答病原菌入侵时通过刺激保卫细胞中的ROS产生以促进气孔关闭,这种主动限制病原菌入侵的机制被称为气孔免疫。褪黑素和黄酮醇是植物重要的小
学位
学位
铝毒是酸性土壤中限制植物生长的主要因素之一。传统改良酸性土壤的方法是使用石灰和络合剂,但效果不理想。因此,我们研究植物抗铝的生理生化机制,利用基因工程技术培育转基因耐铝植物品种来提高植物抗酸性土壤中的铝毒能力和持续生产力。本研究以铝抗性丹波黑大豆为实验材料,克隆其超氧化物歧化酶基因(GmSOD)和过氧化氢酶基因(Gm CAT)。构建GmSOD基因原核表达载体,诱导纯化蛋白,并分析其酶学特性。构建植
本文通过搭建D30TCI柴油机加装DOC和DPF的试验台架,开展了DPF的初步试验,为模型的构建及其可靠性验证提供了基础试验数据,对DPF进行了国6瞬态循环的测试试验,并对DPF进行了破坏性主动再生试验。采用一维热力学软件分别构建了柴油机后处理系统模型和带后处理系统的柴油机整机模型,在考虑灰分沉积的情况下对国6 DPF的基础性能参数进行了优化选型,同时研究了灰分和DPF对柴油机性能的影响,并对DP
近年来柔性显示技术迅速发展,柔性显示屏是一种有机的用户界面,相比于传统的刚性显示界面它能提供更好的用户体验,比如柔性设备能带来真实的“纸张体验”,直观的物理界面容易理解使其具有很高的可用性,而目前还没有完善的柔性屏交互技术,使得研究出一套有效合理的柔性交互技术尤为重要。尽管在柔性屏交互技术的相关研究中,已经有研究者对弯曲输入的手势进行了设计,但是他们没有对弯曲和扭曲的输入手势进行相关研究,用等级划
近年来,随着国家工业化水平的日益提高,对综合性能优异的钢材需求越来越广。Ti微合金钢由于具有的优良性能,并且钛矿在我国产量丰富价格低廉,一直是微合金钢领域较为热门的微合金钢种。但Ti微合金钢中Ti元素较为活泼,易与杂质元素形成夹杂物,同时Ti C的析出具有较高的温度敏感性,可能导致钢板性能出现波动。本文针对Ti微合金化钢在轧制过程中奥氏体组织晶粒粗大和夹杂物多等问题,添加Zr和Mo元素,研究Zr和
软测量技术是实现难测参数在线实时估计的一种有效手段,在冶金、造纸、制药、石油、化工等生产过程的监测、控制及优化中扮演着日益重要的角色。由于实际工业过程往往呈现出非线性、时变性、多模式、多时段等过程特性,使用传统的全局建模方法难以得到令人满意的结果。因此,即时学习作为一种典型的局部学习建模方法在软测量建模领域日益受到青睐。本文从即时学习软测量建模技术出发,研究高性能的集成即时学习软测量建模方法。论文
双语新闻差异性摘要分析是自然语言处理领域中的重要研究方向之一。随着一带一路的发展,我国与其他国家的交流变得日益密切,我们需要更加精确地了解其他国家在某一话题下与我国的不同看法。国内外各新闻媒体都会发布大量的新闻报道,可以帮助我们很好的了解不同国家对待某一话题差异性。本文的研究目标就是通过双语新闻报道,根据设计的差异性摘要抽取方法,获得两种语言在同一个话题下新闻报道的差异性。针对以往多文档摘要的研究
近年来,随着计算机视觉技术的快速发展,结合不同研究领域的应用需求,开发、设计不同类型的图像的自动识别系统已成为该技术的一个重要发展方向。其中,结合不同种类昆虫的形态特点,利用昆虫图像进行自动识别,方向新颖,且具有很大的研究使用价值。蝴蝶是昆虫界的重要分支,种类繁多,分布广泛,因此对其进行分类非常困难。研究蝴蝶种类的自动识别方法,不仅可以保护环境,也可应用于边境检疫,也对物种的鉴定研究有非常重要的意