【摘 要】
:
在蓬勃发展的Web2.0时代下,用户作为互联网的核心,每天都产生了海量的文本数据,而短文本数据在其中更是占有相当高的比例。短文本数据包括了即时通讯工具的聊天记录、网络购
论文部分内容阅读
在蓬勃发展的Web2.0时代下,用户作为互联网的核心,每天都产生了海量的文本数据,而短文本数据在其中更是占有相当高的比例。短文本数据包括了即时通讯工具的聊天记录、网络购物的商品评价、时事新闻的公众评论、论坛帖子及回复、有字数限制的微博及其评论等等。对此类短文本进行分类处理,能够在信息检索、信息抽取、个性化推荐和模式识别等诸多领域发挥着非常重要的作用,其应用领域十分广泛且极具研究价值和意义。然而,现有的短文本分类算法的分类准确率还有待提高,因此本文提出了一种基于HLDA和CNN相结合的短文本分类算法,以对短文本分类准确率的提高做出贡献。本文首先对LDA主题模型、卷积神经网络和分类相关基础理论进行介绍,将其作为本文研究的理论基础;其次本文对短文本的热度重新定义,并将其与LDA模型相结合,提出了基于热度加权的LDA主题模型(Heat weighted LDA,简称HLDA),以更准确地挖掘出短文本的主题信息;进而本文基于HLDA模型,针对短文本特征稀疏的问题,设计了基于HLDA和CNN相结合的短文本分类算法,对短文本进行更为准确地分类;最后本文使用已有的公开数据集,进行了相应的对比试验,实验验证了本文提出的模型的有效性和算法的准确性。具体的创新点有:(1)本文构建了HLDA模型。在该模型构建过程中,以LDA模型作为基础,引入了短文本热度因素进行拓展,来弥补原始LDA模型在短文本主题建模过程中难以解决文本稀疏和主题聚焦性较差的缺点。(2)提出了基于HLDA与CNN相结合的短文本分类算法,融合词与主题两方面的信息,来更好地表征短文本,以解决短文本特征稀疏的问题,从而达到提高短文本分类准确率的目的。
其他文献
1病例简介患儿男,3岁,自幼发现心脏杂音,以心悸、胸闷就诊。超声示各房室腔大小基本正常,二尖瓣水平左室短轴观显示二尖瓣口为2个分离的圆形瓣口,呈双瓣口征(图IA),
该研究以显生宙碳循环异常环境的地球生物学过程为研究主体,重点研究二叠纪-三叠纪之交和晚泥盆世两大重大地质突变期的地球生物学过程特点和规律,查明碳循环异常的起因及其对
目的探讨初发2型糖尿病患者综合护理服务的应用与护理效果。方法将2017年2月-2018年6月90例初发2型糖尿病患者随机分组,简单遵医服务组遵循遵医护理,综合服务组施行综合护理
本文是海南岛海区多毛研究的第一部分,标本系根据自1955年至1991年以来中国科学院海洋研究所、国家海洋局第一海洋研究所、中苏、中澳和中德国际合作考察的标本,在我国原苏联、联邦德国
纤维悬浮流是由基体流场和纤维粒子组成的流动,属于典型的流固两相流。随着现代工业中纤维增强工艺的发展,纤维悬浮流的研究价值正日渐凸现。收缩流场是工业中常见的一类内部
随着全球经济的发展,能源短缺和环境污染日益凸显,成为了影响人类可持续发展的重大问题。可见光催化作为一种绿色洁净的科学技术,用来替代传统高能耗处理方法,可用于降解废水中的有机污染物,逐渐成为研究的热点。文献报道的很多催化剂只在紫外光区显示光化学活性,在太阳光谱中紫外光占比不到5%,而可见光占到43%,因此,有效利用太阳光,开发在可见光下具有较高活性的光催化材料具有十分重要的意义。一维微纳米材料因其兼
针对两相交错式能量路由器在启动时出现的电流浪涌及电压过冲现象,提出自适应脉宽调整启动方案,使能量路由器在启动瞬间输出电压和电流的过冲得以有效抑制,并进行仿真及试验
对数字图书馆著作权评估的重要性进行分析,对传统著作权评估方法进行比较,选用基于收益法基础上产生的收益提成率法来评估数字图书馆著作权的价值。结合AHP方法确定带来超额
自甘堕落的沉沦──上海女性犯罪系列报道之三黄国祥,赵荣根人非圣贤,孰能无过?有过则改,同样不失英雄本色,即使是杀人不眨眼的魔鬼,只要放下屠刀,也能立地成佛。然而,对于价值取向已
幸福是现实生活中每个人都向往和追求的,追求幸福是人的目的和权利,随着时代的发展,人们的物质生活水平有了很大的提高,随之而来的是生存的压力,人们不知道生活的意义,找不到