基于集成学习的短文本分类方法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liangjingyu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与社交媒体的快速发展,人们的学习与生活方式也在不断变化。微博、Twitter、BBS和SNS等平台的兴起带来了大量的短文本数据,如新闻标题、网络聊天和商品评价等。这些数据涵盖范围广,信息含量高,为公司、政府和科研机构等组织提供了关键的信息来源。因此,如何对这些短文本数据进行有效管理和分类成为了当下研究的重点。由于短文本具有篇幅短小、特征稀疏和文本形式不规范等特点,传统的长文本分类方法对短文本不能取得较好的分类效果。针对此问题,本文对短文本特征扩展方法进行研究,并结合集成学习方法来提升短文本的分类性能及泛化能力。本文研究包含以下几点:1.针对短文本特征稀疏问题,本文提出了基于LDA主题模型的短文本特征扩展方法。首先通过大文档集训练LDA主题模型,通过该模型预测短文本的文档-主题、主题-词概率分布;然后选择概率值较高的主题,将其下概率较高的词扩展到短文本中。由于传统LDA主题模型主题间相似度较高,本文使用加权LDA主题模型进行训练,降低主题间相似度,提高待扩展词之间的差异度;最后设计实验验证该方法的可行性和有效性。实验结果表明,使用该方法进行特征扩展后,短文本可以取得更好的分类效果。2.针对单一分类算法准确率低、分类性能不稳定问题,本文结合集成学习思想,提出了基于集成学习的短文本分类模型。首先通过特征扩展后的短文本训练集训练多个基分类器;然后提出一种基于多种差异性度量的分类器选择方法,结合成对与非成对差异性度量方法去选出差异性大的分类器集合参与最后的短文本分类;最后设计实验验证该方法的可行性和有效性。实验结果表明,本文提出的短文本分类模型具有较高的分类性能和泛化能力。3.对本文提出的短文本分类模型进行实际应用,完成了短文本分类系统的原型设计与实现。主要对新闻、微博等平台产生的短文本数据进行采集、分类和统计分析,最终以Web页面的方式为用户展示分类结果。
其他文献
交通设施作为人们社会经济生活运转的基础条件,是区域内或区域间进行交流的保障,在中共十五届五中全会中指出应将西部大开发与推动地区协调发展纳入到我国发展战略中。制造业
当前农村环卫整治工作是实施乡村振兴战略的重要基础工程,受到了党和国家的高度重视,在各级政府和人民的共同努力下农村环卫治理成果斐然。但是农村尤其是村庄内的环境卫生状况距离实现生态宜居的目标仍有一定的差距,政府过度主导,村民参与不足等问题也限制了村庄环卫服务供给工作的进一步发展,所以对于村庄环卫服务供给领域仍需要进一步的研究。本文以泰安市T镇为研究对象,对其村庄环卫服务供给现状和在实践中形成的主要供给
幼儿美术教育是根据儿童身心发展规律和幼儿美术特点进行一种审美教育,属于艺术教育范畴。艺术来源于生活,生活是艺术创作源泉。对于幼儿园孩子来讲,他们对周围世界认知,完全依赖
随着教育改革的不断深入,传统的教师“满堂讲”,学生“被动听”的教学方式已成为过去,取而代之是学生宽裕的时间、充分的材料、和谐的气氛,以及符合当今时代开放、民主、合作的精
目的 了解浙江省宁波市手足口病患者密切接触人群肠道病毒携带情况及其影响因素,为手足口病的防控提供参考依据。方法 采集2016年1月—2017年12月宁波慈溪市、余姚市和奉化区
企业要想获得长远的发展,找准前进的道路无比重要。
2020年注定是不平凡的一年,随着我国资本市场的不断发展和完善,国家决定在今年4月取消外资券商准入限制,引入市场竞争机制促进行业发展,同时加快打造航母级券商战略,证券业进
国内房地产市场泡沫都不大,多数城市收入与房价比例已归于正常区间,房地产暴利时代已经过去。关于中国楼市的变化及其趋势,今年的普遍看法是市场继续分化,一线城市继续稳中有