论文部分内容阅读
随着互联网与社交媒体的快速发展,人们的学习与生活方式也在不断变化。微博、Twitter、BBS和SNS等平台的兴起带来了大量的短文本数据,如新闻标题、网络聊天和商品评价等。这些数据涵盖范围广,信息含量高,为公司、政府和科研机构等组织提供了关键的信息来源。因此,如何对这些短文本数据进行有效管理和分类成为了当下研究的重点。由于短文本具有篇幅短小、特征稀疏和文本形式不规范等特点,传统的长文本分类方法对短文本不能取得较好的分类效果。针对此问题,本文对短文本特征扩展方法进行研究,并结合集成学习方法来提升短文本的分类性能及泛化能力。本文研究包含以下几点:1.针对短文本特征稀疏问题,本文提出了基于LDA主题模型的短文本特征扩展方法。首先通过大文档集训练LDA主题模型,通过该模型预测短文本的文档-主题、主题-词概率分布;然后选择概率值较高的主题,将其下概率较高的词扩展到短文本中。由于传统LDA主题模型主题间相似度较高,本文使用加权LDA主题模型进行训练,降低主题间相似度,提高待扩展词之间的差异度;最后设计实验验证该方法的可行性和有效性。实验结果表明,使用该方法进行特征扩展后,短文本可以取得更好的分类效果。2.针对单一分类算法准确率低、分类性能不稳定问题,本文结合集成学习思想,提出了基于集成学习的短文本分类模型。首先通过特征扩展后的短文本训练集训练多个基分类器;然后提出一种基于多种差异性度量的分类器选择方法,结合成对与非成对差异性度量方法去选出差异性大的分类器集合参与最后的短文本分类;最后设计实验验证该方法的可行性和有效性。实验结果表明,本文提出的短文本分类模型具有较高的分类性能和泛化能力。3.对本文提出的短文本分类模型进行实际应用,完成了短文本分类系统的原型设计与实现。主要对新闻、微博等平台产生的短文本数据进行采集、分类和统计分析,最终以Web页面的方式为用户展示分类结果。