基于Labeled-LDA的文本分类研究与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:shuxiaopei110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网与社会网络的高速发展,人们可以随时随地产生和分享信息,这些信息大多都可以转化成为文本内容而沉淀下来。对这些文本内容的快速、高质量的进行分类处理已成为文本挖掘和自然语言处理领域学者们的研究重点。目前,文本分类技术已经在搜索引擎、个性化推荐系统、舆情监控等应用领域得到了广泛的应用,是实现高效管理和准确定位海量信息的重要一环。但是当前文本分类的性能并不理想,有非常大的改进空间。本文重点研究基于主题模型(Topic Model,标签LDA)的文本分类技术。主要的研究内容包括:1)针对传统LDA模型无法纳入标签信息的问题,Labeled-LDA通过将标签和类别进行映射起来,能够很好的对原始数据和标签信息进行建模。但是这种硬性的关联会造成过拟合,导致分类性能的降低。而且Labeled-LDA模型中的标签和类别是一一映射的,本文提出一种改进的标签LDA模型,将类别映射为若干个主题之间的组合,同时将主题分为共享和自有的部分,来使得更好的符合真实文本的产生式过程。改进的标签LDA模型生成的结果具有更好的多标签分类的能力,同时还可以用于摘要和聚类等应用。2)原始数据的偏斜是影响分类系统性能的一大问题。在总结处理该问题的基础上,提出了一种基于主题模型的偏斜处理方法。实验表明,经过该步骤处理后的分类系统性能优于传统方法,并且在不同偏斜程度的语料集上效果比较稳定。
其他文献
本文介绍由上海氯碱公司开发的国内首次采用以纯氢(含氢99.8%)作燃料的蒸汽锅炉及其工艺技术特点、以及新颖的氢气锅炉结构特点和安全可靠的操作控制系统。本文还对氢气锅炉运
金融是经济的核心,资本是产业的纽带。现代企业的运营越来越离不开金融创新和资本运营,因此,战略融资也被越来越多的企业所器重。在世界经济格局迅速变化的今天,企业要生存、
以酱香型固态白酒的丢糟为材料,从中筛选出1株酿酒酵母和4株芽孢杆菌。并构建产多酶体系芽孢杆菌最佳组合。采用二阶段混菌固态发酵新工艺对酱香型白酒的丢糟进行固态发酵,生
当前中央决策层正大力推广PPP模式,将其作为改善公共基础设施的一种主要融资方式,并相继出台多项政策保障PPP模式的开展与实施。论文对《政府和社会资本合作模式操作指南(试