【摘 要】
:
传统的文本分类方法如核方法、TF-IDF等等,忽略了文本和词的语义信息以及主题分布的多样性.本文在高斯分布主题模型假设和统计流形学习框架的基础上,提出一种基于统计流形的
【机 构】
:
中国科学技术大学 计算机科学与技术学院,合肥,230026
论文部分内容阅读
传统的文本分类方法如核方法、TF-IDF等等,忽略了文本和词的语义信息以及主题分布的多样性.本文在高斯分布主题模型假设和统计流形学习框架的基础上,提出一种基于统计流形的文本距离度量方法(Text Metric on Statistical Manifold, TMSM).该算法是对主题模型的扩展,通过使用高斯混合模型来描述词在主题中的分布,得到了不同文本基于不同主题分布的概率模型表示.然后在统计流形学习框架下,通过度量概率模型来度量文本之间的距离,并使用在分类器算法上.多种数据集上进行的分类实验结果表明:和经典的文本分类方法相比,TMSM在所有测试数据集上均取得较好的分类准确率.
其他文献
1.前言rn1994年重庆市一幢圆形20多层建筑,由银行与酒店合资修建,设计按一栋楼考虑,采用一套火灾报警系统.设有二个疏散楼梯(见图1),在使用上要求平时不准互通,而在火灾发生
一、2016年的鲫鱼市场情1、2016年鲫鱼行情走2016年的鲫鱼行情大好,尤其是上半年,不少业者感叹前几年那么苦,总算可以喘口气了!以鲫鱼主养区华东区为例,业者反映,盐城鲫鱼养
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
对档案进行数字化管理,是我国档案管理水平提升与发展的必然选择。虽然我国的档案数字化管理还处于初步探索阶段,但相信在未来不断应用现代科学技术,对信息与知识进行整合,势
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
“疲劳过度的人是在追逐死亡”“在医院刚做完手术又要飞深圳出差,我有什么办法?工作需要,还得去呀!我家冰箱里每个周日都买一大堆东西,周末再扔出去。我和丈夫下班回家都挺
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
The research parts of the project operated by YSFR YSFRI is involved in 5 sub-projects of the “Bei Dou” Fisheries Research and Management Project, 1997/1998-2
近几年,大多数普通淡水鱼品种市场养殖效益不理想,一些小众品种引起了大家的关注.作为淡水养殖品种中的贵族——桂花鱼自然也在名单当中.不过,作为养殖总量最大的广东省,这两