【摘 要】
:
文本聚类作为一种对大规模文本信息进行有效地组织、导航、检索和概括汇总的关键的、基本的技术而日益受到关注,其主要目的是在语义空间里以无监督的方式将文本集中的文本划
论文部分内容阅读
文本聚类作为一种对大规模文本信息进行有效地组织、导航、检索和概括汇总的关键的、基本的技术而日益受到关注,其主要目的是在语义空间里以无监督的方式将文本集中的文本划分成不同的类。基于文本空间的文本聚类因为其具有高维的特征而不容易直接实现,所以文本聚类的首要步骤就是将文本空间的数据投影到较低维的语义空间里,使在文本空间里相邻的数据向量在语义空间里根据某些提取的特征参数而相似。与PCA(主分量分析)和VQ(矢量量化)等降维算法不同,NMF(非负矩阵分解)算法能够分解出非负的,稀疏的特征矩阵和编码矩阵,能够提取原始数据向量的局部特征,使基于局部特征进行分类的聚类算法更容易实现。如果将一篇文档看作是由许多文本主题组合而成,而文本主题与语义空间的特征向量相对应的话,则我们可以直接根据NMF算法所提取的特征向量及相对于特征向量各文档的编码向量将文本集划分成不同的类。因此,NMF算法用于文本聚类的优点就是可以直接利用其分解得到的编码矩阵结合特征矩阵进行聚类操作。本文主要采用SNMF(非负稀疏矩阵分解)算法作为降维和提取特征向量的工具,该算法是在NMF算法的基础上加上显式地稀疏因子控制而形成的一种非负矩阵分解方法。同时采用球形k-平均算法和NNLS(非负最小平方差)算法的结果初始化SNMF算法以达到改进和优化SNMF算法的目的;通过结合SNMF算法与LP(I局部保留索引)算法以实现在无监督的方式下取得更准确聚类结果的算法。与基于NMF算法的文本聚类不同,我们的算法力求以无监督的方式,在时间复杂度允许的范围内,找到更适合于分类操作的数据向量间的几何局部特征向量及相应的各文档的编码向量。实验结果显示,在聚类的容易度、准确度、时间复杂度上均取得较NMF算法更合理的效果。
其他文献
电子商务的迅速发展使得支付方式发生了巨大的变革,现代化的支付工具——电子现金应运而生并日益发展,由此对现代支付体系也提出更高的要求。但是现在电子现金中还有撤销成员、
优美图是图论中极有趣的研究课题之一,而Skolem优美图是由优美图衍生出来的一个变种。Skolem优美图的研究始于1991年Lee的一篇论文,在这篇论文中,Lee明确给出了Skolem优美图的定
知识管理是90年代中期以后出现的,作为一种新的管理形式,已成为企业提升竞争力的核心要素。国内从1998年以来引入知识管理概念,并受到广泛关注,知识管理逐渐成为管理领域研究的热
随着科技的快速发展,科技论文的规模在快速增长,为科研工作者带来了丰富的文献资料。据统计,高校论文数量以每年6%-8%的速度在增长,规模已达千万级,用户搜索感兴趣论文的时间也与
智能交通系统(ITS)作为21世纪交通运输体系的发展方向,受到世界各国的广泛重视。作为智能交通系统的基础,对交通流理论的研究,尤其是交通流模型的研究,有着极其重要的意义。与国
我国目前10KV以下电力网络的地理分布复杂而且数量众多,大多数管理系统采用的通讯方式或多或少存在着一些弊病,如:电话通讯系统速度缓慢;电力载波通讯可靠性差;一些总线通讯网方式
两跳无线网络是一类很重要的网络模型,可以为更加一般的网络模型性能的分析奠定基础。同时,协同干扰已经被证明是一种非常有前景的能够提供强安全的物理层安全技术。本文提出了
条带噪声是线扫描图像中特有的噪声类型,不仅严重影响图像的视觉效果,还容易在图像分析时被误认为线状目标。因此,研究条带噪声的去除方法具有较高的理论价值和实际意义。在变换
分词词典是汉语自动分词系统的一个基本组成部分,词典的查询速度直接影响到分词系统的处理速度。在因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转
如何实现几何产品信息在产品设计、加工和检验的不同阶段,在全球范围同一制造企业的不同部门间和有合作关系的不同制造企业间,以及在涉及这些阶段和企业或部门的异构CAx系统