论文部分内容阅读
文本分类技术作为作为现代互联网信息科技的重要分支在过去的二十年中有了长足的发展,然而随着互联网上Web页面数量的指数增长,互联网信息的多样性也呈现出越来越复杂的态势。如何改变传统的文本分类算法使其适应现代Web信息类别多样、低区分度等特性成为现在文本分类亟待解决的问题。距离度量学习算法是一类围绕样本之间相似度的度量模式来进行研究的机器学习算法,由于目前基于统计和机器学习的文本分类算法已经比较成熟,在分类精度方面很难再有更大的提高,因此如何改变样本的距离度量模式使其达到更好的分类效果,是当前的一个研究热点。此方面的研究已经在图像识别、分类领域有了比较成功的应用。本文主要针对距离度量学习在文本分类中的应用展开研究,首先在广泛调研文献的基础上总结了目前已有的本领域相关工作,并介绍了几种常见的距离度量学习算法,其次介绍了文本分类的具体流程,并对其中关键算法进行了分析,最后根据文本分类的特点结合已有的距离度量学习算法根据在实际应用中出现的问题提出了一系列改进方案。本文的主要工作有:(1)在引入距离度量学习的基础上考虑到其对样本密度的影响,提出了改进方案。新的方案设计了一个密度函数与K近邻分类器相结合来平衡距离度量学习算法对样本数据的影响。(2)在大边界最近邻(LMNN)算法的启发下,提出了一种新的基于余弦距离度量的学习算法(CS-LMNN),该算法更加适用于经典的向量空间模型下的文本分类。(3)最后在上述理论基础上,实现了整个文本分类系统,包括预处理模块,特征选择模块,距离度量学习模块,分类模块以及评价模块。