论文部分内容阅读
随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个亟待解决的问题。Web文本分类作为Web文本挖掘中的重要技术,可以在较大程度上解决信息杂乱和“信息爆炸”的问题。作为搜索引擎、数字图书馆、信息过滤及信息检索等领域的技术基础,Web文本分类有着广泛的应用前景。本文分析了Web文本挖掘和Web文本分类的研究现状,指出Web中文文本分类领域需要进一步研究和解决的问题,在此基础上,对基于Web的中文文本分类技术进行了深入研究。本文主要内容如下:(1)对Web中文文本分类过程中的关键技术:文本自动分词、文本表示、特征项的权重计算、降维技术等进行详细地分析和讨论,指出现有权重计算方法的不足以及常用特征选择方法的优缺点。(2)介绍常用的分类方法,深入研究了统计学习理论基础上的支持向量机(Support Vector Machine,SVM)方法,分析了SVM用于Web文本分类的优势及不足;研究了粗糙集的相关理论,重点探讨了粗糙集的约简理论以及可变精度粗糙集模型,对粗糙集在Web文本分类中的应用可行性进行了深入的分析。(3)针对现有权重计算方法的不足,在分析Web文本特点的基础上,研究了HTML标记对网页内容的修饰作用,设计了HTML标记的加权策略,并提出了一种基于Web文本的可变精度粗糙集权重计算方法。(4)以上述内容为基础,提出了一种优势互补的Web中文文本分类混合算法;该算法中,粗糙集作为SVM的一个前端处理器,利用其约简理论以及基于Web文本的可变精度粗糙集权重计算方法分别从分类效率和分类精度两个角度对SVM方法进行优化;SVM作为后端分类器,利用SVM的优势对约简并加权后的数据进行分类,使得分类性能得到进一步保证;最后对该混合算法的具体实现过程进行详细地分析和阐述,通过实验验证了算法的有效性,并提出了其在辅助科技宏观决策中的应用模型。