论文部分内容阅读
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,任何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出了两种有效的解决或改进的方法和技术。本文研究内容和创新工作主要包括以下两点。1)层次文本分类技术研究层次分类是把分类系统构造为层次结构,既把各类按照一定的层次关系组织成偏序结构。因此,层次分类从结构和性能上,对分类方法来说是一个大的改进,是一种有效的分类途径。局部层次分类是层次分类中最为普遍的方法,该方法的优点就是速度较快和简单,但是它有一个致命的弱点:在顶层被错分的样本将不可恢复。针对上述特点,本文提出了新的层次文本分类方法:考虑走多条分类途径,即在某个内部节点选择多个子类别作为下一步分类的根节点;并考虑了每个叶子节点在层次结构中的高度,平衡高度带来的结果偏差。2)集成学习文本分类研究集成学习(ensemble learning)技术利用基于学习器多个版本来解决同一个问题,可以显著地提高学习系统的泛化性能。集成学习的理论基础告诉我们影响集成学习的泛化能力的两个参数:个体的分类强度和个体之间的相关性,个体的分类强度越强和个体之间的相关性越小,则集成学习器的泛化能力就越好。论文中,提出了基于群组决策的个体选择算法并且对集成学习也作了详细的介绍。用权威的机器学习数据库中的数据集作为实验数据集,评测了方法的有效性。