论文部分内容阅读
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。Web的迅猛发展为文本自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战。而作为Web网页自动分类技术基础的文本自动分类技术也迅速地发展起来。 基于文档频率的特征提取方法计算复杂度低,而且提取出的特征的分类效果也和卡方检验以及信息增益等方法相当,比较适合于大规模的文本分类任务。但是通过分析我们发现,由于仅仅使用文档频率来衡量特征的区分能力,文档频率方法存在两个问题。 显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们对分类是有用的,这是因为这些项集能够捕获数据库中两个数据集之间的多属性差异,具有很好的分类性能。而eEPs(Essential Emerging Patterns)是一种最具表达能力的、特殊的EPs,称为基本显露模式。它不仅具有EPs的优点,可以用来构造准确的分类器,而且数量比EPs少很多,可以快速方便地挖掘和使用。 基于EPs的分类方法并不把样本看作n维空间的点,而是把它们看作项的集合。通过发现那些从一个数据集到另一个数据集支持度发生显著变化的模式(项集),建立分类器,基于EP的分类方法足以与C4.5、朴素Bayes等分类法相媲美。基于EPs的分类方法已经成功地应用于DNA分析等领域,但用于文本自动分类还未见到报道。 本文在分析了文档频率特征提取方法存在的问题的基础上,给出了特征的区分能力的概念,提出了一种基于区分能力的特征提取方法,并将基于eEPs的分类方法应用到中文文本分类领域,提出并实现了一个基于eEPs的中文文本分类算法TCEP。