论文部分内容阅读
随着智能化时代的到来,计算机数据管理正逐步由手工化向智能化转变,个人信息的智能管理也成为了热门的研究领域。如何高效管理日益增多的个人文档,提高工作效率,是数据分析与挖掘领域的重要研究课题。近年来,文本分类技术的不断进步使得在文本数据管理方向上有了更多改进空间,将文本分类技术应用在个人数据管理的想法随之产生。在文本数据快速增长的现状下,对个人文本文档进行快速自动归类是提高个人信息管理效率的一种有效举措。然而,个人文本文档分类问题的一个难点在于,每个用户所存储的文本文档的侧重点各不相同,在分类时不可避免的存在数据偏斜问题。数据偏斜会造成文本分类过程中结果偏向偏斜(样本数多)的类而忽视了样本数少类,因而造成结果偏差甚至错误。对于上述问题,本文主要完成如下工作:面对个人文档数据的偏斜问题,本文提出了一种快速有效的特征选择方法TDA算法。结合个人文本数据所具有的高维空间与数据偏斜的特性,先通过TextRank算法对文本快速降维,并选出可用特征词集;在此基础上,通过最强区分力特征选择方法,进一步选择每一类最具区分力的特征词构成“类特征向量”;最后,基于类特征向量提出一种根据T-DA算法特点的词匹配的分类方法,该分类方法具有可以推送多可能结果的作用,可以通过与用户交互实现精确的分类。最后基于复旦新闻语料和解放军报分类数据评估了算法的性能和可行性,验证了上述方法对个人文本数据分类有较好的实用性。在算法研究的基础上,本文还设计并实现了一种基于上述算法的文本文档分类原型系统,通过编程实现了文本文档判断模块,预处理模块、T-DA特征选择模块、类特征向量图构造模块、分类模块,界面的设计,综合研究了个人文本文档分类原型系统的工程实现,提供了一种个人文本文档自动归类的解决方案,可以有效提高用户对文本数据的管理效率。