数据偏斜条件下个人文本数据分类的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gaoaiping0322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能化时代的到来,计算机数据管理正逐步由手工化向智能化转变,个人信息的智能管理也成为了热门的研究领域。如何高效管理日益增多的个人文档,提高工作效率,是数据分析与挖掘领域的重要研究课题。近年来,文本分类技术的不断进步使得在文本数据管理方向上有了更多改进空间,将文本分类技术应用在个人数据管理的想法随之产生。在文本数据快速增长的现状下,对个人文本文档进行快速自动归类是提高个人信息管理效率的一种有效举措。然而,个人文本文档分类问题的一个难点在于,每个用户所存储的文本文档的侧重点各不相同,在分类时不可避免的存在数据偏斜问题。数据偏斜会造成文本分类过程中结果偏向偏斜(样本数多)的类而忽视了样本数少类,因而造成结果偏差甚至错误。对于上述问题,本文主要完成如下工作:面对个人文档数据的偏斜问题,本文提出了一种快速有效的特征选择方法TDA算法。结合个人文本数据所具有的高维空间与数据偏斜的特性,先通过TextRank算法对文本快速降维,并选出可用特征词集;在此基础上,通过最强区分力特征选择方法,进一步选择每一类最具区分力的特征词构成“类特征向量”;最后,基于类特征向量提出一种根据T-DA算法特点的词匹配的分类方法,该分类方法具有可以推送多可能结果的作用,可以通过与用户交互实现精确的分类。最后基于复旦新闻语料和解放军报分类数据评估了算法的性能和可行性,验证了上述方法对个人文本数据分类有较好的实用性。在算法研究的基础上,本文还设计并实现了一种基于上述算法的文本文档分类原型系统,通过编程实现了文本文档判断模块,预处理模块、T-DA特征选择模块、类特征向量图构造模块、分类模块,界面的设计,综合研究了个人文本文档分类原型系统的工程实现,提供了一种个人文本文档自动归类的解决方案,可以有效提高用户对文本数据的管理效率。
其他文献
细胞的健康状态和各种生命活动伴随着细胞温度的变化,因此对单个细胞温度变化的研究具有重要意义。目前只能对细胞群的温度变化进行可靠的测量,但测量不够精确,而对单个细胞
随着Internet的飞速发展,信息传播变得更加方便和快捷,但同时也给信息安全问题带来了巨大挑战。信息隐藏技术以传输的存在性和信息的隐蔽性为信息安全传输提供了可靠的技术手
软硬件划分是软硬件协同设计中的关键技术之一,划分结果的好坏直接决定系统设计的优劣。近年来,异构MPSoC逐渐成为高性能嵌入式系统的发展趋势。然而,传统的软硬件划分技术主
资产管理是保险企业运营过程中较为重要的业务流程,传统的资产管理方法在采购时一般依赖于仓库管理人员的主观判断,存在正确率不高及客观性不足等问题。同时旧有的C/S架构在
旧世界的鼻叶蝙蝠(Hipposideridae)是一个蝙蝠族,使用复杂的挡板形状的鼻叶去衍射他们鼻叶向外发出的波包。蝙蝠可以改变它们鼻叶的形状通过肌肉的运动。在相近的马蹄形蝙蝠
双语实体在跨语言信息检索、机器翻译等领域有着非常重要的应用。由于缅甸语为资源稀缺语言,汉-缅双语语料库构建面临着很多困难。本文研究缅甸语语言特点、汉-缅双语可比语
太阳活动与日常生活息息相关,尤其是生活中的各种电子设备更容易受到太阳活动的影响。为了减小损失需要对太阳活动进行实时观测,及时发出预警。但是由于大气湍流的干扰,通过
由于动态随机存取存储器(Dynamic Random Access Memory,DRAM)的可扩展性变得越来越差,逐渐接近极限,其已经不能满足高性能计算机主存的大容量需求。相变存储器(Phase Change
近年来,党和政府优先对民族地区进行“弱势补偿”,公共教育资源更多向民族地区倾斜,各项教育民生工程也正在如火如荼地开展。伴随着各项帮扶性、倾斜性以及精准脱贫政策的大
随着信息技术的飞速发展,多处理机系统被广泛地应用在高性能计算领域。然而随着系统中处理机数目的逐步增大,系统发生故障的概率也随之增长。当系统发生故障后,迫切需要一种