基于样本重要性原理的KNN文本分类算法

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:cn1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,互联网中的信息量正在迅猛增长。KNN分类技术对于组织和管理庞大而又杂乱无章的互联网数据,是一种非常有效地手段。传统的KNN分类方法通过寻找与待分类样本最近的K个近邻样本点,决策出待分类样本的类别。但是,该方法将所有样本等权重对待,而忽略了不同样本对于分类的贡献度问题。在许多问题中,不同样本点对于分类的作用是不一样的。例如:在SVM分类方法中,最优分离超平面的确定仅与支持向量有关,即类边界样本点。集成学习中,每次循环过程通过加强被错分样本的权重使得学习到的分类器更加关注被错分的样本。因此,不同样本在分类过程中应该被赋予不同的权重。基于这个思想,本文提出了一种样本重要性原理的加权方法。首先,在训练集上建立异类样本点之间的权重关系,权重的大小通过样本点之间的欧几里得距离表示;然后,根据样本间的权重关系可以得出样本点之间的转移概率,样本点之间的转移只能在异类的近邻样本之间进行;最后,根据随机游走算法,可以计算出所有样本点的边界值得分,边界值得分体现了样本点与分类边界的距离。得分越高,距离越远;得分越低,距离越近。距离分类边界越近的样本对于类别的表示能力应该更差,所以,利用边界值得分可以得出样本的重要性得分。样本的边界值得分越高,重要性得分就越低。最终,我们形成了一种基于样本重要性原理的加权方法。众所周知,KNN方法在不均衡数据中容易偏向大类,然而对样本点进行加权的方法就是常用的解决之道。为了验证样本重要性原理的加权方法的有效性,本文将其与KNN方法结合形成了基于样本重要性原理的加权SI-KNN分类方法,并分别在中英文语料上进行实验分析。
其他文献
无线传感器网络是由部署在监测区域内大量的微型传感器节点通过无线通讯的方式形成的一个多跳的网络系统。传感器节点通常部署在特定的物理环境中,依靠电池供电,且数据的处理
网格系统被定义为下一代的计算平台,用来解决科学和工程领域的大型问题。网格的最终目标是实现网络虚拟环境上的资源共享和协同工作,消除资源孤岛。资源分配和任务调度是网格
随着人民生活水平的不断提高,生活习惯也在不断发生改变。与此同时,一些疾病的发病率呈上升趋势,尤其是一些肝部疾病。多时期增强肝部CT扫描是当前肝部疾病诊断中的一种实践
随着互联网的普及,电子邮件在人们的工作生活中发挥着越来越重要的作用,随之而来的垃圾邮件问题也日益严重。目前,通过技术手段遏制垃圾邮件的泛滥是效果最显著的方式,但是这些技
近几年来,对等网(P2P)技术得到广泛应用,成为占用Internet流量的主要类型。P2P技术发展迅速,得到了计算机界的广泛关注。如何提高网络中的查询效率,增强网络的容错能力,成为P
目前,国内外信息化建设已经进入以Web应用为基础核心的阶段,Java语言应该算得上是开发Web应用的最佳语言。因此,以Java语言为基础的J2EE企业级应用系统逐渐成为计算机Web应用
随着信息技术的发展,智慧教育和人工智能技术成为广泛关注的热点。传统教育受限于对于教师的依赖,学生离开老师的辅导之后无法提高学习效率,虽然现在的在线辅导系统能在一定
近年来,首先由Gallager发现,后来Sipser、MacKey等人重新发现的低密度奇偶校验(LDPC)码以其接近香农限的性能和相对简单的译码结构而得到信道编码界的广泛关注。短环的存在是
随着企业信息化的发展及企业规模的不断扩大,各种形式的软件管理系统也随之不断增多,在企业内部产生了诸多的“信息孤岛”。Web应用系统在结合其它技术实现企业内部信息和数
在全民网络社交的大环境下,人们的社交方式已经很大程度上转移到了线上。在现实生活中,更优更广的社交关系往往是一个人自身价值与自我发展的关键,而在线社交其实是现实生活