自然邻居思想概念及其在数据挖掘领域的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:juezhan2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,最近邻居的概念与对应的邻居搜索算法在数据挖掘、图像处理以及模式识别等多个领域中有着广泛的应用基础并取得了许多令人满意的结果。最近邻居概念中近邻关系的定义是最近邻居思想的根本基础,对该思想的各种方法起着决定性的作用。在众多的近邻关系中,最为广泛应用的无疑是k-最近邻居(KNN:k-Nearest Neighbor)和逆k最近邻居(RkNN:Reverse k-Nearest Neighbor)。然而,无论是KNN还是Rk NN,最近邻居的概念中始终萦绕着一个悬而未决的问题——如何选择合适的邻域大小。邻域参数的最优选择并不固定,其取值通常依赖数据集自身的分布情况。比如在对数据集进行分类操作时,较大的邻域参数能够减少噪声点对分类结果的影响,但同时会模糊不同类之间的差异性。特别是当数据集呈现流形分布时,过大的邻域参数会造成短路的现象,对流形产生破坏。而与之相反,过小的邻域参数会削弱数据间的邻居关系,极端情况下则会将属于同一个类的数据点分割到多个不同的区域中。因此,在当前基于最近邻居思想的算法中,邻域选择问题成为了制约算法效率的重要部分。为了从根本上解决这个问题,本文提出了自然邻居思想及其应用。首先,论文提出了自然邻居思想的基本概念。自然邻居思想摆脱了邻域参数选择的难题,在自然邻居的查找过程中自适应的完成邻居关系的构建,同时获得具有数据集特征信息的自然邻居特征值和自然邻居邻域图。自然邻居思想的主要特点为:1)自然邻居思想能根据不同数据集的局部特征创建对应的自然邻居邻域图,其能够直观准确地呈现数据分布规律,特别是流形数据和噪声数据。2)自然邻居思想能够对不同数据集自适应得到自然邻居特征值,而自然邻居特征值能够动态的反映不同数据集的分布状态。3)自然邻居思想中每个数据点的邻居数量是可变的,邻居的多少反映了数据点与数据集的真实关系。在自然邻居思想的概念之上,论文提出了自然邻居思想对传统算法中邻域参数选择问题的解决办法。自然邻居思想中的自然邻居特征值反映了数据集的分布情况,因此其可以作为传统最近邻居思想中的邻域参数k。基于该思路,论文提出了自然邻居特征值的快速计算算法,高效地计算自然邻居特征值,进而将其作为邻域参数应用于离群检测、聚类分析等领域的多个算法中,并且取得了令人满意的实验结果。除了自然邻居特征值之外,反映自然邻居关系的自然邻居邻域图也具有极强的研究价值。论文在最后提出了一种基于加权自然邻居邻域图的数据挖掘算法,将自然邻居查找过程中的查找深度作为自然邻居邻域图中边的权值构造加权自然邻居邻域图,在其基础上能够对任意分布的数据集一次性地进行聚类分析、离群挖掘和数据可视化分析。
其他文献
肥胖是19世纪以后,物质生活富裕的特殊产物,它已经成为全球性的、严重的社会公共问题。世界卫生组织发布的统计结果显示,全球目前至少有10亿成年人超重3亿人肥胖,除美国、英国、
一、引言电子商务信息系统中存放着大量机密敏感的数据,这些数据是电子商务企业运营时重要的信息。这些数据如果存在安全问题,就会给企业经营带来很大风险。本文将对电子商务系
<正> 《资治通鉴》是毛泽东酷爱读的史书之一。故
为了进一步提高办税效率,使纳税人满意,扬州市地方税务局对发票管理业务流程进行了再造。对原有流程作了介绍,设计新流程,并作了效果评价。
发明了一种耦合喷气增焓空气源热泵系统,采用系统耦合除霜(基于传统热气旁通除霜)的方式,建立了新系统在各个工况下的热力计算模型,将除霜的耗能统计到系统耗能中,提出综合反映
结合作者学习的内容分析了呼吸的原理与歌唱中的呼吸方法,以及呼吸与共鸣的关系,论述呼吸在歌唱表演中的重要作用.
环境、大气、海洋、人类健康……面对日新月异的科技发展,各国科技界正联手组成一个"全球研究村",中国正是其中活跃的一员.在当今最具代表性的51项国际大科学合作研究计划中,