模糊粗糙支持向量聚类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:moreee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在智能技术飞速发展的今天,各行各业的数据规模呈几何级数的增长。如何从海量数据中挖掘潜在的有用信息成为人们关注的焦点。聚类分析是数据挖掘技术的一个重要分支,其中的支持向量聚类(SVC)是一种基于轮廓的聚类分析算法。SVC的基本原理是通过建立某些准则,确定在原始数据空间描述簇轮廓的样本点,称之为支持向量。并对支持向量按照某些策略进行标记,标记相同的支持向量在原始数据空间中围成一个簇。虽然支持向量聚类已经得到广泛的应用,但仍存在不能很好地处理簇与簇交叠、对参数敏感、时间复杂度较高等问题。  本文在经典支持向量选取策略基础上,通过分别考虑数据的局部密度和模糊粗糙集模型,提出了基于kNN连通度的支持向量选取策略和基于模糊粗糙集的支持向量选取策略。在谱聚类标记方法(SCLM)的基础上,本文通过兼顾原始数据空间中数据的近邻关系,提出了一种改进的支持向量谱聚类标记方法(MSCLM),并在此基础上,构建了一种新的低时间复杂度的支持向量标记方法(NLM)。本文的具体研究内容如下。  针对支持向量选取存在冗余问题,本文通过计算每个样本点的局部密度,确定一种自适应的局部密度阈值,选取局部密度小于等于该阈值的样本点作为支持向量候补集,在这个集合上选取支持向量。针对簇与簇接近或重叠和簇内样本点分布不均匀的数据集,本文构建一种模糊粗糙集模型,通过计算每个样本点的模糊粗糙集上近似为样本点赋予权值,使簇间稀疏样本点被判定为边界支持向量,有效地避免了簇内稀疏样本点被选为支持向量。理论表明,该方法确定的支持向量在原始数据空间中表现为同簇距离较近,异簇距离较远,而在高维特征空间中,同簇支持向量间角度较小,异簇角度较大。  针对SCLM中FCM聚类结果不能真实完全反映原始数据集分布情况的问题,本文在原始数据空间中引入了样本点间的近邻关系度量,用此度量对FCM聚类标记结果进行后续处理,提出了一种改进的支持向量标记方法(MSCLM),该方法提高了支持向量标记的准确性和数据聚类精度。为了降低支持向量标记的时间复杂度,本文基于支持向量间的空间关系提出了一种简化的支持向量标记方法(NLM)。本文分别对MSCLM、NLM两种标记方法做效果分析,验证了两种方法的有效性。最后,将MSCLM、NLM与SCLM以及其他三种标记方法作对比实验,证明了MSCLM、NLM两种标记方法的优势。
其他文献
复值神经网络(CVNN)近些年已经得到了广泛的研究和应用,在工程、生物学和物理学等很多科学领域有着很大的应用价值。复值神经网络根据激活函数的不同,可以分为分离复值神经网络和
矿产资源储量估算,不管是在矿山的规划还是开采方面都是一个备受关注的主题。资源量的多少更是规划部门或开采者想要了解到的,可以直接带来经济效益。传统的储量估算方法虽然
四元数是物理学家哈密尔顿发明的一个非交换的数系。四元数分析理论在三维或四维信号处理中,例如彩色图像处理、风速信号预测等方面都有广泛的应用。另一方面,再生核希尔伯特空
在现代CAD曲面造型中,通过多片曲面的拼接来生成复杂模型是一种简单有效地方法。这也就促使如何构造曲面间的过渡曲面成为了CAD研究中的一个热点问题。即对于任意给定的两片
人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。它由大量的节点(或神经元)和相互间的连接构成,每两个节点间连接信号的强弱称之为权重。人工神经网络所具有的自学习和自适应能力,是通过预先提供的一批相互对应的输入输出数据来训练网络,即通过不断地调整节点间的连接权重,来确定两组数据间的规律,最终根据这些规律,用新的输入数据来推算输出结果。在实证分析中,根据分析内容不同,确
医学影像可视化是医学和计算机科学计算可视化研究领域的一个重要分支,也一直是学者研究的热门点。面绘制和体绘制是医学影像三维重建的两种实现方法。本文主要深入研究医学