基于高维数据的双聚类算法研究与应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:bmw335
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物信息学、电子商务等行业的迅速发展,在这些领域积累了大量高维数据,利用数据挖掘技术能够在这些数据中找到许多对科学研究和市场营销起到重要作用的有价值的信息。在聚类分析技术方面,传统聚类方法只能在数据矩阵的行或者列某一方向上进行,因此只能找到全局信息,而高维数据的特点就是含有大量的局部信息,这是传统聚类方法所无法找到的。为了更好地聚类高维数据,尤其是在高维数据空间中聚类局部信息,双聚类这种新的聚类方法得到了越来越广泛的应用。双聚类算法之所以更加适应高维数据,是因为双聚类算法是在数据矩阵的行和列两个方向上同时聚类,这就使得双聚类算法能够更加有效地发现高维数据中的局部信息。双聚类算法的出现,很好地解决了传统聚类在聚类高维数据时遇到的瓶颈,但是由于国内外对双聚类算法研究还处于起步阶段,近年所提出的各种双聚类算法都还存在着各种不足之处,因此对双聚类算法的研究与改进尤为必要。本文的主要工作是首先对双聚类的定义、类型、结构作详细阐述,然后对近年来应用较多的双聚类算法的数学模型,聚类策略等方面进行研究分析,总结分析了这些双聚类算法的优缺点。在研究分析多种双聚类算法的基础上,提出了一种适合高维数据的基于惩罚策略的双聚类算法(Penaltystrategy based Overlapping Biclustering Algorithm,简称POBA)。重点针对Cheng andChurch算法中在每次迭代过程中,须引入随机数取代聚类结果中元素的替代过程进行了改进,利用惩罚策略改善双聚类算法的迭代过程,该策略能够使数据矩阵顺利完成双聚类,同时避免了贪心搜索策略中随机数干扰问题,并通过设置POBA算法中引入的控制惩罚力度的参数θ,达到控制双聚类结果重叠率的效果,这使得算法能够灵活的满足不同聚类应用的需求。论文最后设计实现了POBA算法并将其应用在公共的高维数据集的双聚类实验中,通过对实验结果分析,验证了算法的有效性,同时针对实验数据的分析结果,确定了算法中参数设置的原则。
其他文献
计算机辅助设计系统目前应用于大部分工程和设计学科,如机械工程,电气工程,航空航天工程,工业设计和建筑设计等。目前流行的实体造型系统是特征造型系统。我们使用计算机辅助
图像分割是图像领域中的关键技术。图像处理、图像分析和图像理解的首要步骤都是将图像中特定的目标区域从整体区域中分割出来,在此基础上才有可能进一步对目标区域进行处理和
为了提高ERP系统开发的效率,缩短ERP软件的开发周期,减小其相应的成本费用,我们在ERP领域建立ERP专业的ERP构件库,在ERP构件库中,ERP构件的分类以及ERP构件的检索是最基本的功能之
合成孔径雷达(SAR)成像是目前成像探测和遥感观测的重要手段,具有广泛的军事和民用前景。如何对SAR成像过程进行模拟与系统仿真是揭示系统成像机理、验证成像算法、设计新的
生产调度问题是一类组合优化问题,应用背景十分广泛,其研究成果已经较为丰富,并且已被应用到许多现实的生产实践中。与经典调度问题不同的是,在批处理机调度问题中,多个工件
随着数字媒体信息处理技术的发展和应用领域的拓展,作者的版权保护问题变得越来越重要。数字水印技术是解决这个问题的一个很好的方法。由于三维模型数据日益成为流行的多媒体
随着网络技术和网络应用的不断发展,网络安全问题已经成为日常关注的焦点。如今传统的网络安全手段很难对付各种各样的网络攻击,入侵检测系统作为网络安全体系的重要组成部分
语音信号一直是人类进行信息交流的最普通的方式。然而,语音信号会不可避免地受到来自周围环境的干扰。因此,需要对混入干扰信号的语音信号做增强处理。寻求一种有效的算法以
UPFC是一种潮流控制的装置。它综合了许多柔性交流输电系统(FACTS)器件的灵活控制手段,是一种功能相对很强的FACTS系列器件。随着半导体制造技术和电子设计自动化技术的不断发展,UPFC控制系统设计也加快了步伐。本文首先对国内外对UPFC的现状及其控制算法进行了研究,针对目前输电系统存在的损耗大、传输率低的问题,采用开关损耗最小PWM算法进行UPFC控制系统的设计。然后,在给出UPFC逆变控制
随着程序设计竞赛领域内的许多研究,包括在线竞赛平台的开发和竞赛选手训练辅助系统的研究等等,这样一些需求或设想被提了出来,它们都希望机器可以自动化地处理程序设计试题