基因表达数据的频繁闭合项集挖掘算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:baofeifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据蕴含丰富的生物信息,但由于其高维且数据量大的特点,生物信息的挖掘成为极具挑战性的课题。关联分析由于形式简单且结果易于理解,已逐渐成为基因表达数据重要的分析方法之一。频繁闭合项集挖掘是关联分析中的重点和难点之一。本文对基因表达数据中频繁闭合项集挖掘算法做了全面深入的研究。针对当前算法中存在的一些不足提出改进算法。针对目前基因表达数据的频繁闭合项集挖掘均需先设定最小支持度,提出挖掘基因表达数据中top-k频繁闭合项集问题,并设计了相关算法。本文主要研究工作如下:(1)对现有频繁项集和频繁闭合项集挖掘算法进行深入剖析。从已有算法使用的策略和数据结构着手分析算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。(2)采用行枚举空间搜索时,已有自底向上策略并未有效利用最小支持度阈值对搜索空间进行修剪,导致算法的时空性能较差。基于自顶向下策略的频繁闭合项集挖掘算法TP+close较好地解决了此问题。然而,TP+close算法在对项集进行闭合性检测时,要对已输出的频繁闭合项集进行扫描,影响了算法性能。通过对TP+close算法和数据结构TP+-tree深入分析,提出改进的数据结构TTP+tree和基于该结构的改进算法TTP+close。算法TTP+close引入了一种新的闭合性检测方法,即基于痕迹的闭合性检测方法,避免对已输出的频繁闭合项集扫描来判别将输出项集的闭合性。(3)已有大多数挖掘基因表达数据的频繁闭合项集需先设定最小支持度,但在实际应用中确定合适的最小支持度并不容易。本文提出在基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法TBtop。算法使用自顶向下宽度优先搜索策略挖掘项集长度不小于给定值min_l的top-k频繁闭合项集,并对搜索空间进行了有效修剪。
其他文献
二十世纪四十年代后期,Shannon提出了码的概念,从而导致了码论的产生。从形式语言的角度看,码是一类特殊的语言,它具有唯一分解的性质。什么样的语言是码和如何产生码是码论的两
随着网络传输速度的提高和计算机性能的提升,广大师生对网络媒体多样性的需求日益增加。当前,中国地质大学(北京)校园网已经积累了丰富的视频资源,如视频新闻、视频课件、流
目前,随着网络规模的日益扩大,如果没有一套良好的网络管理系统和网络管理平台,要想使网络长期安全、高效地正常运行,是很难想象的。传统的网管系统HPopenview、Mocha BSM等虽然