基于时间滞后模式的基因表达数据聚类算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:J2EE_BOY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物系统的复杂性使得基因之间的关系呈现出多样化,其中一种关系为活化关系,即某些基因(调控基因)可能控制或活化别的基因(被调控基因),这样后者的表达将滞后于前者。通过比较基因随时间变化的表达模式,我们便可以推断出调控基因与被调控基因之间的关系,同时还可以解释基因在细胞中的调控过程。 以前的研究工作主要研究基因在相同的时间子集中的表达模式,而具有活化关系的基因,其表达模式将在不同的时间子集中存在相似性,即这些基因的表达模式之间存在着时间差,或者说一些基因的表达模式滞后于另一些基因。为了在微阵列数据集中找到这种模式,本文首先提出了一种称为td-cluster(time-delayed cluster)的聚类模型,该模型定义了一种基于时间滞后的缩放(scaling)模式的聚类,同时td-cluster模型还可以很容易地扩展到时间滞后的平移(shifling)模式等其它模式。而当前基于模式的双聚类(biclustering)算法发现的在相同时间子集中的缩放模式或者平移模式,只是td-cluster模型在滞后时间等于零时的特例。 为了发现符合td-cluster定义的聚类,本文设计了一种称为TG-tree的数据结构,然后实现了一种基于TG-tree的算法。初始TG-tree去除了数据集中的噪声以及不相关信息,然后我们基于时间点来扩展TG-tree,从而使得搜索深度大大减小,因为在微阵列数据集中,时间点的数量远远小于基因的数量。同时,本文还运用了一些削减策略以提高算法效率,并将td-cluster模型及算法扩展到更高维的微阵列数据集中。 我们在合成与真实的微阵列数据集上都进行了实验,结果表明我们的算法能以较高的效率找到具有重要生物学意义的聚类。
其他文献
无线传感器网络(WSN)在军事国防、环境检测、医疗卫生等许多领域都具有广泛的应用前景。对于大多数应用,不知道传感器位置而感知的数据是没有意义的,确定传感器节点自身位置和
数字图像压缩技术被应用到多媒体通讯、医学图像等各个领域。在未来的科技应用中,它仍然显示出其强大的生命力和发展潜力,但是图像数据量巨大,那么怎样处理、组织图像数据,在应用
计算机层析成像(CT)被广泛应用于肺部疾病的诊断,成为医生进行肺部病理分析、解剖研究以及肺功能评估的重要手段之一,以此为基础的计算机辅助诊断成为了提高医生诊断效率和水平
信息化是迅速提升钢铁企业自身竞争力、促进其持续有力发展的必然选择和技术保证。ERP系统的建立大大加快了钢铁企业的信息化进程。数据仓库技术是综合利用关系复杂的海量数
随着互联网技术的发展,网络黄毒日益泛滥。这不仅严重影响青少年身心健康,而且也给人们日常生活带来诸多不便。如何过滤不良信息是个重要的研究课题。目前,已有一些不良信息过滤
目标跟踪是计算机视觉领域研究方向的一个重要方面,主要目的是跟踪目标物体在视频的每一帧中的外观和运动状态的变化。近年来,稀疏表示被应用到视觉跟踪领域,通常选择最小重构误
随着3G技术的不断发展,基于IMS(IP Multimedia Subsystem,多媒体子系统)的Push—to—X技术受到越来越多的关注。Push—to—Voice作为Push—to—X的一个重要分支,主要实现语音查
关联规则挖掘是数据挖掘中研究较早而且至今仍最活跃的研究分支之一。本文正是在这种背景下而研究的。关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互关系的有
遍布全球的互联网正在无时无刻、无所不在的渗透到人们的工作、学习和生活当中。从企业的信息化、商业的智能化到科教卫生等各个领域都可以找到互联网的影子,“互联网”这个词
机器翻译(machine translation,MT)是自然语言处理(nature language processing,NLP)的一个分枝,它是利用计算机把一种自然语言翻译成另一种自然语言的技术。机器翻译一直被认为