基于多源信息融合的基因表达数据聚类分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:lzb640418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据是通过DNA微阵列技术获得的关于一组基因表达过程及其调控信息的定量描述。研究基因表达数据,获取有意义的基因簇,对于研究生物现象背后的本质、遗传性疾病的诊断等有着重要意义。然而,由于基因表达数据中样本数远远小于观测的基因个数的特性及其在采集过程中产生的噪音数据使得单一依靠该数据源进行的聚类分析往往缺乏稳定性、可靠性,从而影响了预测的准确性。本文从多源信息融合的角度来研究基因表达数据的聚类分析技术,融合基因本体(GO),KEGG pathway等信息,以求获得稳定、可靠、共表达的基因类簇。其主要工作如下:1.选择网上公用的YEAST基因组数据作为测试数据,采用潜在语义分析方法对YEAST基因组的基因表达数据进行降维和去噪处理,并用欧氏距离的方法对数据相似性进行了度量;我们采用语义相似性度量的方法计算基因本体数据的相似性,并用Bioconductor软件对基因本体数据的相似性进行了度量。2.使用线性融合方法,从相似性度量的角度融合YEAST基因组的表达数据、本体数据,并用PAM(中心点划分)算法对基因表达数据,融合数据分别进行了聚类。结果表明线性融合算法可以大大提高基因表达数据的聚类效果。3.针对线性融合方法无法确定融合系数的问题,提出一种新的基于排列的融合方法。该方法将基因表达、基因本体的相似性度量值按大小排列的顺序给定序号,将序号作为融合系数进行数据的融合。从而可以自动获得融合的系数,算法上更具操作性。4.针对普通评价方法无法从功能上来评价基因表达数据聚类的有效性问题,提出用KEGG pathway数据从生物的生化功能上来评价聚类结果的有效性和意义。使用KEGG pathway方法进行评价时,证明半数以上的类别是可学习的。本文从多源信息融合的角度对基因表达数据进行聚类分析和评价,获得了较好的实验结果。然而融合的策略相对来说,还是比较简单,对各部分数据源在聚类效果中所起的作用还缺乏系统的理论证明。所以下一步的工作是:一方面,通过实验的方法,对更多的基因组数据进行测试,来验证算法的有效性;另一方面,运用信息论的方法,研究多源信息证据在基因表达数据聚类中的作用,为实现更加有效的融合策略提供理论依据。
其他文献
入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统遭受危害之前拦截和响应入侵。从网络安全立体纵深、多层次防御的角度出
相对于其它生物识别技术,虹膜识别具有以下优点:虹膜具有丰富而独特的纹理特征,每个虹膜都是独一无二的,非常适用于身份鉴别;虹膜特征稳定、难于伪造,更为可靠;另外采集虹膜图像
随着数据库和信息技术的快速发展,人们面对的数据量以爆炸式的速度增长,为了更好的利用资源,从这些数据中获取有价值的信息,数据挖掘技术应运而生。目前,在数据挖掘领域的研
随着信息技术的快速发展,以及网络的大规模应用,网络中需要传输的数据呈爆炸性增长,这给网络传输带来巨大的压力。随着存储系统规模的扩大,存储系统中形成了复杂的网络链路,
随着Web技术的不断发展,Web服务逐渐广泛的应用于各个领域。服务发布者将自己定义的Web服务注册到UDDI注册中心,让服务使用者能够发现并访问服务。但是由于UDDI的开放性,注册到U
医学图像的三维表面重建可为医生提供逼真的三维表面效果图,这些三维图形对医生分析病人的病情起到了很大的帮助作用。然而,由医疗设备得到的断层图像相邻两层间的距离要大于同
随着计算机网络的普及,越来越多的资源以数字形式在网络上传播,软件产品已经渗透到工农业生产、商业活动和日常生活的各个方面。随之而来的是日益严重的盗版问题。现在,各种
近年来,计算机应用正以各种方式越来越快地渗透到各个领域之中。其中以数据库,尤其是关系数据库的应用最为广泛。关系数据库以集合代数为基础,利用关系模型来建立问题和领域
粒子群优化算法(Particle Swarm Optimization,简称PSO)是一种基于个体进化与群体协作和竞争的随机搜索算法。由于其过程简单明了、易于实现、计算效率高等特点,被公认为可以与遗
随着计算机系统和网络的广泛应用,可用性和高性能成为计算机系统所追求的目标,集群技术的出现和发展很好的解决了这两个问题。集群就是由一些互相连接在一起的计算机构成的一