基于图和网络的学习算法及其在系统生物学中的一些应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:Ningyuan321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会和科学技术的不断发展,人们正在积累越来越多的各个层次的数据和信息,但是这并没有从根本上解决许多具有挑战性的问题。最典型的例子是,二十世纪分子生物学的迅速发展只是获得了细胞各个组分的知识,而并没有攻克很多复杂的疾病,比如癌症等。这意味着我们需要从系统的水平整合不同的知识和数据,研究它们内部的相互关系和作用,从而才能最终掌握复杂系统的规律,对它们进行控制和优化。同时由于海量数据的复杂性,我们需要机器学习和数据挖掘技术对信息进行自动加工。图和网络是表达复杂系统内部不同尺度、不同组分之间相互作用和关联的最直观的方式。因此,我们迫切需要结合实际应用领域,例如系统生物学,发展基于图和网络的学习算法对系统进行研究。本文针对基于图和网络的学习算法,以实际分类问题和系统生物学中的一些应用为驱动背景,以图论、统计、优化方法为基本工具,以数据整合为核心,以结点分类、链接预测、子网发现和图匹配问题为对象和目标,对基于图和网络的学习算法进行了深入的研究。本文的主要研究内容和创新点包括以下几个方面:1.本文综述了基于图和网络的学习算法,介绍了系统生物学的定义和当前的发展,阐述了图和网络在当前系统生物学中的核心作用,指出了图和网络的方法在以系统生物学为代表的实际应用中的巨大潜力。2.考虑基于链接的半监督结点分类问题,以图的拉普拉斯矩阵的谱变换来构造半监督核为目标,本文提出了一种基于图的同时学习最优非参数谱变换和构建分类器的半监督学习方法。该算法的基本思想是以最大化特征空间的Fisher判别率作为谱变换图核学习和分类器构建的共同准则,并转化为一个半定规划的凸优化问题来求解。与利用核配准进行半监督核学习的算法比较,该算法不需要再进行分类器训练,因为分类器的学习和最优核的构造是同时完成的。在7个分类数据集上,该算法性能均优于或相当于当前基于核校准准则的半监督学习算法。3.考虑药物-蛋白相互作用网络的预测问题,本文以最大化集成网络中结点属性、链接信息以及未标记样本的信息为目标,提出应用流形正则化的半监督学习算法,并利用核方法整合药物化学分子结构信息、蛋白质序列信息和药物-蛋白网络拓扑结构信息来对未知的药物-蛋白相互作用进行预测,从而提高了预测的精度。用我们提出的方法预测的一些药物-蛋白相互作用已经被最新的药物数据库证实。4.从系统生物学的角度出发,考虑把蛋白质-DNA和蛋白质-蛋白质相互作用网络整合到基因微阵列数据的分析中。为了辨识与疾病相关的基因功能模块,本文提出了一个新的基于相互作用网络的正则化项来鼓励系数的绝对值在网络上的平滑,结合(?)1范数的稀疏特性,得到一种基于图的弹性网算法,并从理论上分析了新的正则化项的数学特性,开发了一种新的求解算法,该算法具有全路径计算的优点。理论分析和仿真结果表明,基于图的弹性网算法能得到更小的预测误差。最后,将我们的算法应用到一个阿尔茨海默病的微阵列基因表达数据集上,辨识出了四个与阿尔茨海默病相关的基因功能模块。5.为了融合不同尺度和模态的信息,考虑把反映分子功能信息的三维荧光分子断层扫描(FMT)图像和反映解剖结构的CT图像进行配准,从而在一幅图像上同时表达多方面的信息。但是直接配准最大直径只有几个毫米的肿瘤的三维FMT图像和体长有近十厘米的整个小鼠的三维CT图像是非常困难的。由于我们可以得到二维平面图像跟FMT图像的坐标关系。因此本文提出一个新的思路,即先对FMT成像过程中得到的二维平面图像与三维的CT图像进行预配准,预配准的结果再作为下一步FMT和CT三维配准的初始值,这样就减小了最终三维配准时两个对象的大小差异所导致的配准难度。在配准过程中,对两个对象分别进行分割得到点集,将问题转化为点集图匹配,使配准完全不同模态的图像成为可能。对于匹配的优化算法,结合全局和局部优化的思想,提出了两种优化方法:结合最小二乘进行局部搜索的序贯蒙特卡罗采样算法;结合差分进化和把最小二乘作为另一种搜索方式的单纯形法。大量的仿真实验结果验证了结合全局搜索和局部搜索优化算法在减少迭代次数和寻优能力上的优越性。最后,在两个实际小鼠数据上的运行结果显示这种预配准的方法为下一步三维FMT和CT图像的配准提供了很好的初始值。
其他文献
为研究不同品种香雪兰的花色苷组成、含量及与花色表型之间的关系,阐明香雪兰花色形成机理,该研究以不同花色的香雪兰(Freesia hybrida)11个品种为材料,采用英国皇家园艺学会
随着人们对环境的感知和建模这一研究领域的兴趣日益增长,传统相机和摄像机由于其视场有限,越来越不能满足人们的需求。传统相机的受到视场的限制,在相机运动的过程中,相机的
智能空间技术可以辅助服务机器人解决靠其自身难以实现的问题,已经成为智能家居、智能会议室等普适计算技术应用的研究热点。在服务机器人对目标追踪过程中,由于机器人自身携
有些动物有很高的繁殖量,如贝类、鱼类能生上千万的卵,但能生存和生成幼体的只有百分之几,甚至千分之几.而属于高等动物的鼠类也是繁殖"英雄",有人对褐家鼠进行试验观察:它们
很早知道有个东非大裂谷,中学地理课本上说它是亿万年地壳运动的产物.这"大地脸上最大的疤痕"南起莫桑比克,北达黑海,全长6 000 km,想该是很壮观的,但正所谓"纸上得来终觉浅"
目的建立术后肠梗阻大鼠模型,观察通腑化瘀汤对术后肠梗阻大鼠肠组织环氧化酶-2(Cyclooxygenase-2,COX-2)及Cajal间质细胞(Interstitial cells of Cajal,ICC)表达的影响,评估肠粘
蚁群优化(AntColonyOptimization,ACO)是一种模拟自然界真实蚁群集体觅食行为的元启发式方法。现已被广泛用于求解各种工程和科学领域中的复杂优化问题。如网络动态路由问题,
目的:探讨冠心病患者合并高同型半胱氨酸血症对颈动脉斑块性质变化以及脑卒中发病的影响。方法:选择2011年5月~2012年5月韩城矿务局总医院内一科及西安交通大学第一附属医院心血
在万维网刚刚出现的时候,人们曾梦想建立一个能自由游历的三维虚拟世界。在此网络虚拟环境中,通过“三维图形界面”,用户不再受限于物理时空的约束,可以方便地进行交流、研讨
本文根据光电式传感器的工作原理,设计了该传感器在机械测试中的电路结构,并对其应用作了扼要介绍。