共调控网络功能模块识别算法及应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:pingerk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,基因组数据出现爆发式增长。转录调控作用、转录后调控作用和蛋白质相互作用等数据的出现,对于系统研究基因、蛋白质等分子的生物功能,理解生物体的分子机制和复杂疾病的发病原理具有重要意义。采用计算机技术分析组数据也是当前生物信息学的一个研究热点。  共调控网络包括转录因子、miRNA和目标基因,以及各类型节点之间的相互作用关系,充分展现了转录因子、miRNA和目标基因协同作用的特性。采用数据挖掘方法分析共调控网络为研究细胞生物过程提供重要的工具。由于共调控网络融合了多源数据,使得功能模块识别方法面临更多挑战。本文在分析网络拓扑特征和产生特定拓扑特征的网络演化过程基础上,设计算法识别功能模块,并将预测的功能模块应用于发现疾病关联因子。主要研究工作如下:  (1)通过分析蛋白质相互作用网络的相互作用密度,发现蛋白质之间的相互作用与年龄高度相关,相同年龄的蛋白质更倾向于形成相互作用。针对现有网络构建模型在模拟蛋白质演化过程时没有考虑相互作用蛋白质的年龄关系的问题,提出一种新的基于年龄的复制分歧模型ADD。此模型随机选择网络节点进行复制,在分歧过程中通过改变删边概率和添边概率,使相同年龄蛋白质之间的相互作用被保留的概率更高。并针对生成模型不能追踪网络中一个单独节点的历史的问题,提出基于年龄的逆复制分歧模型IADD。与现有方法相比,ADD模型生成的网络不仅与五个酵母蛋白质相互作用网络具有相同的拓扑特征,如节点度分布等,而且具有一致的相互作用密度。相比于其他方法,IADD模型回溯酵母蛋白质相互作用网络预测节点年龄的准确度更高。研究网络拓扑特征的形成机制,为设计有效的功能模块识别算法提供了依据。  (2)针对现有功能模块识别算法不能对共调控网络中功能相同但共有邻居较少的调控子和目标基因组成的模块进行有效识别的问题,提出一种新的基于基因相似核扩展的功能模块识别算法CGSCE。首先利用余弦相似性获得与每个基因关联度最高的转录因子和miRNA,构建基因相似核;然后以基因相似核为基本单元,在网络中从种子基因相似核出发,不断扩展临近相似核识别功能模块。扩展过程中为调控作用增加权重,从而增加模块的聚集度,使功能模块内包括更多功能相似的调控子。与现有功能模块识别方法相比,所提方法在两个人类共调控网络上识别的功能模块更显著的富集于基因本体论和已知路径。  (3)针对共调控网络中不同类型节点聚集系数相差较大,而且CGSCE算法识别的功能模块中协作的miRNA和转录因子较少等问题,提出一种新的基于调控子模块和基因模块间带重启的随机游走的功能模块识别算法RWRRGM。首先采用邻居节点扩展方法,分别在调控子子网络和基因子网络上识别子模块;然后将识别的子模块作为节点构建模块网络;最后利用带重启的随机游走策略查找最相似的调控子模块和基因模块,并融合产生共调控网络中的功能模块。通过对人类共调控网络上识别的功能模块进行基因本体论和路径富集分析,发现与现有方法和CGSCE相比,RWRRGM算法预测的模块中具有生物意义的模块占比更高。另外利用识别的模块所预测的关键调控子,不仅参与到多个生物过程中,而且通过调控更多的关键基因影响共调控网络。研究功能模块识别为分析网络中多因子之间协作完成特定功能提供方法。  (4)针对现有疾病关联因子研究较少考虑多因子协同作用的问题,提出一种新的基于功能模块的疾病关联因子识别方法DDRFFM。此算法首先结合临床病人样本及正常样本的基因表达谱,获得差异表达基因的p-value值,并依此确定疾病关联模块;然后将疾病关联模块中的非差异表达节点作为候选节点,并通过计算疾病关联值为候选节点排序。在乳腺癌和结肠癌中,分别对几种功能模块识别算法预测的模块进行分析,发现RWRRGM算法能够预测更高比例的疾病关联模块,这也说明了RWRRGM算法能够预测更多具有生物意义的模块。另外利用文献和数据库验证DDRFFM方法分别为这两种疾病预测的Top1%和Top5%的疾病关联因子,发现DDRFFM方法具有较高的识别准确率。研究疾病关联因子识别为理解复杂疾病发病机制和寻找药物靶点提供依据。
其他文献
无线传感器网络,作为一种全新的信息获取和处理技术能够广泛地应用于多个领域,近年来成为国内外传感器技术领域的热点研究课题。它是在特定的背景下以一定的网络模型规划的一
近些年,随着大量的医学辅助手段如CT、MRI在临床诊断的应用,对心脑血管疾病的诊断状况已经有所改善。这些诊断方式只是以二维切片的方式显示人体组织和器官,诊断时常常依赖较
炼钢-连铸生产调度水平是衡量钢铁企业生产管理水平的重要指标之一。合理安排炼钢-连铸生产作业计划与调度是确保钢铁生产物流通畅、资源合理利用,提高设备利用率,提升生产系统
随着Internet的迅猛发展,Web服务的数量日益增多,如何从庞大的服务群中选择所需的服务成为繁重的工作。在选择服务时,人们不仅关心服务的功能,也关心服务的非功能因素,尤其是
XML自1998年由W3C提出之后,已经成为数据表示和数据交换的新标准,各行各业都在使用XML用来描述本领域信息,随着XML文档的增加,如何有效存储、管理和查询这些数据成为当前XML
互联网高速发展与信息技术高度进步的今天,数据与信息成倍地增加。而计算机与计算机之间为了达到资源的共享,大都采用分布式结构进行互操作。分布式的访问为资源的有效利用和
随着嵌入式技术的不断发展与进步,对MP4行业也同时产生了巨大的影响。伴随着市场对支持多格式尤其是RMVB格式的MP4的需求,目前也出现了一些支持RMVB格式的MP4。但是国内生产
本课题源自青岛市科技局发展计划项目《可移动高性能电脑加密机的研究与设计》,本文主要研究并实现可移动高性能电脑加密机的核心部件- RSA密码芯片的硬件实现。本文根据项目
数据挖掘技术正受到人们越来越多的关注,与此同时隐私保护问题也日益受到广大人们的重视。如何在保护自身隐私的同时进行充分的合作和数据的共享,已经成为人工智能领域的一个
地层原油的高压物性参数(PVT参数),如原油的泡点压力、地层体积系数、溶解气油比、油藏温度、原油比重和天然气比重等,在油气藏的储量计算以及确定油藏的特性等工作中起到了