统计建模分析高通量生物数据及其应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:shuang901014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代生物学的发展,从生物分子层面上研究生物问题对发现生命现象的本质尤其是理解疾病的致病原理的重要作用已经得到了广泛认同.高通量试验技术包括生物芯片[78;115;135],酵母菌双层杂交试验[58;130],质谱分析[40;54],染色质免疫沉淀反应[59;109]等等.在这些高通量试验技术快速发展的驱动下,同时获得人类或其他模型生物的数以千计的分子及这些分子之间交互作用的数据成为可能。如此大量的数据信息为我们重新理解细胞生物和疾病提供了宝贵的机会。与此同时,高通量数据的特点是:预测变量的维数远远大于样本个数;数据结构非常复杂;数据噪声很大;观测值缺失或不确定等等。在这种情况下,大多数传统统计方法不能得到正确的预测结果,或者得到的预测结果效用有限。因此,我们面临的重大挑战就是设计新的统计模型来高效的获取,分析,解释这些数据中包含信息。在这篇论文中,我们主要从如下几个方面出发建立统计模型分析生物数据:1.利用dK随机图模型预测生物网络中的功能模块。生物功能的很多方面可以用生物网络建模,例如蛋白质交互网络,新陈代谢网络和基因共表达网络。研究这些网络的统计特征可以帮助我们推测生物功能。复杂的统计网络模型能够更加精确的描述网络,但是复杂模型是否有助于找到有生物意义的子网络还不清楚。近来的研究表明网络中点的度分布不足以充分刻画网络特征。在第二章中,我们尝试将度分布扩展到二阶和三阶相关度分布。我们设计了一种伪似然的方法来估计参数。我们应用这种方法分析了MIPS和BIOGRID酵母菌蛋白质交互网络和两个酵母菌基因共表达网络。结果表明,不论是在蛋白质交互网络还是在基因共表达网络中,二阶相关度分布模型能够更好的预测基因之间的交互关系。然而,对于预测功能模块,相关度分布模型在蛋白质交互网络的情况下表现比一般度分布模型稍好,对于基因共表达网络,相关度分布模型表现不如一般度分布模型。我们的计算结果表明:结合度分布交互信息可以在某些方面提高预测准确度,但是,在所有的方面,三阶相关度分布模型的预测精度反而不好。如果我们使用其它的参数估计方法,例如极大似然估计,有可能体现二阶和三阶度分布交互模型在预测功能模块方面的优势。2.从蛋白质功能域交互网络出发,在蛋白质功能域上定位致病变异对导致人类复杂疾病的遗传变异的辨识和致病基因的定位是非常重要的。蛋白质分子一般由数个蛋白质功能域组成。我们假设有害的遗传变异会导致蛋白质功能域结构发生变化,影响蛋白质功能,并最终导致疾病。以此为出发点,我们探索利用蛋白质功能域交互网络恢复蛋白质功能域与疾病之间的关联关系。根据非同义单核苷酸多态性与复杂疾病之间的关联关系,我们定义蛋白质功能域与复杂疾病之间的关联关系。以蛋白质功能域交互网络为出发点,我们提出了“guilt-by-proximity”方法:根据候选功能域与种子功能域之间在蛋白质功能域交互网络中的平均距离对候选蛋白质功能域排序。我们用大规模交叉验证试验的方法在模拟连锁区间,随机控制集合和整个基因组三种情况下验证了我们的方法。通过致病蛋白质功能域的AUC值和平均排名比率对方法进行量化验证。结果表明:我们的方法的AUC值为77.9%,平均排名比率为21.82%。我们进一步对整个基因组中蛋白质功能域与疾病之间的关联关系进行了排名,并提供了免费的查询网站。这个网站为定位导致复杂疾病的遗传变异提供了有用的信息。3.在候选位点存在强连锁不平衡的条件下辨识功能位点在单个基因区域中,多个生物学标记有可能表现出强烈的连锁不平衡性。某种表现型可能与数个生物学标记之间有强列的统计相关性。邻居位点上变异之间的连锁不平衡,尤其是强连锁不平衡不仅为辨识与特定表现型相关的生物学标记制造了困难,而且阻碍了区分功能相关变异和非功能相关变异。在第四章中,我们考虑了5种不同的方法:助推法,Lasso,岭回归,逐步回归和单位点分析。在变异之间存在连锁不平衡的情况下,我们利用模拟比较这五种方法预测功能变异的表现。我们发现:如果有100个样本,在20位点之间存在强连锁不平衡的条件下,岭回归表现最好;在500或1000个位点之间有退化的连锁不平衡的条件下,助推法表现最好。
其他文献
就目前情况来说,经济全球化正处于迅猛的发展中,人力资源就成为企业长远发展的主要资源,在企业经营过程中占据着重要位置。对人力资源部门来说,对员工进行管理就会直接影响着
作为语文教材中的经典篇目,郦道元《三峡》有着丰厚的内涵。在当前语文课程内容问题重重的当下,准确解读作品内涵、排除其中疑难,意义重大。文中"两岸连山,略无阙处",说的不
以可再生的农林生物质为原料制备具有低成本、生物相容性和可生物降解的材料是当今生物质领域研究的重点和热点。纤维素是农林生物质细胞壁的主要成分之一,同时也是自然界中
论文以航空发动机燃烧室火焰筒冷却需求为依据,针对航空发动机火焰筒内外侧压差小的燃烧室火焰筒壁面冷却及异型扰流层板-狭缝气膜冷却等问题展开研究。主要基于发动机燃烧室的真实工况,取环形燃烧室研究对象,对燃烧室火焰筒壁面进行传统槽缝气膜冷却、多直孔气膜冷却及多斜孔气膜冷却三种冷却结构设计,对各个冷却结构燃烧室的燃烧、流动、传热进行三维模拟仿真,得出:多种冷却结构中,多直孔冷却结构和多斜孔冷却结构代替传统
房地产业因其蓬勃的发展速度和巨大的资本吸纳能力,成为中国国民经济运行中的重要产业。同时房地产业还具有产业波及面较广和产业关联性较强等特点,对国民经济的健康合理发展
随着科学技术的突飞猛进发展,激光加工技术已被逐渐应用到各行各业中,并显示出巨大的技术先进性,其中,在五金刀剪行业中的应用将五金刀剪产品推向了一个更高端的层次。通过对
乳酸(C3H603)作为一种常见的2-羟基羧酸,广泛地存在于自然界中和生物体内。作为厌氧条件下糖酵解的终产物,乳酸在微生物体内参与多种生物化学过程,对某些微生物的生存、致病
丁香假单胞菌(Pseudomonas syringae)是一种已被深入研究的革兰氏阴性植物病原细菌,但该菌对动物如秀丽隐杆线虫(Caenorhabditis elegans)的致病性最近也已被研究证实。铁是
本学位论文研究几类典型的多涡卷与多翅膀混沌系统的建模、分析、控制及其在通信中的应用,属于目前国内外混沌领域中的热点课题。混沌系统的建模与分析旨在探索几类典型多涡
阅读是让孩子一生受益的习惯,很多人的亲子共读从"胎教"就开始了。而亲子阅读推广人黄鹂就是这样一个母亲,她陪伴孩子共读九年多,对绘本阅读、亲子共读有着深刻的认识和独到
报纸