基于字符间隔距离的生物序列模型及其应用

来源 :燕山大学 | 被引量 : 0次 | 上传用户:huan2735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“面对生物大数据,如何建立数学模型进行大数据的快速处理与有效分析,从而最大程度地发现隐藏在数据中的重要信息”是当今生物数学领域的重要研究课题。本文从生物序列出发,以序列的基本构成元素——字符(分别表示碱基或氨基酸)的间隔距离为切入点,利用统计方法和机器学习方法建立数学模型,并将其应用于生物序列的分析和必需基因的识别中。  一方面,借助已有的字符间隔距离序列,提出了新的碱基(氨基酸)间隔距离序列,它可以轻松地实现原始生物序列的重构而不需要任何其它辅助条件;在此基础上进一步提出了(有序的)精准间隔距离序列,抽取其五个基本统计量组成特征向量来表征原始生物序列;然后利用向量之间的欧氏距离计算生物序列之间的相似性程度;最后将该方法应用于三组实验:DNA组,即18种真哺乳亚纲哺乳动物,23物种的线粒体基因组和11物种外显子序列的相似性分析;非编码RNA组,即19物种的非编码RNA序列的相似性分析;蛋白质组,即9条ND5序列、20条FG序列和24种脊椎动物的转铁蛋白序列的相似性分析。通过MEGA,Phylip、Treeview软件得到各组实验的生物系统发生树与已知结论一致,表明文中所提方法是进行序列分析和比较的有效工具。  另一方面,鉴于必需基因的识别有助于对生命起源及进化的探索,并且可为药物靶点的设计、疾病的治疗以及合成生物学最小基因组的研究提供重要的基础,本文利用碱基间隔距离序列构造的特征向量,结合支持向量机方法,设置实验集和训练集,对5类细菌物种的必需基因和非必需基因的特征向量做10倍交叉验证,得到最优参数,计算AUC值(接受者操作特性曲线下面积)来评价模型的有效性。文中所得AUC值高于一些公认的已知结果,证实了文中所提方法是识别必需基因的可选择性工具。
其他文献
使用笛卡尔网格方法可以方便快捷的生成计算网格,易于直接采用各种高精度数值方法,并能方便模拟运动物体,近来越来越获得人们的亲睐。笛卡尔网格方法除了网格生成简单及自动化水
基于内容的图像检索(CBIR, Contend based image retrival)是当前计算机视觉领中域的重要研究热点,它是科学技术的进步发展和推广应用,在图像数据库日益增长,图像种类多样和数量
学位
摘 要:输油管道的泄漏不仅会带来严重的环境污染,影响石油开采活动的正常进行,还会造成火灾等危险。当前的输油管道安全管理中主要存在管道占压、腐蚀、盗油等问题,要求企业根据实际情况加强安全管理,实现输油管道的规范性管理,创造安全的工作环境,促进企业健康发展。  关键词:输油管道 安全管理 规范化 监测 盗油  社会经济的发展推动了石油化工行业的发展,输油管道的应用日趋普及,输油管道的安全问题也成为人们
总体错误率(TER)在处理多类分类问题中采用传统的一对余的学习方法,导致在训练过程中因多次计算而浪费不必要的时间;同时也可能对数据一类对多类的划分产生不平衡的数据集从而对
最优控制问题是微分方程约束下的一个约束优化问题,如同微分方程一样,最优控制问题应用广泛,比如大气污染的控制,癌症化疗,金融投资,流体控制等.有限体积元法是一种具有守恒性(质量,
本文主要研究了随机利率下欧式看涨期权的定价,以及随机利率下考虑违约风险的欧式看涨期权的定价,其中核心内容为随机利率下考虑违约风险的欧式看涨期权的定价。  本文采用的
这篇文章以更新理论在非寿险中的应用为出发点,从保险中遇到的各种盈余过程为基础,研究了与破产概率相关的各种精算量。我们建立了几个更新方程和微分积分方程,应用微积分和Laplace变换等方法,得到了一些精算量的相关性质,如显式表达式,渐近表达式和不等式。我们研究了索赔间隔为Erlang(3)更新风险模型中破产时间的矩,非齐次泊松风险模型和带随机投资的更新风险模型中的有限时间的破产概率,更新风险模型中亚
Z.Pawlak于1982年提出的粗糙集理论,是一种新的处理不确定知识的数学工具.本文主要利用格、Quantale上的同余关系和集值同态,分别建立格和Quantale上的粗糙集和广义粗糙集,通过
粗糙集理论是有效地处理不完备、不确定性数据的一种数学工具,被广泛地应用在人工智能和数据挖掘等领域.覆盖粗糙集理论是经典粗糙集理论的推广,每一个覆盖被认为是一个粒度,