基于拉马努金傅里叶变换的基因相似性分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:steven146
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,科研人员得到的生物基因及蛋白质数据日益增长,生物信息学研究的重点从获取并积累数据逐步转变到如何分析并解释这些数据。海量的生物数据中蕴含着极其丰硕的生物信息,从这些生物数据中获取尽可能多的信息是一项十分有意义的工作,越来越多的生物学、医学及药学工作者已经认识到生物信息学的实用性和重要性,同时很多数学家和计算机科学家等许多跨领域的研究者也被吸引到生物信息学这个新兴的交叉学科中。生物序列的相似性分析是其中最基本、最重要的内容之一,比如,分子进化问题和基因识别问题等研究工作都是建立在生物序列相似性分析的基础之上。序列比对(Sequence Alignment)方法是生物序列相似性分析的传统方法,但由于其存在需要大量用户定义参数、序列很长时计算量较大等问题,序列非比对(Alignment-free)方法作为其改进及补充而被提出并迅速发展成为相似性分析的研究热点之一。本文以基因序列为研究对象,在Voss映射和拉马努金傅里叶变换(Ramanujan Fourier Transform,RFT)的基础上,改进原有方法并得到了新的非比对方法,构建了系统发育树并进行了相似性分析。本文展示了基于拉马努金傅里叶变换功率谱的基因序列非比对方法来进行序列相似性分析。首先使用Voss映射将DNA序列转换成四条指标序列,并在其上应用改进的拉马努金傅里叶变换算法,得到一组RFT系数,通过计算RFT系数间的欧几里得距离(Euclidean metric)来进行相似性分析,利用非加权分组平均法(Unweighted Pair Group Method with Arithmetic Means,UPGMA)构建系统发育树。为了计算不同长度序列间RFT系数的欧几里得距离,本文采用将较短的指标序列后补零至与数据集内最长序列长度相等的方法,在保持信息量的前提下,我们将对数据集中的基因序列在相同维度的空间中进行分析。得到的结果将与时下流行的离散傅里叶变换方法及多序列比对(Multiple Sequence Alignment,MSA)方法的结果进行比较,可以发现,新方法有着较好的聚类结果并节约了计算量。
其他文献
变分学与偏微分方程是现代数学研究的重要领域,这一领域不仅在数学的其他分支,如微分几何,调和分析中具有重要的应用,而且在物理,力学,生物等学科中也得到广泛的应用。变分学研究带
泊松分布是一种重要的离散型随机变量,它是由法国著名数学家和物理学家莫恩·德尼·泊松在1837年首先提出来的,与之相关的泊松过程,复合泊松过程等在物理,金融,经济,工程等很
本文主要研究了不同节点消去方法在三维扩散方程保正有限体积格式构造中的应用。  首先,在四面体网格上建立单元中心型有限体积格式,所建格式只有单元中心未知量,且保正。在格
代数多层网格(AMG)法和区域分解法(DDM)是国际上流行的两类求解大规模偏微分方程(PDEs)离散化系统的快速方法.目前,对于求解复杂PDEs离散化系统的AMG法和DDM,还有许多需要进
随机微分方程可以描述相当广泛一类经济、金融现象,特别是最近几年,人们越来越关注怎样用随机微分方程理论定量研究金融市场。由于现实的金融现象中夹杂着很多因素,这些因素
实直线空间与Sorgenfrey直线空间是一般拓扑学两个重要空间,一直为人们探索拓扑空间的性质与结构提供着源源不断的例证与参考。两个空间在拓扑结构与拓扑性质方面有着不同之处,这使得人们开始关注介于两者之间的过渡空间类的拓扑性质,了解这些过渡空间类的拓扑性质对于探究拓扑空间性质与结构的关系,以及之后构造特殊的拓扑空间有很大的帮助。本文主要做了以下五个方面的工作:(1)对于实数集R的任意子集A,(R,
学位