论文部分内容阅读
随着科学技术的迅猛发展,科研人员得到的生物基因及蛋白质数据日益增长,生物信息学研究的重点从获取并积累数据逐步转变到如何分析并解释这些数据。海量的生物数据中蕴含着极其丰硕的生物信息,从这些生物数据中获取尽可能多的信息是一项十分有意义的工作,越来越多的生物学、医学及药学工作者已经认识到生物信息学的实用性和重要性,同时很多数学家和计算机科学家等许多跨领域的研究者也被吸引到生物信息学这个新兴的交叉学科中。生物序列的相似性分析是其中最基本、最重要的内容之一,比如,分子进化问题和基因识别问题等研究工作都是建立在生物序列相似性分析的基础之上。序列比对(Sequence Alignment)方法是生物序列相似性分析的传统方法,但由于其存在需要大量用户定义参数、序列很长时计算量较大等问题,序列非比对(Alignment-free)方法作为其改进及补充而被提出并迅速发展成为相似性分析的研究热点之一。本文以基因序列为研究对象,在Voss映射和拉马努金傅里叶变换(Ramanujan Fourier Transform,RFT)的基础上,改进原有方法并得到了新的非比对方法,构建了系统发育树并进行了相似性分析。本文展示了基于拉马努金傅里叶变换功率谱的基因序列非比对方法来进行序列相似性分析。首先使用Voss映射将DNA序列转换成四条指标序列,并在其上应用改进的拉马努金傅里叶变换算法,得到一组RFT系数,通过计算RFT系数间的欧几里得距离(Euclidean metric)来进行相似性分析,利用非加权分组平均法(Unweighted Pair Group Method with Arithmetic Means,UPGMA)构建系统发育树。为了计算不同长度序列间RFT系数的欧几里得距离,本文采用将较短的指标序列后补零至与数据集内最长序列长度相等的方法,在保持信息量的前提下,我们将对数据集中的基因序列在相同维度的空间中进行分析。得到的结果将与时下流行的离散傅里叶变换方法及多序列比对(Multiple Sequence Alignment,MSA)方法的结果进行比较,可以发现,新方法有着较好的聚类结果并节约了计算量。