基于Spaced Burrows-Wheeler变换的基因序列比对算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:jefdskvsaklfdsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代测序技术快速发展,日益增长的海量测序数据给序列比对带来了巨大挑战。序列近似比对是生物信息学领域中核心的基础问题之一,处于序列数据分析流程中的上游。针对k个替换错误的近似匹配问题,主流的比对软件如Bowtie1使用了启发式搜索的策略,基于Burrows-Wheeler transform(BWT)的索引技术,牺牲一定的比对精度来提高比对速度,但不能处理比对中存在很多替换错误的情况。本文对BWT进行了深入研究,提出了新颖的可逆性变换方法spaced Burrows-Wheeler transform(SBWT),采用种子和扩展的技术,设计了高精度的快速比对算法。SBWT使用了间隔种子技术,相对于连续的种子,它提高了过滤的特异度和灵敏度。在比对扩展阶段,利用二级索引技术和二进制编码技术加速了候选区域的验证速度。与传统的比对软件Bowtie1、BWA和SOAPv2等相比,SBWT在不损失比对精度的情况下,牺牲一定的空间复杂度,比对速度提高了5-21倍。本文的成果以及创新点主要体现在以下三个方面。首先,本文提出了新颖序列重排变换:SBWT。同BWT类似,它具有可逆性和LF Mapping特性,可用于解决序列匹配问题。SBWT构建的索引是后缀树结构的一类变体,BWT是其周期为1的特殊变换方法。与BWT不同的地方是:序列尾端添补的$数目与变换周期和序列长度有关;在间隔后缀序列排序过程中,使用改进的多键值快速排序算法进行周期性地排序;旋转字符矩阵的右起第(变换周期)列序列是变换后的序列。结合鸽巢引理,SBWT可以解决序列任意长度替换错误的近似匹配问题。基于SBWT间隔种子的特异性,本文设计了高精度的快速比对算法。通过对人类基因组的重复序列进行统计分析,本文发现连续种子的重复拷贝位点占比接近1/7,且存在长尾分布,而间隔种子的重复拷贝位点仅占全部的1/21左右。基于BWT的比对算法(Bowtie1和BWA等)使用连续种子技术,而SBWT使用的间隔种子技术具有更加广阔的分布域、更高的特异度,种子过滤的假阳性率也更低。设计二级索引结构驱动比对扩展。比对算法中的最后一步是比对扩展,对种子命中的候选区域进行验证,筛选符合比对条件的位点。SBWT有独特的同质间隔后缀区,可以设计特殊映射关系的数据结构,建立二级索引结构。相对于线性扫描的方法,本文使用二分查找算法可有效地处理候选区域过大的情况,驱动了比对扩展。此外,本文改进了碱基序列的信息编码和压缩的方法,提高了汉明距离的计算速度。
其他文献
不久前的一天.当我跨进胜这江苏双灯纸业有限公司的办心室.正在通过“商务领航”平台派出车单的薛主任就高兴地对我说:“我们的发展离不开电信.是‘商务领航’帮我们‘双灯’的生
目的:规范医院信息系统数据的管理,提高数据的安全可用性。方法:过期数据管理主要用数据转储的方法.在线数据要时时做好数据备份。结果:在实际工作中灵活运用数据管理的各种方法,取
目的:探讨高原肺水肿(high altitude pulmonary edema,HAPE)不同时期的影像学表现,寻找更好的检查手段,为HAPE的临床诊断及治疗提供依据。方法:对临床确诊为HAPE的364例患者的影
在北京东三环的潘家园桥附近,有两处古玩艺术品爱好者必去的地方——北京古玩城和潘家园旧货市场。北京古玩城是国内目前最大的古玩艺术品交易中心,而潘家园旧货市场,则是国内目
背景:扩张型心肌病(dilated cardiomyopathy,DCM)是临床较为常见的心肌病,其进展终将导致心力衰竭,是心源性猝死原因之一。心肌肌球蛋白结合蛋白c(Cardiac Myosin Binding Pr