基于变长种子的找全测序序列比对算法研究及优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sjuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列比对是生物信息学中的一个核心问题,它是一些生物学下游应用的基础。随着测序技术的发展以及千人基因组计划的执行,测序基因组的规模越来越大,序列比对耗时也越来越多。序列比对分为找最好和找全两类问题,其中后者是计算成本更耗时的问题。因此,找全序列比对算法也成为了一个重点研究方向,其主要评价标准为时间消耗和空间占用。过滤方法的好坏,直接决定了比对的总时间,现有的过滤方法过滤后候选位置较多,会消耗大量的验证时间,因而影响了序列比对算法的速度。选取的索引直接影响了内存占用和种子查找速度,但目前的哈希索引相对较大,且对变长种子的查找支持较差。为了加快比对的速度和减少内存占用,本文主要研究找全序列比对算法的过滤方法和索引的改造及优化,具体工作和贡献如下:(1)过滤方法设计及优化我们对目前已有过滤方法进行了分析和研究,发现经过过滤方法筛选后,仍有大量的候选位置不属于真正所要的匹配位置,但这些未匹配的位置仍会消耗大量的时间进行验证。本文提出了一种基于变长种子的动态规划过滤方法,变长种子可以明显减少定长种子的候选位置数量。为了解决变长种子带来的计算成本增加问题,我们采用了两种启发式的优化策略:限制种子长度变化范围和高频种子长度扩展,前者为降低计算成本而后者为降频处理。最后将该方法应用于目前速度最快的找全序列比对算法Bitmapper中,实验结果表明,在编辑距离为5时,相较于原Bitmapper,本文方法有约30%的加速。(2)索引改造及并行化现有的哈希索引空间较大,我们先利用稀疏化方法减少了哈希索引的空间。其次,原有适合定长种子的哈希索引技术需要为变长种子进行改造和优化。因此,本文设计了一种变长种子的方案,已应用在前面的Bitmapper算法实现中,该方案是以较长且固定长度为q的种子(即q-gram)为基索引,通过合并前缀来获取长度小于q的变长种子位置。随后,提出了一种索引改造和优化方法,减少了前缀合并的耗时操作,主要是在基索引的倒排表中加入后缀字符信息,并改进了求变长种子位置的计算方法,亦能很好适应稀疏哈希索引。最后,我们采用多线程对算法进行并行化加速。实验结果表明,将改造的索引和变长种子过滤方法相结合后,在编辑距离为5时,相比于原Bitmapper,计算时间和内存消耗均得到了有效减少;对于8线程,取得了约7倍的加速比。
其他文献
图元(Graphlet)是大图中连通的诱导子图,因其广泛的应用吸引着众多研究者的关注。图元的统计量,即图元的数目和比例可以揭示出大图的某些特征,是研究复杂网络的一个很好的切
视觉SLAM(Visual Simultaneous Localization and Mapping,VSLAM)是移动机器人领域的重要技术,使得移动机器人更具智能化。目前的视觉SLAM算法大多是基于静态环境实现的,如果
云盘作为当前网络资源传播的重要渠道之一,不可避免的成为著作权侵权的重灾区。云盘服务向用户提供的空间存储、资源分享、在线预览和秒传等功能服务方便了用户之间作品资源
随着通信技术的进步,用户和应用的数量呈指数级增长,导致了资源的稀缺和功耗的增加。基站上的数据流量也随着用户数量的增加而增加。为了降低5G中蜂窝用户的中断概率,设备到
物理学科是一门综合性极强的自然学科。高中物理学科知识结构体系全面,涵盖的知识点丰富,涉及的领域广泛,对学生的综合能力有着极高的要求。“学习物理难、学好物理更难”越
高烈度地震区地震液化对各种工程建设都有相当大的危害,用标准贯入试验判断饱和砂土地震液化,能为工程抗震设计提供重要依据。本文通过对标准贯入试验的理论研究,结合具体工
在导航、雷达等数字信号处理领域,需要大量正余弦和反正切函数计算,目前主要的手段是采用FPGA并行完成。硬件设计方案主要包括查表法、多项式逼近方法和坐标旋转数字计算方法
随着21世纪互联网的飞速发展,网络上的海量数据已经与我们的生活变得密不可分。如何令用户可以在如此海量的数据中迅速搜索到自己感兴趣的图片变得十分重要,因此图像检索成为
高校实验室是培养学生实践能力与综合素质的主要场所,是高校教学资源配置体系中的一个重要组成部分。随着学科与专业的发展,高校实验室规模与数量不断增加,实验室建设质量和
近年来,在线学习环境日益普及,逐渐作为一个常见手段应用在大学生程序设计教学中,但已有的在线编程系统只能判别提交程序的正误,不能给出错误原因并进行修正。因此,本文针对