三代重测序DNA数据压缩算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ZHIWEINIU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
测序技术从一代Sanger测序,经历二代测序(Next-generation Sequencing,NGS),发展到当前已经进入三代测序(Third-generation Sequencing,TGS)时代。现如今伴随着生物信息学研究的深入,三代测序技术已经超越二代测序技术成为主流的研究方向并且促进了生物信息技术的发展。但是三代测序的特点决定它将会带来许多新的挑战,测序生成序列与数据库存储空间不匹配,数据增长速度与计算机容量增长不匹配就是现如今急需解决的难题。为应对测序数据的高速增长,相较于增加存储容量和减少数据生成的方案,针对测序生成的短读数据进行压缩是一个行之有效的方法。通过分析现有的主流二代压缩算法,本文提出专门针对三代重测序数据的压缩算法,在上述算法基础上改进解压缩算法实现局部解压缩技术,并创新性地设计插入压缩算法。论文的主要内容包括:(1)探讨了测序技术的发展历程,对比二代和三代测序技术及其产生数据的特点,分析主流的测序数据保存格式,深入研究基因测序数据的结构和针对生物数据的压缩算法,这为接下来的算法设计打下基础。(2)设计出针对三代重测序数据的压缩框架LYZip,其中详述了LYZip针对不同数据流采用合适的压缩策略。对于重测序数据占比最大的碱基序列,提出了针对该数据流的自索引逆前缀序列变换压缩算法TPBWT,并在该压缩算法基础上改进解压缩过程,提出了部分解压缩算法,这有利于下游软件对于压缩文件的显示和分析。通过实验证明该算法具有很好的压缩性能,为接下来的插入压缩算法做了铺垫。(3)针对重测序数据的排序过慢问题,创新性地提出插入压缩策略并设计了相关算法。在部分解压缩的基础上,通过插入操作省略排序过程,降低了对于测序数据的处理时间和压缩时间。实验证明插入压缩与测序序列排序之后在进行压缩相比减少了压缩时间。本文针对三代重测序(Re-sequencing)DNA序列数据,设计了适用于该类测序数据的压缩框架LYZip。在该算法的基础上实现了部分解压缩技术,并且进一步实现了插入压缩。通过实验证明了这些算法具有很好地压缩性能,从而可以解决DNA测序数据大量增长带来的存储问题,并为三代数据压缩或者将来更先进测序数据的压缩提供了参考。
其他文献
克林顿政府作为后冷战时期美国真正意义上的首届政府,其形成的对华外交政策奠定了整个后冷战时代美国对华政策的总基调。纵观克林顿政府对华外交政策形成过程,可以发现美国各
研究背景:近几十年来,肾肿瘤的发病率呈现逐年上升的趋势,已经成为泌尿外科的常见肿瘤。随着人们健康意识的提高以及检查设备的不断更新,越来越多的T1期肿瘤被检出。外科微创
目的:研究贝那普利对肝纤维化大鼠肝脏Nrf2mRNA表达及血清ROS浓度的影响以及肝硬化患者血清中ROS浓度的变化,为阐明贝那普利抗纤维化机制及Nrf2mRNA、ROS与肝纤维化的关系,希望为临床上肝纤维化的诊治及预防提供新方法。方法:1.动物实验部分:将22只SD雄性大鼠[(180-210)g]随机分为3组:正常对照组(n=6),模型组(n=8)和贝那普利治疗组(n=8)。除对照组外,模型组和预
背景我国人群高血压患病率呈增长趋势,每十个成人中至少有2人是高血压,高血压是脑卒中、心脏病及肾脏病最主要的危险因素。其中,高盐饮食是诱导高血压发生发展最主要的危险因
参照物作为运动事件的四个内部语义成分之一受到的关注相对较少。然而,它在运动事件的概念化过程中起着不可或缺的作用。本文借助于自建语料库和在线语料库,对英汉语运动事件
研究背景宫颈癌是第二常见女性肿瘤,是引起女性死亡的重要原因之一。宫颈癌早期通常表现隐匿,缺乏特异性,加上缺乏有效的筛查手段,发现时多为晚期。原位癌治愈率近100%,而Ⅳ
研究背景和目的核内不均一性核糖核蛋白K(hnRNP K)是一种核酸结合蛋白,同时存在于细胞核和细胞质,它参与染色质重塑,转录,RNA选择性剪切,翻译等基因表达的过程,发挥着重要的
目的:宫颈鳞状上皮内病变(Squamous Intraepithelial Lesion,SIL)是育龄期妇女常见疾病,近年来在世界范围内其发病率正在增加。根据宫颈鳞状上皮内病变诊疗指南,低级别宫颈鳞状
研究目的探讨Gankyrin在大肠癌发生和发展过程中的作用及机制。研究方法1.收集于2004年1月-2008年1月在上海交通大学医学院附属第九人民医院就诊并于病理科存档的286例病人大
目的:观察纳子法配合电针治疗中风后无抑制性神经源性膀胱的临床疗效,与常规针刺方法相比较,客观评价该疗法的有效性及可行性。方法:本研究收集60例中风后无抑制性神经源性膀