【摘 要】
:
第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序技术的不断发展使得测序成本逐年下降,测序数据量急剧增加,如何存储和传输庞大的测序数据是当前亟需解决的问题。数据压缩技术可以有效减少测序数据的存储空间并减少传输时间。通用压缩工具未能很好的利用DNA测序数据的数据特性,对测序数据的压缩比存在一定的局限。而目前DNA测序数据的
论文部分内容阅读
第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序技术的不断发展使得测序成本逐年下降,测序数据量急剧增加,如何存储和传输庞大的测序数据是当前亟需解决的问题。数据压缩技术可以有效减少测序数据的存储空间并减少传输时间。通用压缩工具未能很好的利用DNA测序数据的数据特性,对测序数据的压缩比存在一定的局限。而目前DNA测序数据的专用压缩工具大多是针对第二代测序数据开发,在面对第三代测序数据的长读长、不固定读长、错误率高等特点时,绝大多数压缩工具均无法正常工作。所以设计专门针对第三代DNA测序数据的压缩工具变得十分重要。本文介绍了当前DNA测序数据压缩的研究背景及现状,并提出两个针对第三代DNA测序数据的压缩方法,主要工作内容如下:(1)提出基于最小哈希和局部敏感哈希技术的第三代DNA测序碱基数据压缩算法min Base Zip,算法使用杰卡德系数评估序列之间的相似性,对整个碱基序列建立特征矩阵,通过最小哈希和局部敏感哈希快速筛选出相似序列并分组,最后对各个组内序列使用基于上下文特性的gzip工具进行压缩。在来自多个测序平台的开源数据集上进行实验,和多个测序数据专用压缩工具及通用压缩工具进行对比,结果表明min Base Zip能够利用类内部的数据冗余性,提升压缩比。(2)在上述碱基数据聚类的基础上,进一步提出基于组装的fastq完整数据压缩方法min Compress,算法将fastq文件分为三个部分进行压缩,碱基部分使用wtdbg2组装工具对每个分类文件进行组装获得基因组,并将每个分类文件和获得的基因组使用基于参考基因组压缩方法LWFQzip2进行压缩;元数据和质量分数分别采用增量编码和游程限制编码进行压缩。在来自多个测序平台的长读测序数据上进行实验,和多种针对fastq文件的压缩工具进行对比,实验结果表明min Compress能在合理的时间和空间成本下获得更好的压缩比。本研究针对第三代DNA测序数据提出的压缩方法,能够帮助缓解第三代DNA测序数据所带来的存储和传输压力,并为后续相关研究提供了一定的借鉴。
其他文献
近年来,视频目标检测技术由于其在无人驾驶技术、智能机器人、智慧城市等多个领域都发挥了不可或缺的作用,成为了计算机视觉领域的一个十分热门的研究课题。基于人工智能技术的视频监控系统作为智慧交通系统的重要组成部分,目前已经广泛应用于社会生活中的各个方面。深度神经网络与传统图像识别系统相比而言,其最显著的优势在于,它能将特征提取、特征压缩以及图像分类整合到一个神经网络中,能够有效提取出更抽象的高维特征。为
我国是土壤污染较为严重的国家,且土壤污染物种类多,污染浓度高,尤其是多环芳烃(PAHs)的污染。有机物PAHs性质稳定且持久,一旦沉积到土壤环境中很难被去除,对环境和人类健康造成很大影响。土壤淋洗修复是一种高效的治理技术,但常用的淋洗剂效率低、不易降解且易造成二次污染。生物表面活性剂无毒、且易降解,作为土壤淋洗剂具有独特优势。基于此,论文以食品级磷脂作为生物表面活性剂,形成微乳液,对PAHs疏水性
社会文明的进步在不断攻克很多疾病的同时,也因为生活节奏的加快和压力的增加带来了新的全球化疾病,其中致死率最高的当属心血管疾病。短轴cine MRI(cine magnetic resonance imaging,心脏磁共振短轴电影图像,后文中常简称为MRI)的左心室(LV)心肌力学性能分析对于心血管疾病的诊断和治疗至关重要。点特征提取是追踪心肌运动的重要基础,然而,左心室心肌显得高度均匀,并且在短
随着电动汽车的快速发展,人们对锂离子电池能量密度的要求也越来越高。硅基负极材料由于具有较高的理论容量(4200 m Ah g-1,Li4.4Si)、较低的放电平台(<0.5 V vs.Li/Li+)、丰富的储量等优点,吸引众多的研究者投身其中。然而,硅基负极材料在充放电过程中巨大的体积效应使得负极活性物质粉化后与集流体脱落,SEI膜不断形成和破坏,消耗大量的电解液。此外,硅负极材料的导电性较差(<
高级氧化技术被广泛用于降解水环境中难降解有机污染物,并取得良好效果。近年来,通过在电催化氧化高级体系中引入过硫酸盐能够在阴极区域原位生成比羟基自由基(·OH,E0=2.74 V)氧化能力更强的硫酸根自由基(SO4·-,E0=2.5–3.1 V),进一步加强电催化高级氧化体系的氧化能力。因此,电化学活化过硫酸盐协同电催化高级氧化耦合技术广受关注。本论文选取过二硫酸钾(PDS)进行研究,首先,通过阳极
在21世纪经济全球化的时代背景下,当代博物馆的社会职能不断扩大,成为集收藏、研究、展览、教育和休闲娱乐于一身的多元文化场所。作为我国文化事业的重要组成部分,博物馆代表着一个城市乃至一个国家的文化形象,更是衡量一个社会文化繁荣程度的重要指标。近十几年来,我国各地的博物馆建设持续升温,无论是场馆的建设数量、规模,抑或是场馆的服务性能、展览品质等,都处于一个快速上升的过程。而随着当代博物馆职能的不断扩大
饮用水安全一直是人们关注的热点话题之一。随着检测仪器的精密度提高,越来越多的饮用水安全问题出现在大众的视野中。因此为了提高饮用水质量并确保饮用水安全性,饮用水净化工艺也在不断的更新换代。离子交换树脂选择范围广,抗污性能好,价格低,再生性能优异,被广泛地应用于饮用水处理领域。但是由于水中存在有机物、氯化物等物质,在饮用水处理过程中,离子交换树脂会产生氮交换副产物,例如亚硝胺。这些有毒有害的副产物会损
为了满足临床应用要求,通常需要在羟基磷灰石(Hydroapatite,HA)分子结构中掺入少量的微量元素。然而HA的韧性性能低、脆性性能高,在临床应用受到限制,为了满足骨修复工程中支架材料的性能要求,可以通过添加另一相或多相来提高材料的性能。此外,HA复合材料总体性能很大程度上受到界面结合能力的影响,因此对界面性能的研究无论从学术角度还是HA复合材料的应用方面都有重大的意义。目前通过实验对HA复合
羟基磷灰石(Hydroxyapatite,HA)作为一种新型仿生材料,其良好的生物相容性、生物活性、以及可进行离子交换的优良特性,让其一直以来是生物材料及环境功能材料方面的研究热点。本文将HA与氧化石墨烯(Graphene oxide,GO)进行复合,以硬模板法制备复合微球,以提高药物负载效率。同时以HA、GO与壳聚糖(Chitosan,CS)复合,乳化交联成球,制备出两种负载与释放性能优异且形貌
头孢菌素是世界上使用较为广泛的半合成抗生素,在临床使用中多数头孢类抗生素生产的中间体为7-氨基头孢烷酸。7-氨基头孢烷酸主要来自头孢菌素C脱酰作用,主要脱酰方式有化学法、二步酶法和一步酶法。化学脱酰法具有环境不友好且反应条件苛刻等缺点已经被市场淘汰。二步酶法已经基本应用于工业生产,但二步酶法转化率低,反应不易于控制。一步酶法可以直接将头孢菌素C脱酰转化为7-氨基头孢烷酸,具有高转化率、高经济性和环