基于Illumina平台RNA测序数据集的转录组拼接算法设计

来源 :天津师范大学 | 被引量 : 3次 | 上传用户:xxssdd55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组测序技术的不断发展,人们对基因组测序问题有了更深的了解。基因组测序是通过使用测序平台对某物种的基因组分段进行测序,之后将这些测序片段进行正确的拼接,从而得到该物种完整的基因组序列信息,进而对该物种的基因组进行序列分析和功能预测。转录组的读序拼接问题作为基因组测序中的一个重要问题,通过设计算法对物种的RNA读序进行拼接,从而得到该物种完整的转录组序列信息。转录组读序拼接问题的研究对构建人类完整转录组以及对人类遗传变异相关疾病的预测有着重大意义,因此,设计转录组拼接算法势在必行。转录组拼接算法可以分为两大类,分别是基于参考基因组的转录组拼接算法和从头开始的转录组拼接算法。由于基于参考基因组的转录组拼接算法要求待拼接的物种具有被完整测序的基因组序列,因此该方法的适用性不是很广。为了适用于缺少参考基因组的物种,本文设计了从头开始的转录组拼接算法,命名为SS-Assembler 算法。SS-Assembler算法所用的数据集是Illumina公司第二代测序技术RNA高通量测序数据集,在存储数据时用到的数据结构是双重哈希表,在实现算法时用到的编程语言是Python。本算法的创新点是在存储k-mer时,抛弃了传统的De Bruijin图,而是使用双重哈希表将k-mer以“键对”的形式进行存储,这样大大节省了算法的运行时间,并提高了算法的精确度。经测试,本文设计的算法在精确度和时间复杂度方面的表现都优于已有的转录组拼接算法,这对推动转录组拼接问题的解决有着重要的学术价值。
其他文献
肿瘤护理是护士学生的必修科目之一。因为肿瘤的折密,病人感情脆弱,需要投入更多的情感去关怀。本文介绍了情感教育的教学活动,包括:个案学习,现场分享和寄语表达,达到了培养学生从
我国的建筑行业市场广阔,但长期以来存在着生产效率低下、信息流失等问题。近年来,BIM技术的应用给建筑行业带来了革命性的变化,在我国建筑领域的应用取得了巨大的进展,但是
今天我非常高兴。也非常荣幸能够代表新一代的协和护理人站在这个讲台上。能够说一些我们年轻一代的心声。刚才聆听了协和老前辈的发言,她们又领着我们回顾了协和骄傲的历史。
介绍了江苏国信扬州发电有限责任公司630MW超临界机组循环水泵双速改造和运行情况,改造后可根据季节变化变更电动机转速,从而实现水量调节,节约了厂用电,取得了明显的经济效
在分析核电站堆芯熔融物的结构特性、传热特点以及熔融物冷却处理策略的基础上,通过对AP1000,EPR,VVER-1000以及福岛核电站沸水堆4种堆芯熔融物处理措施的分析及比较中得出,
选择性催化还原法脱硝还原剂的制备工艺在国内运用的有液氨法和尿素法2种类型。以新疆和丰发电厂脱硝工程为例,分析了2种还原剂制备工艺的特点,探讨了适合具体工程的还原剂制
分析美国注册护士考题特点,主要是:在内容上,以人为本,突出临床护理,实用性和操作性强,注重护士临床工作能力和应变能力的培养,护理学科知识体系完善;在形式上,多为案例分析和
<正>组织公民行为被认为是组织有效运作的重要因素之一,它是近年来组织行为学研究的热点问题[1]。随着组织公民行为研究的发展,护士组织公民行为也被越来越多的学者所关注。
差动保护作为发电机的主保护,能否正确动作直接影响到主设备的安全和系统的稳定运行。分析了发电机不完全差动误动的原因,指出差动用电流互感器励磁特性变差是差动保护误动的根