基因序列比对算法在SNP中的研究及应用

来源 :华中农业大学 | 被引量 : 3次 | 上传用户:dusan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生命科学的研究正处于突飞猛进的发展中。随着人类基因组计划(HGP)的基本完成与现代生物技术的飞速发展,大量生物信息的获取已经为揭开生命的奥秘提供了坚实的数据基础。在生命科学的研究进入到后基因组时代(Post-Genome Era)时,生命科学的研究重点已经不再是生物信息的获取,而是转移到对基因组功能及其变化规律的研究,因此对海量数据的处理产生了紧迫的需求。与此同时,计算机技术及网络技术的革命性发展为处理海量数据提供了强有力的支撑,于是,生物信息学便在此前提下迅速的发展起来。并终将为人类破译遗传密码,掌握疾病的遗传信息,破解基因功能,结构功能预测起到巨大的推动作用。SNP即单核苷酸多态性,它主要指物种在进化过程中因为基因组中核苷酸的变异从而引起的DNA序列之间的差异,主要包括碱基缺失、插入、转换或者颠换等,单核苷酸多态性所反映的差异位点中包含的遗传信息是导致一些遗传疾病、肿瘤等的重要因素之一,基因突变及SNP在生物学、生物信息学和生物医学等研究中有着极其重要的作用。生物信息数据的表现形式为基因序列数据,通过对序列的比较可以发现其中的功能、结构等方面的信息。基因双序列比对或多序列比对的分析是目前生物信息学所关注的研究热点之一。对于基因序列的分析也通常采用聚类算法或者分类算法进行。本文主要研究基于序列比对算法对基因表达数据中SNP问题的分析,主要的工作及创新点概况如下:1)本文首先介绍了生物信息学的相关概念及其重要的意义,并对目前的国内外研究现状进行了概述。2)对基因表达数据常用的聚类分析算法进行了较为详细的研究,通过实验进行了初步的分析。3)介绍了目前基因序列比对算法的研究现状,并对其进行了分析,为本文中使用的序列比对算法提供依据。4)基于对序列比对算法的研究,本文提出了在海量基因序列数据中寻找SNP的实验方案设计。通过对经典BLAST算法的改进分别在PC机平台下及高性能集群环境下对算法进行了并行化设计及实现,并通过实验数据进行了较为详细的分析和测试,实验表明本文的实验方案在时间复杂度及结果方面都获得了较为理想的效果。5)以本文提出的方案及算法为基础,设计并实现了基于Windows操作系统和集群平台的序列分析系统,其功能主要包括基因序列数据的导入导出、SNP分析、序列比对、参数设置、结果数据输出、着色处理查看等。
其他文献
全基因组选择技术(Genomic Selection,GS)与传统育种方法相比拥有提高选择准确性、缩短世代间隔等优点。自2009年猪60k SNP基因分型芯片商业化以来,国外许多知名育种公司开启全基因组选择育种工作并将其作为常规育种手段进行应用,由于我国大部分企业的育种体系的建立尚未完善,所以全基因组选择技术的应用并不广泛。在杜洛克猪的育种工作中使用全基因组选择技术并对其应用效果进行研究,同时采用
探索地外生命是人类科学研究的核心问题,火星是地外生命探测的重要地点,探索火星、了解火星表面及其演化有助于加深人类对地球气候变化及生命起源与进化的理解。但太空探索对人类的生理提出了许多挑战:例如,空间辐射和微重力环境以及空间限制与隔离等,都会引起人体的多种病理学反应,其中许多疾病或症状的生理机制仍不清楚。受限于航天器动力、体积和机组人员配置,太空飞行中能够提供的医疗服务较为有限,目前还是以筛查潜在隐
利用免疫组化技术,建立PD-L1/TTF-1和PD-L1/P40免疫组化双染模型,从而准确筛选非小细胞肺癌中表达PD-L1的人群,为临床进行免疫检查点抑制剂治疗提供精准的实验室检测结果。我们对25例肺腺癌和25例肺鳞状细胞癌分别进行免疫组化双重染色,在切片中,分别原位观察这两组抗体在腺癌和鳞状细胞癌中的表达情况,根据TTF-1和P40定位癌细胞,进而分析癌细胞PD-L1阳性细胞比例(Tumor P
由于时滞现象的存在,时滞偏微分方程模型有着广泛的应用背景,如生物,化学,工程控制,神经网络等领域.而时滞项的加入,使得这些方程的理论解往往很难获得,即便很简单的线性时滞偏微分方程,能够获得理论解的也是屈指可数.因而数值求解不仅能够让我们对这些方程的理论解的性态有直观清晰的认识,更为生产生活实践提供了重要的参考.本文着重介绍了几类时滞偏微分方程的紧致差分方法的构造及其相应数值格式的理论分析.第二章我
背景全球范围内儿童结核病的发现率小于50%,其中一个重要的原因是缺少适合儿童的检测策略。儿童排痰能力较弱,即使能吐出痰液也往往菌量过少,导致检出率下降。解决这种情况的一个策略就是胃液或支气管灌洗液检查,但这种有创操作大大限制了其广泛开展。Xpert MTB/RIF Ultra试验(Ultra)是一种高灵敏性的结核菌检测方法 ,已有研究报道了其卓越的敏感性,因此我们尝试进行基于粪便的Ultra
会议
核糖核酸酶H(RNase H)能特异性地水解DNA/RNA杂交链中的RNA链释放出DNA链,在DNA复制、修复及转录等重要细胞过程中发挥着重要作用。所以开发出高灵敏度检测RNase H活性的方法十分重要。本文构建了两种光学DNA纳米传感器,并利用其在信号识别、信号转化和信号放大作用过程中的多种优势实现了对RNase H高灵敏度检测。首先借助DNAzyme驱动的DNA walker组装成一种荧光纳米
柑橘作为第一大类水果一直以来深受人们的喜爱,但由于市场上柑橘品种众多,且质量参差不齐,无法满足消费者对于柑橘品质越来越高的需求。及时的了解柑橘的水分、硬度以及其营养成分的含量,有利于成长期柑橘的生长环境调控,提升种植柑橘的品质,柑橘采摘后可按照需求进行分开保存和运输,既保证了生产者和中间商的经济效益,也保证了消费者的需求,提高了消费满意度。因此,对柑橘内部品质进行快速无损的检测具有重要意义。本论文
畜禽屠宰加工装备的自动化是我国工业化进程中的一项重要内容,近年来,发达国家畜禽加工技术及装备逐渐向着信息化方向发展,而我国牛羊屠宰装备落后,屠宰过程绝大多数依赖人工参与,畜禽自动化分割分级装备缺乏,生产过程管理粗放,严重制约着畜禽屠宰分割分级水平的提升。针对国内羊胴体分割分级不精确、流水线自动化程度低、分割质量差等问题,本文以去腿剥皮后的羊胴体为研究对象,探索研发了一种智能化分割装置,以实现对羊胴
培育高产优质作物是解决粮食短缺最有效的方法,农作物的表型特征如高度、叶角度、植被覆盖面积、生物总量等参数是检验作物是否高产优质的重要依据,也是培育高产优质作物的关键步骤。快速、灵活、稳定有效地获取作物不同生长时期的不同表型性状对于培育高产优质作物具有重要意义。目前田间作物表型性状的获取手段多种多样,但其或者费时费力、或者成本高、或者主观性较大。本课题设计研发了一种田间作物表型检测平台,可实现高灵活
亨廷顿蛋白结合蛋白1(huntingtin-associated protein1, HAP1)是最早发现的能与亨廷顿病(Huntington’s disease, HD)基因产物亨廷顿蛋白(huntingtin, Htt)相互结合的蛋白质。HAP1具有HAP1A和HAP1B两种剪接体,既在神经元中表达,也在分泌含氮激素激内分泌细胞中表达。在神经元内,HAP1参与细胞器和分子的运输、膜受体转运与再