【摘 要】
:
DNA序列中储存着大量复杂且有价值的生物信息,其中DNA序列的相似性分析可以发现生物之间的进化关系,从而更好地处理生物信息;DNA序列的模式匹配可以统计基因片段出现的位置和数目,有利于对致病基因进行状态跟踪和靶向治疗。但是大多数序列相似性分析和模式匹配方法都针对整个序列而不是频繁序列模式,这就加大了计算的复杂度;并且目前的研究方法均忽略了含缺失碱基的基因片段,即对于负序列模式,还没有统一的分析方法
论文部分内容阅读
DNA序列中储存着大量复杂且有价值的生物信息,其中DNA序列的相似性分析可以发现生物之间的进化关系,从而更好地处理生物信息;DNA序列的模式匹配可以统计基因片段出现的位置和数目,有利于对致病基因进行状态跟踪和靶向治疗。但是大多数序列相似性分析和模式匹配方法都针对整个序列而不是频繁序列模式,这就加大了计算的复杂度;并且目前的研究方法均忽略了含缺失碱基的基因片段,即对于负序列模式,还没有统一的分析方法,这极大地影响了分析生物信息的准确性和效率。针对现有的分析方法效率较低,得到的DNA序列的进化关系和匹配路径数目较少的问题,本文对其包含的关键问题进行了研究,分别提出两种解决策略,具体如下:针对生物序列相似性分析中存在的问题,提出了一种“基于正、负DNA序列模式的相似性分析”的方法。首先,对整个DNA数据使用f-NSP算法进行模式挖掘,得到物种的最大正、负频繁序列模式。然后,提出一种在二维平面上表示正、负序列的图形表示方法,这种方法可以很好的表示正、负序列模式并通过公式把它转化为时间序列。最后,使用基于DTW距离测量来对DNA序列进行相似性分析,并把结果绘制成系统发育树。通过在真实生物数据上的实验表明,所提的方法可以获得丰富的物种进化关系,分析结果也更符合物种实际的进化关系,并且精确度得到了提高。针对生物序列模式匹配中存在的问题,提出了一种“带一般间隙和One-off约束的正、负DNA序列模式匹配”的方法。首先,将挖掘出的频繁序列模式作为匹配过程中的模式P,这使得模式匹配更有实际意义。然后,提出两种重复元素检测机制,该机制可以有效的剪枝掉不符合One-off约束的匹配路径,并精确地匹配到所有信息和消除冗余。通过对10个真实物种的DNA序列进行实验,表明该算法可以有效地处理负序列模式并获得更多的匹配路径,同时运行效率也得到了提高。
其他文献
超级电容器(supercapacitors,SCs)因其高的功率密度,长的循环稳定性以及安全环保等特点被认为是一种理想的能源存储器件,电极材料作为影响其性能的关键组件也受到了越来越多的研究。在众多的电极材料中,生物质基材料由于储量丰富,良好的可再生性以及廉价的成本受到了研究者越来越多的关注。必须承认的是,传统的生物质基材料活化工艺虽然能够有效提高其比表面积,但碳化后的产物往往介孔结构匮乏且产率较低
本课题以水飞蓟宾为模型药物,研究固化途径与工艺对水飞蓟宾纳米结晶的影响,探讨纳米结晶制剂技术与分散片剂型有序衔接的可行性。首先,通过纳米结晶技术,制备水飞蓟宾纳米结晶,以增加溶解度和溶出速率;其次,为进一步增加水飞蓟宾纳米结晶的稳定性和便于后继剂型的选择,系统研究了喷雾干燥固化和真空冷冻干燥固化对纳米结晶形态、晶型、溶解性、稳定性等的影响,并优化固化工艺,筛选赋形剂,最大限度保留纳米结晶高溶解度和
本论文主要以ZnO光催化材料为基础,然后与其他半导体、金属或碳材料形成复合材料。通过引入不同类型的材料来改善氧化锌的性能,增加氧化锌的应用。第一章,首先介绍了半导体光催化技术的研究意义,其次详细探讨了半导体光催化的应用,然后是ZnO的基本性质及需要改善的问题,最后提出了以ZnO为基体与其他材料复合形成各种异质结增强光催化性能的方法。第二章,制备了ZnO@ZnS异质结。ZnO纳米棒组成的花通过一步水
近年来,聚合物材料成为了人类生活中难以取代的重要组成部分。同时,聚合物材料难以降解,对环境造成了巨大的污染,因此,研发可降解聚合物材料是十分重要的。基于手性氨基酸合成的聚酯酰亚胺(PEI)是一种良好的聚合物材料,它有着良好的热性能和机械性能,氨基酸的引入使它拥有了优异的溶解性和生物降解性。本文的主要任务是通过改变引入氨基酸的结构和构型来探究PEI热性能和降解性能以及影响它们的因素。本文的主要工作分
随着光电子器件的逐步成熟和工程需求的持续推动,新一代的以分布反馈式光纤激光器(Distributed feedback-fiber laser,DFB-FL)作为传感元件的光纤传感器应运而生,近年来,因其具有抗电磁干扰、体积小、线宽窄、功率高、灵敏度高等特性成为了光纤传感领域的重要研究方向。采用DFB-FL进行声传感,可以实现较宽频带范围内空气声信号的探测,具有传输距离远、灵敏度高、隐蔽性好、环境
心房颤动(Atrial Fibrillation,AF)在临床上表现为颤动或不规则的心跳(心律失常),是许多心脏异常的诱发因素之一,具有高致残率和高死亡率。因此,心房颤动的精准识别具有重要意义。目前所使用的房颤检测方法主要为基于波形特征和深度神经网络的检测方法。基于波形特征的方法存在手工提取困难,P波不易检测等问题,使得房颤检测准确率一般、效率低下。基于深度神经网络的方法与深度神经网络的层数之间具
由于实际系统大多数是非线性的,如何处理非线性系统一直是研究的热点。随着模糊理论的发展,模糊控制理论用来处理非线性系统受到诸多研究人员的青睐,如T-S模糊模型能于任意精度逼近一个光滑且有界的非线性函数,将非线性系统描述为一组局部线性模型的凸组合。对于模糊系统的控制综合已进行深入研究并取得重要成果,如控制器设计、H_∞控制等,大多集中于状态反馈,然而实际系统中一些状态很难被测量或者测量的成本很高,因此
本文针对如何更好的建模上下文进行了研究。在上下文的建模和利用中存在着一些问题,本文针对低质量上下文、模糊上下文和缺失上下文三个方面进行了提高上下文质量、模糊本体建模和补全缺失上下文的研究。然后分别将它们应用在了光伏发电预测、文献摘要、文献检索的领域。研究内容如下:研究内容1:对于低质量上下文,本文提出了一种新的方法来建立了高质量本体模型,该本体模型可提高上下文质量。该本体先将上下文按照其来源的不同
心血管病已经成为威胁人类生命健康的主要疾病之一。临床上,心血管病经常伴有心律失常现象发生。有些心律失常可能导致心脏病的症状,包括头晕、昏倒和呼吸急促,还有些类型的心律失常,如房颤和心室颤动,可能会引起中风和心脏骤停,因此及时准确检测心律失常是紧急且必要的。心电信号(ECG)作为一种表征心脏状况的生理信号,对心律失常的检测和诊断具有重要意义。但由于医学数据的特殊性,其标注成本高,许多数据标注的不完全
随着互联网的迅速普及,如何有效地组织、利用以及挖掘数据背后隐含的知识成为一种新的挑战。知识图谱描述了客观世界所存在的实体及语义关联等,并以图结构直观地呈现,为用户提供了结构化的知识,逐渐获得了学术界和工业界的普遍关注,因此如何构建一个知识图谱成为学者们研究的热点。同时多源异构的知识之间往往会存在重复、语义歧义多样、质量参差不齐等问题,要想构建一个高质量的知识图谱,知识融合是不可或缺的关键环节。实体