生物序列分析中若干问题的研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户：lx19880614

【摘要】

：

随着生物学中高通量的实验方法,如基因测序、DNA芯片等的使用,产生了海量的数据。如何有效地理解并利用这些数据,阐明数据当中所蕴含的生物学意义是生物信息学的主要目的。生

【作者】

：

杨凡

【出处】

：

电子科技大学

【发表日期】

：

2011年01期

【关键词】

：

相似度度量序列聚类仿射传播多重序列比对 Kalign

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着生物学中高通量的实验方法,如基因测序、DNA芯片等的使用,产生了海量的数据。如何有效地理解并利用这些数据,阐明数据当中所蕴含的生物学意义是生物信息学的主要目的。生物信息学的一个重要研究领域是对生物序列进行比对和聚类。本文就多重序列比对和蛋白质聚类方面进行了深入的探讨和研究,主要的研究内容和结果如下:1.综合研究并分析了近年来多重序列比对方法存在的问题及改进情况。多重序列比对是生物信息学的基本理论与方法之一,对结构建模,功能位点预测,进化树分析等方面起着非常关键的作用。本文综述了近年来的一些比对方法上的改进,如使用快速的方法计算序列的相似度,运用迭代优化策略和序列一致性信息等,并阐述了综合序列的结构信息和同源序列进行比对的方法。最后综述了一些对于比对质量的评估的方法和测试数据集以及比对速度的问题。2.提出了一种改进Kalign比对质量的算法。Kalign算法是一种常见的多重序列比对算法,然而由于对序列的距离估计不准导致比对的质量不高。本文提出了一种改进Kalign比对质量的算法,根据Kalign最初比对的结果,计算出新的两两序列之间的距离,然后使用UPGMA(Unweighted Pair Group Method Average,不加权成对分组平均)方法构建向导树,再进行渐进比对,产生新的比对结果。重复这一过程,直到比对的SP得分不再改变或者达到一定迭代次数为止。本文用BAliBASE 3.0对改进后的Kalign算法进行了测试,结果显示该算法较好地改进了Kalign的比对质量。3.提出了一种快速多重序列比对算法。本文使用了一种类似BLAST的算法来快速地估计序列之间的距离,并且为了能够比对大量的序列,采用了节省空间的动态规划算法来比对序列,使用ROSE程序生成的具有不同序列长度和数量的测试集。本文提出的算法在运行时间、比对质量和内存的使用上和其他常用的程序相比,算法在速度上是最快的程序之一,在比对分化大的序列时质量最好,而且使用的内存相对较少。4.提出了一种新的计算蛋白质序列相似度的算法。该算法基于相似子序列和序列的L-tuple频率,充分考虑了两个序列之间的相似子序列和非相似子序列之间的相似度,使用新近提出的一种聚类算法—仿射传播聚类(Affinity Propagation,AP),对蛋白质序列进行聚类,并在COG、G-protein、CAZy和SCOP四个数据集上进行了测试。结果表明新的相似度度量方法能够更好地描述蛋白质序列之间的相似度,特别是对那些很难比对的序列。5.分析了使用AP算法聚类随机产生的数据集时出现的性能上的问题,并发现AP算法不能通过调整其参数preference来得到更合理的结果的问题。为了解决这个问题,本文提出了一种对AP算法的结果进行后处理的算法。这种算法使用输入相似度的中值作为preference,利用简单合并和重分配算法对聚类的结果进行重新聚类。本文将改进的算法和原始的AP算法及其他几个常用的算法在COG、SCOP和G-protein数据集上进行了比较,结果表明:在比对质量上,改进的算法比原始的AP算法提高很多,比其他的常用算法也有所提高。

其他文献

泡桐修枝促接干技术及其效应的研究

本论文以建立泡桐修枝促接干技术、揭示其动态生长效应和机理为目标,对2～4年生豫林一号泡桐采用不同修枝强度的修枝促接干处理,在连续八年测定其干、枝、叶各生长指标的基础上

学位

泡桐修枝促接干技术生长动态光合特性水分利用效率

全球大学评价指标体系的国际比较

学界比较公认的四类全球大学排名指标体系夸克奎瑞利西蒙兹(QS)世界大学排名、《泰晤士报高等教育》世界大学排名、《美国新闻与世界报道》全球最佳大学排名与软科世界大学学

期刊

大学排名指标权重分配“双一流”建设

被误读的微信营销

<正>褚橙也好、雕爷牛腩也好、江小白也好,都不足以成为"知名大品牌",圈子营销所能做到的仅是常规渠道的补充,但对于品牌的普世价值而言,是很难撬动的。这是个极速世界,因为

期刊

微信营销雕爷牛腩圈子营销江小白

车辆弯道防抱制动系统仿真分析研究

考虑到车辆弯道制动时车轮垂直栽荷的变化影响，建立了8自由度的汽车弯道行驶整车仿真模型。采用模糊控制理论，对车速与轮速的变化、车轮栽荷转移的变化以及制动器制动力矩的变

期刊

整车模型制动防抱系统仿真模糊控制Entire vehicle model Anti-lock braking system Simulation Fuz

教师成长的秘笈——读《从新手到研究型教师》

<正>刚走向教学岗位的青年教师,如何才能尽快地成长起来?面对教学科研的多种压力,如何才能做到游刃有余?做了一段时间的教师工作,如何避免职业倦怠?……读了刘波老师的《从新

期刊

研究型教师专业成长教师成长《从新手到研究型教师》职业倦怠

乙醇、乙二醇二甲醚与柴油混合燃料排放特性研究

提出了将乙二醇二甲醚作为乙醇柴油燃料的一种组成成分，利用乙二醇二甲醚好的发火性来改善乙醇柴油燃料差的发火性。试验表明乙二醇二甲醚与乙醇、柴油互溶，具有较好的稳定性。

期刊

柴油机乙醇乙二醇二甲醚十六烷值排放Diesel engine Ethanol Ethylene glycol dimethyl ether Ceta

氟吗啉原药大鼠慢性毒性与致癌试验

期刊

氟吗啉原药慢性毒性与致癌合并试验SD大鼠最大无作用剂量

非融资性担保:限期清理

相较107号文(网传国务院办公厅《关于加强影子银行监管有关问题的通知》)引爆影子银行监管的欲说还休，1月6日，银监会、发改委等八部委率先鸣响清理整顿非融资性担保“第一枪”

报纸

电控空气悬架试验系统设计及试验研究

根据空气弹簧悬架试验的具体要求和实际条件，利用德国SHENCK公司生产的电液伺服激振系统，设计了1／4车辆模型空气弹簧悬架试验系统和相应的测控系统，该系统可以进行空气弹簧悬架的

期刊

空气悬架试验系统空气弹簧模糊神经控制Air spring suspension Test system Air spring Fuzzy neural

SDCORS在地矿勘测中的应用探究

地矿勘测作为矿山工程施工设计的先决条件，对科学分析场地工程地质参数具有重要意义。本文拟在阐述传统全站仪、GPS—RTK测绘原理的基础上，剖析其作业半径受限、误差累积传递的

期刊

电力线路测绘GSCORS精度对比

生物序列分析中若干问题的研究

其他学术论文