SVM预报剪接位点新方法研究

来源 :同济大学 | 被引量 : 0次 | 上传用户:gaolch005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要承担者,一切生命活动都离不开蛋白质的参与,由蛋白质执行各种生物功能.生命活动是复杂的,这从一个侧面反映了执行各种生命活动的蛋白质的种类也是多种多样的.研究生物的生命活动必须研究蛋白质,而研究蛋白质又必须先了解指导合成蛋白质的DNA、RNA.而对剪接位点的研究又是研究DNA、RNA的基础,因为只有了解了剪接位点,才能知道RNA的编码区.由此可见对剪接位点的识别是一项非常重要和基础的工作.在人类基因组全图正式发表后,科学家十分关切一个更为复杂、更富有挑战意义、更有价值的任务——由这四个碱基构成的人类的DNA到底有什么有意义的信息?如何才能将这些复杂的信息全部注释出来?而这其中最为重要的莫过于标注出基因的位置,因为正是基因直接影响着丰富多彩的蛋白质世界.狭义的基因体注释的含义就是找出基因在DNA序列上的位置,并定义出exon和intron的界限.后者就是该文所要探索的问题.我们知道愈是高等的生物,基因体就愈是复杂.因此没有一种万无一失的方法能够百分之百地识别出基因.已有许多方法被应用到识别基因中,以统计预测为基础的运算方法(如SVM)是一种很多人采用的方法,它的主要特征利用基因以及exon-intron结构在DNA序列上已知的一些特征(如起始密码子、终止密码子、基因组DNA中的外显子、内含子和剪接位点的保守性),在DNA序列上直接预测基因的位置.在该文采用了基于统计学习理论的支持向量机(SVM)方法,同时加入了序列的统计信息.考虑到剪接位点附近存在的序列保守性,现有的一些基于统计特性的剪接位点的识别方法,利用单个碱基采用无特征的编码,预报给体位点GT的Sn为90.1%、Sn为94.1%,受体位点的Sn为90.4%、Sn为92.4%,效果仍有待改进.该文提出了一种全新的编码方法,即利用训练集中的真剪接位点的碱基统计表减去训练集中的假剪接位点的碱基统计表,得到的这张差表作为SVM输入的编码表.在统计真剪接位点和假剪接位点时发现真剪接位点和假剪接位点在统计上有很大的差别,而这种差别是单条序列上看不出来的,利用这些统计出来的数据作图可以看出在假剪接位点两边单个氨基酸碱基的分布符合一般的统计规律,分布平整,而在真剪接位点两边碱基的分布不符合一般的统计规律,分布不规则,当统计两个相邻碱基的分布作图时发现这种差别比单个碱基更大.该文利用这种差别,进一步提出了以两个相邻碱基的统计信息编码作为SVM的输入的预报方法,即先对训练集的真假剪接位点进行统计,得到一张编码表,然后分别对训练集和测试集编码,利用训练集对测试集进行预报.实验结果表明,这种有特征的编码方式大大提高了剪接位点识别的准确率,预报给体位点GT的Sn为94.2%、Sn为95.1%,受体位点的Sn为93.6%、Sn为96.1%.
其他文献
用于性能测试的选择性激光烧结件称为功能件,它需要具有一定的机械强度和尺寸精度.聚苯乙烯烧结件无法直接用作塑料功能件,主要因为其强度较低,尼龙粉末不能进行选择性激光烧
论文第一部分研究了阴离子表面活性剂缔合结构的流变性质.主要研究了阴离子表面活性剂十二烷基聚氧乙烯(3)硫酸钠(SDES)形成的聚集体的流变性质,包括阴离子蠕虫状胶束的形成、不
亲和膜色谱是生物分子分离技术中一门新兴的技术.它将传统的亲和膜色谱技术和膜分离技术结合起来,具有不但纯化倍数高,特异性好的特点,而且其分离速度快,操作压低,在生物大分
“英语课程标准”提出:全面向全体学生的全面发展制定多样化教学策略,能在激活学生学习主动性和积极性基础上,帮助他们更好增强认知感悟,促进语言知识技能内化生成。差异化教学策略的运用,能在发挥因材施教作用基础上,帮助学生调整学习思维策略,指导他们根据课程学习内容进行主动学习和积极探究,促进知识技能内化生成发展。  一、设计差异化学习目标,引导学生灵活选择  依据学生的学习认知能力、实践运用能力等不同,设
早老性痴呆即阿尔茨海默病(Alzheimers Disease,简称AD)是与记忆减退和认知功能障碍相关的老年性疾病.根据乙酰胆碱(ACh)缺损理论发展起来的乙酰胆碱酯酶(AChE)抑制剂是治疗A
多酚氧化酶是从真菌到哺乳动物广泛存在的一类铜蛋白,它们的共同特征是能通过分子氧氧化多酚到醌.烟草中的多酚氧化酶在烟草的烘烤过程中起相当大的作用,它可使多酚类物质氧
芳香二胺是应用极为广泛的制备聚酰亚胺和聚酰胺的重要单体,其合成通常是对芳香二硝基化合物进行还原。芳香二硝基化合物作为芳香二胺的前体,是一种重要的高分子合成中间体。芳香二硝基苯醚如1,3-二(4-硝基苯氧基)苯、4,4-氧代二(硝基苯)、1,3-二(3-硝基苯氧基)苯等含有苯基的二硝基苯醚化合物的溶解性均较差,这使其纯化及应用受到限制。目前,尚未有文献报道溶解性能较好的芳香二硝基化合物。本学位论文以
学位
氮杂环羧酸配体因其N,O元素较强的配位能力和配位方式的多样性,为构筑新颖,功能优异的配合物提供了可能。特别是其构筑成的带有孔洞的MOFs材料,在诸如光学传感,染料吸附,工业催化,分
学位
该论文是以二维全反射衰减红外法研究溶剂在环氧固化体系及环氧和聚醚酰亚胺共混体系中的扩散行为,并详细讨论了扩散的影响因素.包括以下几个方面的工作:1.采用酚醛树脂和乙