论文部分内容阅读
不断进步的测序技术产生了大量RNA数据,然而,RNA不如DNA稳定这一理化特性,给实验研究带来了一定的困难,计算方法分析各类RNA的特征、结构、功能是现在生物信息学最重要的应用之一。miRNA是一类广泛存在于动植物中的内源性单链非编码RNA,是一类重要的非编码RNA反式调控因子,通过与靶标基因mRNA的3’UTR区域的特定位点结合,调控靶标基因的表达。niRNA广泛参与包括胚胎发育及发育时序、细胞增殖和分化细胞凋亡、激素分泌等重要的生理过程,因此miRNA的变异或者误调节会导致包括癌症在内的多种疾病的形成和发展。目前计算方法应用于miRNA研究主要集中在两个方面,一是解决基因组上的miRNA基因发现问题,二是解决己知miRNA基因的靶标基因搜索问题。目前解决第一个问题,主要是从miRNA前体茎环结构出发,在基因组上寻找具有特定茎环结构的miRNA,而miRNA前体茎环结构特点、miRNA上Drosha酶酶切位点是miRNA结构上的关键信息,并没有丰富的实验数据,也没有较好的计算研究方法;miRNA的功能信息是解决第二个问题关键,功能方面,miRNA的靶标预测假阳性率较高,建立在这一点上的miRNA与包括癌症在内的疾病关联分析并不准确。针对以上问题,本研究进行了如下工作:研制了基于支持向量机算法的miRNA前体茎环结构分类器,利用基于径向基内核的支持向量机,筛选茎环结构特征。所构建的miRNA前体茎环结构分类器,能够有效区分niRNA前体茎环结构与非miRNA前体茎环结构,马修斯相关系数达到0.882,感受性曲线下面积为0.964。在miRNA前体茎环结构分类器的基础上,开发了基于支持向量机算法的Drosha酶酶切位点分类器,以黑腹果蝇miRNA前体茎环结构上的5’端Drosha酶酶切位点为真样本数据集,5’臂上其他位点为假样本数据集,利用基于径向基内核的支持向量机,使用整合了化学动力学特征的特征集合。所构建的Drosha酶酶切位点分类器,能有效预测miRNA前体茎环结构上的Drosha酶酶切位点,相比之前的预测方法,由于整合了化学动力学特征,能准确的区分真实的Drosha酶酶切位点及邻近位点。Drosha酶酶切位点分类器与miRNA前体茎环结构分类器整合,构成基于两层支持向量机分类器的Drosha酶酶切位点从头预测方法,性能测试结果马修斯相关系数达到0.94,预测性能良好。本文针对目前基于miRNA靶标预测的miRNA与癌症关系挖掘准确率低的问题,采取文本挖掘的方法,对癌症关联miRNA进行了全面挖掘:搜索到MEDLINE数据库中986篇相关文献,收集了226个人类miRNA基因与20种人类常见癌症之间的关联1,018条,并将这些数据记录在数据库miCancerna中,供用户免费浏览。对miCancerna的测试显示,miCancerna的文本挖掘效果稳定可靠,与现有数据库和查询技术相比,能更全面客观的发掘文本信息。同时miCancerna能提供miRNA与癌症关联显著性评价和可视化的miRNA与癌症相互作用网络,为分析miRNA与癌症关联关系提供了重要参考。在采用文本挖掘算法挖掘出大量miRNA与癌症关联信息的基础上,采用随机漫步算法预测癌症相关miRNA,留一检验显示感受性曲线下面积为0.798,优于目前的疾病相关miRNA预测算法。300次随机实验结果显示随机漫步算法用于miCancerna建立的miRNA与癌症相互作用网络预测有效。采用本方法对20中癌症预测其潜在相关miRNA,20种癌症排名前5的潜在相关miRNA中,71条癌症相关miRNA在之后的实验及文献中得到证实。总体而言,基于计算方法的miRNA的结构及与癌症关联分析方面,填补了生物信息学应用于miRNA研究的一些研究空白,针对前人的研究作出了改进。