论文部分内容阅读
“面对生物大数据,如何建立数学模型进行大数据的快速处理与有效分析,从而最大程度地发现隐藏在数据中的重要信息”是当今生物数学领域的重要研究课题。本文从生物序列出发,以序列的基本构成元素——字符(分别表示碱基或氨基酸)的间隔距离为切入点,利用统计方法和机器学习方法建立数学模型,并将其应用于生物序列的分析和必需基因的识别中。 一方面,借助已有的字符间隔距离序列,提出了新的碱基(氨基酸)间隔距离序列,它可以轻松地实现原始生物序列的重构而不需要任何其它辅助条件;在此基础上进一步提出了(有序的)精准间隔距离序列,抽取其五个基本统计量组成特征向量来表征原始生物序列;然后利用向量之间的欧氏距离计算生物序列之间的相似性程度;最后将该方法应用于三组实验:DNA组,即18种真哺乳亚纲哺乳动物,23物种的线粒体基因组和11物种外显子序列的相似性分析;非编码RNA组,即19物种的非编码RNA序列的相似性分析;蛋白质组,即9条ND5序列、20条FG序列和24种脊椎动物的转铁蛋白序列的相似性分析。通过MEGA,Phylip、Treeview软件得到各组实验的生物系统发生树与已知结论一致,表明文中所提方法是进行序列分析和比较的有效工具。 另一方面,鉴于必需基因的识别有助于对生命起源及进化的探索,并且可为药物靶点的设计、疾病的治疗以及合成生物学最小基因组的研究提供重要的基础,本文利用碱基间隔距离序列构造的特征向量,结合支持向量机方法,设置实验集和训练集,对5类细菌物种的必需基因和非必需基因的特征向量做10倍交叉验证,得到最优参数,计算AUC值(接受者操作特性曲线下面积)来评价模型的有效性。文中所得AUC值高于一些公认的已知结果,证实了文中所提方法是识别必需基因的可选择性工具。