论文部分内容阅读
计算智能技术近年来在模式识别、人工智能、机器学习、知识发现、数据挖掘等许多领域得到了广泛应用。随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,计算智能开始在计算生物学和生物信息学中得到广泛的应用。本文主要在算法创新和计算智能技术在生物信息学上的实际应用两方面做了以下工作: 1.根据真核生物内含子在剪切位点前后存在保守碱基的特征,用支持向量机技术构建分类器模型,有效地在基因组序列中识别剪接位点,3′位点识别的准确度87.96%,在5′位点识别的准确度达85.41%。 2.为有效地分析水稻3′-UTR序列剪切位点上下游序列中的信息结构,提出了一个新的分析框架,即DNA序列的滑动窗口信息熵模型。通过计算碱基概率分布的信息熵,揭示了水稻3′-UTR序列的信息结构。 3.提出了基于支持向量机技术的滑动窗口机器学习模型。用该模型得出的结果证实了滑动窗口信息熵模型得出的结果的正确性。 4.把遗传算法和LVQ神经网络结合进行高维空间的特征选择,以解决两类别的样本分类问题,并利用白血病和大肠癌基因芯片数据进行了实例计算,分别达到了100%和91.27%的准确度。 5.把遗传算法和支持向量机技术结合,并采用滤波策略,用来进行高维空间的特征选择,以解决多类别样本的分类问题。对多类别癌症基因芯片表达谱数据(NCI 60数据和GCM数据)进行了计算,分别达到了86.55%和91.23%的分类准确度。