论文部分内容阅读
本文对基于机器学习方法的基因和蛋白预测进行了研究。
对真核基因剪接位点进行建模和预测,建立了供体位点和受体位点贝叶斯网络模型,并根据两种位点的生物学特性,对模型的拓扑结构和上下游节点的选择进行了优化。研究了蛋白质亚细胞定位的预测方法,并提出了一种名为LOCSVMPSI的真核蛋白质亚定位的预测方法。该方法基于支持向量机技术,并使用PSI-BLAST产生的profile中的位置特异性打分矩阵(position-specific scoringmatrix,PSSM)作为特征。使用支持向量回归技术对残基可溶性的真实值进行预测。对RS-126,Manesh-215和CB-513三个数据集进行了测试,通过比较不同的参数及窗宽模型来获得最佳结果,采用平均绝对误差、相关系数等参数来衡量预测效果,同时与多层反馈神经网络方法(RVP-Net)的实验结果比较,在3次交叉验证情况下三个数据集预测结果的平均绝对误差和相关系数参数均有提高。另外,该算法采用了多序列比对作为输入,效果比单序列有显著提高。