论文部分内容阅读
个性化约物已成为医约钡域的友展趋势,本论又运用生物信息字的方法,预测细胞色素P450酶的多态性来探索个性化药物靶点蛋白,以及预测蛋白质-小分子的相互作用来探索靶点蛋白和药物的结合。细胞色素P450酶(CYP450)在代谢过程发挥重要的作用,很多内源性物质和外源性物质,包括90%以上的治疗性药物,都是由CYP450介导催化。CYP450基因的多态性会影响酶的功能,譬如完全缺失代谢和超快代谢。在药物代谢中,这些不同可能会导致严重的毒性或者某些药物治疗的失败。在细胞色素P450的多态性中,单核苷酸多态性(SNPs)是最常见的表现形式。有些研究基于DNA碱基组成开发了算法进行SNPs预测。由于他们所提取的信息有限,所以预测准确率仅仅徘徊在50%左右。本文针对这一研究现状提出了三种算法来预测SNPs。第一种是SCYPPred预测模型,它基于支持向量机和蛋白质两翼序列方法。SCYPPred可以通过输入单独的氨基酸序列信息迅速产生预测结果,其预测准确率为66.7%。在第二种预测模型中,我们提取了多个与SNP密切相关的特征,包括序列组成,已有SNPs和CpG岛的出现情况,整合了目标碱基和两翼DNA的重要信息。然后用整合的特征集来进行支持向量机分类训练,其预测准确率为75.56%。在第三种预测模型中,我们精心选取和构建了多种蛋白质序列的特征,其中包括序列组成,目标位点的属性和进化信息。更重要的是使用了一种基于模糊集理论的新方法来平衡了数据集。通过支持向量机训练和测试,此模型预测准确率达到了92.5%,极大地提高了预测性能。在药物研发过程中,蛋白质-小分子相互作用的识别和发现非常关键。计算方法能更好地处理大数据,因此能有效地发现未知的蛋白质和化合物之间的相互作用。在本文中,我们提出了一个新的统一空间称为蝴蝶结药学空间,并将贝叶斯累积回归树分类方法运用在此空间上,从而开发算法来预测蛋白质-小分子的相互作用。该算法具有极高准确率和覆盖范围。其中的蝴蝶结药学空间由三部分组成:蛋白质空间,化学空间和蛋白质-小分子相互作用空间。值得注意的是,在我们的预测中,我们扩大了数据的范围,使用了包括在STITCH数据库中所有小分子数据和人类所有的蛋白质数据。结果显示,我们的预测模型显示出了极好的预测能力,其准确率高达98.56%。与此同时,我们进行具体例子验证,寻找类驱动蛋白KIF11其潜在的配体小分子。在预测中,我们发现G7X是个新的可结合化合物,最新的实验数据和我们的1Docking模拟分析也验证了该预测结果。