论文部分内容阅读
基因表型相似性和基因功能的多个方面密切相关,例如基因表型相似性和蛋白质互作是相关联的。基因发生缺失或变异对其表型的影响亦是基因注释的一部分,目前,对该领域的研究日益受到广泛的关注。然而,基于人类表型本体论(Human Phenotype Ontology,HPO)数据研究基因表型相似性的方法并不多见。因此,研究和开发行之有效的算法很有必要。本课题利用来自人类表型本体论数据库中等级结构数据和基于语义相似性的五种测度(Jiang and Conrath’s,Lin’s,Schlicker’s,Yu’s和Wu’s)计算人类基因间表型相似性。此外,本文还提出新的结合余弦和基因注释水平计算基因间表型相似性的方法。并分别利用蛋白质-蛋白质互作、蛋白质复合物、蛋白质家族、基因功能和DNA序列等信息来评估这些算法的正确率和性能。对每种方法都做了1000次随机,并与实际计算结果进行了比较。结果表明,这些方法计算得到的结果与随机比有显著差异(P<0.001)。此外,本文还用receiver operating characteristic (ROC)曲线分析方法对这六种方法的性能进行了评价。研究表明,六种方法的性能大部分优于先前的文本挖掘方法。本课题证实了基于语义相似性测度和等级结构数据及结合余弦与基因注释水平都能有效的计算基因间表型相似性。本课题的结论为研究、开发和优化计算基因表型相似性算法提供了更多更有意义的帮助,并为从事该领域的研究人员提供了更多可选择的计算工具。