论文部分内容阅读
识别生物网络中的疾病模块已经引起很大关注,因为准确的预测疾病模块有助于理解复杂疾病的发病机理并促进疾病诊断和治疗。当前,研究人类蛋白质之间的相互作用关系逐渐成为揭示复杂疾病背后作用机理最为有效的方法之一,但现有的蛋白质相互作用关系仍存在着大量缺失以及错误。于是许多疾病模块挖掘算法都尝试使用其他一些生物学或拓扑学数据来调整蛋白质网络以进行疾病模块挖掘,但这些方法都没有同时考虑到蛋白质网络中相互作用缺失和错误的问题。因此,本文通过有效的结合多种生物数据资源,从而可以更加准确的识别疾病模块。本文的主要研究工作如下:(1)本章提出了基于拓扑和语义相似性在蛋白质网络上挖掘疾病模块算法(IDMCSS)。首先,利用候选蛋白质与疾病蛋白质之间的拓扑相似性和语义相似性增加和删除一些可能缺失和错误的蛋白质相互作用关系,对现有蛋白质网络结构进行调整。然后,在调整过后的蛋白质网络上扩充拓扑相似性和语义相似性之和最大的候选蛋白质,直到扩充的候选蛋白质集合不再显著富集生物信息为止。蛋白质网络调整策略贯穿整个算法,每次扩充候选疾病蛋白质之前都要利用候选蛋白质与疾病蛋白质之间的拓扑相似性和语义相似性对网络局部结构进行调整,使得本文提出算法在存在大量假阳性和假阴性数据的蛋白质网络上能够搜索到理想的疾病模块。在实验部分,将本文提出的IDMCSS与其他多种算法在哮喘疾病数据集上进行了比较和分析,在哮喘数据集上的实验结果证明了IDMCSS算法的有效性。(2)本章提出了基于拓扑、语义以及表型相似性在双层网络上挖掘疾病模块算法(IDMCSPS)。本文在工作IDMCSS的基础上,利用构建的蛋白质-表型网络代替蛋白质相互作用网络,有效的使用蛋白质相互作用、表型相似性以及蛋白质表型关联数据挖掘疾病模块。首先,构建蛋白质-表型双层网络。然后,利用协同过滤方法增加蛋白质-表型关系,同时利用拓扑相似性和语义相似性对现有蛋白质网络结构进行调整。最后,在调整过后的双层网络上计算候选蛋白质与疾病蛋白质之间的拓扑相似性和语义相似性以及候选蛋白质与所研究疾病相似的疾病之间的表型相似性,扩充拓扑、语义以及表型相似性之和最大的候选蛋白质,直到扩充的候选蛋白质集合不再显著富集生物信息为止。双层网络调整策略贯穿整个算法,每次扩充候选疾病蛋白质之前对双层网络进行调整。在实验部分,将算法IDMCSPS与多种疾病模块挖掘算法在哮喘疾病数据集上进行了比较和分析。实验结果表明IDMCSPS算法挖掘得到的疾病模块中显著富集哮喘生物信息,并且与IDMCSS算法挖掘的疾病模块相比,有更多离散的已知疾病蛋白质被扩充到疾病模块当中,因为现有蛋白质网络中存在大量相互作用关系的错误和缺失,导致一些疾病蛋白质的拓扑相似性比较低,而随着表型相似性数据的融入,提高了这部分疾病蛋白质的排名。