论文部分内容阅读
蛋白质是生命的物质基础,也是生命活动的主要承担者。以正常人体组织为例,蛋白质必须在正确的时间到达正确的亚细胞位置行使其功能,才能确保完成一系列常规微观生命活动。因此,准确地预测蛋白质亚细胞位置对于揭示蛋白质功能有着极其重要的作用。早期,蛋白质亚细胞位置注释工作是基于传统的分子生物学实验的方法获取原始数据,然后通过人工肉眼检测来完成注释,这显然是一项既耗时又昂贵的工作。因此,近年来研究人员转而寻求一种更准确且具备可重复性的自动化注释方法来应对大数据时代下海量且持续增加的生物医学数据。 现有机器学习框架下的蛋白质亚细胞定位研究大多数是基于氨基酸序列模式分析的角度开展。然而,这类序列信息本身对于癌变所导致的蛋白质亚细胞位置转移并不敏感,这是由于癌变的产生源自目标序列以外发生的突变;很显然,这一弊端使得基于氨基酸序列的蛋白质亚细胞定位预测系统无法保证准确捕捉癌症状态下蛋白质位置的动态迁移。但是,对于癌症组织下的蛋白质亚细胞位置的转移或缺失情况的捕捉却更具有现实意义。最新的研究表明,在癌变的人类组织中,某些蛋白质的亚细胞位置会发生转移或缺失,使得该蛋白质无法与其相互作用的分子结合,影响整个分子生物网络,领域内把这类蛋白质称为癌症生物标记物。重点监控筛选出癌症生物标记物的亚细胞位置动态变化,一方面能有效提升组织癌变的预判准度,另一方面能够为分子靶向治疗及预后工作提供有价值的科学依据。 基于以上动机,对于蛋白质亚细胞定位预测研究从氨基酸序列数据源的研究很自然地转向更为直观的图像数据源,即:蛋白质图像亚细胞定位预测。近年来,高分辨率成像技术的飞速发展,使得在获取高分辨率的蛋白质生物图像信号更加容易,这有助于更直观地呈现蛋白质在正常和癌症人体组织下亚细胞位置的分布模式,同时也为后续数据驱动的自动化预测系统的构建提供了优质的数据源保证。基于图像数据的预测系统研究,不仅仅能够准确、有效地预测正常组织和癌症组织下蛋白质亚细胞位置,而且通过更加灵敏地捕捉癌症组织下蛋白质亚细胞位置的转移或缺失情况以筛选潜在癌症标记物,对临床诊断及制药工程也具有至关重要的意义。 本文基于先进的机器学习理论框架,从图像处理与分析的角度出发,挖掘生物图像的局部微模式,随着研究的深入,本文先后开发设计了多个面向单、多标记蛋白质图像数据的亚细胞位置自动化预测模型。此外,为突破传统监督学习的束缚,设计了增量式半监督学习框架下多标记蛋白质图像亚细胞预测模型。本文的主要研究工作和创新点如下: 1.基于局部特征融合的人类生殖组织蛋白质图像亚细胞定位预测 近年来,人类生殖肿瘤的发病率逐年增加,人们开始关心自身的生殖健康。在社会关注度与日俱增的同时,由数据驱动的人类生殖组织蛋白质亚细胞位置自动化预测系统也成为生殖医学以及生物信息学领域的研究热点。 然而,当下生物图像信息学领域,还没有专门针对人类生殖组织中蛋白质图像亚细胞定位预测系统的研究。因此,本文设计开发了一套面向 HPA库中人类生殖组织的蛋白质图像亚细胞预测模型。该模型首次将局部二值化模式算子(LBP)引入基于瑞典人类蛋白质图谱库(HPA)的蛋白质图像亚细胞定位预测系统研究,实验结果证实局部特征的引入有助于提升预测系统的整体性能;此外,该系统针对免疫组织化学染色图像(IHC)的特点,分别实验了基于线性谱分离(LIN)和非负矩阵分解(NMF)的蛋白质通道分离,多视角特征层融合和多分类器决策层融合等方式的大量实验仿真。 实验结果还表明,融合策略可以有效改善独立预测模型的预测结果,并且LIN与NMF分离方式对应的后续决策融合可以有效提升系统整体性能。该模型对于线粒体预测最为准确,单亚细胞器预测精度高达95.8%,对细胞骨架的预测精度达92%,7类亚细胞器的整体平均预测精度达到了85%,对应0.5置信度的预测精度更是高达99%。简言之,所设计开发的面向生殖蛋白质图像的亚细胞定位预测模型具备帮助验证生殖性蛋白质已有注释信息正确性的功能;同时,还可以辅助生物学家加快对生殖相关的未知蛋白质的注释工作,提前锁定目标蛋白质的候选亚细胞位置。 2.基于高性能局部特征算子的多标记蛋白质图像亚细胞定位预测模型 基于本文早期研究工作可知,局部LBP算子的引入有助于提升蛋白质图像亚细胞定位预测模型的整体性能。因此,有理由相信高性能的局部特征算子将更加有利于模型整体性能的提升。 基于以上研究动机,本文尝试将高性能局部特征算子对IHC图像进行局部微模式分析与挖掘,并面向大规模多标记数据集进行实验验证。在实验过程中,根据HPA库给出的染色质量及可靠性验证指标,经过严格筛选和综合性判别,首次整理了一个大规模多标记蛋白质 IHC图像基准数据集;其中多标记蛋白质占25.86%(90/348),该数据集已经被全球多个研究小组认可并使用;首次将图像处理邻域的局部四角模式算子(CLBP)和完备局部二值模式算子(LTrP)引入蛋白质图向亚细胞定位预测研究领域,并与传统LBP算子比较。 实验结果表明,CLBP和LTrP算子在描述IHC图像样本,尤其是多标记样本时,性能远高于 LBP算子;并且在后续分类精度层面得到了一致性的验证。此外,本文还首次在大规模数据集上验证了BR模型在蛋白质图像亚细胞定位预测领域的实用性,所提出的阈值策略和保证策略的结合客观有效地提升了预测精度。同时,在大规模上数据集还验证了特征层融合的互补性,实验结果表明CLBP算子与全局特征相结合不仅在SDA选择出的更具区分性的特征子集中获得了更高的比重,而且在单标记数据集和整个基准数据集的预测精度方面均为最高。 3.增量式半监督学习框架下多标记蛋白质图像亚细胞预测模型 尽管自动化预测模型具有较高预测精度和实验可重复性,但是领域内的相关研究工作大多是基于染色质量高的蛋白质IHC基准数据集。然而,在HPA数据库(Version11)中高质量的IHC图片仅占13%;而中等染色质量的IHC图片所占比例则高达31%。很显然,在机器学习和模式识别理论范畴下,提升样本多样性在一定程度上可以提升预测模型的整体性能,也即:中等染色质量 IHC图像理应是一个可供挑选的庞大数据源。但是,由于其染色质量的问题,在现有相关研究中始终无法判断这类 IHC图片是否适合参与模型训练,这是由于目前研究大多基于监督学习框架的原因,这被视为普遍存在的瓶颈问题。 基于以上研究动机,本文提出了一种增量式半监督学习的蛋白质图像亚细胞定位预测模型。在训练阶段采用了一种增量式半监督迭代策略,通过筛选条件的约束,不断地筛选出符合条件的样本更新训练集,并参与模型训练。在模型决策阶段,区别与早期工作的Top准则和阈值准则,本文提出了在动态阈值下的D准则来处理多标记样本,大量实验结果证实了 D准则的有效性。此外,在引入高性能局部特征CLBP算子时,模型预测精度实现了较大幅度的提升。实验结果在与已有半监督学习算法进行实验对比之后,所得结论为本章所提出的增量式半监督学习框架在整体性能方面性优于已有算法。此外,本章所提出的增量式半监督学习框架下多标记蛋白质图像亚细胞预测系统整体工作流程是一个开放式的框架,可以与生物图像信息学中的其他研究工作相结合,并且适用于大规模生物图像数据的分析和研究。 4.蛋白质图像亚细胞定位预测模型的应用 根据已开发的蛋白质图像亚细胞定位预测模型可以对癌症组织下的IHC样本图片进行测试,以获取对应的亚细胞位置信息。提出了基于最大似然决策法、多数投票决策法以及过半投票决策法来量化捕捉某种蛋白质在正常组织与癌症组织下的亚细胞位置信息差异性,最终实现生物标记物蛋白质的筛选。从预测模型现实应用层面来讲,已开发的蛋白质图像亚细胞定位预测模型不仅仅可以准确有效地预测出癌症组织下蛋白质的亚细胞位置,而且有助于帮助筛选由于亚细胞位置缺失导致疾病产生的靶点蛋白质,为人类疾病的治疗方式提供参考意见,为药物开发提供了必要的前期实验参考和辅助理论指导。