论文部分内容阅读
细胞是生物体基本的结构和功能单位,光学显微影像是对细胞进行分析的重要工具。近年来,随着光学成像技术的飞速发展,各类显微探测设备已经可以完成对细胞影像的高通量采集。面对海量影像数据,如何有效地对它们进行分析是当前研究的热点问题之一。机器学习作为基于数据驱动的智能分析方法,可以利用其对已有细胞影像数据构建模型来分析细胞的形态、功能及其内部成分的(例如:蛋白质)分布信息,进而发掘疾病机理,加深对生命数据的理解。显微影像处理一般包括影像预处理,影像模式分析以及临床分析三个步骤,本论文采用基于机器学习的智能分析方法,分别围绕这三个步骤中的神经元细胞分割、蛋白质亚细胞定位、早期癌症的预后分析这三个问题展开研究,具体研究内容及创新点如下:(1)本文提出了一种基于主动学习的神经元分割算法,即利用算法主动地从未标记影像数据中挑选出最具价值的超像素交由领域专家进行标注,从而显著降低了标注成本。具体而言,首先利用简单线性迭代聚类算法(Simple Linear Iterative Clustering,SLIC)将神经元细胞影像过分割为一定数量的超像素,接着提出一种新的查询策略从未标注的超像素候选集中挑选出最具代表性和信息量的超像素子集并对其所含像素点进行标注。最后根据这些被标注的像素点,利用基于图拉普拉斯正则化的高斯混合模型对神经元细胞影像进行分割。在2D以及3D神经元影像数据集上的实验结果表明,该方法在取得与state-of-the-art近似的神经元分割效果的同时,可减少40%的标注代价。(2)通过引入亚细胞器层次结构先验知识提出了一种基于纠错输出编码(Error Correcting Output Coding,ECOC)的蛋白质图像亚细胞定位方法。具体而言:首先,通过细胞内各亚细胞器的空间分布以及功能相似性来定义亚细胞器间的层次结构关系。接着依据该层次结构去构造ECOC编码矩阵,并据此将蛋白质亚细胞定位问题(多分类问题)转换为一系列二分类问题进行求解。最后,利用多核支持向量机算法去融合不同类型的影像特征以解决分解得到的各二分类问题。在Human Protein Atlas公开数据集上与state-of-the-art方法进行了比较,验证了提出方法的有效性。此外,针对多标记蛋白质图像亚细胞定位问题,提出了一种基于亚细胞器层次结构诱导的特征选择算法。该方法将不同亚细胞器的预测问题视为不同任务,并使用组稀疏化项以确保对不同任务都很重要的特征能够被联合选择出来。考虑到不同细胞器之间的内在联系,目标函数还引入了由先验的细胞器层次关系诱导出的拉普拉斯正则化项,进而可以获得更具判别性的特征。在Human Protein Atlas公开数据集上的实验结果表明,该方法在对多标记蛋白质图像进行预测时可以取得更高的分类精度。(3)提出有序稀疏典型相关分析算法同时从细胞影像和多模态基因数据中选择与癌症相关的特征,并利用这些特征对早期癌症进行预后分析。具体而言,该方法基于稀疏典型相关分析框架以确保能最大化选择到的影像特征与基因特征投影的相关性。此外,考虑到不同病人的存活时间是有序的,为了能在投影过程中保留该有序关系,同时引入了不等式约束使得存活时间长的患者组在投影后的均值要比存活时间短的患者组的均值大。在The Cancer Genome Atlas若干早期癌症数据集上的实验结果表明,提出方法能找到与癌症相关的细胞影像特征与多模态基因特征,进而可以对早期癌症患者进行更精准的预后分析。