论文部分内容阅读
半监督学习已经成为目前机器学习和模式识别领域中的一个研究热点。机器学习通过分析部分实例数据来提取人们所需要的知识。现实中所获得的初始数据通常都是无标记数据,需要先对部分现实数据进行人工标记,再进一步训练学习机器,来获得剩余数据的标记信息。标记数据在学习中起着重要的指示作用,然而许多现实数据的表示结构常常十分复杂,获取标记数据需要借助专家的领域知识,将会耗费大量的人力和时间成本。在大规模数据中,标记样本的数量往往不足以建立一个具有良好推广能力的学习机器。获取大量无标记数据则相对较简单和成本较低,而且无标记数据对揭示数据样本的密度分布和提高学习机器的泛化能力也起着重要作用。半监督学习在学习过程中同时利用大量的无标记数据和有限的标记数据,从不完全标记数据集中估计标记函数或数据的密度分布,来提高学习机器的性能。半监督学习已经在文本信息处理、生物特征识别、生物信息学、自然语言处理以及医学图像分析等众多领域得到了广泛应用。图像分割是图像处理和计算机视觉领域的一个重要问题。医学图像分割是把医学图像划分为若干个互不相交的连通区域,使得医学图像在每个区域内都满足局部特征(如亮度、色彩、纹理、光流等)的连续性和相似性,从而提取出感兴趣区域,为医学图像的特征生成、识别、三维可视化和定量分析等提供分析基础。医学图像分割的主要目的是对人体组织图像进行符合解剖学和病理学意义的区域划分,提取出病变区域,为临床医生进行疾病诊断、治疗方案设计和治疗效果评价等提供参考。研究如何使用领域知识来指导对医学图像进行无监督分割和信息提取,对于提高医学图像分割算法的准确度与速度,并改善临床应用效果有着重要意义。聚类分析是数据挖掘和模式识别中的一个基本问题,其目的是根据样本的密度分布对数据集进行划分,进而提取出感兴趣的信息。传统的聚类分析是一种无监督学习,在聚类过程中并没有利用数据集的标记信息。半监督聚类利用少量标记样本的监督信息来辅助对大量无标记数据的划分。这些可利用的信息包括标记样本点的类别归属信息、距离或相似性信息,以及标记点之间的成对关联约束。医学辅助诊断和医学信息处理都属于典型的半监督学习过程,比如医生根据领域知识需要挑选出少量典型病历作为标记数据,来指导计算机对大量无标记数据进行处理。最近,如何将有限标记数据的类别先验和成对关联约束信息应用于医学图像分割中的问题得到了人们的关注。本文提出了一种改进退化的半监督模糊聚类算法,并应用于MR图像分割中。传统的半监督模糊C均值聚类算法(sFCM)在模糊C均值聚类(FCM)算法的目标函数中添加了一项代表标记样本聚类错误的成本项,通过调整此成本项在目标函数中所占比重,来实现利用标记样本控制对无标记样本的划分。由于标记的获取成本原因,在大多数实际数据集中,无标记样本点的数量远远超过标记样本点的数量。在这种微量标记数据集中,半监督FCM算法将会退化为经典的FCM算法,无标记样本点的隶属度迭代与FCM算法相同,无法有效利用标记样本点的监督信息。研究表明,在标记点稀少的情况下,半监督FCM算法仅在目标函数中设置监督成分比重,无法避免标记点的引导作用被忽略的结果,无法应用于大规模学习问题中。为了克服半监督FCM算法在标记点稀少时的退化问题,提出了一种改进退化的半监督模糊聚类算法(dsFCM),在迭代过程中调整监督成分的比重,通过在聚类中心迭代公式中设置标记样本点的权重,来调整监督信息对聚类中心的影响力,达到利用少量标记样本的监督信息,来辅助对大量无标记数据快速划分的目的。分别讨论了软假设和硬假设两种情况下的先验隶属度的选择方法。在软假设情况下,即预先不知道标记样本点的全部属别标记时,可以采用标记点的初始模糊隶属度来初始化先验隶属度。在硬假设情况下,即在预先知道标记点的全部属别标记的情况下,用一个布尔变量来初始化先验隶属度,此时就归结为一个种子聚类的问题。选择UCI(University of California Irvine)机器学习数据库中的莺尾花(Iris)数据集进行小样本数据聚类实验。实验结果表明:半监督FCM算法在聚类精度上较FCM算法有一定改善,但迭代次数和CPU计算时间也比FCM算法更大;而改进退化的半监督FCM算法无论在聚类精度还是运算速度上都比FCM算法和半监督FCM算法有较大提高,且受参数和标记点数量变化的影响要比半监督FCM算法更小。选择IBSR(Internet Brain Segmentation Repository)人脑MR图像分割数据库进行标记点稀少的实际数据集聚类实验。分别使用FCM, sFCM、dsFCM三种算法进行分割实验,并与专家分割结果进行了比较。其中对dsFCM算法分别进行了软假设和硬假设两种情况下的分割实验。分别用F测度、重叠率、分割精确率来定量评估图像分割的精度,用迭代次数和CPU运行时间来定量评估分割算法的运行速度。实验结果表明:在标记点稀少的情况下,半监督FCM算法退化为FCM算法,图像分割结果与FCM算法一致,没有利用到稀疏标记样本点的监督信息;改进退化的半监督FCM算法良好利用了稀疏标记点的监督信息,对脑白质、脑灰质、脑脊液等成分进行了更好的划分,具有更高的分割准确度和更快的分割速度,而且受噪声和参数的影响更低,具有更好的鲁棒性,能够在实际数据集上应用,实用价值更高。本文还在标记点稀疏的IBSR人脑MR图像分割数据库上,将改进退化的半监督FCM算法与Bensaid提出的部分监督FCM算法进行分割性能对比,实验结果表明:改进退化的FCM算法在保持较高分割精度的同时,具有更好的参数鲁棒性和更快的运算速度。此外本文还提出了半监督聚类中的软假设,证实了先验标记点在类别信息缺失的情况下仍对数据集的聚类具有一定的辅助监督作用。