论文部分内容阅读
半监督学习已经成为机器学习的一个重要研究领域,其中基于图的半监督学习是最具前景的方向之一。这类算法的核心是图的构建问题,不同的构图方法,会对学习算法的性能产生重要影响;同时数据中的噪声以及离群值的存在也会严重影响算法的性能。本文针对这几方面的问题开展研究工作,结合稀疏表示理论、相关熵理论、子空间学习理论,提出了相应的鲁棒学习算法,并在典型的人脸识别数据集上验证了算法的有效性。最后将算法用到典型的生物统计识别问题,即微阵列肿瘤识别和蛋白质二级结构预测中,进一步验证算法有效性的同时,也为解决生物统计识别问题提供了新的半监督解决思路。论文的具体工作包括以下几个方面。(1)提出了一种基于非负稀疏概率图的鲁棒半监督标签传播算法并证明了算法收敛性,结合相关熵,通过将数据点表示为训练集中其它数据的非负线性组合完成图的构建。优点是通过有效削弱噪声对算法的影响,增强算法的鲁棒性。在多个机器学习数据集上进行的实验结果表明,算法可以获得较高的分类准确率,并具有较强的鲁棒性。(2)提出了一种基于高斯-拉普拉斯正则化的鲁棒半监督学习算法(Gaussian Laplacian Regularized Maximum Correntropy Criterion, GLR-MCC)并给出了收敛性证明,使用最大相关熵准则替换GLR的最小二乘准则,使得算法对噪声具有鲁棒性。算法首先计算图的权重,然后通过优化一个非线性目标函数计算未知样例的标签,在半二次优化技术基础上对目标函数进行贪婪迭代求解,逐步增加目标函数值直至收敛。在标准人脸识别数据集上的实验结果表明,GLR-MCC算法能有效提高学习算法对噪声的鲁棒性。(3)针对数据中离群值的处理,利用正切逼近和正切排列,提出了一种大间隔判别正切分析方法,在此基础上提出一种离群点检测算法。通过建立一个鲁棒的类间矩阵,从而学到一个健壮的子空间。在人脸识别数据集上的大量实验表明,所提方法能有效提高算法性能,实验也同时展示了算法在人脸识别中的实用性,尤其是在具有挑战意义数据集上的有效性。研究工作还展示了算法的阈值参数选择及其对算法性能的影响。(4)微阵列肿瘤识别和蛋白质二级结构预测是生物信息学中的两个典型问题,目前应用半监督算法的研究还很少。本文将所提出的非负稀疏表示的标签传播算法应用于白血病、结肠癌等微阵列肿瘤识别与蛋白质序列二级结构预测中,实验结果表明,即使在标记数据很少的情况下,算法仍然可以获得较满意的预测结果。与此同时,实验也展示了所提算法在生物统计识别中的实用性。