论文部分内容阅读
近年来,机器学习理论和应用正以惊人的速度发展并改善着人们的生活,目前机器学习算法已经广泛应用于民生、医疗、安防以及国防等领域,例如基于人脸识别的门禁和安防系统、基于指纹识别的支付系统、图像检索以及谷歌在研的无人驾驶汽车等等。随着计算机硬件、网络以及相关数据采集设备的快速发展,给人们获取丰富的数据资源带来了极大的便利,大量的数据含有丰富的信息,原则上应有助于机器学习学习到更合理的模型,但是丰富的数据也带来了数据复杂性的提高、信息过量和数据冗余等问题,甚至部分数据由于不规范的采集方式或恶劣的采集环境会出现大量的噪声,这些数据尽管信息丰富但知识匮乏,直接对其进行分析不仅效率低下,而且由于冗余特征和噪声数据的存在而难以学习到一个鲁棒的模型。如何针对不同的任务,从中提取出最有价值的信息进行分析成为了机器学习和模式识别领域的重点和难点。
从数据中抽取有用信息的过程我们称之为特征抽取,一种有效的特征抽取方法不仅能够极大地降低数据的维数从而提高算法效率,而且有助于针对不同的任务学习到更鲁棒的模型从而提高模型的泛化能力,因此特征抽取算法的研究具有重要的意义。目前,基于图约束的模型广泛应用在数据的模式抽取与分析中,但是,由于处理数据可能来自于单视角或者多视角,因此数据的复杂性给数据分析带来了新的挑战。尽管这些方法在数据分析上取得了不错的效果,但是他们都含有一些明显的缺点:(1)大部分降维方法仅仅使用单一的投影矩阵将高维数据映射到低维子空间中,投影需要在保留数据重要特征和内部结构的同时去学习低维子空间,这样单一投影矩阵在处理数据时压力过大,可能会影响到降维的准确度和原始数据全局或局部结构的保持;(2)大多数方法把数据的图学习和模式抽取分开在两个不同的步骤,即先利用数据的局部几何结构信息构建图,然后再进行投影学习以抽取有效的数据模式,但是如此两个分开的步骤难以保证构建的图适合数据的模式抽取,因此很难保证算法的整体最优。(3)大多数方法仅仅考虑单视角图学习,随着数据的规模和种类的增加,构建的图也会多种多样,目前的方法很少利用多图学习来构建一个正确的图,进而准确地刻画数据的结构,进而进行有效的数据分析。(4)大多数方法在数据分析的过程中没有消除数据噪声的影响,因此模型的鲁棒性较差。
本论文以基于图约束的模型作为学习对象,利用图嵌入技术,围绕上述的缺陷,提出一系列新的模型,来提高基于图约束模型的学习效率和鲁棒性,同时拓展单视角图嵌入技术到多视角环境下,进一步提出多视角图嵌入技术,以进一步扩大处理数据的范围。具体来说,有以下一些方法:
首先,本文提出了一个自适应局部保持的鲁棒鉴别分析框架,该框架同时进行图的学习和数据特征抽取,因此可以保证算法整体的最优。具体地说,该框架具有以下优势:首先,该框架利用一个稀疏的矩阵拟合数据的噪声信息,进而提高模型的鲁棒性;其次,该框架通过使用数据的局部结构信息和标签信息来指导投影学习,同时自适应地学习一个局部结构图来约束模型,以回避过拟合;最后,该框架学习另外一个投影矩阵来保持数据的鉴别信息。除此之外,该方法通过对投影矩阵施加L2,1范数约束,使得该模型在特征抽取过程中可以自适应地选择最重要的特征。大量的实验表明该方法可以抽取更加鉴别的特征,可以有效提高分类准确率。
然后,本文提出了一种新的无监督降维方法,即松弛的稀疏局部保持投影方法。该方法不再使用单一投影矩阵,而是使用两个投影矩阵来减轻单一矩阵处理数据时所承担的压力,使得这两个矩阵具有更大的自由度,能够更好的保持投影数据的稀疏性和局部结构,减少降维过程中样本的信息丢失。通过施加稀疏表示来学习两个投影矩阵的相似矩阵,将局部结构以线性方式保留下来。因此,这两个投影矩阵应该具有相似结构,即数据的局部流形结构。为了解决算法优化问题,我们还提出了一种有效的快速收敛的迭代算法。在六个数据集上的实验结果证明了该方法的有效性。
最后,本文提出了一个新颖的基于差异性提升的多视角图学习方法,进一步拓展单视角图学习到多视角图学习,并应用于半监督学习。具体来说,该方法对每一个视角数据构建一个图,并且利用自适应权重线性逼近技术使得每一个视角图可以自适应地逼近最终的统一的图,使得最终学习到的图不偏离每一个视角图。该方法同时把图学习并入到数据标签传递的模型中,进而构建一个联合多视角图学习和标签传递的广义框架。为有效减少信息的冗余,该框架进一步考虑每一个视角图的差异性,通过自适应权重系数来有效区分相似的视角图,并为差异性较大的视角图赋予更大的权重,从而保证最终学习到的图可以准确地刻画数据的内在几何结构。大量的实验表明,该方法不仅可以学习一个准确的图,而且能够准确地传递数据的标签。
从数据中抽取有用信息的过程我们称之为特征抽取,一种有效的特征抽取方法不仅能够极大地降低数据的维数从而提高算法效率,而且有助于针对不同的任务学习到更鲁棒的模型从而提高模型的泛化能力,因此特征抽取算法的研究具有重要的意义。目前,基于图约束的模型广泛应用在数据的模式抽取与分析中,但是,由于处理数据可能来自于单视角或者多视角,因此数据的复杂性给数据分析带来了新的挑战。尽管这些方法在数据分析上取得了不错的效果,但是他们都含有一些明显的缺点:(1)大部分降维方法仅仅使用单一的投影矩阵将高维数据映射到低维子空间中,投影需要在保留数据重要特征和内部结构的同时去学习低维子空间,这样单一投影矩阵在处理数据时压力过大,可能会影响到降维的准确度和原始数据全局或局部结构的保持;(2)大多数方法把数据的图学习和模式抽取分开在两个不同的步骤,即先利用数据的局部几何结构信息构建图,然后再进行投影学习以抽取有效的数据模式,但是如此两个分开的步骤难以保证构建的图适合数据的模式抽取,因此很难保证算法的整体最优。(3)大多数方法仅仅考虑单视角图学习,随着数据的规模和种类的增加,构建的图也会多种多样,目前的方法很少利用多图学习来构建一个正确的图,进而准确地刻画数据的结构,进而进行有效的数据分析。(4)大多数方法在数据分析的过程中没有消除数据噪声的影响,因此模型的鲁棒性较差。
本论文以基于图约束的模型作为学习对象,利用图嵌入技术,围绕上述的缺陷,提出一系列新的模型,来提高基于图约束模型的学习效率和鲁棒性,同时拓展单视角图嵌入技术到多视角环境下,进一步提出多视角图嵌入技术,以进一步扩大处理数据的范围。具体来说,有以下一些方法:
首先,本文提出了一个自适应局部保持的鲁棒鉴别分析框架,该框架同时进行图的学习和数据特征抽取,因此可以保证算法整体的最优。具体地说,该框架具有以下优势:首先,该框架利用一个稀疏的矩阵拟合数据的噪声信息,进而提高模型的鲁棒性;其次,该框架通过使用数据的局部结构信息和标签信息来指导投影学习,同时自适应地学习一个局部结构图来约束模型,以回避过拟合;最后,该框架学习另外一个投影矩阵来保持数据的鉴别信息。除此之外,该方法通过对投影矩阵施加L2,1范数约束,使得该模型在特征抽取过程中可以自适应地选择最重要的特征。大量的实验表明该方法可以抽取更加鉴别的特征,可以有效提高分类准确率。
然后,本文提出了一种新的无监督降维方法,即松弛的稀疏局部保持投影方法。该方法不再使用单一投影矩阵,而是使用两个投影矩阵来减轻单一矩阵处理数据时所承担的压力,使得这两个矩阵具有更大的自由度,能够更好的保持投影数据的稀疏性和局部结构,减少降维过程中样本的信息丢失。通过施加稀疏表示来学习两个投影矩阵的相似矩阵,将局部结构以线性方式保留下来。因此,这两个投影矩阵应该具有相似结构,即数据的局部流形结构。为了解决算法优化问题,我们还提出了一种有效的快速收敛的迭代算法。在六个数据集上的实验结果证明了该方法的有效性。
最后,本文提出了一个新颖的基于差异性提升的多视角图学习方法,进一步拓展单视角图学习到多视角图学习,并应用于半监督学习。具体来说,该方法对每一个视角数据构建一个图,并且利用自适应权重线性逼近技术使得每一个视角图可以自适应地逼近最终的统一的图,使得最终学习到的图不偏离每一个视角图。该方法同时把图学习并入到数据标签传递的模型中,进而构建一个联合多视角图学习和标签传递的广义框架。为有效减少信息的冗余,该框架进一步考虑每一个视角图的差异性,通过自适应权重系数来有效区分相似的视角图,并为差异性较大的视角图赋予更大的权重,从而保证最终学习到的图可以准确地刻画数据的内在几何结构。大量的实验表明,该方法不仅可以学习一个准确的图,而且能够准确地传递数据的标签。