论文部分内容阅读
在过去十多年间,数据收集和存储能力的显著进步在生物、天文学、统计学和经济学等许多科学领域都引起了“信息过载”的问题。研究者需要面对越来越海量的数据,和已经经过广泛研究的传统小数据集不同,这类数据对数据分析方法提出了新的挑战。幸运的是,很多实际数据集都存在隐含的少量参数控制其主要的分布变化,类似的情况出现在很多不同的研究领域中获取的高维数据中,比如生物信息学、机器人导航和自然语言处理等。这些隐含参数描述了一个低维流形,可以通过记录哪些流形上的点为近邻的图来表示。通过图嵌入,我们便可以获取描述隐含参数的低维坐标,进而揭示出数据潜在的结构,从而使数据探索、可视化和建模的性能更优。围绕这一目标,全文的主要工作概括如下:
(1)线性判别分析(linear discriminant analysis,LDA)在数据挖掘、机器学习和生物信息学等领域是最为常用的有监督特征提取和维数约减工具之一。可是,LDA的计算通常需要求解稠密矩阵对的广义特征分解,计算负担较大,难以应用于大规模数据集。因此,在本文中我们提出瑞利-瑞茨判别分析(Rayleigh-Ritz discriminant analysis,RRDA)用于求解LDA,不同于以往需要将LDA转换为回归问题的相关方法,RRDA建立在求解通用特征值问题的瑞利-瑞茨框架基础上,同时,通过利用LDA问题的特殊结构,我们得以设计出快速的子空间扩展和瑞茨向量扩展策略。为了降低LDA应用中常见的样本不足问题的计算复杂度,我们也为其建立了RRDA的等价快速形式。此外,我们进一步讨论了RRDA的实现细节和收敛结果。在多个真实数据集上的实验结果表明了RRDA的有效性。
(2)正则化线性判别分析(regularized linear discriminant analysis,RLDA)是用于处理LDA中小样本问题(small sample size,SSS)的维数约减方法。RLDA的一个尚未解决的重要问题是如何快速确定合适的正则参数,而不需诉诸交叉验证等扩展性较差的方法。在本文中,基于RLDA的几何解释,我们提出一种新颖的RLDA参数选择方法。我们进而给出所提出方法的理论分析,证明它对于训练数据特征空间的扰动具有鲁棒性。在多个基准数据集上的实验结果证明了该方法的有效性。
(3)蛋白质相互作用网络为理解生物过程、功能和细胞内在复杂演化机制提供了新的渠道。为蛋白质网络建模,找出需要更少的结构假设、对噪音鲁棒和拟合能力更强的网络模型仍然是系统生物学的重要课题。在本文中,我们提出一种基于图嵌入的t-逻辑斯蒂语意嵌入(t-logistic semantic embedding,t-LSE)模型为蛋白质相互作用网络建模。基于蛋白质网络的几何假设,t-LSE试图自适应地将网络嵌入到低维空间,并使用非凸损失函数降低噪音的影响,实验结果证明相比于其它主流网络模型,t-LSE的拟合能力更强,同时我们所选取的非凸损失函数也显著地提高了对于蛋白质网络噪音的处理能力。由此,我们所提出的模型可以有助于基于图的蛋白质相互作用网络研究,更好地推断出其隐含的生物知识。