论文部分内容阅读
随着高通量测序技术的飞速发展,大量的生物测序数据被挖掘出来。这些生物测序数据中蕴含着丰富的基因活动信息,对这些信息进行有效的分析研究可以获取到与调控基因表达相关的有用信息,进而对疾病的预防及治疗产生积极的影响。生物测序数据中包含了大量的基因和小部分样本,是典型的高维小样本数据,而在海量的生物测序数据中只有小部分基因的差异表达会导致疾病的产生,这些基因被称为差异表达基因,因此如何从海量的生物测序数据中识别出对研究有价值的差异表达基因是现在面临的重要挑战。近年来,研究者提出的低秩约束表示方法(Low-rank Representation,LRR)受到了极大的关注。此方法是将原始数据矩阵表示成字典矩阵下的线性组合,并且希望系数矩阵是稀疏的,同时将噪声考虑到了算法中,即将数据矩阵分解成低秩块和稀疏块,再分别对两块数据进行分析研究,因此很好地解决了数据高维性的问题。本文通过阅读研究了大量国内外与低秩约束相关的文献后,对现有方法进行了改进,提出了三种新方法,并将这些方法成功运用在了生物测序数据上,具体内容如下:(1)基于拉普拉斯映射的低秩约束表示方法:该方法将拉普拉斯映射引入到低秩约束表示方法中。拉普拉斯映射作为一种非线性流形学习方法,它能将高维采样数据恢复到低维流形结构中,同时在构建拉普拉斯矩阵时将数据内部结构关系也考虑到了算法中,不仅解决了数据高维性的难题,也充分利用了数据本身的价值,同时对稀疏矩阵施加L1范数约束,增加噪声和异常值的鲁棒性,为差异表达基因的识别提供了极大的便利。(2)基于截断核范数约束的低秩约束表示方法:低秩约束的表示方法希望字典矩阵下的系数矩阵是低秩的,但秩函数的优化问题是NP难的,传统的方法通常采用核范数对秩函数进行凸松弛。而近年来截断核范数作为一种新的矩阵范数被提出,与核范数相比,截断核范数只对奇异值较小的部分求和(即残余部分),在求解最小化问题的过程中,不会使矩阵的方差也最小化,影响主成分的识别,因此能更好的近似替代秩函数,提高算法的鲁棒性。(3)基于L2,1范数的低秩约束表示方法:为增加噪声和异常值的鲁棒性,一般方法通常对稀疏矩阵施加L1范数约束,而本文提出的方法对稀疏矩阵施加了L2,1范数约束,该方法充分利用了L2,1范数能实现行稀疏的特性,替代L1范数,同时L2,1范数能使矩阵整行元素为零,也达到了矩阵降维的效果,一定程度上提高了差异表达基因识别的精度。本文的研究有利于完善低秩约束表示方法理论体系,同时为疾病的预防与治疗提供帮助。本文中提出的三种方法均已在癌症基因图谱(The Cancer Genome Atlas,TCGA)数据集上进行了实验验证,结果表明本文提出的三种方法能有效地识别差异表达基因。