论文部分内容阅读
随着信息学和生物医学的迅速发展,基因表达谱数据的获取变得越来越容易,且获得的数据具有很高的准确性。近年来,研究人员已成功地将生物医学问题转化为模式识别问题,其典型应用之一就是将基因表达谱应用于基因分析,挖掘出导致癌变的基因,从而准确地辨别别出癌变肿瘤种类。谱数据挖掘可以帮助研究人员发现新的肿瘤类型,提高复杂疾病诊断的准确率;但肿瘤基因表达谱数据具有样本小、噪声大、维数高等特点,直接使用数据进行肿瘤特征提取与识别是不可行的。很多传统的数据处理方法已经无法满足处理高维基因表达谱数据的需求,因此在数据处理前须对谱数据进行降维处理,获得最优特征的同时尽量舍弃部分冗余信息,以降低谱数据维数和系统复杂性。本文基于生物学理论和谱论理论,将模式识别与流形学习等相关算法运用于肿瘤基因表达谱数据分类中。通过构建相应的特征空间,使得无结构信息的基因表达谱数据序列,变成具有结构信息的图结构;再通过谱图理论对基因表达谱数据进行特征提取,并对实验结果和算法的鲁棒性给出合理的解释和分析,其主要内容如下:1.提出在非负矩阵分解之中引入LoG权值矩阵,并应用于基因表达谱数据分类,LoG权值矩阵的算法思想是在原有的高斯函数的基础上加入Laplace算子,从而克服了传统的高斯函数无法充分利用样本的类内和类间信息。该实验首先对肿瘤基因表达谱数据进行数据降维,然后根据LoG算法构建权值矩阵,将高维基因表达谱数据映射为空间中的点,再经SVD分解后得到能够表征肿瘤样本类别的指示向量;再通过NMF对数据进行非负分解,得到能够反映样本类别信息的低维特征向量,最后采用分类器对特征进行分类。2.针对传统最大间隔准则(MMC)算法在数据特征提取中存在的不足;本实验将最大间隔准则与Laplace算子及递归特征消除思想相结合,提出了一种基于Laplace最大间隔准则的肿瘤特征提取方法;并运用于肿瘤基因表达谱数据分类之中。新算法以寻找谱数据空间中类间散布与类内散布之差最大化为准则,寻求最佳鉴别矢量用于投影变换后的特征提取;然后对特征排序后分数最低的基因进行递归消除,最后定位出具有最大调控概率的信息基因,在对已有的三组肿瘤样本数据集的实验中,验证了本算法的有效性。3.针对传统的局部线性嵌入算法(LLE)中近邻域的选择仍存在人工依赖性。本实验提出了一种自适应的近邻选择算法,将高斯核技巧引入到肿瘤识别之中,并结合样本的类别信息,为样本自动设置合理的近邻,很好地解决了邻域选取问题。其思想是在样本点和它的近邻样本点之间构建局部线性平面时,能够自动选择近邻域,并以此建立优化算法;即任一个样本均可由其近邻域样本重构而来,且样本重构后的线性重构误差最小。最小重构误差能够使数据在旋转、平移和缩放时保持不变,从而使实验具有较高的鲁棒性。