基于低秩约束的表示方法研究及在生物测序数据上的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:yanhe100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的飞速发展,大量的生物测序数据被挖掘出来。这些生物测序数据中蕴含着丰富的基因活动信息,对这些信息进行有效的分析研究可以获取到与调控基因表达相关的有用信息,进而对疾病的预防及治疗产生积极的影响。生物测序数据中包含了大量的基因和小部分样本,是典型的高维小样本数据,而在海量的生物测序数据中只有小部分基因的差异表达会导致疾病的产生,这些基因被称为差异表达基因,因此如何从海量的生物测序数据中识别出对研究有价值的差异表达基因是现在面临的重要挑战。近年来,研究者提出的低秩约束表示方法(Low-rank Representation,LRR)受到了极大的关注。此方法是将原始数据矩阵表示成字典矩阵下的线性组合,并且希望系数矩阵是稀疏的,同时将噪声考虑到了算法中,即将数据矩阵分解成低秩块和稀疏块,再分别对两块数据进行分析研究,因此很好地解决了数据高维性的问题。本文通过阅读研究了大量国内外与低秩约束相关的文献后,对现有方法进行了改进,提出了三种新方法,并将这些方法成功运用在了生物测序数据上,具体内容如下:(1)基于拉普拉斯映射的低秩约束表示方法:该方法将拉普拉斯映射引入到低秩约束表示方法中。拉普拉斯映射作为一种非线性流形学习方法,它能将高维采样数据恢复到低维流形结构中,同时在构建拉普拉斯矩阵时将数据内部结构关系也考虑到了算法中,不仅解决了数据高维性的难题,也充分利用了数据本身的价值,同时对稀疏矩阵施加L1范数约束,增加噪声和异常值的鲁棒性,为差异表达基因的识别提供了极大的便利。(2)基于截断核范数约束的低秩约束表示方法:低秩约束的表示方法希望字典矩阵下的系数矩阵是低秩的,但秩函数的优化问题是NP难的,传统的方法通常采用核范数对秩函数进行凸松弛。而近年来截断核范数作为一种新的矩阵范数被提出,与核范数相比,截断核范数只对奇异值较小的部分求和(即残余部分),在求解最小化问题的过程中,不会使矩阵的方差也最小化,影响主成分的识别,因此能更好的近似替代秩函数,提高算法的鲁棒性。(3)基于L2,1范数的低秩约束表示方法:为增加噪声和异常值的鲁棒性,一般方法通常对稀疏矩阵施加L1范数约束,而本文提出的方法对稀疏矩阵施加了L2,1范数约束,该方法充分利用了L2,1范数能实现行稀疏的特性,替代L1范数,同时L2,1范数能使矩阵整行元素为零,也达到了矩阵降维的效果,一定程度上提高了差异表达基因识别的精度。本文的研究有利于完善低秩约束表示方法理论体系,同时为疾病的预防与治疗提供帮助。本文中提出的三种方法均已在癌症基因图谱(The Cancer Genome Atlas,TCGA)数据集上进行了实验验证,结果表明本文提出的三种方法能有效地识别差异表达基因。
其他文献
以校训为指导,培养学生的"工匠精神"、职业精神、职业道德等,借助智慧教学质量年的建设契机,将我校校训"如切如磋,如琢如磨"融入教育教学中,在专业课的教学中突出培育具有良
数字签名是密码学的主要内容之一,广泛应用于商业交易、政府部门运营、文件签署等领域.数字签名能够实现对身份的认证、数据保护、不可否认服务等功能.传统意义上的信息安全
现今,随着无线通信技术与雷达探测技术的迅猛发展,阵列天线技术在各个领域实现了广泛的应用。阵列天线技术的本质是根据不同方向图的需求,改变其阵列每个阵元的相位和幅度等参数来合成不同的方向指向,典型的如相控阵、频控阵等。本文在现有阵列天线技术基础上,首先结合频率分集技术,研究了单天线频率分集系统,该系统有望广泛用于未来无线通信的准确接入和雷达系统的精确检测。其次研究了基于圆形相控阵产生的轨道角动量电磁涡
相干性,干扰现象的核心,它起源于量子态的一个重要性质,即量子叠加效应.量子相干性是量子信息处理任务中的重要组成部分,在物理学中有重要作用,如量子生物学,量子热力学,以及
熵是量子信息理论的关键概念之一,它是用来度量物理系统状态所包含的不确定性.在量子信息中,信源的不确定性需要使用冯·诺依曼熵进行刻画.同时,冯·诺依曼熵在判别量子纠缠
在生态文明建设的背景之下,为应对行政矫正方式在环境监管与生态损害救济中的不力,我国开始探索司法救济途径。随着环境公益诉讼和生态环境损害赔偿制度的构建与完善,生态损
三七[Panax notogirnseng(Burk)F.H.Chen]是我国传统名贵药材,三七总皂苷(Panax notoginseng saponins,PNS)是三七的主要药用成分,由多种四环三萜皂苷组成。三七对生境要求苛
党的十八大以来,随着司法体制改革的逐步深入,大量的冤假错案也开始浮出水面。公众在质疑司法公正,惋惜无辜者同时,也开始思考这当中的问题所在。刑事诉讼的目的是打击犯罪和
随着数字化时代的发展,各个学科和领域都收集到海量高维数据.面对收集到的大量数据,如何将其转化为可存储、便分析、能为解决实际问题提供参考的材料为现在所面临的一个巨大挑战.针对数据存储的现状,分布式存储方式应运而生.分布式存储是将数据集按照某种方式不重复的存储在不同的机器中,以此解决数据存储问题,这种存储方式在信息科学和医学等领域均己被广泛采用.解决存储问题后,如何设计和研究出适合于分布式数据存储方式
学习策略是提高学生学习效率与效果的复杂方案,影响课堂环节的外显学习的最重要的因素。外显学习与内隐学习共同反映学习的本质与过程,以学习策略为外显学习的主要反映指标,