【摘 要】
:
新一代基因测序技术的发展产生了大量多样的癌症测序数据。如何充分利用这些数据,从分子水平上研究癌症与基因的关系,对于癌症的诊断与治疗尤为关键。癌症测序数据的典型特征是“高维、小样本”,且数据中存在着大量的噪声和异常值,参与癌症病变的也只有少数基因。稀疏表示理论和方法对癌症测序数据的分析起到了重要的作用,随着研究的不断深入,对于癌症测序数据的分析方法也有新的需求。比如:(1)如何提高模型的稀疏能力,使
论文部分内容阅读
新一代基因测序技术的发展产生了大量多样的癌症测序数据。如何充分利用这些数据,从分子水平上研究癌症与基因的关系,对于癌症的诊断与治疗尤为关键。癌症测序数据的典型特征是“高维、小样本”,且数据中存在着大量的噪声和异常值,参与癌症病变的也只有少数基因。稀疏表示理论和方法对癌症测序数据的分析起到了重要的作用,随着研究的不断深入,对于癌症测序数据的分析方法也有新的需求。比如:(1)如何提高模型的稀疏能力,使得选出的差异表达基因更具生物学意义。(2)如何降低模型对数据异常值的敏感性,增强模型的鲁棒性。(3)如何对于非线性数据有效降维,使得数据在降维时不易丢失重要信息。(4)如何提高模型的泛化性能等。探索更适于分析这类数据的稀疏建模方法亟为重要。针对以上问题,本文在前人研究的基础上,提出了三种改进的基于p范数的稀疏模型,并将它们应用于癌症测序数据上。经检验模型的鲁棒性能、稀疏性能、泛化能力均有所提高。具体包括以下三个方面:(1)提出了基于非凸Lp范数和L2,1范数约束的图正则稀疏模型(PL21GPCA)。该模型在误差函数上使用非凸Lp范数来替代传统的Frobenius范数,从而降低数据中存在的噪声和异常值的影响。然后在投影矩阵上使用L2,1范数来提高差异基因的稀疏表达。其次,图正则项保留了数据的内部几何结构。在肺癌数据集和癌症基因表达数据集上的聚类结果验证了该方法的有效性。另外,该方法还可以通过发现基因网络模块来找到与癌症有关的某些致病基因。(2)提出了基于非凸Lp范数和L2,p范数的双图正则稀疏模型,包括DGPPCA和DG2PPCA。对于DGPPCA,为了提高模型的稀疏性,对投影矩阵施加L2,p范数约束,从而当p值在(0,1)范围内变化时,DGPPCA可以适应不同的数据集。双图正则化的引入可以同时考虑基因和样本的原始流形结构。DG2PPCA是DGPPCA的扩展方法,该模型在误差函数上引入非凸Lp范数来提高模型的鲁棒性。将这两个方法应用于单细胞RNA测序数据集上进行双聚类分析。实验结果表明,该方法能够发现双聚类的“棋盘”结构,并在样本聚类和基因聚类方面表现突出。(3)提出了基于加权Schatten-p范数和L2,p范数的鲁棒稀疏模型(L2,p-WSRPCA)。该模型利用加权Schatten-p范数和L2,p范数约束来改进传统的鲁棒主成分分析。首先将加权Schatten-p范数应用于低秩矩阵的恢复中,针对不同的奇异值进行不同程度的收缩,从而提高模型的恢复效果,p值的不确定性可以增强模型的泛化能力。然后利用L2,p范数可以产生行稀疏的特性,对噪声矩阵进行稀疏约束,以期望得到更多的稀疏解。最后使用该方法在单细胞RNA测序数据集上进行样本聚类的对比实验和特征选择的相关实验,来验证L2,p-WSRPCA方法的性能。
其他文献
英语冠词系统包括三类冠词,定冠词、不定冠词和零冠词。由于英语冠词系统的复杂性,一些研究者认为英语冠词是不可学或不可教的,但是冠词对于语言学习来说又是尤为重要的,特别是在学术写作中。前人主要从名词角度对冠词错误使用进行了研究,但有研究者指出冠词的使用并不只是由名词或名词短语决定。本文的主要目的是从词块使用角度,探究中国硕士研究生和博士研究生在学术写作中定冠词使用错误情况。借助词块探究定冠词使用错误是
本翻译实践报告是以韩国作家河成兰的韩国短篇小说集《邻家女人》一书为翻译文本。全书由十个短篇小说组成,第一篇小说《邻家女人》为本书的标题之作。小说集的主人公们大部分是游走在社会边缘的人群,例如家庭主妇、汽车销售员、商场监控员、日料店主厨等。本书作者河成兰,被誉为“超精细描写女王”,其作品不仅带有极为细腻的女性气质,同时奔放的想象力与清醒的现实感并存。1通过小说的细腻描写,我们不仅可以切身体会到社会边
随着癌症基因图谱(The Cancer Genome Atlas,TCGA)计划的实施和新一代测序技术的发展,产生了海量复杂的生物组学数据。这些组学数据中蕴含着丰富的有关生物功能与基因调控等的遗传密码。如何在海量组学数据中探索并提取关键数据以获得重要组学信息是当前的研究热点之一。传统的矩阵相关的数据处理方法在不同领域取得了一定的成效,但基于矩阵的数据表达方法存在一个明显不足,即矩阵模型不能充分探索
本文设计并实现了一个阿尔兹海默症(Alzheimer’s Disease,AD)辅助诊断系统。该系统使用前后端分离的架构,前端使用Vue,后端使用Django框架,实现了针对用户输入的功能性磁共振成像(functional magnetic resonance imaging,fMRI)数据矩阵,使用机器学习方法判别样本所有者是否处于AD状态或轻度认知障碍(MCI)状态或健康(HC)状态的功能。本
互联网+模式的飞速发展,为线上教育聚集更多优质资源提供了便利条件,使其摆脱了时间和空间的束缚。近年来,尤其是新冠疫情以来,相较于线下教育的举步维艰,线上教育备受人们青睐。然而,随着线上教育系统的广泛应用,其弊端也日益突显。中心化管理和单点存储模式使得用户信息易被篡改或丢失,用户和系统之间缺乏信任。因此,亟需构建一种信任方案保障线上教育系统的可信度。区块链具有不可篡改和易溯源等特性,符合线上教育系统
随着移动互联网和社交网络的迅速发展,社交媒体已经成为人们日常娱乐、交流分享、获取信息的重要平台,新浪微博作为国内受众最大的社交媒体,影响着人们生活的方方面面。与此同时,微博的巨大流量也催生了微博水军这一黑色产业,他们受利益驱动,散播垃圾信息或谣言,扰乱了网络传播秩序,引导社会舆论,给个人和集体带来了不利影响。如何有效地快速识别微博水军,对净化网络环境、维护网络秩序具有重要意义。传统的网络水军识别研
移动终端应用系统已经深入到人们的日常工作和生活中,其中界面设计与开发的工作量在整个移动应用开发中所占的比重较大。目前大部分的移动应用开发都是面向特定平台(如Android、i OS等)的,同一应用系统界面的开发要针对不同的平台开发不同的版本,这需要花费较大的代价。而且传统开发方法以手工编码为主,普遍存在开发效率低、难以维护等问题,还导致应用程序在扩展性和健壮性等方面不能满足系统开发需求。采用模型驱
近几年,北斗卫星导航系统不断发展,其定位精度也得到了极大提高,北斗高精度在各类软件中的应用越来越广泛,在应急救援、安全监管等方面都起到了极为重要的作用。并且北斗卫星导航系统也已成功进入到3GPP国家移动通讯组织,将北斗技术与各新兴技术相结合将会成为接下来几年的发展趋势。随着移动通信的不断发展,智能手机、平板等移动终端普及到千家万户,各式各样的应用软件也层出不穷,应用软件使移动终端的功能更加实用且丰
癫痫(Epilepsy)是大脑神经元异常放电引起的一种脑部疾病,同时也是最常见的神经系统疾病之一,其发作时一般表现为牙关紧咬,四肢抽搐,严重时会导致尿便失禁、意识丧失,甚至危及生命。脑电图(Electroencephalogram,EEG)是目前诊断癫痫的主要工具,其中包含了大量的生理和病理信息,脑电信号的分析为医生的诊断提供了指导。目前,癫痫的临床诊断多是依靠医生的自身知识储备和经验,通过肉眼观
近年来,长链非编码RNA(Long non-coding RNA,lncRNA)已被证明在各种生物过程中发挥着重要作用,与多种人类疾病有着密切联系,然而这些lncRNA在疾病中的作用机制尚不完全清楚。此外,当前已有的数据库缺乏对lncRNA功能的记录,而传统的生物实验和临床研究成本高昂。因此,推断lncRNA在疾病中的功能,探究其与疾病的潜在关联仍是当前生物信息学的一个重要挑战。针对上述背景,本文