张量鲁棒主成分分析方法研究及在癌症组学数据上的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:yulaohuazi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着癌症基因图谱(The Cancer Genome Atlas,TCGA)计划的实施和新一代测序技术的发展,产生了海量复杂的生物组学数据。这些组学数据中蕴含着丰富的有关生物功能与基因调控等的遗传密码。如何在海量组学数据中探索并提取关键数据以获得重要组学信息是当前的研究热点之一。传统的矩阵相关的数据处理方法在不同领域取得了一定的成效,但基于矩阵的数据表达方法存在一个明显不足,即矩阵模型不能充分探索组学数据的多维空间结构,因此不能有效挖掘多视角融合信息,这在一定程度上限制了方法性能的提高。三阶张量因其本身特殊的结构特点而受到相关学者的关注。基于三阶张量的数据处理方法能在一定程度上保证数据的立体结构不被破坏,因此能探索多维数据中的隐含信息。为了更高效地探索多视图组学数据,本文旨在对现有的张量鲁棒主成分分析(TRPCA)方法的不足进行研究与改进,并将其应用于癌症组学数据中,具体研究内容如下:(1)针对癌症组学数据的高维性、冗余性和流形结构等特点,提出了基于L1范数的超图正则张量鲁棒主成分分析方法(HTRPCA)。该方法通过在张量鲁棒主成分分析的目标函数中施加超图正则约束来探索多个样本点之间的关联,充分挖掘不同数据类型之间的互补信息。其次,HTRPCA模型中的稀疏约束能在一定程度上过滤掉原始数据中的冗余信息,提高算法的性能。最后,使用该方法在癌症组学数据上进行样本聚类实验,为发现新的癌症亚型提供参考。(2)为了解决TRPCA模型分解得到的低秩张量容易受到损坏的问题,提出了一种基于L2,1范数的低秩数据加权张量鲁棒主成分分析方法(WTRPCA)。通过在TRPCA模型上施加一个附加的约束惩罚项,修复损坏的低秩数据。具体地,根据张量分解过程中生成的误差值设置权重张量,并将每个权重值分配给相应的低秩张量元素以补偿低秩数据。另外,使用L2,1范数来约束稀疏张量,以使稀疏效果更好。在实验部分,利用低秩张量对癌症样本进行聚类,探索多个癌症之间的相似性与关联性,为未来的癌症研究和治疗提供新思路。(3)针对TRPCA无法完全地建模不同噪声以进一步恢复低秩张量的问题,提出一种基于L2,1范数的双约束张量鲁棒主成分分析方法(DCTRPCA)。首先,引入逻辑函数来约束张量分解得到的稀疏成分,然后,用L2,1范数来加强约束带有权重的稀疏张量。同时施加这两种约束能够在恢复低秩数据的同时增加稀疏度。该框架旨在找到稀疏误差张量的最大似然估计解,尽可能地恢复低秩分量组成部分。最后,利用低秩分量进行癌症样本聚类,利用稀疏分量进行特征选择,以筛选更多差异表达基因。该模型的提出对于在基因水平直接研究表观遗传现象,探索疾病发病机理有着重要意义。本文提出的方法有效地考虑了数据中的流形结构,获取了更全面的组学数据信息,并有效地处理了原始数据中包含的噪声和异常值。在癌症样本聚类和特征选择上的实验结果表明,本文提出的方法要优于其他同类方法。
其他文献
时间指称一般体现为时间副词或者动词词尾的屈折变化,外语学习者往往不能充分使用时间指称,严重影响了学习者外语水平的提高。虽然已有研究表明,教学方式有助于促进学习者对某一特定的语言特征的学习,但是就演绎教学和归纳教学的教学效果仍存在很大争议,其中一个原因是很多研究没有将体现学习者差异的学能引入研究框架,这对于复杂的外语教学来说显然过于简单。因此,本文从教学方式和语言学能的角度,探求促进学生学习三语德语
《别让我走》是英国作家石黑一雄出版于2005年的小说。自出版以来,《别让我走》一直受到学术界的重视。学界多认为科技与伦理是这部小说的主题,更认为《别让我走》不再关涉移民身份,因而是石黑一雄的转型之作。本文认为石黑一雄在这部作品中并未停止其对殖民主题的一贯反思,只是这一反思是以潜在的方式暗藏于其小说书写之中。本文将首先揭示《别让我走》对于殖民关系的重构,认为“克隆人—监护人”二元关系实质上是一种“被
新闻报道作为一种媒介信息在现代社会中扮演着重要的角色。新闻报道在呈现事件的同时不可避免地会流露出一定的观点与价值倾向,因此在阅读新闻时需要有清晰的判断力,用批判的眼光加以分析。华为近年来发展迅速,在5G领域占有一席之地,也促使中国在5G领域占据了领先地位。2019年5月15日,美国宣布将华为及其附属公司列入出口管制的实体名单。中美两国的主流媒体也纷纷进行了大量报道,该话题一时引起广泛的关注。本文选
随着网络技术的发展,越来越多的学者开始在网络上发表文章构建形象。由于网络平台的特性,互动在网络学术身份构建中日趋重要。然而当前关注学术体裁中在线身份构建的研究有很多,但是很少有从互动角度来分析在线身份构建的。本文使用基于语料库的研究方法,对中国学者在微博中运用的互动方式及构建的形象进行研究。本研究的语料选自15位中国学者在新浪微博上发表的博文共300条,每位学者均为粉丝数超过10000的中国大学教
苏珊-洛莉·帕克斯(1963-)是当代美国杰出戏剧家,也是第一位荣获普利策戏剧奖的非裔女剧作家。《美国戏剧》是其早期代表作,彰显了剧作家独特的戏剧创作理念。剧中的“洞穴”不仅充当了背景空间,更是一个汇集剧作家主题思想和戏剧美学的异托邦空间。然而遗憾的是,这一重要的特殊空间并未引起学界的足够重视。本文借助米歇尔·福柯的异托邦理论以及黑人美学,以《美国戏剧》中的“洞穴”为切入点,重点探讨帕克斯如何运用
越来越多的研究表明,运动事件的表达存在类型学差异,即不同的语言对运动事件的表达方式不同。这种差异不仅引起了研究者对单语使用者运动事件表达的关注,还在近年来引起了他们对二语使用者运动事件表达的关注。在国内,有关中国英语学习者在口头叙事中如何使用目标语表达运动事件的研究也在逐步增加,但是,先前研究多为横向研究,且多关注方式和路径动词的使用,较少关注趋向动词以及句式结构。本文基于Talmy的运动事件框架
中国是盐碱地大国,人均耕地面积远低于世界平均水平。利用无土栽培技术提高土地的生产效率成为中国农业向着高效化发展的重要途径。推进物联网技术在无土栽培中的应用,提高农业智能化管理水平是加快农业现代化的有效途径,而数据融合技术的应用对于实现高效、低成本的数据采集整理起到关键作用。由于我国发展农业物联网起步较晚,数据融合决策精度较低,很多管理系统缺乏一体化、信息化管理。在此背景下,本文通过实地调研、需求分
汉语中存在大量特殊复杂的论元结构,包括“把”字句、“被”字句、存现句、主宾倒置句等。前人已从配价语法、生成语法、构式语法、类型学等视角对汉语中的论元结构进行分析与解释,但是目前关于汉语论元结构的研究层面较为单一,对系统性揭示汉语论元结构的生成机制能力有限,而在格模式下对论元结构的研究较少且存在一系列问题:1)多从狭义形态理论出发考察汉语的论元分布问题;2)研究中的术语混乱,汉语动词归类标准不统一;
英语冠词系统包括三类冠词,定冠词、不定冠词和零冠词。由于英语冠词系统的复杂性,一些研究者认为英语冠词是不可学或不可教的,但是冠词对于语言学习来说又是尤为重要的,特别是在学术写作中。前人主要从名词角度对冠词错误使用进行了研究,但有研究者指出冠词的使用并不只是由名词或名词短语决定。本文的主要目的是从词块使用角度,探究中国硕士研究生和博士研究生在学术写作中定冠词使用错误情况。借助词块探究定冠词使用错误是
本翻译实践报告是以韩国作家河成兰的韩国短篇小说集《邻家女人》一书为翻译文本。全书由十个短篇小说组成,第一篇小说《邻家女人》为本书的标题之作。小说集的主人公们大部分是游走在社会边缘的人群,例如家庭主妇、汽车销售员、商场监控员、日料店主厨等。本书作者河成兰,被誉为“超精细描写女王”,其作品不仅带有极为细腻的女性气质,同时奔放的想象力与清醒的现实感并存。1通过小说的细腻描写,我们不仅可以切身体会到社会边