【摘 要】
:
随着人类基因组计划的高速发展,DNA芯片技术被广泛地应用到生命科学的各个领域,利用得到的基因表达谱数据可以从微观世界描述出各个基因的表达状态,所以被成功用于癌症的诊断
论文部分内容阅读
随着人类基因组计划的高速发展,DNA芯片技术被广泛地应用到生命科学的各个领域,利用得到的基因表达谱数据可以从微观世界描述出各个基因的表达状态,所以被成功用于癌症的诊断与治疗等研究领域,为人类的发展开启了新的大门,成为学术界一个热门的研究方向。然而,基因表达谱数据“高维小样本”等特点会降低癌症基因的识别准确率,所以必须采用适当的数据处理办法进行有效的降维,准确高效的挑选出与致病基因相关的特征基因子集就成为一项具有深远意义的研究工作。本文通过结合生物学知识和机器学习中的相关理论,对癌症基因进行特征选择,并对相应的实验结果进行有效性分析,完成的主要工作如下:1.提出了一种基于图正则低秩评分的基因表达谱特征选择算法。为了准确表达数据本质属性,考虑到低秩表示算法是从全局观点出发揭示数据样本的整体结构信息,但没有考虑数据的局部流形结构,在此基础上引入具有局部保持能力的流形正则约束项,构建一种图正则低秩表示模型。通过求解此模型得到系数矩阵,进一步构造出图权值矩阵,然后代替拉氏评分中的相似度矩阵,从而形成一种新的评分方式用于DNA表达数据的特征选择,称之为图正则低秩评分算法。最后在基因表达谱数据集上进行聚类实验,同传统的评分算法相比较,该算法取得更好的聚类效果。2.提出了一种基于图正则平滑低秩表示的基因表达谱特征选择算法。在低秩表示中,通过数据矩阵本身作为字典进行联合线性表示每个数据点,并且利用最小化核范数作为秩函数的凸包络来获得理想的低秩表示。但是在实际应用中,它的表现可能会偏离原始问题的最优解,因为核范数不是秩函数的凸松弛最优的选择。针对此问题,在构造目标函数时,利用对数行列式函数取代核范数更加准确的逼近秩函数,同时加上揭示数据局部近邻结构的图正则项,构建一种图正则平滑低秩表示模型,并且对得到的系数矩阵后处理之后再构造数据图结构。最后在基因表达谱数据集上进行聚类实验,与传统的特征选择算法相比较,该算法有更高的聚类准确率。
其他文献
为探索麦田温室气体排放规律和不同耕作方式与施氮量下减排效果的最优组合,发展气候智慧型农业,本文在玉米秸秆全量粉碎还田的基础上,于2016-2018年,以耕作方式为主区:翻耕(P
通过建立数学模型来描述生物系统的特性是数学应用领域的一个重要组成部分.其中Lotka-Volteer模型是一类非常重要的数学模型,因此受到了许多学者的广泛关注,并取得了有价值的
桥面防水粘结层破坏是沥青混合料桥面铺装的一个主要病害,较好解决层间材料质量问题是保证桥面铺装耐久性的重要因素。本文简要介绍了国内外常用的防水材料,针对桥面防水材料
刘聪先生创作多年,把艺术歌曲创作作为自己的主要创作方向,通过他敏锐的洞察力和独特的创作视角,结合西方技法,创作了大量优秀的作品,以及其他不同体裁的作品,他的作品无论在
随着制造工业全球化,机械行业的竞争变得日益激烈,轴承广泛应用于机械行业,是重要基础件之一,轴承行业变得越来越重要。激烈的市场竞争对轴承企业的生产质量提出了越来越高的
汽轮机热力性能参数是衡量机组运行水平的主要指标,性能参数的优劣直接关系到发电厂和热力系统的经济性。汽轮机热力性能试验是准确评估汽轮机运行特性的重要方法,通过热力性能试验进行现场测试获取汽轮机的热力性能数据,在汽轮机性能的评价和鉴定中起到了关键的作用。本文通过分析汽轮机热力性能试验基本原理和具体试验过程,选取国产某300MW机组的热力性能试验为例,基于ASME汽轮机试验标准对汽轮机热力试验数据进行详
香豆素类衍生物荧光强烈、色泽鲜艳、具有良好的光学性质,在荧光染料领域被广泛使用。20世纪90年代以来,人们对于新型香豆素衍生物的关注度越来越高,研究也不断深入。论文的
《红拂记》是张凤翼的代表作,亦是一部影响深远的明代戏曲作品。因其独特的戏剧性,以及众多插图本的流传,使其积淀了大量文化信息而独具“语-图”关系研究价值。本文将从明刊
近年来,在世界超级计算机500强排行榜上,天河二号曾连续位居第一,去年神威太湖之光也夺得榜首!可以说我国在超级计算机硬件方面已经走到了世界的前列。要充分利用好如此巨大
自党的十八大以来,脱贫攻坚工作不仅是圆满实现小康社会的重要指标,更是受到党中央的高度重视,并以此产生了一系列基于脱贫攻坚的战略思想和内容。随着以旅兴农、以旅富农政策的提出,乡村旅游的发展日益稳步前进,为乡村经济的振兴做出了不可磨灭的贡献。同时随着各地农村对乡村旅游事业的大力促进,也使得乡村旅游的发展进程进一步加快。生计概念的提出,为解决当前我国农村扶贫,农村发展问题,提供了全新的视觉和方法。而基于