基于信息增益的基因表达数据分类特征选择算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Windows365666151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的发展,基因表达数据得到研究人员越来越多的关注。通过合理的分析基因表达数据,提取出有用的关键信息,利用正确的预测结果,将为疾病的治疗带来有效的指导性建议。然而,基因表达数据普遍存在维度高以及样本较少的特点。随着维度的增高,容易造成“维度灾难”的问题,极大降低了现有的数据挖掘和机器学习等算法的计算效率与准确率,为分类学习带来了一定的挑战。针对基因表达数据的分类任务,本文探究如何从存在大量冗余基因及噪声的高维数据中提取出真正与分类有关的少数基因,便于分类研究。考虑到单个的特征选择方法在基因表达数据中降维效果有限,本文通过结合能够有效选择与分类有关基因的信息增益方法和剔除冗余特征能力强的改进Lasso算法,提出一种混合特征选择算法:IGIL-Seleciton,旨在找到一种选择目标基因的能力更好以及在不同类型的基因表达数据中适用性更强的特征选择方法。通过在二分类和多分类两种类型的基因表达数据集上进行的一系列实验,结果表明IGIL-Seleciton的基因选择效果优于单独使用信息增益方法和Lasso方法,同时IGIL-Seleciton在面对二分类或者多分类基因表达数据时都能够稳定有效地去除冗余基因,选择出较少的关键基因,同时保持了良好的分类准确率。综上所述,针对基因表达数据分类任务,本文对以往的研究成果进行分析并基于信息增益方法结合改进Lasso算法提出了一种特征选择方法,经过实验表明其具有稳定良好的信息基因选择能力,是一种适用性比较好的降维方法,同时对基因值离散化及分类器选择等还需进一步的研究。
其他文献
商业化石墨负极的实际比容量已经逐渐接近理论比容量(372 m Ah g-1),不能满足人们对高能量密度电池日益增长的需求。氧化亚硅负极具有比容量高(2600 m Ah g-1)、资源丰富、对环境友好和成本低等优势,是最具应用前景的负极材料之一。但是氧化亚硅在脱嵌锂过程中会发生显著的体积膨胀(~200%),还会与电解液反应生成不可逆的氟化物进而消耗电解液,从而导致氧化亚硅电极失效,降低电池的容量。目
随着互联网技术的发展与革新,web应用软件的发展规模与速度不断增大,软件的迭代研发周期也随之越来越短来适应新的需求,随之而来的测试压力也越来越大,而广告模板是属于互联网产业的一个商业化分支,紧紧关联着互联网产业的变现需求,其自动化测试一直是开发测试团队所期待已久的。本论文首先介绍了课题研究背景,课题来源于国内某知名搜索公司广告部门模板开发与测试的实际需求,需要广告模板自动化测试系统来降低广告模板测
白酒发酵过程微生物菌群结构多样性一直是人们研究的热点,对认识传统酿造白酒发酵微生物群落结构及其功能的研究奠定了坚实的基础。但绝大多数研究在实验设计的时候大多没有交代样品采集的季节,忽略了不同酿造季节发酵微生物可能存在差异。清酱香型白酒的酿造还处于发展起步阶段,关于其酿酒微生物多样性的研究目前相对较少,尤其是不同季节清酱香型白酒发酵微生物菌群结构多样性特征尚不清晰,在一定程度上制约着清酱香型白酒酒质
背景:肺动脉平滑肌细胞(pulmonary artery smooth muscle cell,PASMC)过度增殖在肺动脉高压(pulmonary artery hypertension,PAH)肺血管重构病理过程中起重要作用。PAH时PASMC的代谢发生了与肿瘤相似的代谢变化,即由氧化磷酸化转换为有氧糖酵解,为细胞的过度增殖提供能量。对这一表型认识的最新进展为肺动脉高压的治疗提供了新的策略。然
随着现实世界中的数据量不断增长与数据挖掘技术的发展,特征选择技术一直被应用在各个研究领域,作为消除高维数据所带来的维数灾难的有力工具。数据维度过高,往往使得机器学习模型缺乏可理解性,或者出现过拟合现象。而通过特征选择技术,可以提高特征集合代表能力,进而提升后续学习模型的泛化能力。针对高维无标签数据,本文基于遗传算法,在加速特征子集搜索速度同时使得算法能够得到全局最优解,并且在缺少先验知识的情况下,
随着信息网络的快速扩展,Web应用越来越广泛,人们在生活和工作中也越来越离不开它。同时,对它的要求也在逐步提高,人们对Web应用不再仅限于功能,而是追求更加良好的用户体验。Web应用前端性能情况直接决定着应用提供的服务质量和用户体验,很大程度上影响着用户是否会继续使用该应用。因此,前端性能成为了前端开发中的重要关注点,针对如何提高前端性能,监测前端性能数据成为解决问题的第一步也是最为重要的一步。基
氢能作为最具发展潜力的新能源之一,具有能量密度大、使用零排放的特点,已成为能源转型的核心支柱应用在燃料电池、发电等领域。与此同时,氢气(H2)是一种无色无味的易燃性气体,H2泄漏引发的安全问题受到高度重视,因此,对高性能、低功耗H2传感器的需求十分迫切。二氧化锡(Sn O2)具有良好的热稳定性和导电性,在H2传感领域有着广泛的应用前景,但是目前基于Sn O2体材料的H2传感器仍然存在工作温度高、低
如今生活中,大众媒介已经成为了人们视听生活中必不可少的工具,在各个方面各个领域影响着人们对于事物的认知,进而影响人们的思想,改变人们对事物的思维和判断,而在这其中,电影公认是目前最为普遍、信息负载量最大的媒体。并且人们对于精神生活的高质量的追求,人们对于电影需求也日益增加。同时伴随着网络的广泛覆盖,电影相关的信息量也越来越庞大,因此如何设计构建关于电影的问答系统也就越来越迫切和重要。而知识图谱产生
移动操作机器人由移动平台和操作臂组合而成,这样的配置使其既具有大范围的移动能力又具有灵活的操作能力,被广泛应用于众多领域。然而,两者的结合也带来自由度冗余、高动态作业交互和动态稳定等问题,极大地增加了该类机器人运动规划和控制的难度。现有的移动机器人规划方法大多将移动平台和操作臂进行独立规划,无法同时满足机器人作业效率与移动稳定性要求,也无法适应动态变化的外部环境,极大地限制了移动操作机器人能力的发
黄铁矿是自然界常见的一种硫化矿物,通常利用浮选法回收。浮选体系中药剂与矿物作用之前,药剂间会产生复杂的交互作用。已有的研究主要从单一或同类药剂的角度,按照先加调整剂后加捕收剂等的分步加药顺序研究药剂间的交互作用,与实际生产中常见的调整剂、捕收剂和起泡剂等同步加药的现状不匹配,导致药剂参数的制订缺乏充分的理论支撑,致使选矿回收率不理想。论文以黄铁矿浮选过程中活化剂硫酸铜和捕收剂丁基黄药为研究对象。通