【摘 要】
:
机器学习致力于解决大规模的、复杂的任务,所以发现大量数据中的潜在相关信息变得越来越重要。在许多应用领域中,如基因工程、文本挖掘和商业智能,数据规模无论从特征数量上
论文部分内容阅读
机器学习致力于解决大规模的、复杂的任务,所以发现大量数据中的潜在相关信息变得越来越重要。在许多应用领域中,如基因工程、文本挖掘和商业智能,数据规模无论从特征数量上还是从样本数量上都在日益增大。这对已有的机器学习算法提出了严峻的挑战。特征选择能够移除不相关特征,提高学习效率,改善学习性能,增强学习结果的可理解性。特征选择在处理具有较多不相关特征的高维数据上已被证明是一种有效的手段。尽管出现了大量的特征选择算法,特征选择仍然面临着新的挑战:如何处理高维海量的样本。如果样本数量巨大,那么通常的方法是从部分数据中学习,无损于性能地达到初始目标。目前普遍采用的样本选择方法是随机抽样,然而随机抽样方法没有利用数据的任何特点,比较盲目。本文提出一种改进的遗传算法,利用改进的遗传算法搜索样本空间,将得到的训练集的近似最优代表性子集作为训练集去分类评估集。同以往的随机抽样方法相比,在同样的特征子集的情况下,本方法使用的样本数量更少且预测准确率更高。本文主要工作包括以下两方面:1.针对寻找训练集最佳代表性子集的任务,遗传算法在染色体表示、交叉方式和变异方式上进行了改进。针对现实的二值分类中正向样本数极少且分布不平衡的特点,提出利用正确正向分类结果与错误正向分类结果的比值作为遗传算法的适应度函数。2.提出基于改进的遗传算法的样本选择模型,把该样本选择模型与局部进化特征选择算法相结合,并将其应用在潜在客户预测中。利用UCI标准数据集对本文所提出的样本选择模型进行测试,实验结果证明了该模型的有效性。
其他文献
目的用病理特点对照的方法分析总结原发性肺黏液腺癌的CT表现,以提高肺粘液腺癌的CT诊断水平。方法选取8例原发性肺黏液腺癌患者的临床资料及CT影像资料,全部病例经病理检查
本文分别验收监测的种、难点以及关键点方面介绍了建设项目竣工环保验收监测工作中应该注意的问题。
随着我国社会人口老龄化的发展,原发性骨质疏松症的患病率呈现上升趋势,研究表明,静脉注射唑来膦酸具有用药剂量小、次数少、作用时间长、疗效可靠稳定的特点,但同时首次注射
在经济快速发展过程中,对能源的消耗量不断增加,同时人类在创造和索取过程中也对生态环境带来了较大的影响。资源在无限制消耗过程中面临着严峻的短缺,同时我们生活的环境也
文章认为土地抵押协会是有效解决农民贷款难问题的创举。土地经营权抵押是土地经营权流转的形式之一,其实质是"抵押+保证+信用"贷款。农户通过土地抵押获取贷款,并未改变土地
中国农业保险实施至今已有十余年,研究农业保险对农业生产的影响效应对创新农业险种、促进农业保险深入发展具有重要意义。从全国角度出发,利用聚类分析划分中国农业保险发展
克氏原螯虾主要养殖在长江中下游地区,目前最主要的养殖模式为虾稻共作模式。大量研究结果表明,克氏原螯虾的生长发育与气象要素密切相关。水温在25-30℃时,克氏原螯虾生长较
农业气候资源是大自然为农业生产获得产品所提供的基本物质和能量,也是农业生产重要的环境条件。农业气候资源评价和农业气候区划素来是区域开发与国土整治的一项重要工作,国
目的研究大黄酚对凝聚态β-淀粉样蛋白25~35(Aβ25~35)致小鼠学习记忆障碍的改善作用,探讨其可能的作用机制。方法采用一次性小鼠右侧脑室注射Aβ25~353μl造成学习记忆障碍动物
《“情境—达标”式职业能力开发模式研究》是以“目标”和“情境”为切入点,对专业技术院校的职业能力开发模式进行系统梳理和重新设计,并在一定范围内将其付诸实施进行实践