【摘 要】
:
随着信息技术的发展,各领域的数据规模以惊人的速度扩张,这一方面给机器学习、数据挖掘等任务带来了更多的训练信息,另一方面增加了处理这些数据的难度。实例选择(Instance Selection,简称IS),作为一种常见的数据预处理技术,可以有效地删除一些冗余、噪声的样本,从训练集中获得一个优秀的子集,被广泛应用于机器学习、数据挖掘等任务中。因为实例选择的重要性,过去几十年里,有许多不同的实例选择算法
论文部分内容阅读
随着信息技术的发展,各领域的数据规模以惊人的速度扩张,这一方面给机器学习、数据挖掘等任务带来了更多的训练信息,另一方面增加了处理这些数据的难度。实例选择(Instance Selection,简称IS),作为一种常见的数据预处理技术,可以有效地删除一些冗余、噪声的样本,从训练集中获得一个优秀的子集,被广泛应用于机器学习、数据挖掘等任务中。因为实例选择的重要性,过去几十年里,有许多不同的实例选择算法被提出。目前,基于进化优化的实例选择算法,由于其良好的全局搜索能力和对目标函数无假设等优势,成为当前实例选择研究的热点。但是,当实例的规模很大时,由于搜索空间过大且计算耗时,已有进化算法难以获得满意的结果。对此,首先提出了一种基于长度归减的进化多目标算法LR-MOEA来解决大规模实例选择问题。在LR-MOEA中,本文提出了一个长度归减策略在进化中逐渐地归减种群个体的长度,从而减少种群的搜索空间,提高搜索效率。具体地,种群中每个个体中的基因(每个基因代表对应的一个实例)都有一定概率被删除,这个概率是由种群中基因的重要性和训练集中对应实例的重要性来共同决定的。然后,本文提出一个特定的交叉变异算子用来产生子代种群,此外,本文提出一个个体修复算子用来修复可能过度归减的个体。在12个常用的大规模分类数据集上的实验显示,相比于当前已有的基于进化优化的实例选择算法,LR-MOEA不仅可以获得精度和压缩率都较高的实例子集,还能有较少的计算时间消耗。然后,为了解决更大规模的实例选择问题,本文设计了一个基于聚类编码的进化多目标算法CE-MOEA。不同于LR-MOEA的长度归减思想,为了解决更大规模实例选择问题,CE-MOEA先将训练集进行聚类,然后把每个聚类作为一个整体进行编码和搜索,大幅度地减少了搜索空间。在搜索过程中,对于每个聚类,CE-MOEA只选择最靠近聚类中心的点来代替整个聚类中的实例参与个体评价,从而有效地减少评价时间。同时,为了进一步优化性能,本文提出了一个基于聚类重要度的局部搜索算子对每个个体选中的聚类内部进行搜索,一个压缩保持进化算子考虑到个体中没有选择的聚类,把所有聚类作为一个整体进行进一步的搜索。在12个常用的更大规模的分类数据集上的实验显示,相比于LR-MOEA和其他基于进化优化的实例选择算法,CE-MOEA能在明显较少的计算时间内取得精度和压缩率都较好的结果。
其他文献
生产调度问题是运筹学的重要研究方向之一,在金属加工、物流货运以及食品制造业等都有着丰富的应用。随着工业的发展,传统的工作模式难以满足日益复杂的调度环境,而批调度生产模式能够批量处理材料因此得到广泛关注。制订高效的批调度方案可以实现有限资源的合理配置,压缩工业成本的同时提高生产效率,是企业保持长久发展的重要途径。本文以半导体芯片制造业以及智慧物流等工业的生产过程为背景,面向基于成组分批加工的运行模式
粮食安全一直是国家军事战略安全和农民基本生活保障的重要支撑点,对维护社会秩序、市场合理化、国家安全起着非凡影响。当前我国粮情测控问题主要包括温湿度采集硬件成本高和粮仓环境变化不能精确测量和控制,从而造成粮食的损坏和浪费,并且严重影响粮食存储安全,损害国家利益。因此针对现有粮情测控问题,将无线传感器技术、低功耗和远距离无线电传输技术(Long Range,LoRa)和神经网络知识应用于粮情测控领域很
如何在不耗费过多资源的前提下拥有较高的作业效率一直是学术界研究的重点和难点,传统优化策略对该问题的寻优效果往往并不理想,而群智能优化算法的出现使学者们的寻优思路不再过于局限。该类算法可以通过不断的迭代和搜索以获取最终结果,在求解过程中不仅可表现出极高的智能性还能够极大减小人力资源成本。蝙蝠算法(Bat Algorithm,BA)主要是对自然界中蝙蝠超声波的回声特征进行模仿,作为一种具有代表性的群智
小麦籽粒在感染赤霉病(Fusarium head blight,FHB)的过程中所累积毒素会对人和动物的健康造成巨大的危害,同时也会影响小麦的产量。传统的赤霉病识别主要依靠专家的经验以及一些设备仪器,该方法存在耗时耗力和低效等缺点。因此,开发出一种高效的小麦籽粒赤霉病识别方法至关重要,对于我国智慧农业的发展具有重要意义。现有研究表明,光谱学技术具有快速无损的特点,可以应用于农作物病害的检测。目前,
近年来,民用汽车保有量的持续增长,导致交通供需不平衡问题日益严重。交通流数据能够直观反映出实时的交通状况,若能提前了解可靠的交通信息,将有助于交通管理者制定和实施交通规划策略,有效地降低公共安全风险。同时,还可以帮助旅行者更好地规划出行路线,减少时间成本和经济损失。因此对道路的管理者和使用者都具有十分重要的意义。然而,由于道路之间的时空相关性复杂多变,交通流数据的非线性和随机性特征,交通流预测变得
现实世界中的复杂系统与人们的生活密切相关,这些复杂系统都可以表示为复杂网络,其中社团结构作为复杂网络的重要特性之一,对于分析复杂网络的结构属性和潜在功能具有重要作用。复杂网络中的社团结构主要分为两类:一类是非重叠社团,即网络中节点只能属于一个社团;另一类是重叠社团,即网络中节点可以属于多个社团。由于现实世界中大部分复杂网络都具有重叠社团结构,所以本文关注重叠社团检测问题。为了解决这个问题,基于多目
随着大数据以及云服务时代的来临,互联网上Web服务呈指数增长,具有类似功能的Web服务也急剧增多。如何在功能相同的海量服务中为用户推荐满足其需求的服务成为服务推荐领域的研究热点。服务的QoS作为衡量服务非功能属性的指标一直广泛应用于服务推荐领域中。然而,在当前网络环境下,由于种种条件限制,用户不可能亲自调用每一个服务来获取QoS值,因此,QoS预测成为为用户在短时间内推荐服务的有效途径。传统的协同
随着城市中汽车数量与日俱增,交通流量日益扩大,给我国智能交通系统带来一定挑战,因此车牌定位与识别技术的研究不能停滞不前,尤其是车牌定位技术更是整个研究领域中最为关键的一环,同时随着汽车周围环境的变化和不确定因素的干扰,传统固定场景下的车牌定位方法逐渐难以满足越来越复杂的实际场景需求。本文基于经典的特征设计工程以及深度学习在目标检测领域获得巨大成功的前提下,针对复杂场景下的车牌定位难的问题提供了两种
近年来,随着科学技术的进步,出现了许多包含大量特征的问题。大量的冗余特征会显著降低模型的学习精度和速度。为了消除冗余特征,特征选择在各个领域被广泛应用。现有的特征选择算法主要分为两类,第一类为过滤式方法,该方法根据数据的特性定义一些评价指标,通常速度较快。第二类是包装式方法,包装式方法通常是一种迭代型算法,能够得到较高的分类精度。为了能够同时提高算法的分类精度和缩短算法的时间,一种基于混合(结合过
随着人工智能技术的快速发展,智能化的人-机交互设备已逐渐走进人们的生活。虽然它们能够较好地按照人们的意愿完成相应的功能,但几乎不能进行情感交流,无法根据使用者的心理感受调整交互方式,这极大制约了其功能和应用范围。情感作为一种主要的信息交流方式,在人们的日常沟通中发挥着重要的作用。开发具有情感自主感知的人机交互系统,已成为人工智能与人机交互领域中一个重要的研究方向。目前,情感计算的主要数据来源大致可