【摘 要】
:
在机器学习领域中,基于训练样本实例建立模型可用于数据预测和解释,但其有效性、精准性受到数据不平衡等因素影响,会出现分类面偏倚的现象,从而降低模型的分类性能,为此提出
论文部分内容阅读
在机器学习领域中,基于训练样本实例建立模型可用于数据预测和解释,但其有效性、精准性受到数据不平衡等因素影响,会出现分类面偏倚的现象,从而降低模型的分类性能,为此提出了两种基于Isolation Forest(iForest)的采样算法:iForest-RM欠采样和iForest-SMOTE过采样算法。iForest-RM针对负类(多数类)样本进行欠采样均衡数据集。首先,利用iForest形成每个样本在样本空间中的分布特征评估值,进而定义其概率分布;然后,根据概率分布,按给定采样率,通过轮盘转算法在负类样本中选取样本;最后,通过K-means方法形成若干负类样本聚类中心,并以聚类中心为最终负类选取样本,实现正负类样本均衡。iForest-SMOTE针对正类(少数类)样本进行过采样均衡数据集。首先,使用iForest定义并生成所有样本的概率分布;然后,剔除最近邻为负类的正类样本,在每次SMOTE过程中随机选择正类样本p及其近邻的k个正类样本,使用轮盘转算法按照近邻样本的概率分布选择样本q;最后在p与q构成的M维球体内插值,生成足够的正类样本,实现正负类样本均衡。通过UCI数据集和地震物探相数据集在Adaboost集成学习模型上与其它采样算法进行实验对比,证实了本文算法具有更好的均衡化能力,能够有效应用在地震相岩性识别项目中。
其他文献
目的:调查老年T2DM患者抑郁水平的现状,分析老年T2DM患者自我感受负担、家庭支持和抑郁水平之间的关系。并据此探讨更有效的有针对性的干预措施用于改善老年T2DM患者心理健康
目的:探究紫草对兔心脏术后心包粘连的预防作用及其可能的作用机制。材料与方法:选择雄性日本大耳白兔32只,以每组8只按随机数字表法分为空白对照组、模型对照组、赛必妥组和
研究证实,关于人类进化、疾病以及遗传的信息都蕴含在人类基因组数据中。从出现人类现代生命科学以来,对于基因组数据和基因变异的研究一直是学界的热点问题。基因测序技术对
新一代的雷达、通信、电子侦察等电子信息系统对模数转换器的带宽、速率和精度的要求越来越高。然而,传统的电模数转换器的性能受限于带宽和时间抖动等“电子瓶颈”,较难满足
在涉及到高速集成电路设计分析相关问题的时候,常常需要建立精确的微分代数方程,如何准确有效地求解该方程是电路模拟中的一个重要分支。传统分析中,研究者通常使用不同种类
近年来,随着互联网技术的提升,用户数量迅猛增长,数据量急剧膨胀。快速处理及高效分析这些数据,成为一项非常迫切的任务。MapReduce异构集群已经成为被广泛使用的数据高效的
背景:静脉畸形一种是头颈部常见疾病,可导致颜面部畸形、功能障碍、感染以及出血等并发症。近年来,博莱霉素泡沫已经成为一种治疗静脉畸形的有效方法。目的:对当前临床使用的
蔬菜嫁接用苗的品质直接影响嫁接效率和嫁接成活率。目前嫁接用苗的筛选工作主要由人工进行分选,具有效率低、劳动强度大等缺点。本研究基于机械化嫁接对砧木用苗的要求,采用
背景:膀胱癌在泌尿系统的恶性肿瘤疾病发病率中高居第二,每年在全世界范围内有两百万人罹患此病,近年来随着治疗技术的进步死亡率逐渐降低,但膀胱癌的进展与转移仍然危害着众
具有电子给体-π共轭-电子受体(D-π-A)及其相似结构的推拉多烯体系作为典型的有机光电材料由于具有较好的光电性质,在有机光电材料领域有着广阔的应用前景。这些推拉多烯结