面向不平衡数据的优化方法应用及研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户：yhmlivefor52

【摘要】

：

【作者】

：

刘顺欣

【机构】

：

中国石油大学(北京)

【出处】

：

中国石油大学(北京)

【发表日期】

：

2020年01期

【关键词】

：

不平衡数据过采样欠采样集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

训练样本类别不均衡容易导致分类模型过度偏好,降低少数类样本识别精度。该问题的解决方法包括数据层面的过采样方法、欠采样方法及算法层面的集成学习。现有的过采样算法生成的样本具有局限性,并且忽视了类内不均衡问题,为此本文提出一种基于高斯混合模型和JS散度的过采样算法（GJ-RSMOTE）。该算法使用高斯混合模型对少数类样本聚类,并在超球体内生成新样本,最后利用JS散度控制采样数量。通过在UCI数据集和地震相数据集上,与其他过采样算法进行对比实验,证明了该算法能有效地提高传统分类器的分类性能。现有的欠采样算法没有同时考虑样本的整体分布与局部分布,为此本文提出一种基于高斯混合模型和样本分布的欠采样算法（GD-US）。该算法通过类簇的密度分配采样率,并利用样本的整体分布与局部分布确定样本的被删概率。通过在UCI数据集和地震相数据集上,与其他欠采样算法进行对比实验,证实了该算法的有效性。随机森林及其改进的算法通过Bootstrap采样构造训练子集,产生重复样本导致基学习器过拟合。为此本文提出一种基于聚类组合的集成学习算法（CC-RF）。该算法对两类样本分别聚类,再对类簇进行两两组合得到若干训练子集,最后通过改进的加权投票策略得到最终的分类结果。在UCI数据集上与其他集成学习方法进行对比实验,结果表明该算法的分类能力优于其他算法。

其他文献

基于深度学习与NMF的多视图子空间学习研究

多视图数据通常定义为由不同表示组成的综合型表示数据。多视图数据处理过程中的两个关键因素分别是一致性特性和互补性特性,基于这两个特性使得多视图学习可以更全面地覆盖数据样本的所有特征。然而,大多数针对多视图数据的算法只能针对单视图进行处理并忽略了这两个特性。为了更加完善地利用多视图数据间的各种信息,衍生了许多新兴算法用于处理各个视图中的特征数据。多视图子空间学习方法通过对所有视图数据的多个子空间或隐空

学位

多视图学习分类与聚类注意力机制自编码器非负矩阵因式分解

基于预测控制和信息熵的PID参数自整定方法

PID控制算法容易实现、鲁棒性强,至今仍是一种应用最为广泛的控制算法。PID控制器在工业现场运行的时候,由于外界条件的改变或被控对象本身发生变动,都会使得过程控制发生变化,造成PID控制参数不再适用于当前被控对象,控制效果变差,需要重新整定PID控制参数。因此,本文研究了PID控制参数的在线自整定方法,使PID控制器具有自整定功能,在被控对象动态特性变化时,能够在线自动调整PID参数以适应新的工况

学位

过程控制PID控制器自整定辨识耦合

基于三种典型机器学习算法的安全研究

大数据处理与云的结合是一种必然。大数据处理需要强大的计算能力与存储空间,而云端资源的可动态调配正好满足了这一需求。云端的资源优势,可为大数据处理提供适宜的平台。然而,大数据与云结合的应用场景需要解决数据隐私保护的难题。开放的云环境不仅需要面对来自内外的安全威胁与挑战,半可信和诚实但好奇的云服务（honest-but-curious）更加剧了问题的难度。如何找到一种处理办法,既能够有效地保证大数据处

学位

云计算隐私保护逻辑回归深度学习k-means聚类

面向轨道交通的实时预取技术研究

无线预取技术由于显著减少了内容请求延迟和网络拥塞而受到了广泛的关注。现有的预取方案,大多数方案都考虑了弱移动性、无规律性网络拓扑和随机漫游的场景,与轨道交通的应用场景并不一致。在本文中,我们研究了在C-RAN架构下的轨道交通场景中的预取问题。针对轨道交通场景中的线状拓扑网络、固定的移动特征、相对稳定的人员和有限计算力环境,以平均访问延迟最小化为目标,设计基于按路径逐基带单元（Base-Band U

学位

轨道交通文件预取访问延迟马尔可夫文件状态转移背包问题

应用机器学习预测套管损坏的方法研究

随着油田进入开发的中后期,地质条件越来越复杂,油水井发生套管损坏的频率也越来越高,严重制约了油田的开发效益。因此,对套管的生产状态进行实时预报,有助于及时采取预防措施,对维持油田的正常生产具有重要的工程意义。套损问题影响因素多、机理复杂,而传统的套损预测方法多是面向地质、工程等静态数据建立力学模型,难以及时反映油水井生产环境的变化。因此,本文首先面向生产动态数据建模,对比了多个常用分类模型在套损预

学位

套损预测AdaboostK-means样本不均衡

一种基于强化学习的井下全闭环智能导钻方法研究

导钻是油田勘探开发中成本最高、技术最密集的环节。现有的导钻方法主要为井下半闭环随钻导向作业。它包括地面分析决策和井下数据采集,通过实时数据双向传输、地面和井下作业相互配合来执行导钻动作从而控制井眼轨迹。然而这种方式对信号传输速度和传输效率依赖性较高,且井下环境复杂,在距离地面较远的深井、超深井,几乎难以实现有效的数据传输。另外,地面的分析决策环节涉及复杂人类专家分析和精细管理工作,人工成本较高。因

学位

智能导钻方法模拟钻进交互机制强化学习自适应机制

基于相关滤波的上下文感知目标跟踪算法研究和设计

目标跟踪是在视频初始帧中选定目标的前提下,在后续帧中检测到相同目标的任务。近些年来,使用深度学习的目标跟踪方法取得了较好的效果。但高维的深度特征及频繁的卷积和池化运算造成了跟踪延时,跟踪过程中目标的外观变化和完全遮挡发生模型漂移。为了解决上述问题,本文基于相关滤波跟踪算法,对深度特征进行优化;并利用上下文信息和时间信息改进上下文感知相关滤波模型,来提高目标跟踪的精准度。本文的主要研究内容如下:（1

学位

目标跟踪相关滤波深度特征自动编码器

机器人室内导航与避障系统应用研究

近年来,随着机器人技术发展迅速,其中的一个分支,移动机器人的导航和避障问题同样备受关注,也有了长足的进展。分析和研究移动机器人定位和路径规划算法能够提升导航和避障的精度,有着重要的理论意义和应用价值。本文首先整理介绍了国内外学者关于定位算法,路径规划算法的研究现状;然后分析比较多种定位,地图构建,路径规划算法并确定了本文的导航避障系统方案;接着针对RBPF-SLAM算法重采样阶段粒子退化严重,多样

学位

移动机器人导航ROSSLAMRBPF算法

基于空间划分的符号回归算法研究与设计

基因表达式编程（Gene Expression Programming-GEP）是处理符号回归（Symbolic Regression-SR）问题最常用的算法。然而它是一种没有方向和记忆的随机搜索算法。它在搜索过程中,种群个体结构很容易趋于相同,从而丧失搜索功能,并且很易于陷入局部最优。为了克服这些缺点,本文提出一种基于空间划分思想,采用上置信界方法（Upper Confidence Bound

学位

符号回归基因表达式编程空间划分UCB方法极值理论

基于神经模块网络的视觉复杂问答系统研究

目前,视觉复杂问答系统已经能够在CLEVR数据集上对视觉问答系统所不能回答的复杂问题进行解答。但是,目前的视觉复杂问答系统存在一些缺陷,其中主要包括,由强监督学习引起的模型过拟合、标注成本过高以及泛化能力差的问题;由模型结构缺陷引起的系统难以处理长问题的问题;由贪婪算法引起的系统陷入局部最优解的问题。针对视觉复杂问答系统存在的上述问题,本文首先分析讨论了上述问题出现的原因。随后,针对这些问题提出了

学位

视觉复杂问答系统注意力机制束搜索算法主动学习

面向不平衡数据的优化方法应用及研究

其他学术论文