基于SVDD的分类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:yangke0248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域中,分类是一项非常重要的任务。然而在现实生活的分类任务中,不同类别的数据可能存在重叠部分,分类时会出现不可分区域,这类样本很难被正确分类。机器学习主要是计算机通过对已知数据进行训练,得到模型,并运用它对未知数据进行预测。机器学习面临的未来的数据和将来的行为引发的结果是不确定的。概率机器学习针对这种不确定性提供了一个概率框架,对模型和预测的不确定性进行表示和控制。因此对不确定性任务进行研究是一项非常有意义的课题。另外,在现实生活中,一些样本很容易被采样,而另一些样本由于其领域的特殊性,致使其采样工作比较困难。这就导致目标数据集中一些类的样本很多,而另一些类很少的情况,即样本的分布是不平衡的。然而传统的机器学习分类算法在解决这类问题时,会倾向多数类样本,使得分类时存在一些问题。例如在机器故障诊断、医疗诊断等问题中,我们需要关注的就是这类数量很少却非常重要的样本。如果将其错误分类可能会造成非常严重的后果。因此如何提高非平衡数据中的少数类的分类性能是很重要的。为了解决上述问题,本文开展基于SVDD的分类方法研究。主要内容包括以下两个方面:(1)针对分类任务中存在的不确定性,而目前概率机器学习方法和传统的支持向量数据描述方法在处理该问题时面临一些问题,本文提出一种基于概率的支持向量数据描述方法。首先利用传统的支持向量数据描述方法分别对两类数据进行训练,得到数据描述,并计算测试样本其中心的距离;然后构造了一个将距离转换为概率的函数,提出了一种基于概率的支持向量数据描述方法。同时使用Bagging算法进行集成,来进一步提高数据描述的性能。通过实验证明,传统的SVDD方法相比,所提算法在准确度和F1值上的效果更好,数据描述的性能有所提升。(2)本文针对常见的两类数据的非平衡分类问题,从算法层面出发,提出了基于优化的支持向量数据描述方法。首先介绍了几种常用的优化算法,然后介绍了解决非平衡数据分类问题的支持向量数据描述方法,同时将样本的数量信息和分布信息进行结合,重新定义了C值,并且使用了几种优化算法进行对比,最后在UCI数据集的五个数据集上进行了实验。实验结果表明所提算法在优化算法的作用下有一定的优势,其中GA算法的整体效果较好。总之,本文针对机器学习分类任务中存在的两种问题,使用支持向量数据描述方法进行了研究,并在实验数据集上进行了验证。本文的研究为机器学习分类任务提供了新思路与新方法,在机器学习领域有一定的理论和应用价值。
其他文献
在建筑设计过程中,需要对建筑是否达到节能标准进行判断,通常会运用模拟软件进行能耗模拟计算。要进行建筑能耗模拟一般需要一整年与能耗相关气象参数的逐时数据,对于长期的
随着科学技术的发展,传统的成像模式已经不能满足人类日益发展的成像要求。由于光场成像模型能够很好的记录光线的位置和方向信息,因而光场成像模型的工业化也将成为未来发展
计算机断层成像(Computed Tomography,CT)技术是现今医学临床检测及放射治疗领域的重要手段。但研究表明,患者经过高剂量的X射线扫描后,在照射过程中接收的电离辐射有导致癌
近十年来,中国内地股市取得了长足发展,中国内地股市规模迅速扩大。相关法律法规的完善,逐步解决了一系列问题。同时,随着全球化影响的加深,中国与世界主要股市的联动性也日
高速发展的网络科技推动了信息与数据的大量生产,但同时也造成了信息过载问题,个性化推荐系统较好地缓解了这一现象,现已应用在众多网络平台。同时,随着社交网络的兴起,社会
白光LED由于能耗低、发光效率高、寿命长等优点已经广泛的应用到各个照明领域,因此随着照明领域的飞速发展,对白光LED的要求也越来越高。为了提高荧光粉的发光性能并更好地运
并购,是企业提高竞争力的重要方式之一。但并购是否真正给企业创造价值,国内外学者对此一直存在争议。行为金融学认为人是“非理性”的,人的决策行为容易受主观因素影响,而过
数据对于物联网(Internet of Things,IoT)生态系统至关重要,其数据可服务于许多不同类型的应用和利益相关者,如智能家居,智能城市,智能电网,政府组织,开发人员和相关居民等。
逆向工程技术与计算机图形学技术不断发展,在复杂曲面结构模型的设计、制造等多个阶段得到了广泛应用,新技术的引入加速了模型的数字化进程。数字化处理后的模型可用于特征分
柔性应变传感器具有柔韧、可折叠、质量轻、集成度高等优点,在健康监测、可穿戴电子设备、电子皮肤等领域具有广阔的发展前景。柔性应变传感器的核心部件由导电敏感膜和柔弾