基于马尔科夫模型的无监督特征选择方法与应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Mos_Lei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着涉及的数据越来越复杂,在机器学习、数据挖掘等领域,对于一些高维数据,例如图像、文本和音视频等数据的处理需求明显增加了。同时,我们也面临着因特征太多、噪声或冗余特征的存在而造成的一些问题,这不仅会导致后续的模型预测结果不准确,还会耗费大量计算时间。由此可见,采用某些手段找出最优的特征子集是非常重要的,使用最优特征子集进行后续训练不仅可以减少过拟合问题发生的机率,增强算法模型的泛化能力,减少模型训练所需要的时间,还可以使算法模型解释性更强,甚至还可以提高模型的性能。特征选择由于其可解释性,是一种广泛用于选择最优特征子集的降维技术。由于类标签的获取成本很高,无需任何标签信息的无监督特征选择更具现实意义和挑战性。在此背景下,本文提出了一种被称为“基于多步马尔科夫转移概率的无监督特征选择方法”,该算法可被简称为“MMFS”。本文也将基于马尔可夫模型的无监督特征选择算法应用到了实际项目中。为了解决高维数据带来的问题进而提高后续算法模型的性能并且在数据极度不平衡的实际项目中应用本文提出的无监督特征选择算法,本文主要做了以下工作:(1)本文提出了一种基于马尔可夫模型的无监督特征选择方法,该方法主要是通过保留流形上的数据间的结构信息来选择出能反映这种数据间关联性的特征。该方法不是直接使用欧氏距离,而是使用多步马尔可夫概率来描述数据间的关联信息。因此,我们的方法不仅能得到了一个数据点与其相邻数据点之间的关系,还能通过多步马尔可夫转移概率得到了数据点与远离它的数据点之间的一些关联性。并且,基于多步马尔科夫转移概率的无监督特征选择算法与现有的解决方案不同,我们从正反两个角度设计了两种算法来选择能够很好地保持数据原有关联信息的结构,再进一步选择出能更好保留这种数据结构信息的特征作为最终选择的最优特征子集。使用该方法进行特征选择之后,所属于同一类别的数据的分布将更加紧凑。实验表明,与其他当前主流的无监督特征选择方法相比,该方法具有一定的优越性。(2)针对司法项目中需要对案件特征进行权重赋值的任务,因为该项目涉及到的案件数据集中信访案件和非信访案件的数据量极度不平衡,甚至达到了会让分类器毫无意义的程度,所以,本文中先使用高效的过采样技术对信访案件数据进行过采样处理后再进行后续的特征选择来获取案件特征的重要程度,此时利用基于马尔可夫模型的特征选择技术对案件特征进行相应的权重计算,最后对特征选择得到的权重进行相应处理以方便后续使用。通过实验对比可知,该方法可以成功应用到司法项目中并且取得了良好的效果。
其他文献
在依靠实时着色方式来着色三维场景从而得到着色效果的应用领域中,例如游戏、工业仿真以及建筑设计等领域,通常需要着色效果逼真的图像为用户提供身临其境的感觉。实时着色可采用的光照模型有很多,例如Lambert光照模型、Phong光照模型以及PBR光照模型等。为了使实时着色的效果更加逼真,在实时着色时一般采用PBR光照模型来对三维场景着色,PBR光照模型会对三维场景中模型的材质预先设定,这样在光照计算时会
作为计算机视觉领域内的主要研究方向之一,目标检测的核心目的是对每张输入图像的待检测目标进行分类和定位。自2011年以来,在深度学习的辅助下,目标检测任务在医学影像、军事运用、信息挖掘等领域取得了诸多成果。然而基于卷积神经网络的目标检测技术依旧存在诸多问题。首先现阶段常见的轻量化方法忽略了特征集合自身的特点;其次,不同尺寸的目标的检测精度参差不一,检测效果处于劣势的小目标对整体精度的测算带来很多负面
当前,人们对于对流初生短临预报的需求日益增长,随着深度学习技术的不断深入发展也使得利用深度学习方法进行对流初生短临预报成为了可能。虽然我国近几年在灾害性天气中的预报取得了长足的进展,但传统的数值天气预报方法在对流初生短临预报上仍面临较大的挑战。在本论文中,针对对流初生短临预报问题,我们尝试使用深度学习的方法提升预报模型的时效性和准确性。本论文依托中国电子科技集团公司第十四研究所所控横向项目开展工作
随着经济的增长,中国的汽车总数逐年增加,这大大增加了交通事故和交通堵塞的可能性。无人驾驶作为一种新的研究领域,期望能优化由汽车带来的一系列交通问题。无人驾驶的研究是复杂且长期的,它包含了多个方面的研究,信息采集就是其中的一个。信息采集包含了对道路中各种关键信息的检测,包括车道线、红绿灯、交通标志等。本论文以无人驾驶领域中的交通标志检测为研究课题,重点研究了基于YOLO v3改进算法的交通标志检测、
人体语义分割是一种精细的语义分割任务,其目的是在像素级尺度上识别人类图像的组成部分(如身体部位和衣服)。理解人类图像的内容,对电子商务、人机交互、图像编辑和虚拟现实等一些潜在的应用很有应用价值。目前,随着基于语义分割的全卷积神经网络的发展,人体语义分割取得了重大进展。人体语义分割与一般的图像分割相比,其难点主要有以下几个方面:首先,人体语义分割在实例场景下的数据比较复杂,涉及到多种场景,例如多人或
随着通信技术的发展,辐射源个体识别在很多领域具有广泛应用,例如电子信息对抗、频谱管理、生命科学和故障诊断等领域。然而现在的辐射源个体往往具备多种调制方式、中心频率、传输速率等特点,这将给辐射源识别带来极大挑战。在辐射源个体之间无明显差异的场景下,基于传统机器学习的辐射源个体识别算法准确率往往不够理想,而且其复杂度比较高、识别时间长,导致其很难满足现代的实际工程需要。为了解决以上问题,本文主要采用基
为让机器人在工作环境中自主地移动,定位和绘制环境地图这两项基础功能便是不可或缺的。经多年发展,基于视觉的同时定位和制图(Visual Simultaneous Localization and Mapping,VSLAM)已经有比较成熟的框架,且能为机器人提供基本的环境感知能力。SLAM(Simultaneous Localization and Mapping,SLAM)系统框架的前端是整个框架
随着新能源汽车扶持政策的持续发布,如今有越来越多的高校和企业活跃在新能源汽车市场。当前我国新能源汽车正在迈向中高级阶段,有着重解决汽车本身充电、续航、安全性等基础技术问题,转向关注与其他高技术行业的协同,充分挖掘新能源汽车的潜能。本课题以故障预测和健康管理(PHM)技术为核心思想,设计了一套结合机器学习和UDS(Unified Diagnostic Services)诊断的车载同步电机的故障诊断系
随着互联网的飞速发展,网民数量爆炸式增长,web应用系统面临巨大的负载压力,负载的波动性也更加显著,传统固定集群规模的web系统难以保证良好的服务质量。结合云服务的动态资源申请,弹性web系统利用能够根据当前负载水平自动增减硬件资源,动态调整系统集群规模,始终保持良好的服务质量,因此,弹性伸缩web系统成为互联网技术领域的重要研究方向。随着技术的迭代,微服务架构和容器技术成为当前web系统主流的软
绳驱式蛇形机械臂是一种仿生物蛇的连续型机械臂,相比于传统工业机械臂,蛇形机械臂能够灵活的在狭小空间作业,同时绳驱式下驱动和作业臂分离的特点有利于机械臂的抗辐射和水下密封设计。本文针对核电站水池的使用环境设计了能够同时满足抗辐射需求和水下作业环境的蛇形机械臂机器人,这时国内第一次尝试把绳驱式蛇形机械臂应用于核环境水下作业。相比于已有的研究,本文的机械臂更注重在实际环境中的功能、可靠性和使用体验,同时