【摘 要】
:
随着人工智能和机器学习技术的日益兴盛和逐渐成熟,对数据中隐含的信息进行挖掘也变得更加的重要。如何有效地挖掘数据中的关键信息,提升机器学习效率也成为了亟需解决的关键问题。在信息时代,企业通过尽可能多地收集各种日志数据、在线数据等不同形式的数据以满足不同的业务和智能计算的需求。由于计算机能力或响应时间的限制,更多的数据特征也意味着需要更多的时间和金钱成本,同时不必要的特征甚至可能降低算法的泛化性能。特
论文部分内容阅读
随着人工智能和机器学习技术的日益兴盛和逐渐成熟,对数据中隐含的信息进行挖掘也变得更加的重要。如何有效地挖掘数据中的关键信息,提升机器学习效率也成为了亟需解决的关键问题。在信息时代,企业通过尽可能多地收集各种日志数据、在线数据等不同形式的数据以满足不同的业务和智能计算的需求。由于计算机能力或响应时间的限制,更多的数据特征也意味着需要更多的时间和金钱成本,同时不必要的特征甚至可能降低算法的泛化性能。特征选择算法旨在从原始特征中选择出一部分有效特征,降低数据维度,以提高学习算法性能。特征选择在降低数据维度的同时还能保留数据原本的含义,因此特征选择方法的研究得到了很多学者的关注。信息论是特征选择中常用的评价方法之一,其中的互信息能有效地识别数据间的线性相关性和非线性相关性。但互信息存在不能够很好地适应数值数据的问题,而现实数据往往是既包含数值特征又包含符号特征的混合类型数据,如何恰当且高效地衡量数值数据间的互信息具有较高的究价值。在大数据时代,各行各业积累了大量数据,然而数据的标记大多只能通过昂贵的人工标记来标记其中较小的一部分。如何有效的利用这种只包含小部分标记的数据已经成为机器学习邻域中备受关注的问题。面对混合类型数据、半监督数据和大数据的挑战,本文依次提出了解决方案。最后实现了基于Spark的混合属性大数据半监督特征选择算法。本文的主要研究工作和创新点如下:提出了结合邻域粗糙集差别矩阵和mRMR原则的特征选择算法。根据最大相关性和最小冗余性原则利用邻域熵和邻域互信息定义了特征重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效地去除冗余属性并缩小搜索范围,优化特征子集,根据差别矩阵判定搜索截止条件。实验结果表明本文方法能有效地提高分类精度。针对小数据的邻域互信息存在较大误差的问题,使用基于邻域的对称不确定度替代邻域互信息进行特征重要度评价,提出了基于邻域的对称不确定度的半监督特征选择算法。特征的相关度计算使用有标记的数据,属性冗余度计算使用完整数据,尽可能地利用数据信息来评估特征间的冗余度。实验结果表明在小数据集上,提出的方法能在选择特征较少的前提下获得更高的分类精度。针对基于邻域粗糙集的信息熵和互信息计算复杂度过高的问题,提出了基于数据排序的邻域互信息快速计算方法。该方法能够将邻域熵的复杂度从O(n~2)降低到O(nlog n),并且能够在O(nlog n)复杂度的前提下,计算基于无穷范数邻域关系的联合邻域熵的近似值,进而快速地估计邻域互信息。实验表明在大数据集下,本方法较明显地降低了邻域互信息的计算时间,并且能保证较高的近似精度。利用Spark框架,结合前期研究,提出了基于列式分区的混合数据类型数据的半监督特征选择算法。利用快速邻域互信息算法,实现了在满足混合类型数据处理的同时,具有较快的运算速度的要求。优化了启发式搜索过程,去除了传统算法中的重复计算。实验结果表明提出的算法具有能够选择出较好的特征提高分类性能,同时能够应对海量数据带来的挑战。
其他文献
随着科技的发展与不断突破,如何找到对复杂非线性系统可靠而有效的控制算法成为迫切的需求。模糊控制技术在缓解这种需求方面扮演着重要的角色。T-S模糊系统非线性地综合许多线性时不变子系统,来逼近原非线性系统的动态特性。这在非线性系统和线性系统之间建立起一座有力的桥梁,使得非线性系统的控制问题得以借助丰富而成熟的线性系统理论来解决。在进行控制算法设计时,除了保证闭环系统的稳定性以外,也希望达到某些额外的控
近年来,随着网络技术的迅速发展,消费者阅读习惯改变、移动数字终端兴起、网上书店发展势头迅猛等原因,实体书店发展面临越来越严峻的挑战。实体书店在为群众提供基本公共文化服务、营造全民阅读文化氛围、弘扬主流价值观思想等方面发挥着重要作用。但是,我国国民人均纸质阅读量极低的现状成为阻碍书香社会目标实现的一大阻力。本文以莱芜地区最大的民营实体书店三味书屋为例,通过文献研究法总结借鉴国内外实体书店成熟的营销模
庞大的农民工队伍是国家经济建设的生力军,但由于大多数农民工文化程度较低,专业技能欠缺等原因,他们在就业过程中遇到了诸多问题。而女性农民工除了普遍性问题之外,还由于性
厦门、漳州、泉州因三地相近的地理环境、共同的闽南文化脉络以及错位发展的产业布局等,为同城化的提出与发展提供了可能性。党中央、福建省委省政府的支持,有限的资源需要有
随着移动互联网的快速发展,终端设备中的视频传输业务不断涌现。在交互式流媒体场景中,不同设备间进行着频繁的数据交互,实时性要求高,数据包的时效性对系统性能至关重要。近年来,研究人员使用信息年龄(age of information)来衡量数据包的信息时效性。信息年龄的大小定义为最新接收到的数据包从生成到当前时刻经过的时间。由于通信资源有限性和信道状态的动态变化,终端设备生成的数据包不能够及时传输到数
被动式超低能耗建筑是一种节能、环保、舒适、健康的绿色建筑。气密性及室内环境的舒适度是检验被动房的关键指标。房屋的热损失主要集中在屋顶、地面、外墙保温及窗户等关键
仿人机器人在行走和作业过程中往往会因自身或者环境因素摔倒,机器人摔倒可能导致其自身部件损坏,无法完成任务。目前国内外已经开展了仿人机器人摔倒保护的研究,其中大部分采用仿生手段对机器人进行摔倒运动规划。然而,对于仿人机器人摔倒利用手臂支撑减小损伤的情况鲜有研究。本文开展关于仿人机器人前摔保护的研究,利用摔倒检测机制判断机器人的状态,提出了仿人机器人摔倒保护策略,提出手臂着地时最佳触地点的概念,利用手
全球范围内,运用大数据推动经济发展使得数据特征维数呈几何式增加,众多领域数据的特性促使特征选择成为解决维数灾难、提高算法泛化能力的有效手段之一。同时多种类别数据的特征以组结构形式存在,基于传统方法对系数添加组结构惩罚项来实现特征选择的方法日益成熟。该文针对组Lasso(Least Absolute Shrinkage and Selection Operator)回归模型一组内所有变量同时选择或舍
浪潮优派公司隶属浪潮,以IT职业培训为主营业务。在当前形势下,公司面临着千载难逢的发展机遇,但近几年的成长速度极为缓慢。深入研究各种环境因素对公司的影响,挖掘自身企业优势资源,制定发展战略,具有极为重要的现实意义。浪潮优派公司依托浪潮集团和印度UPTEC双重优势资源,在培训行业已经发展了十年。新基建、智能制造、两化融合等任务每一项都离不开IT信息技术的发展,为了培养多元化信息技术人才,优化产业结构
城市数据作为城市规划建设、相关法律规定、前沿学术研究趋势和经济走势的重要参考依据,在现在生活当中的价值举足轻重,但目前以城市数据为主题的交流、数据资源共享方面仍显不足。本文以城市数据人才需求为研究背景,开发了一款具有个性化推荐机制的城市数据主题交流系统(称作“城市数据派”),可提高城市数据人才交流的效率,有助于城市数据信息最大化的利用。本文明确了用户对系统的功能需求与性能需求,并分析梳理了与系统各