【摘 要】
:
近年来,数据挖掘技术作为机器学习、人工智能、统计学等学科的交叉产物,已经成为数据研究领域的热点。越来越多的数据以流的形式出现在各个领域,例如:天气预测、网络搜索、网
论文部分内容阅读
近年来,数据挖掘技术作为机器学习、人工智能、统计学等学科的交叉产物,已经成为数据研究领域的热点。越来越多的数据以流的形式出现在各个领域,例如:天气预测、网络搜索、网上购物、信用卡欺诈检测、医学、金融分析、生物分析、股票分析、社交网络、市场营销等。如何从这些数据流中获取潜在的、有效的、有价值的信息,已经成为数据流挖掘领域的一个重要研究方向。数据流分类是数据流挖掘领域的一个重要研究内容。对具有动态、连续、多变等特性的数据流进行分类时,普遍存在的误分类以及概念漂移等问题都给其带来了很大的困扰,这就要求分类器能够快速地进行调整以便能更好地适应未来数据流中存在的变化。数据流自身具有的特点给传统处理静态数据分类的技术带来了巨大的挑战,提出新颖的适应动态变化的数据流分类算法迫在眉睫。针对数据流分类的相关问题,本文提出了两种数据流分类算法,具体内容如下:(1)针对数据流速度快、不稳定的特点,提出了一种基于粒子群优化的在线连续极限学习机集成分类算法。提出的算法首先以在线连续极限学习机作为基分类器,并根据不同的激励函数集成各个基分类器;然后利用粒子群优化算法优化集成中各基分类器的权值;最后通过投票模型预测分类结果。本文选择了四个方法进行实验对比,从UCI中选取了几个数据集进行评估,实验结果表明本文提出的算法具有较高的准确率、G-mean值及较好的抗噪性。(2)针对海量、连续、动态的数据流分类中出现的概念漂移问题,提出了一种基于相对熵的数据流概念漂移检测算法。数据流的处理是一种增量式更新处理的过程,其中将决策树作为基分类器,分别求得分类器的准确率与对应叶子节点相对熵的值,进而判断数据流是否发生概念漂移,并根据判断结果决定是否实时更新分类器。本文选择了四个方法进行了实验对比,用MOA生成的四个合成数据流以及一个真实数据流进行了评估。实验结果表明,提出的算法不仅能够有效地检测概念漂移的发生,而且还能提高分类器的准确率。
其他文献
乳酸菌是一种广泛存在于人畜肠道内的益生菌,因其拥有多重保健功能而被人们广泛开发利用。但其在生长过程中会受到源于自身和外界环境中的各种胁迫而造成生长抑制。γ-氨基丁
“读书志”、“读书记”前人常用于著作书名,也是学者的一类著述体式。这一名称始见于晁公武的《郡斋读书志》,以其为最早的一部具提要的私家书目为人熟知。继有真德秀的《西
本文以数据挖掘作为背景,以应用支持向量机模型对时间序列数据进行预测的问题作为研究对象,研究了一种新的改善预测效果的方法。根据目前就支持向量回归机模型参数寻优的各类
大规模MIMO技术是一种新兴的无线通信关键技术,其主要原理是通过在基站侧部署数以百计的天线阵列同时为用户进行服务。在不增加系统额外带宽的条件下,该技术可以显著增加系统
对冲基金有两个特点,第一是追求绝对收益,第二是使用金融衍生品。对冲基金的发展,为银行等机构投资者提供了良好的资产配置标的。本文的重点是论述对冲基金组合(FOHF)在期货
党的十八大提出要加强和创新社会管理,构建具有中国特色的社会管理体系。作为人民团体重要组成部分的行业协会在创新社会管理中的作用和地位不断增强,尤其是关于意识形态领域
当前,我国经济发展进入新常态,经济发展速度转向中高速增长,经济发展要求提质、增效、升级。但我国发展面临着诸多问题和挑战,国际贸易摩擦、国内经济发展动力不足、生态环境恶化、社会矛盾突出等问题制约着我国发展水平向更高阶段迈进。在党的十八届五中全会第二次全体会议上,习近平同志适时地提出了“创新、协调、绿色、开放、共享”的新发展理念。新发展理念是包括新型城镇化发展在内的我国各方面事业高质量发展的指挥棒、红
5G(5th Generation)提出了两个最明显的需求,以用户为中心和更高的系统容量。在5G时代,运营商的运营、优化必然由以网络为中心向以用户为中心迁移。传统的QoS(Quality of Ser
作为人力资源管理的重要组成部分,绩效考核是当前研究的重点和难点,而绩效考核指标的构建和适当的评价方法又是绩效考核能否取得成功的关键。企业通过建立科学的的绩效考核指标体系,运用恰当的绩效考核方法,不仅有利于提升员工素质,增强自身履职能力,而且可以提高整个单位的竞争力。B银行县支行是B银行在县域地区的分支机构,近年来,县域支行在推动地方经济金融协调发展、改善金融服务和推进金融创新方面做出了重要贡献,但
为了满足中国联通业务发展的需要,从根本上解决综合采集工作中长期以来存在的问题,改善中国联通综合采集预处理系统能力,提高中国联通在日益复杂的市场环境中的核心竞争能力,