基于协同训练的半监督多标记数据流分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:liongliong486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展和普及,网络交通监控、信用卡欺诈检测等领域产生了海量的数据流,这些数据流除具有快速海量的特点外,还含多个标记且标记数据大量缺失,标记会随着数据动态快速变化而产生新类凸现以及概念漂移等问题,因而如何挖掘数据流中潜在的有价值信息成为多标记数据流分类的重要任务。本文旨在针对多标记数据流存在的标签缺失,新类凸现与概念漂移等问题开展分类方法研究,主要研究工作包括:(1)针对多标记数据流的标签缺失与新类凸现问题,提出一种基于Co-trai ning的半监督多标记数据流分类方法。首先,该算法采用滑动窗口机制将数据流分块,在前w块数据块上分别采用基于协同训练机制的多标记半监督分类算法C OINS训练基分类器,构建集成模型以适应标记大量缺失的数据流环境。同时,引入新类凸现检测机制,利用集成模型对第w+1块数据块进行预测以检测是否有新标记凸现问题,当检测到新标记,则在当前数据块上重新训练分类,更新集成模型。实验结果表明,与经典算法相比,本文所提算法能够提高类标签大量缺失和新类凸现环境下的多标记数据流分类精度。(2)针对多标记数据流的标签缺失与概念漂移问题,提出一种基于Tri-trai ning与KL散度的多标记数据流半监督分类集成方法。所提方法首先利用Tri-tr aining策略构建基于在线顺序极限学习机的集成分类模型;其次,分析数据分布变化的原因,引入KL散度同时监测特征空间与标签空间的变化,以检测多标记数据流中隐含的实际与虚拟概念漂移。一旦检测到概念漂移,对新数据块重新训练基分类器以更新集成模型。实验结果表明:所提方法能有效检测多标记数据流中的虚拟与实际概念漂移问题,并提高分类模型的分类精度。
其他文献
优先股产生于16世纪的欧洲,披荆斩浪400多年后,相关理论和司法实践成果层出不穷。在西方发达国家和地区,优先股融资方式极其灵活,具有丰富的实践经验,并拥有相对完善的优先股
我国毒蕈种类繁多且分布广泛,经常有人因无法鉴别毒蕈和可食用菌而误食毒蕈,导致身体健康甚至生命安全受到严重威胁。现有的毒蕈识别方法存在或是依赖个人经验并不完全准确,
未成年人不良行为一直以来都是社会关注的焦点,也是司法处遇的难点。一方面,未成年人心智、人格各方面发育还不太成熟,不能以成年人犯罪的要求予以苛责,但也正因为如此,未成年人教育改善的可能性会很高,对其进行保护、教育,会更有助于其健康成长。另一方面,为了保障未成年人身心健康,培养其良好品行,有效矫治其不良行为,对待涉及极端暴行的未成年人,也应该有严厉制裁的匹配措施。因此,如何处理好“保护”与“处罚”这对
近现代以来,特别是最近几十年,各国工业化快速发展,随之产生各种有毒有害气体,对人们的健康造成了极大的危害。随着人们对有毒有害气体检测要求的提高,硅基微结构气体传感器
为了解决存储负载过高的问题,存储系统中引进了纠删码机制。纠删码能显著降低系统的存储负载,但是纠删码在修复失效节点时,会造成系统的网络带宽严重拥塞。因此,如何快速地读写数据、快速修复失效数据的同时尽量减小系统网络带宽消耗是一个亟待解决的问题。针对上述问题,基于FUSE文件系统,设计并实现了支持分布式存储的P-MBR系统,实现了MBR编码的并行化。具体来说包括以下几个方面:(1)研究了MBR编码的并行
三元复合正极材料LiNixMnyCo1-x-yO2(x>0.5)因具备高容量、热稳定性好、对环境友好等优点而成为锂离子电池的研究热点之一。本课题以NaOH为沉淀剂,氨水为络合剂,采用共沉淀法
随着科技的发展,单核处理器难以满足不断增长的计算需求,于是多核技术飞速发展并成为市场主流,任务调度问题是多核实时系统中一个很重要的问题,主流的多核实时系统调度方式主要分为两类:全局调度和划分调度,划分调度由于没有任务迁移引起的开销成为应用中的主流策略。但是现有的研究中针对带有资源访问的任务的划分算法对于任务之间的资源竞争开销计算的优化不足,关于任务资源相似度和负载均衡之间的决策效果较差,因此,设计
王易是晚清民国时期的词学家、词人,学术成果丰硕,影响较大。王易存世词作一百余首,所撰写的《词曲史》是民国时期重要的词学理论成果。然而,一直以来,研究者对于王易的关注度不够,尤其是对其词学理论、词作的考察尚显薄弱。基于此种情况,本论文将在考察王易家世、生平、交游、著述的基础上,着重对王易的词学思想、词体创作进行重点研究,进而判定王易的词学成就,考察王易在民国词史中的地位和影响,同时也为进一步、更全面
随着电力市场的发展,电力系统短期负荷预测将直接影响到电力市场的决策和电网的调度。对于电网而言,精准电力短期负荷预测可以制定有效的发电计划,避免不必要的电能浪费。对
物理方案参数不确定性量化是减小参数不确定性,提升气候系统模式模拟水平的重要方法,但是当前常用的进化算法等在复杂的气候系统模式上的应用需要极高的时间和计算成本,急需