基于数据流模式表示的半懒惰式分类算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:LXX_ACCP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是一个有时间顺序的,无限的数据元素组成的连续序列并且数据元素的底层分布可能随着时间发生变化。它具有连续、无限、高速到来和时变数据分布的特点。因此数据流环境下知识发现要求算法单次扫描数据,能够适应流数据的动态变化,占用较小的内存和使用有限的处理时间。从大规模数据中抽取模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立分类模型。例如基于频繁模式的贝叶斯分类模型,其使用在训练集中抽取项集集合的频繁性来估计贝叶斯理论中的概率值。然而,目前基于模式的贝叶斯分类算法大多是针对静态数据集合的,这些算法需占用较大内存,抽取项集过程中需多次扫描整个数据集合,需较长处理时间且不能适应数据的动态变化,因此不能用于高速动态变化与无限的数据流环境中。对此本文提出一种数据流环境下基于模式的半懒惰式分类算法。算法通过在流数据上抽取所需的频繁项集,使用频繁项集估计贝叶斯理论中联合概率的乘积近似值从而对待分类实例进行分类,其主要工作包括:(1)提出数据流环境下频繁模式的抽取算法,使用滑动窗口模型获取流数据;提出了结构更为简单的混合树结构用于存储当前窗口中的项,从而提升算法处理流数据的速度并且进一步减少了内存消耗;提出了给定范围的模式抽取机制,从而减少了模式抽取过程中候选项集的生成。(2)提出基于模式的半懒惰式数据流分类模型,使用半懒惰式学习策略,即在模型训练阶段根据当前窗口中的数据变化随之更新混合树结构;当待分类实例到来时才根据其中的项在混合树结构上抽取项集集合,建立对其特定的分类模型;保证了算法能够捕获局部数据的变化,并且将建立分类模型的一部分工作置于训练阶段保证了算法能够有较快的数据处理速度并且能及时响应分类请求。(3)提出数据流环境下基于窗口模型的频繁项集定义;并且对数据流中模式抽取不完全的情况提出使用平滑技术处理未被抽取的项。本文在现实数据集和合成数据集中进行了大量实验,结果表明其较于其它数据流分类算法在分类精度和运行时间上都具有良好的性能。
其他文献
计算机网络技术与多媒体技术的快速发展,很大程度上促进了通信技术综合化、数字化、智能化、个人化的发展,使得在单一网络平台上实现语音、数据、图像等多种业务成为可能。综合
图像阈值分割是图像处理领域中的一个经典的基本问题,至今仍是国内外研究热点,同时也是一个研究难点。在实际系统中,图像中的目标和背景之间并不具备截然不同的灰度,受不均匀光照
随着数字时代的到来,传统的模拟媒体内容逐渐朝着数字方面转变,由于数字媒体非常容易被传播、复制与修改,这让盗版者提供了很好的机会,然而,也同时损害了原始作者的利益。因
随着网络的大规模覆盖,浏览网络新闻已成为大家了解社会动态的一个重要渠道,新闻搜索引擎不可或缺。然而,虽然网络如一本无所不包的百科全书,由于当前搜索引擎技术仍处在革新
随着社会经济、计算机信息技术和存储技术的不断发展,在日常生活和科学研究领域中,逐渐积累了大量的有重要参考价值的数据。如何从这些宝贵数据中挖掘出我们需要的知识已经成
随着近几年通信业的迅猛发展,移动通信网业务己成为通信行业的支柱产业之一,如何保障移动通信网业务的正常运行,已成为各大通信运营商重点关注的问题。电信员工使用移动通信
随着计算机应用在全球的发展以及中国等亚洲发展中国家经济持续快速增长,软件产业在中国等新兴市场有着巨大的市场和广阔的发展前景,将已有软件做国际化和本地化的需要也日益
随着计算机技术的发展,各行业都开始把计算机技术应用到本行业来,虚拟现实技术和计算机仿真的应用越来越广泛,计算机动画模拟也得到了很快的发展。计算机游戏、影视、动漫等
运动目标的检测和跟踪作为计算机视觉的一个重要组成部分吸引了大量国内外学者的研究,而且它也是实现智能交通系统的一个技术基石。面对诸如基于模型和区域的传统跟踪方法所
当今社会正在步入网络时代,Internet已经成为重要的信息传输载体。虽然目前,大部分网络终端仍以PC的形式出现,但是作为计算机应用发展趋势——嵌入式系统正在异军突起,并且已经拥