【摘 要】
:
数据流是一种数据序列,它能够随时间增加而顺序、快速、大量、连续到达。近年来,随着互联网以及软硬件的发展越来越多的数据流产生在各行各业,使得数据流逐渐成为一种主流的数据形式。这些数据流中隐藏着许多有趣的知识和规律,如果挖掘出来并加以利用能够对人们的决策起到重要的指导和参考作用。但是不同于以往的静态数据,数据流具有无限性、时序性、演变性、高维性、时间局部性等特点,使得传统数据挖掘算法不能直接移植到数据
论文部分内容阅读
数据流是一种数据序列,它能够随时间增加而顺序、快速、大量、连续到达。近年来,随着互联网以及软硬件的发展越来越多的数据流产生在各行各业,使得数据流逐渐成为一种主流的数据形式。这些数据流中隐藏着许多有趣的知识和规律,如果挖掘出来并加以利用能够对人们的决策起到重要的指导和参考作用。但是不同于以往的静态数据,数据流具有无限性、时序性、演变性、高维性、时间局部性等特点,使得传统数据挖掘算法不能直接移植到数据流中。所以如何在这些海量的数据流中挖掘有用的信息,辅助人们决策,是一个具有挑战性的问题并且受到了广泛关注。数据流聚类与异常检测是数据流挖掘领域中的两个重要研究分支。数据流聚类是一个将不断到达的数据流按其相似性划分为若干簇的过程。而数据流异常检测是为了找出数据流中偏离正常值的异常数据。为了能够快速处理数据流,现有数据流聚类和异常检测算法大都采用网格结构汇总数据流。但是在将数据流映射到网格并增量更新时,它们都忽略了网格之间的相互影响,假设网格之间相互独立。这样的处理方式造成提取的数据流概要信息不够精确,直接影响了数据流聚类和异常检测算法的精度。为了解决上述问题,本文主要有四个方面的工作:第一,提出了网格耦合思想。网格耦合是指在将数据流映射到网格并增量更新时不再独立的处理网格,而是考虑了数据变化对周围网格的影响,从而能够更加准确的表达数据之间的相关性。第二,提出了一种基于网格耦合的数据流聚类算法GCStream-CL。该算法在将数据对象映射到网格的过程中,根据网格内数据的分布状态考虑网格之间的相互影响。根据这种影响确定一个网格的更新是增加还是减小相邻网格的权重。其次,GCStream-CL算法以搜索密度相连网格的方式生成簇,并根据高权重网格的变化来捕捉簇的演化。第三,提出了一种基于网格耦合的数据流异常检测算法GCStream-OD。该算法同样在汇总数据流遵循了网格耦合思想,并提出了一种剪枝策略,即周期性检测网格列表,将一些权重较小的网格视为可能为异常的网格。然后根据网格密度和距大部分数据对象的远近,为每个低权重网格分配一个异常因子,实现了网格异常程度的量化。第四,在两个人工数据集和三个UCI真实数据集上验证GCStream-CL和GCStream-OD的算法质量。在GCStream-CL算法实验中分别对参数选择、数据集处理、聚类质量、聚类效率进行验证;在GCStream-OD算法实验中分别对参数选择、算法质量、内存占用以及算法效率进行验证。实验表明GCStream-CL和GCStream-OD均具有较高的算法精度和效率。第五,为GCStream-CL算法设计了应用案例。在“2016年1-2月云南各县监测经济指标完成情况及排位”上执行GCStream-CL算法,实现了对各县经济状况更合理的评估。
其他文献
近年来数据量的爆炸、算法的不断改进、硬件的持续创新使深度学习理论与应用发展迅速。在自然语言处理领域许多问题中,使用深度学习方法的效果优于传统方法。文本分类是自然语言处理的重要应用之一,多年来一直被广泛研究。文本表示与选择神经网络是使用深度学习方法解决文本分类问题的关键步骤,对于文本分类效果有着决定性的影响。目前,主流的文本表示方法有One-Hot与词嵌入两种,常用的神经网络包括标准神经网络、卷积神
随着血液透析技术的快速发展和广泛应用,国外生产血液透析机的大企业都有一些比较成熟的产品推向市场,并且各自的产品各有其特点,只有把握这些特点才能更好地使用于临床医疗
随着深度学习的发展,在机器人技术领域研究人员越来越关注基于深度学习的机器人技术。精确且敏捷的机械臂在装配行业中已经广泛应用了几十年,但是在家庭环境下应用仍然是一个具有挑战性的工作。视觉信息的补充可以使任务变得容易一些,只包含视觉传感器的机械臂也能完成抓取等任务。基于纯视觉的机械臂抓取的一般流程为:(1)标定相机,得到焦距等相机内参以及相机坐标系与世界坐标系的位置关系即相机外参;(2)获取图像进行目
基于NAND闪存的固态盘由于其性能优于机械磁盘而被广泛部署在存储系统中,但由于写放大以及闪存介质磨损等原因,减少写操作可提高固态盘的性能与可靠性。此外,统计表明常见的
海外代购作为一个新兴行业,以其快速、便利、品种丰富等特点逐渐被广大消费者所青睐,但同时也给海关监管提出了新的挑战。一方面由于海外代购业务发展速度过快,现有的法律法
作为近代中国经济、文化重镇的上海。凭借着得天独厚的地理位置、兼容并蓄的文化氛围、错综复杂的社会环境使得不少有识之士聚集于此,在政治、经济、文化等各方面为推动上海乃至中国的近代化、启迪民智做出了自己的贡献。世界社便是其中之一。初创于法国巴黎,随后扎根在中国的世界社(经过多次搬迁,最后选址于现武康路393号)是一个内容丰富、体系庞杂的社会组织,涵盖了经济、文化、研究、对外交流、教育、出版、医疗等各方面
伴随着中国特色社会主义市场经济的快速发展,人们从物质生活的改善中切实感受到了改革开放的所带来的巨大红利,对主流意识形态的认同也由原先的同质性的政治话语认同转化为异
同语式是存在许多语言中的一种有趣语言现象。在汉语口语交际和文学作品中,同语式表达也非常普遍。它的主语和宾语相同,看起来没有传递任何信息,但实际上它具有非常特殊的表达功能。在学术领域,同语式一直是一个备受争议的研究课题。本研究从构式语法的角度将现代汉语中的这类表达定义为汉语同语式。本论文的主要研究目的是:首先,找出汉语同语式的动机。其次,证明汉语同语式意义来源于构式,而不仅仅是构式中的词汇意义。第三
随着云计算时代的到来,中国已经实施建设了许多基于云计算的应用系统,比如公共领域的公有云服务平台、金融领域的云服务平台、政务领域的云服务平台以及商业领域的云服务平台等。云计算飞速发展的同时也带来了诸多云安全问题,其中,数据安全和隐私保护是云安全关注的首要问题,而云密码技术可以为各类云安全问题提供了一系列完整可靠的解决方案。当前,密码技术在云计算中的应用主要采用云密码资源池方案,实现密码资源的统一管理
随着科学技术的发展、各种智能设备的层出不穷和网络的开放,数字图像已经成为了十分普及的信息传播媒介,然而这也增加了数字图像被肆意篡改伪造的风险。为了以有效的手段对此类事情加以约束,数字图像的取证技术得以飞速发展。数字图像取证技术分类主动和被动两大类,本文研究的基于相机型号的来源鉴别属于被动取证中一个十分重要的分支。目前在数字图像来源鉴别研究的前提是要有足够的训练样本。当样本的先验信息不充分时,会对来