基于距离的数据流在线检测算法研究

来源 :计算机应用研究 | 被引量 : 9次 | 上传用户:dandu10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的数据流检测中存在的时间复杂度高、准确度低等问题,提出了一种基于滑动时间窗口和k-距离剪枝的信息熵异常检测算法。该算法引用滑动时间窗口将动态的数据流静态化,当数据流填满当前窗口后,在当前窗口中用k-距离剪枝方法对数据进行初步检测,从而剔除绝大部分的正常数据。最后再对筛选出疑似异常的数据用信息熵的检测方法进行检测,输出信息熵值大于设定阈值EA的数据点。通过实验验证,该算法比传统的检测算法在时间复杂度和准确度上都有一定的优越性。
其他文献
本文基于全国高校毕业生微观抽样调查数据,采用空间自回归交互模型对高校毕业生在就读地和就业地之间形成的跨省就业O-D流进行了实证研究。主要发现有:(1)高校毕业生就业O-D
为了能够更好地开展隐私保护数据挖掘工作,描述该领域的研究进展。针对基于随机的干扰方法中典型代表EMASK算法,用粒度计算的思想提出改进意见,将关系数据表转换成面向机器的粒度关系模型。这种计算方法使用了数据的垂直Bitmap表示,利用位操作的方法来保证准确性不降低的情况下,减少I/O操作的次数,降低空间开销,同时在生成频繁项集时,也记录了其在扭曲后数据中的支持度,减少了文件的访问次数,由此提高计算效