面向异质媒体的网络事件发现算法研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:allpass001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联设备和各类传感器愈发普及,人们能够轻松地捕获周围发生的事物,并将其上传到网络上共享。我们所处的世界已经变成了一个感知世界。互联网上的信息在很大程度上可以反映社会上真实发生的事件。现有研究表明,通过互联网发现社会事件具有迅捷性和低成本性,所以面向网络资源进行事件发现已经成为了新媒体网络时代数据挖掘领域中的一个研究热点。然而,目前网络数据中存在异质媒体丰富、数据规模大、实时性高、标注信息易缺失和信息碎片化严重等特点,导致传统面向文本的网络事件发现方法正逐渐失效。如何降低数据规模,解决不同异质元数据之间的协同与融合,以及处理网络数据中普遍存在的数据缺失性和信息碎片化,已经成为web数据挖掘中最需要迫切解决的关键问题。针对上述问题,设计并实现了两种面向异质媒体的网络事件检测算法。1)针对网络数据中的数据量大,异质介质多,标注信息易缺失问题,设计并实现了一种基于时间片划分和多元数据融合的离线式异质媒体网络事件发现算法。该算法首先通过时间片划分和UT模型的建立使得算法能够以近似线性的时间复杂度来进行大规模数据的网络事件检测。然后,通过多元数据融合的方法有效地克服了异质介质多和标注信息易缺失对检测结果的影响。最终,与目前最新的网络事件发现算法的实验结果对比实验,表明了该算法的有效性。2)针对网络数据高实时性和不均衡性的问题,本文结合增量式Single Pass聚类算法,设计并实现了一种基于改进的Single Pass在线式网络事件发现算法。该模型首先通过设定时间窗口以提高系统的运行效率,并在一定程度上缓解了Single Pass算法中数据项容易向大类偏移的问题。然后针对数据集的不平衡性,设计了适用于异质数据的相似度计算方法,并将其应用到在线式网络事件发现的算法中。最后通过实验确定时间窗口的大小和算法阈值等参数。我们将本文提出的事件发现算法与原有的在线式异质媒体网络事件发现算法进行比较,实验结果表明该算法的有效性和实用性。
其他文献
随着近几年互联网与信息技术的快速发展,网络向用户提供的信息和应用越来越多,在人们享受着网络所带来方便的同时信息过载现象也变得日趋严重,如何从海量数据中获取满足人们
随着互联网技术的成熟,以及浏览器客户端Web应用程序的普及,Web安全漏洞已经成为互联网最严重的安全隐患之一,其中跨站脚本(XSS)漏洞是近年来较为流行的一种漏洞。由于JavaSc
无线传感器网络(Wireless Sensor Networks,WSNs)因其巨大的应用前景和商业价值而受到学术界和工业界的广泛关注。基于WSNs的各类系统在军事、环境、医疗以及其他商业领域具