Web日志攻击序列模式挖掘的研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:woshiwangxincheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web应用已经渗透到了人们的日常生活中,用户与Web应用程序的交互一般是通过Web服务器来实现的。Web日志作为Web服务器最重要的一个部分,记录了 Web服务器的运行状况以及客户端对服务器的请求信息。Web日志中包含大量普通用户的浏览信息,同时恶意用户的请求信息也被记录在日志中。分析Web日志信息,在经营层面上,有利于了解网站的运行情况,在安全层面上,通过对恶意用户的操作记录进行分析,有利于探索攻击行为,增强网站的防护。然而通常对Web日志的分析更倾向于挖掘普通用户的需求,提高用户体验,改善站点结构。另一方面,在安全层面上很少会使用挖掘技术对日志中的攻击行为进行研究。本文探索一种对日志中的攻击数据进行挖掘的方法,期望通过对日志中攻击数据的挖掘,发现攻击者对网站的攻击路径,更加轻易的发现网站中存在的漏洞。本文提出了 一种从Web日志中挖掘攻击频繁序列模式的方法,使用改进的PrefixSpan算法,对日志中的攻击记录进行挖掘,并将攻击序列以可视化图形的方法展示给用户。通过对挖掘结果的分析,能够帮助管理人员加强网站的防护,发现网站的潜在漏洞,保护网站免受进一步的攻击。本方法的主要步骤包括:在数据预处理阶段,收集日志数据、日志结构信息、网页信息、攻击特征码信息;通过对日志进行数据预处理得到攻击序列数据库,预处理部分包括日志数据清洗、统一资源定位符号(Uniform Resource Locator,URL)清理、用户识别、区分人为攻击和漏洞扫描器攻击和会话识别五个步骤;使用改进的序列模式方法PrefixSpan分别对人为攻击序列数据库和漏洞扫描器攻击序列数据库进行模式挖掘;对挖掘生成的频繁序列进行模式分析并将序列转换为图形语言。本文根据以上步骤在已有的序列模式挖掘算法PrefixSpan上进行改进,并且使用Java语言实现了该方法,通过对实际运行网站中收集的日志数据进行测试实验,完成了对网站攻击者序列模式的挖掘,并生成可视化图形。
其他文献
随着社交网络的发展,新浪微博作为最大的社交平台之一,其广大的用户群体和海量的博文信息,为信息处理带来了巨大的压力,很多有价值的内容和用户被隐藏在了庞大的信息之中。新
鞘翅目(Coleoptera)昆虫通称甲虫,属于昆虫纲、有翅亚纲、全变态类,由原鞘亚目(Archostemata),藻食亚目(Myxophaga),肉食亚目(Adephaga)和多食亚目(Polyphaga)四个亚目组成。
随着计算机网络规模的不断壮大,针对网络漏洞和安全缺陷的网络攻击方式日趋复杂,经典安全防御技术已不能有效的保护网络。动态地检测入侵和攻击成为了保障网络安全的重要手段
随着互联网的普及与发展,以网络互连为依托的新型应用也应运而生,诸如视频、文件分享与传输、协同计算等多种应用对端到端的网络性能提出了更高的要求。有效的测量是了解和认
近年来,开放数据运动不断推进,数据开放的目标也由最初的数据资源开放授权逐渐向提供高质量的数据、提升数据资源的可用性、可信度等方向转变。元数据是描述数据资源各种特征的摘要数据,揭示了数据资源的内容、特征、作用、获取方式等信息,在帮助数据用户查找和获取数据资源方面具有重要作用。因此,元数据建设、质量控制等作为数据开放的必须步骤和重要单元,在构建政府数据开放平台过程中具有重要价值。本文以我国已上线并有效
流致振动广泛存在于工程应用中,尤其在核反应堆中,直接影响着核反应堆的运行安全。冷却剂的高速流动会使燃料元件产生振动,这种流固耦合振动极易导致燃料棒的变形和磨损,甚至
随着水资源的日益匮乏,新的农田技术不断被提出,我们对作物高产的单一目标逐渐向节水、增产等多重目标转化。花生作为辽宁省重要的油料作物和经济作物,其产量往往受到季节性
世界上地震灾害的频发对人类造成了不可估量的损失,其中由于建筑物的倒塌破坏而造成的损失尤为严重。由于试验环境、成本等问题的限制,一些国内外学者提出了各种数值模拟分析
人工林的间伐不仅涉及林木生长与收获,而且关系到人工林的地力维持。如何维护人工林的地力、开展森林可持续经营已成为当今众多学者所关注的问题。本文以杉木(Cunninghamia l
采暖季节的集中供热系统中,存在着热容量不足的问题。在供、回水温度对于系统的热传递和节能有着十分重大影响的前提下,针对供热能耗现状和喷射式热泵的研究背景,本文提出了