基于匿名流量分析的网站识别

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ah20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Tor(The second Onion Router)是一种使用最为广泛的匿名通信工具,能够隐藏通讯双方的身份信息或者通信关系,在保护用户通讯隐私的同时,也被非法活动滥用。例如非法用户利用Tor来实施网络攻击或者访问非法内容,由于Tor的匿名机制导致攻击行为难以被追踪和追责。因此,如何从大量通信数据中分析出基于Tor的非法活动与非法用户的关联关系,对保护网络信息安全有着重要的理论意义与应用价值。obfs4(流量混淆插件)是Tor在全球范围内使用最广泛的混淆插件,建立非法用户与其通过Tor访问的网站的通信关系关联面临着内容加密、多跳路由IP隐藏、包填充长度随机化和数据包时间间隔随机化等多重高强度抗流量关联分析技术的挑战。为了应对上述挑战,本文提出了一种基于网页元素逻辑时序关系的流量特征分类方法,建立非法用户与其通过Tor访问的网站的通信关系关联,主要工作和贡献如下。(1)针对obfs4节点获取受限、有效时间短以及网站访问控制问题,提出基于网页发布和邮件发布两种渠道的Tor网桥节点获取方法和基于模拟浏览工具的obfs4用户数据流量采集算法。通过obfs4节点选择和更新、控制Tor链路选择以及通信异常处理策略优化,实现对obfs4用户数据流的大量和快速采集。(2)针对采集的obfs4数据流中用户顺序访问不同网页的边界划分问题,提出基于数据流时间序列密度聚类的网页流量分割算法。利用聚类算法根据数据包到达时间聚类出访问网页的时间边界,根据时间边界将用户顺序访问多个网页的通信流量分割为对应每一个网页的流量序列。(3)针对随机包填充和数据包时间间隔随机化等抗流量分析的问题,提出基于网页结构元素资源请求和obfs4随机填充长度约束形成的多维特征向量分析。建立包长度类统计特征、包数据量类统计特征和包累加和特征等三类124维特征向量,实现对单个网页流量的的特征表达。为了验证本文提出方法的有效性,收集了 10920个URL,获得172 GB的网站访问数据。分别采用决策树、梯度提升决策树、随机森林等多个分类模型对采集的数据进行训练。实验表明,在封闭世界下,对网站的多分类准确率最优为91.6%;在开放世界中,对网站二分类准确率最优为89.6%。实验表明,本文提出的obfs4的网站指纹识别算法具有较好的识别效率和实用性。
其他文献
区域范围内植被类型和地形是土壤有机碳(SOC)垂直分布的主要影响因素。本文以晋西黄土区蔡家川流域4种退耕地(乔木林、灌木林、乔灌混交林、草地)为对象,通过调查采样和室内
空间关系是区域法治发展研究的方式变项序列的有机构成要素,具有基础性的分析工具地位。20世纪70年代以来,西方人文社会科学领域的"空间转向"之学术范式,深刻地影响着研究者
本文主要简单地介绍了关联交易的相关内容,通过对关联交易及其披露中存在的问题进行分析,来探讨规范关联交易的有效对策,以开展高效的关联交易,规避关联交易中的风险,实现企
<正>"十三五"时期是全面建成小康社会决胜阶段,2016是"十三五"开局之年,也是全面建成小康社会决胜阶段的开局之年。今年的全国"两会",也已经审查、讨论、通过了"十三五"规划,
会计集中核算是加强事业单位财务管理的重要方式,不仅有助于保证会计信息的真实性,而且可以有效防范事业单位的财务风险。但由于目前事业单位的会计集中核算制度不够完善,会
该文以索绪尔的"语言价值"理论为基础,对文化特定词汇重新定义,并对词汇文化特性的产生阐述了自己的见解,同时还分析了文化特定词汇的相对性,指出了辨别文化特定词汇的原则。
目的:强迫障碍(obsessive compulsive disorder,OCD)是一种以强迫思维(如,怕污染,性/宗教思维)和/或强迫行为(如,清洗,检查,计数,排序)为特征的常见的精神障碍。在普通人群中
本文就马克思主义文论研究专家张永清教授的治学经历以及当代马克思主义文论建设等展开访谈。早年的文学批评实践所积淀的文学史现场感,以及现象学美学研究的理论与方法。都
飞速发展的信息技术带领我们进入互联网+时代。它的踹趾而至给语言学习特别是对吾尔语专业学生的维语学习注入了新的活力。文章以喀什大学维吾尔语专业为例探究在互联网+时代
气候变化和人类活动的不断加剧,引发了生态环境质量问题,快速准确的评价区域生态环境的历史和现状,对实现人与自然的可持续协调发展具有重要意义。本文基于遥感技术分别反演