论文部分内容阅读
Tor(The second Onion Router)是一种使用最为广泛的匿名通信工具,能够隐藏通讯双方的身份信息或者通信关系,在保护用户通讯隐私的同时,也被非法活动滥用。例如非法用户利用Tor来实施网络攻击或者访问非法内容,由于Tor的匿名机制导致攻击行为难以被追踪和追责。因此,如何从大量通信数据中分析出基于Tor的非法活动与非法用户的关联关系,对保护网络信息安全有着重要的理论意义与应用价值。obfs4(流量混淆插件)是Tor在全球范围内使用最广泛的混淆插件,建立非法用户与其通过Tor访问的网站的通信关系关联面临着内容加密、多跳路由IP隐藏、包填充长度随机化和数据包时间间隔随机化等多重高强度抗流量关联分析技术的挑战。为了应对上述挑战,本文提出了一种基于网页元素逻辑时序关系的流量特征分类方法,建立非法用户与其通过Tor访问的网站的通信关系关联,主要工作和贡献如下。(1)针对obfs4节点获取受限、有效时间短以及网站访问控制问题,提出基于网页发布和邮件发布两种渠道的Tor网桥节点获取方法和基于模拟浏览工具的obfs4用户数据流量采集算法。通过obfs4节点选择和更新、控制Tor链路选择以及通信异常处理策略优化,实现对obfs4用户数据流的大量和快速采集。(2)针对采集的obfs4数据流中用户顺序访问不同网页的边界划分问题,提出基于数据流时间序列密度聚类的网页流量分割算法。利用聚类算法根据数据包到达时间聚类出访问网页的时间边界,根据时间边界将用户顺序访问多个网页的通信流量分割为对应每一个网页的流量序列。(3)针对随机包填充和数据包时间间隔随机化等抗流量分析的问题,提出基于网页结构元素资源请求和obfs4随机填充长度约束形成的多维特征向量分析。建立包长度类统计特征、包数据量类统计特征和包累加和特征等三类124维特征向量,实现对单个网页流量的的特征表达。为了验证本文提出方法的有效性,收集了 10920个URL,获得172 GB的网站访问数据。分别采用决策树、梯度提升决策树、随机森林等多个分类模型对采集的数据进行训练。实验表明,在封闭世界下,对网站的多分类准确率最优为91.6%;在开放世界中,对网站二分类准确率最优为89.6%。实验表明,本文提出的obfs4的网站指纹识别算法具有较好的识别效率和实用性。