论文部分内容阅读
网络流特征是指能够体现和表征网络流行为模式的抽象实体,是网络流分类、网络节点识别、流量监控管理等领域的基础。在处理网络拥塞和恶意攻击、了解网络运行状况、流量分布等方面问题,以及网络服务提供商制定网络流控策略和运营策略时,基于网络流特征的网络流或网络节点分类技术能够提供数据分析方面的支持,因此也就成为了整个互联网领域的研究热点。现有研究中使用的网络流特征绝大部分是时域特征,而实验表明,时域特征参数容易受网络环境的影响,分类效果不稳定。因此本文引入了时频分析的思路,对网络流的时域特征进行时频分析,提取并形成时频特征参数,然后采用机器学习的方法对网络流或节点进行分类。整体工作如下:1.时频分析及时频特征参数的提取。在网络流或节点分类中,每一种类型的流或节点必然存在自己独特的通信模式,也称为“特征指纹”,因此我们选取出能够体现出不同类型流或节点的本质特点的时域特征,对其进行时频分析。时频分析包含多种时频变换方法(时频分布函数),理论上时频分布函数可以有无穷多个,各分布函数存在不同的性质、特点和应用效果。因此,我们选取了短时傅里叶变换、小波包分解和Choi-Williams分布这三种具有代表性的时频变换函数,并在后续工作中比对分析了它们对流分类结果的影响。在时频分析之后是时频特征参数的提取。流时域特征信号转换到时频域后,是以时频矩阵的形式呈现的,数据量大且矩阵大小不固定,无法直接用于机器学习。因此,如何从流特征的时频矩阵中提炼出精简的特征参数同时又能尽量减少信息的丢失,也就成为了另一个关键问题。本文采用了基于统计学和基于Renyi熵的方法,对时频矩阵进行处理并从中提取出时频特征参数,以进行后续的分类。2.流特征的时频分析在P2P流识别中的应用。本文首先分析了P2P流在应用层的通信特点,即数据分块、多点并行传输的特点,一条P2P流中会出现周期性传输大小相似的数据块的现象,而在其他应用流中则未发现。因此,我们提取每秒传输的数据包个数和比特数的序列作为其时域特征,进行时频分析。同时考虑到P2P应用在资源分块传输时,双向流之间会呈现出某种同步的周期性变化,因此,我们将双向流作为分类的基本单位。3.流特征的时频分析在NAT节点识别中的应用。本文针对NAT(网络地址转换)技术将多个内部私有IP地址绑定转换成一个合法的公网IP地址这一特点,分析出普通的IP地址对应的连接数(可以用其保持的五元组流个数表示)更少并且突发性和随机性更高,而NAT转换后的IP地址因为聚合了多个IP,其宏观上保持连接的五元组流数量更多并且更加平稳。因此我们提取出IP节点每分钟内保持连接的流数目以及新生和消亡的流数目,作为时域特征进行时频分析。我们以各个IP节点对应的聚合流作为分类基本单位。