论文部分内容阅读
互联网在当前的社会生活中已经越来越占据重要的位置。随着信息科技的进步和社会经济水平的发展,互联网规模迅速膨胀,网络流量、用户规模等互联网组成部分快速增长。随着移动设备、嵌入式系统以及传感器网络等新兴互联网组成部分的发展,互联网规模将在相当长的时间内持续增长。随着互联网的发展,互联网业务也从简单的传统业务发展到实时多媒体业务,进而发展到以资源共享和协同工作为特征的互联网业务。互联网能达到今天的规模一个重要的原因就是互联网业务种类呈现多样化和个性化的蓬勃发展。但是网络业务的快速发展也为电信运营商带来了一系列的挑战:需要重新掌握网络用户在使用业务方面的偏好模式以及其随时间变化的规律,从而制定针对性的资费套餐、有针对性的制定营销策略以及进行网络监管;不掌握用户上下线的行为模型就无法进行合理的服务器负载均衡,从而让服务器的服务性能达到最优。本文的主要内容是基于业务和时间变化的网络用户行为研究。本文通过对实际骨干网流量数据进行分析、挖掘,得到网络用户使用业务的偏好模式、网络用户使用业务的偏好模式随时间变化的规律以及对用户上下线行为模型。这些模型为电信运营商进行根据客户特点进行电信产品的定向营销、相关套餐的制定、有价值客户区分以及服务器负载均衡等提供有价值的研究基础。1)本文根据真实网络省级骨干网的数据特点和研究目的选定了层次聚类的算法。但是在实际应用中发现经典层次聚类算法及其已有的改进算法的时间复杂度太高。本文针对这个改进方向,提出了基于熵来对数据分组和基于数据特点来一次合并多个数据样本的的快速层次聚类算法,算法对比实验结果表明,改进算法与经典层次聚类算法相比,时间执行效率大大提高了7-8倍左右。即使是与基于最小生成树的改进层次聚类算法相比,算法也提高了3倍左右。2)根据快速层次聚类结果,本文揭示了网络用户业务使用偏好模式的组成以及各个网络用户业务使用偏好模式的人数分布。并深入分析了不同的网络用户业务使用偏好模式的使用频度的区别以及网络用户业务使用偏好模式与网络用户的每天在线时长、网络用户每天的流量以及流量的上下行比例的关系。3)本文对用户业务偏好变化随时间变化的规律进行研究,通过定义一系列的分析指标,揭示了用户业务偏好变化率随时间尺度、业务偏好变点变化的规律:用户业务偏好变化率并不单纯随时间尺度的增大而降低,而是有条件的成立。并对这种规律进行了解释和分析。最后对在一个月的时间序列中,出现的最多的几种用户业务偏好模式变化序列进行了总结和展示。4)本文首次利用非齐次泊松过程对网络用户上下线行为进行建模分析。本文通过对实际数据使用假设检验的方法来证实了用户上下线确实符合非齐次泊松过程。接着利用非齐次泊松过程对用户上下线行为进行了建模,并在相关假设的条件下理论推导出了用户上下线概率的计算公式。最后对用户上下线概率的公式进行了理论验证和数据验证。此外本文还给出了不同用户组的用户上下线登录概率分布图,为进一步的研究打下了基础。