基于公交Wi-Fi数据的网络用户行为分析

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:willing_6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智慧城市建设的不断推进,越来越多的企业将日益成熟的Wi-Fi技术与公共交通相结合,力求扩展出面向公交出行的应用及服务。目前国内还没有研究公交Wi-Fi场景下网络用户行为的论文,而通过对公交Wi-Fi网络用户行为数据的分析与挖掘,可以得到用户在公交Wi-Fi场景下上网的主要行为模式,发现公交Wi-Fi网络用户行为的特点,应用于用户差异化服务和广告精准推送,也有利于优化公交Wi-Fi网络规划,提高网络的稳定性等。本文的研究依托于中科院深圳先进技术研究院构建公交Wi-Fi大数据平台的项目,属于其中的数据分析挖掘部分,基于搭建的Hadoop平台,致力于通过对公交Wi-Fi网络用户上网时段和访问内容行为数据的挖掘,得到用户主要的行为模式。具体的工作有以下几个方面:(1)实现用户上网时段行为模式的挖掘。利用相似性度量的方法分析了实际的用户上网时间数据,发现并验证了公交Wi-Fi网络用户上网时间分布的近相似性。基于此规律,选用层次聚类算法挖掘用户上网时段行为模式。针对层次聚类算法在大数据量情况下计算时间太长的缺点,对层次聚类作了两方面改进:一是基于近相似性的规律对用户进行初步分组,二是在分组内一次合并多个相似单点簇,最后挖掘得到了用户上网时段的4种行为模式。根据实际应用场景,从4个指标对本文改进的算法进行评估,结果表明:本文改进的算法在区分不同模式时段特征的显著性和运行效率方面有明显的优势。(2)实现用户访问内容行为模式的挖掘。针对复杂多样的公交Wi-Fi用户上网访问数据给有效处理和表示用户行为信息带来的困难,本文通过截取用户访问URL的二级域名,在对上网访问特征分析的基础上,设计了一种解决思路:根据网站访问人数过滤出对本文有研究价值的网站,采用移动互联网报告中对App的分类方式对过滤出的网站进行分类。并利用真实场景数据验证了此思路的合理性,构建了用户访问内容分析的特征向量。接着基于数据稀疏性和用户兴趣相近似的特点,提出一种基于加权的访问内容行为模式挖掘模型,该模型利用TF-IDF对特征进行加权、SVD对稀疏矩阵进行降维处理,再使用改进的Kmeans算法挖掘得到了用户访问内容的9种行为模式。从4个指标对本文提出的模型进行评估,证明了其在公交Wi-Fi场景下挖掘用户访问内容行为模式的有效性。(3)公交Wi-Fi网络用户行为分析系统的设计与实现。设计了该系统的整体框架,并详细介绍了其中的数据接入、数据预处理、数据分析挖掘和数据存储模块。利用可视化方式对系统结果进行了展示,提出了该系统的应用方向。
其他文献
BP神经网络是人工神经网络中的一种,现已被广泛应用于分类和逼近问题中,在面对数据密集型训练时,存在大量的时间开销。为此,有必要并行化BP神经网络的训练,以提高其训练效率
随着中蒙两国友好合作关系的不断加深,双方在高等教育方面的交流也越来越多,近年来,蒙古国来华留学生日渐增多。与此同时,在蒙古国内,也有许多的蒙古人在学习汉语,不同的语言
密集部署的小蜂窝网络(Small Cell Network,SCN)技术以链路传输速率高,功耗低,成本低和充分利用频谱资源等优势成为了第五代移动通信(The Fifth Generation Mobile Communica
Ad Hoc网络不依赖固定基础设施,具有快速灵活组网,节点抗毁性强等优点,适用于军事战斗、紧急救援、野外科考等特殊场景,它正成为全球无线通信的热点研究内容。相比于传统网络
大规模多输入多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)技术可以显著提升系统容量和频谱效率。然而,伴随着频谱效率的提高,能源消耗总量和碳排放量也在
关联规则挖掘是一种在事务数据库中发现项目之间的特定关联关系的方法。它的目的是利用一些有趣性度量来识别事务数据库中发现的强规则,以便为决策者提供感兴趣的消息。关联
在地理教学中,注重学生的个性发展是教学的目的之一。这就从根本上要求教学务必要从学生需要出发,同时符合“教育以人为本”的根本理念。在高中生地理教学中也要贯彻这一教学
随着经济全球化的日趋深入发展和互联网时代的到来,中国经济正在从高速发展向高质发展转变。由于新冠肺炎疫情的影响,国内外环境迅速恶化,市场主体面临的市场竞争越来越激烈,人才需求也越来越成为企业竞争的重要因素。很多银行现有的激励制度在很大程度上不够完善,没有很好地起到激励作用,尤其是国有银行因为架构比较大,往往对人才的激励不够灵活,容易影响员工对工作的积极性,甚至会导致员工流失。为了加强中国工商银行X支
学位
新闻客户端从出现以来到现在,目前的竞争日益激烈,正是经过野蛮粗犷发展后的沉淀期,如果能在这个时候,增加用户的粘黏性,必定能有一个健康长久的发展。想要夺得客户的青睐,就
词汇是语言构成必不可少的基础要素,通过研究词汇,我们可以更深入地掌握该种语言,也可以更好地了解该民族的历史文化,藏语言也不例外。因此,本论文主要研究藏语词类的概念、