论文部分内容阅读
随着移动互联网的迅速发展以及移动设备的广泛应用,用户对数据业务的需求日益强烈,移动互联网用户行为逐渐呈现出个性化和多样化的特点。电信运营商在探索“以用户为中心”的精细化运营方式时,由于传统数据分析方式单一、分析效率低下,无法深入用户理解行为特征。同时,数据量的爆发式增长给传统的关系型数据库架构造成巨大压力,无法满足现有的业务支撑需求。因此,如何运用大数据相关技术,深入地发掘和理解用户行为特征,成为运营商提高市场份额、促进业务增长的重要突破口。论文依托于“教育部-中移动”科研基金项目,设计了涵盖用户基础特征、个性化行为特征的标签体系,在用户细分标签研究过程中,提出了一种基于Hadoop的自适应RK-means算法,实现了用户精细分群。论文的主要工作内容如下:1.论文在深入研究信令解析技术、网络爬虫技术、数据分析技术、大数据存储与处理技术的基础上,设计涵盖了用户基础类标签、互联网使用类标签、终端使用类标签、电信业务关系类标签、营销支撑类标签的移动互联网用户标签体系。2.针对传统用户行为分析系统基于单一节点的关系型数据库导致处理速度慢、处理数据量小等缺点,设计了基于Hadoop生态环境的移动互联网用户标签库的实现系统,提高了海量数据处理及数据分析的能力。3.在用户细分标签的研究过程中,论文针对传统K-means细分算法对初始聚类中心的选择敏感、容易陷入局部最优等缺点,根据数据特征自适应选取聚类中心数目,同时采用RK-means算法保证了聚类中心的全局最优,最后运用并行自适应RK-means算法实现了电信客户细分。4.最后,论文实现了用户特征的完全标识,并验证了标签库的准确性和可靠性,系统现已在中移(杭州)研发中心、西南某运营商测试运行。该方案实现了用户的特征标识,为通信运营商日常数据提取和市场营销提供了有效的数据支撑。