基于用户行为关系挖掘的个性化推荐模型及算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:starrydzf_01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是数据挖掘领域的研究热点之一。如何从大规模的高维稀疏用户行为数据中挖掘有效的行为关系,并为用户快速产生准确的个性化推荐,已成为推荐系统领域所面临的、迫切需要解决的问题。推荐系统的性能依赖于用户行为关系的挖掘,具有个性化信息的行为关系可以更好的揭示隐藏在用户历史行为中的根本性的有用信息,进而能够明显提升推荐系统的性能表现。本文以深度神经网络和链路关系预测为基础,旨在挖掘对推荐有意义的行为关系信息以架起低阶用户行为数据和高阶用户兴趣爱好之间的联系,提升推荐模型和方法的个性化推荐效果。值得注意的是,根据用户进入系统的状态和频率,推荐系统中的用户可分为活跃用户、不活跃用户和未登录用户。由于交互方式的差异,推荐系统对不同类型用户采取不同的推荐策略。如何针对不同的推荐策略从不同类型的用户行为数据中挖掘有用的行为关系十分重要。针对这一问题,本论文提出一些新的个性化推荐模型和方法,这些方法在多个推荐任务上取得了推荐效果的提升。具体来讲,本文的主要研究内容介绍如下。(1)针对活跃用户的商品点击率预测问题,提出一种基于因子分解机的深度神经网络框架Deep FM。该框架结合了因子分解机和深度神经网络,可同时学习数据中的低阶和高阶特征组合关系权重,且不需要预训练和特征工程。因子分解机部分将二阶特征关系矩阵分解,提升了模型在稀疏数据中学习二阶特征组合关系的能力。深度网络部分通过神经元之间的连接和非线性变换学习特征之间的高阶组合关系。将分解二阶特征关系矩阵的向量同神经网络共享,降低了神经网络参数的训练难度。基于该共享结构,模型更容易学习到准确的特征表示。本文分别研究了基于该框架的Deep FM-D和Deep FM-P点击率预测模型,并在大规模竞赛数据集和商业数据集进行实验。实验结果显示,基于该框架的点击率预测模型在AUC和Logloss指标取得更好的结果。此外,提出多卡数据并行和异步数据读取提高训练效率。本文提出的Deep FM框架已部署于华为应用市场推荐系统,在该系统进行线上A/B测试,所提出模型取得更高的点击率和转化率。(2)针对活跃用户的排序学习问题,提出基于贝叶斯个性化排名框架的神经网络模型Deep-BLM,该模型基于贝叶斯个性化排名框架,利用神经网络拟合数据中的偏序关系。首先,采用贝叶斯个性化排名方法构建偏序关系集合,然后利用神经网络拟合偏序关系的概率,通过最小化预测偏序关系概率分布和真实偏序关系分布之间的交叉检验熵训练模型参数。基于偏序关系的排序学习模型不仅可以通过用户显式反馈建立模型,而且可以学习到用户隐式反馈中的偏序信息。同基于线性函数的贝叶斯排序学习模型BLM-Rank相比,Deep-BLM可以拟合数据中更为复杂的偏序关系。此外,为提高排序学习的训练/预测效率,本文还研究了基于图形计算卡的并行算法。在多个标准数据集进行实验,Deep-BLM模型都得到更高的归一化累积增益值。(3)针对不活跃用户的消息推送推荐问题,提出局部吸收随机游走近似算法,即A-PARW,基于用户-商品关系图挖掘潜在目标用户。设定该算法的正则参数为单位矩阵,得到A-PARW-I算法,该算法倾向于挖掘给定节点所在社区的节点作为目标用户群体,从而提升消息推送效果。针对不同的推荐场景,分别提出单机和分布式的A-PARW-I算法,以解决基于大规模图的目标用户发现问题。分别在公开数据集和商业数据集进行实验,实验结果显示A-PARW-I算法具有更好的性能。并在真实的生产环境中进行线上A/B测试,相比于个性化的网页排名算法,A-PARW-I算法取得了更高的点击率和下载率。(4)针对未登录用户的个性化推荐问题,提出基于上下文和链路关系的K近邻会话推荐算法,即CKNN-DSM-EPCSR算法。K近邻方法更容易解释、更加高效灵活,是推荐系统中的常用方法。为利用图的结构信息进行会话间的相似度计算,本文提出基于扩散的相似度计算方法DSM,通过λ和β参数分别控制会话长度和商品流行度对相似度的影响。为平衡当前会话中历史点击行为对推荐的影响,提出候选集选择方法EPCSR,该方法保证了当前会话中不同历史点击行为对推荐的影响。结合DSM方法和EPCSR方法,提出CKNN-DSM-EPCSR算法。在多个公开数据集的进行会话推荐实验,所提出算法在命中率、Mean Reciprocal Rank指标都取得了更好的效果。
其他文献
随着蠕虫对网络安全的威胁日益增加,传统的基于蠕虫病毒特征的防御技术面临着新的挑战,单纯的防火墙策略和IDS检测技术无法满足对安全高度敏感应用的需要。如何在没有蠕虫病
本软件的设计结合实际工程项目,利用多种实用工具软件,基于面向对象技术实现了路由器配置的自动生成和串口传送,完成了路由器配置的全过程。软件采用图形化界面,人们只需要用
计算机远程监控系统是信息技术发展的产物,它是以计算机为核心,结合多媒体技术、网络技术及工业化技术的一种网络监控系统。随着计算机网络技术的飞速发展,实时监控系统可以
随着以网络为代表的信息技术的不断发展,嵌入式系统的应用越来越广,几乎无处不在。嵌入式系统与嵌入式操作系统的研究掀起了新的高潮,出现了许多热点问题,其中使用嵌入式Linu
网格将互联网连接的所有资源整合成一台超级虚拟计算机。它是集成和并行的计算与资源环境,其核心是在异构和分布式的网络环境中,实现资源共享(包括计算资源、存储资源、通信资
策略一直在复杂系统的管理中扮演着一个重要的角色,可以用来指导企业的信息和系统的管理。基于策略的管理方法是近年来被广泛认可的、管理复杂系统的一个有效解决方案,其核心思
随着科技的突飞猛进,移动终端的广泛普及改变了人们的生活和交流方式。针对移动终端的Android平台以免费开放的方式,吸引了无数的开发爱好者和用户体验者,其平台上多种多样的应
移动自组织网络因其组网灵活、部署方便,广泛应用于紧急救援、军事战场、智慧城市等。由于无线链路相互干扰,多跳数据传输以及拓扑结构动态变化等,无线自组织网络数据传输模式的
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术,它是一种新型的无基础设施的无线网络,能够协作地实时监测、感知
地理信息系统(GIS)是近年来兴起的一门新兴技术,由于它能够直观有效地利用和表达地理信息数据,满足了信息综合管理和数据服务可视化的需要,因而GIS与领域软件的互嵌入成为当