论文部分内容阅读
推荐系统是数据挖掘领域的研究热点之一。如何从大规模的高维稀疏用户行为数据中挖掘有效的行为关系,并为用户快速产生准确的个性化推荐,已成为推荐系统领域所面临的、迫切需要解决的问题。推荐系统的性能依赖于用户行为关系的挖掘,具有个性化信息的行为关系可以更好的揭示隐藏在用户历史行为中的根本性的有用信息,进而能够明显提升推荐系统的性能表现。本文以深度神经网络和链路关系预测为基础,旨在挖掘对推荐有意义的行为关系信息以架起低阶用户行为数据和高阶用户兴趣爱好之间的联系,提升推荐模型和方法的个性化推荐效果。值得注意的是,根据用户进入系统的状态和频率,推荐系统中的用户可分为活跃用户、不活跃用户和未登录用户。由于交互方式的差异,推荐系统对不同类型用户采取不同的推荐策略。如何针对不同的推荐策略从不同类型的用户行为数据中挖掘有用的行为关系十分重要。针对这一问题,本论文提出一些新的个性化推荐模型和方法,这些方法在多个推荐任务上取得了推荐效果的提升。具体来讲,本文的主要研究内容介绍如下。(1)针对活跃用户的商品点击率预测问题,提出一种基于因子分解机的深度神经网络框架Deep FM。该框架结合了因子分解机和深度神经网络,可同时学习数据中的低阶和高阶特征组合关系权重,且不需要预训练和特征工程。因子分解机部分将二阶特征关系矩阵分解,提升了模型在稀疏数据中学习二阶特征组合关系的能力。深度网络部分通过神经元之间的连接和非线性变换学习特征之间的高阶组合关系。将分解二阶特征关系矩阵的向量同神经网络共享,降低了神经网络参数的训练难度。基于该共享结构,模型更容易学习到准确的特征表示。本文分别研究了基于该框架的Deep FM-D和Deep FM-P点击率预测模型,并在大规模竞赛数据集和商业数据集进行实验。实验结果显示,基于该框架的点击率预测模型在AUC和Logloss指标取得更好的结果。此外,提出多卡数据并行和异步数据读取提高训练效率。本文提出的Deep FM框架已部署于华为应用市场推荐系统,在该系统进行线上A/B测试,所提出模型取得更高的点击率和转化率。(2)针对活跃用户的排序学习问题,提出基于贝叶斯个性化排名框架的神经网络模型Deep-BLM,该模型基于贝叶斯个性化排名框架,利用神经网络拟合数据中的偏序关系。首先,采用贝叶斯个性化排名方法构建偏序关系集合,然后利用神经网络拟合偏序关系的概率,通过最小化预测偏序关系概率分布和真实偏序关系分布之间的交叉检验熵训练模型参数。基于偏序关系的排序学习模型不仅可以通过用户显式反馈建立模型,而且可以学习到用户隐式反馈中的偏序信息。同基于线性函数的贝叶斯排序学习模型BLM-Rank相比,Deep-BLM可以拟合数据中更为复杂的偏序关系。此外,为提高排序学习的训练/预测效率,本文还研究了基于图形计算卡的并行算法。在多个标准数据集进行实验,Deep-BLM模型都得到更高的归一化累积增益值。(3)针对不活跃用户的消息推送推荐问题,提出局部吸收随机游走近似算法,即A-PARW,基于用户-商品关系图挖掘潜在目标用户。设定该算法的正则参数为单位矩阵,得到A-PARW-I算法,该算法倾向于挖掘给定节点所在社区的节点作为目标用户群体,从而提升消息推送效果。针对不同的推荐场景,分别提出单机和分布式的A-PARW-I算法,以解决基于大规模图的目标用户发现问题。分别在公开数据集和商业数据集进行实验,实验结果显示A-PARW-I算法具有更好的性能。并在真实的生产环境中进行线上A/B测试,相比于个性化的网页排名算法,A-PARW-I算法取得了更高的点击率和下载率。(4)针对未登录用户的个性化推荐问题,提出基于上下文和链路关系的K近邻会话推荐算法,即CKNN-DSM-EPCSR算法。K近邻方法更容易解释、更加高效灵活,是推荐系统中的常用方法。为利用图的结构信息进行会话间的相似度计算,本文提出基于扩散的相似度计算方法DSM,通过λ和β参数分别控制会话长度和商品流行度对相似度的影响。为平衡当前会话中历史点击行为对推荐的影响,提出候选集选择方法EPCSR,该方法保证了当前会话中不同历史点击行为对推荐的影响。结合DSM方法和EPCSR方法,提出CKNN-DSM-EPCSR算法。在多个公开数据集的进行会话推荐实验,所提出算法在命中率、Mean Reciprocal Rank指标都取得了更好的效果。