论文部分内容阅读
随着移动互联网的发展和Web2.0应用的流行,推荐系统在帮助用户获取感兴趣的内容和帮助平台推广内容方面发挥着日益重要的作用。在众多优化目标中,准确性和多样性是推荐算法最重要的两个优化目标,且两者存在紧密的联系。虽然两者引起了学者们的浓厚研究兴趣,但是仍然存在一些问题:(1)缺少一种准确且简便通用的用户兴趣和物品属性提取方法;(2)在多样化推荐时,候选物品的排序分数多依赖经验公式设计或手工提取大量特征难以训练学习;(3)基于蒙特卡洛采样的多样化强化学习排序算法,存在着训练不稳定以及样本效率低的不足。针对这些问题,本文的研究工作主要包括:(1)提出一种利用多模态附属信息辅助刻画用户兴趣和物品属性的方法。通过分析多种附属信息的内容形式和刻画意义,将附属信息抽象为离散型和连续型两类。对于离散型信息,提出了基于注意力机制的自适应融合网络,自动学习权重并合并多个离散特征用于丰富用户兴趣或物品属性的向量刻画。而对于连续型,采用迁移预训练模型,如图像处理的VGG16,提取图片的深度语义特征表示,在训练阶段用于校准对用户或物品的刻画。实验分析论证了本文方法对协同过滤数据稀疏性的缓解和推荐结果准确性的提升。(2)设计一种基于候选物品类目信息降权的多样化排序公式,并提出一种针对多样化排序学习的pair-wise优化算法。不同于以往工作,这里排序公式基于普遍存在的物品类目信息,并将相关性和多样性得分进行整体建模。近似多样化评估指标设计的排序公式可以间接实现面向不可导评估指标的优化,同时训练阶段进行端到端地更新学习排序公式中相关参数,有效避免了手工特征工程的不准确和繁琐性。实验表明基于该方法的推荐结果多样化性能远远优于对比方法。(3)提出一种样本高效的基于Actor-Critic强化学习算法的多样化推荐方法。采用LSTM递归网络建模用户多样化兴趣需求状态随着推荐物品的变化过程,并基于此计算候选动作的概率分布。与现有的基于策略梯度或Actor-Critic算法不同,本文通过模拟前向一步所有动作,对值函数优化期望贝尔曼等式,对策略函数优化动作空间的期望梯度,提高了样本利用效率和更新学习的稳定性。实验结果表明本文所提方法在多样化推荐指标上超过多种对比方法,并且相比其他强化学习方法大大提高了训练稳定性和训练效率。