论文部分内容阅读
近年来,随着互联网数据呈现出爆炸式的增长趋势,推荐技术已成为解决互联网信息过载问题的一种有效途径,并已成为人工智能、数据挖掘、机器学习等领域内的一个热门科研课题。另一方面,伴随着移动互联网通信技术的兴起和移动设备的普及,将传统的推荐技术应用于移动互联网环境逐渐成为了一个新兴的研究方向。然而,由于移动环境的特殊性,给传统的推荐技术提出了新的挑战。特别的,在移动环境下,人们的行为活动往往带有序列的属性,在许多应用场景中序列将成为一些决策问题的重要因素。本文就以此问题作为切入点,并取出租车载客地点序列推荐这一场景作为研究对象,详细对移动环境下的序列推荐技术进行了不同角度的研究,具体有以下3个方面:首先,我们对多点序列推荐展开研究。具体的,我们将基于出租车GPS轨迹数据集,建立出租车载客地点多点序列推荐的马尔科夫决策过程模型,并给出算法进行求解。仿真实验表明,与经典的推荐前TopK收益地点的方法相比,该模型给出的推荐结果有着更加优异的推荐性能,能使得出租车司机取得更多的期望收益。其次,我们对基于偏好和上下文的个性化序列推荐展开研究。具体的,我们将分析数据集中收益较高的“专家”司机的数据,并利用逆向增强学习和学徒学习的方法,挖掘出这些专家做出决策时的知识,从而还原出每个专家各自所对应的回报函数R。为了测试推荐结果的准确性,我们在实验中测试3项不同的预测任务,并与别的文献的方法进行对比。实验结果表明,本文的方法的预测精度具有显著的提高。最后,我们对多agent环境下的序列推荐展开研究。具体的,我们将基于出租车GPS轨迹数据集,估算出不同的转移速率,从而建立起司机和乘客行为的连续时间马尔科夫链模型。同时,我们将建立出租车司机载客行为的随机博弈模型,并基于上述的速率求出随机博弈中的状态转移函数,最后给出算法求解出纳什均衡策略,以反映出不同司机之间对乘客需求的竞争特性。仿真实验结果表明,在真实的环境下,本文给出的纳什均衡策略比未考虑多agent竞争的原策略更能减小等待乘客所需的时间,从而提高出租车司机的期望收益。