论文部分内容阅读
对于大部分人来说,阅读新闻是必不可少的日常活动。通过阅读新闻,人们能迅速获知周围以及外面世界发生的事情。近年来,随着网络技术的快速发展,越来越多的人喜欢阅读电子新闻。这样,大量积累的电子新闻使得读者被淹没在信息海洋中,很难从中快速找到自己感兴趣的信息,造成严重的新闻信息过载问题。幸运地是,个性化新闻推荐系统正在迅速发展,它可以根据用户的偏好,为不同的用户推荐不同的新闻,从而缓解新闻信息过载问题。尽管个性化的新闻推荐已经被广泛研究,但现有的研究并没有考虑到利用新闻领域特征改善推荐准确性、缓解新闻领域数据极端稀疏性问题。本文的主要内容和创新点总结如下:(1)基于种类特征和用户行为序列特征的混合新闻推荐模型研究。首先,发现种类特征有助于更好地模型化用户偏好。利用种类特征,即一般新闻文章与特殊新闻文章有不同的生命周期,并且在用户偏好中发挥不同的作用,以及其它辅助特征,捕获用户偏好,从而改善了传统基于内容的推荐。其次,提出了更有效的用户相似度计算策略,具体地,基于用户行为序列特征,利用序列特征向量来计算用户的相似性,从而改善了传统的协同过滤新闻推荐。最后,提出一种混合新闻推荐模型,融合了多维度新闻领域特征,吸收了基于内容的推荐和基于协同过滤推荐的优点。在真实的新闻数据集上验证了提出的混合模型在准确度上优于现有模型。(2)基于生命周期特征的新闻推荐模型研究。在第一个研究点中,发现特殊的新闻种类和一般性的新闻有不同的生命周期,并且特殊的新闻种类更能反应用户偏好。更进一步地,通过数据分析发现,不同的新闻主题有不同的生命周期,这对于改善新闻推荐,尤其是在数据稀疏的情况下是很有帮助的。基于这一结论,提出生命周期感知的主题模型来融合生命周期的影响,在模型中,每一个生命周期通过泊松分布来表示。同时,利用新闻的价值特征进一步缓解稀疏性和冷启动问题。在新闻数据集上的实验结果表明了提出的模型在召回率和nDCG指标上优于现有的模型。(3)适应读者消费行为动态变化的新闻推荐模型研究。在真实的新闻数据集上,基于显著性检验的方法分析了用户消费行为的动态变化特性。用户阅读行为动态变化指用户阅读行为不仅仅受阅读兴趣的影响,还会受到其它非兴趣因素的影响,例如爆炸新闻的影响。基于此发现,提出适应用户消费行为动态变化的主题模型。在此模型中,读者兴趣和大众影响用来适应用户消费行为的动态变化,用户阅读序列用来适应用户兴趣的动态变化。除此之外,为了缓解新闻领域的数据极端稀疏性问题,在组级别而不是个体级别捕获阅读序列。实验结果表明,提出的模型显著地胜过基准模型。(4)组序列感知的新闻推荐模型研究。在第三个研究点,组分割策略是粗糙的,这会影响到划分组的准确性。更重要地,为每一个组找到典型的序列是很困难的。为了解决这些问题,提出一种组序列感知的主题模型。在模型中,每一个组被看作是一个潜在变量,它可以通过自动学习,以在用户上的多项式分布表示。同样,每一个组典型的序列也可以被看作一个潜在变量,通过自动学习,以在个体序列上的多项式分布表示。基于显著性检验的实验证明了提出模型的优越性。