论文部分内容阅读
互联网的发展伴随着信息超载问题。为解决信息超载问题,很多领域开始打造属于自己的个性化推荐系统,以方便用户高效获取信息,优化平台的用户体验。如新闻资讯平台,往往会基于包括用户历史行为在内的用户属性和新闻属性建立推荐系统:在用户阅读新闻资讯的过程中,为用户推荐用户真正感兴趣的阅读内容,大大减少用户浪费在翻阅新闻上的时间和精力,以高效便捷的新闻阅读体验为新闻资讯平台带来更多忠实的用户群体。对于推荐系统,推荐点击率是评价其优劣的一个重要指标。本文主要考虑基于文本变量的新闻点击预测问题。针对某新闻资讯类App,首先定义三个用户历史阅读新闻标签变量,通过对这三个变量的关联分析,得到数据中包含的用户感兴趣的新闻类型以及用户的新闻阅读行为习惯。接着通过标准互信息的方法研究曝光新闻是否被点击阅读的影响因素,并基于标准互信息分析结果和关联分析结果提出两种刻画用户历史行为与当前推荐之间关系的变量,包括由用户历史阅读新闻标签变量与曝光新闻标签变量生成的组合变量和由关联规则生成的交互效果变量。最后使用因子分解机(Factorization Machine,FM)模型建立不同变量组合的曝光新闻点击预测模型,选取三个模型评价指标:Accuracy、Precision和AUC对模型进行评价,并通过最终模型分析影响用户点击阅读曝光新闻的主要因素。本文研究发现:(1)用户感兴趣的新闻类型主要包括娱乐、社会、情感、军事、体育、搞笑、国际、历史、宠物等,其中娱乐新闻是最受欢迎的新闻类型。(2)用户倾向于阅读不同类型的新闻内容,仅单独阅读某一类新闻的用户占极少数。(3)在众多曝光新闻类型中,政策类新闻点击率较低;数码类新闻点击率较高。(4)在众多因素中,用户阅读历史和当前曝光新闻类型对预测用户是否点击阅读曝光新闻的贡献最大。(5)结合用户的阅读历史和当前曝光新闻属性,可以提高预测用户是否点击阅读曝光新闻的精度,如用户在过去是否阅读过当前推荐的新闻类型、根据用户最近一次阅读历史得到的其阅读当前曝光新闻类型的可能性大小等。