论文部分内容阅读
随着互联网技术的发展,电子商务平台越来越成为网络流量的主要来源,线上消费线下服务也成为了大众生活的主流。其中,电商平台的推荐系统是连接客户与商家的主要桥梁,通过线上数据采集、离线数据分析、线上数据推荐及反馈的闭环导通模式将海量数据通过模型变现,达到引导用户的行为、挖掘用户兴趣同时高效提高收益的作用。目前的推荐系统已经大量运用到了各大电商平台中,推荐的技术也越来越成熟。但目前大多数的推荐系统均是基于协同过滤的用户或内容导向的推荐,均会受到不同程度的长尾效应的影响。本文将通过具体的实验研究对电商平台长尾商品的推荐问题展开讨论,将指出传统推荐中存在的长尾问题,并通过相应的主题模型给出长尾数据利用的方法,同时提出评价长尾推荐的性能指标,以补充推荐系统的评价构成。课题在对研究对象进行特征工程处理后,将分为两部分实验来展现长尾的特性。首先通过级联模型,按照常用分类算法对商品进行推荐,实验结果表明,在保证正常推荐效果的情况下,F1值能稳定在34%左右。借助多样性的信息,文中指出了算法中对于长尾商品利用的不足,也借此提出了长尾推荐率和稳定性的新评价标准,同时提出了长尾深度和长尾等级的宏观概念,以此来衡量算法对于长尾数据的利用率及综合性能。在级联模型中,推荐率和稳定性指标值分别只能达到 29.50%和1.105。本文接着提出了基于用户的EN-LDA算法,将模型中的document层用user层来替代,利用主题模型的思想来扩展信息渠道的来源,尝试解决长尾商品的推荐问题。最后实验结果显示新主题模型在保证传统推荐性能不大幅度降低的前提下,将长尾推荐率和稳定性分别提高到了 47.6%和1.452,其中长尾推荐率提高了接近20个百分点;同时,长尾等级也提升至了二级。通过实验可以看出,本文提出的主题模型能够较好的解决推荐系统中长尾数据难以利用的问题。