论文部分内容阅读
近年来,随着广电行业和互联网技术的快速发展,智能电视和互联网视听终端越来越普及,节目源、节目内容也越来越丰富,使观众迅速从节目匮乏时代进入了内容过剩的时代。如何向观众推荐其感兴趣的节目,成为一个无论对观众、对视听运营商都越来越重要的课题。随着双向机顶盒的大规模升级换代,观众的收视行为具备了回传的技术条件。当前,全国视听运营商每天产生的观众收视数据可达TB量级,在此大数据环境下,观众的收视行为、收视兴趣可以进行精准的画像。从而,对于节目推荐算法的研究,具备了技术和业务的前提。目前,研究人员已提出了协同过滤推荐、内容推荐、相似性推荐、关联规则推荐等推荐算法,其中协同过滤推荐算法在各个领域的使用最广泛。在大数据环境下,将协同过滤推荐算法,应用于节目推荐场景,存在如下问题:1)稀疏度过低的节目评分矩阵作为输入时,会导致节目推荐算法出现数据稀疏、冷启动、推荐准确度低等问题;2)推荐算法长时间迭代出现推荐结果类型单一、推荐准确度不稳定等问题。论文设计了基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型和交替最小二乘(Alternating Least Squares,ALS)协同过滤的节目推荐算法,不仅提高了节目推荐结果的准确度,而且在稳定推荐的前提下增加了推荐结果的多样性,满足了用户的节目收看需求。算法工作机制:1)利用LDA主题模型获得节目特征和节目相似度矩阵,然后设计出优化评分矩阵稀疏度的算法,将节目相似度矩阵作为权重因子,最后将评分矩阵的空白值得到部分填充,使稀疏评分矩阵引起的问题得到缓解;2)以ALS协同过滤算法为基本算法,降低稀疏度的节目评分矩阵作为输入,结合节目与用户协同过滤推荐的可信度,设计动态调节权重的模型来改进ALS协同过滤算法,达到“稳定推荐”与“多样推荐”的效果;3)在面向大数据环境时,采用Spark技术实现节目推荐算法复杂的矩阵迭代过程,以此实现改进节目推荐算法的并行化,解决算法的低时效问题。通过搭建Spark大数据实验平台进行了仿真实验,实验数据显示论文设计的节目推荐算法均方误差(Mean Squared Error,MAE)值稳定在0.78左右,相比传统ALS协同过滤推荐算法提升了 15%左右,验证了节目推荐算法的有效性。