基于LDA主题模型和ALS协同过滤的节目推荐算法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qubinai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着广电行业和互联网技术的快速发展,智能电视和互联网视听终端越来越普及,节目源、节目内容也越来越丰富,使观众迅速从节目匮乏时代进入了内容过剩的时代。如何向观众推荐其感兴趣的节目,成为一个无论对观众、对视听运营商都越来越重要的课题。随着双向机顶盒的大规模升级换代,观众的收视行为具备了回传的技术条件。当前,全国视听运营商每天产生的观众收视数据可达TB量级,在此大数据环境下,观众的收视行为、收视兴趣可以进行精准的画像。从而,对于节目推荐算法的研究,具备了技术和业务的前提。目前,研究人员已提出了协同过滤推荐、内容推荐、相似性推荐、关联规则推荐等推荐算法,其中协同过滤推荐算法在各个领域的使用最广泛。在大数据环境下,将协同过滤推荐算法,应用于节目推荐场景,存在如下问题:1)稀疏度过低的节目评分矩阵作为输入时,会导致节目推荐算法出现数据稀疏、冷启动、推荐准确度低等问题;2)推荐算法长时间迭代出现推荐结果类型单一、推荐准确度不稳定等问题。论文设计了基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型和交替最小二乘(Alternating Least Squares,ALS)协同过滤的节目推荐算法,不仅提高了节目推荐结果的准确度,而且在稳定推荐的前提下增加了推荐结果的多样性,满足了用户的节目收看需求。算法工作机制:1)利用LDA主题模型获得节目特征和节目相似度矩阵,然后设计出优化评分矩阵稀疏度的算法,将节目相似度矩阵作为权重因子,最后将评分矩阵的空白值得到部分填充,使稀疏评分矩阵引起的问题得到缓解;2)以ALS协同过滤算法为基本算法,降低稀疏度的节目评分矩阵作为输入,结合节目与用户协同过滤推荐的可信度,设计动态调节权重的模型来改进ALS协同过滤算法,达到“稳定推荐”与“多样推荐”的效果;3)在面向大数据环境时,采用Spark技术实现节目推荐算法复杂的矩阵迭代过程,以此实现改进节目推荐算法的并行化,解决算法的低时效问题。通过搭建Spark大数据实验平台进行了仿真实验,实验数据显示论文设计的节目推荐算法均方误差(Mean Squared Error,MAE)值稳定在0.78左右,相比传统ALS协同过滤推荐算法提升了 15%左右,验证了节目推荐算法的有效性。
其他文献
学位
在全球化和中国不断发展的带动下,学习汉语的人数日益增加。随着汉语国际教育的不断发展,越来越多的机遇和挑战也随之出现了。国内培养的汉语国际教育硕士越来越多,可是最终
社交是指人类利用不同方法(设备)与外界其他人员进行相互交流,传达自己在各个领域的信息,它一种社会化的协作方式。随着互联网技术的不断发展,人们对社交软件也不断的提出新
学位
民俗摄影作为一项同时具备学术性、真实性、艺术性等特征的摄影门类,能够对非物质文化的发展情况进行如实地表现与记录,在记录不同民族不同历史阶段的文化特点、生活习俗、社会发展情况等领域有着难以取代的作用,具有极高的文献记录价值、史料收藏价值和学术研究价值。在开展非物质文化遗产保护如火如荼的今天,应充分利用我国丰富的非物质文化遗产资源创作出更多、更好的摄影作品。非物质文化遗产是一个国家和民族历史文化成就的
教材在汉语教学过程中具有不可或缺的作用,优质的教材能对课堂教学起到事半功倍的效果,因此对汉语教材的研究非常必要。目前关于初级汉语阅读课教材的研究已经取得了一些优秀的研究成果,但就研究成果的实用性和针对性来看还比较欠缺。我们以目前现有的两本较受欢迎的初级汉语阅读教材(《汉语阅读教程修订本第一册》和《初级汉语阅读教程Ⅰ》)作为研究和对比的对象,分析了两者在整体结构和词汇编写方面的异同。我们研究后发现,
学位
随着工业化进程的加快,大气酸沉降增加已经对陆地生态系统造成了严重的影响。近年来,随着大气污染物限排措施的实施,我国大部分区域酸沉降速率趋于平稳甚至降低。然而,工业格局的变化使得西北地区酸沉降速率呈上升趋势。燃煤电厂是酸前体物(主要为NOx和SO2)的主要工业排放源之一。为阐明工业园区燃煤电厂周边酸沉降的生态效应,本文以宁东能源化工基地3个燃煤电厂为监测点,于2019年1—6月收集了电厂周围降水降尘
高校信息公开是保障公众知情权的需要,也是保护利益相关人合法权利的需要。在信息共享的时代,高校信息公开也不断面临着新的挑战。高校如何面向社会及公众需求,如何合理有效
学位