【摘 要】
:
在互联网高速发展的今天,网络上数据的增长已经非常迅速。如何从海量的数据中找出用户所需要的信息已经变得越来越重要。社交网络在web2.0时代也迅速流行开来,社交网络中文本
论文部分内容阅读
在互联网高速发展的今天,网络上数据的增长已经非常迅速。如何从海量的数据中找出用户所需要的信息已经变得越来越重要。社交网络在web2.0时代也迅速流行开来,社交网络中文本的与传统的文本有着很大的区别,如何对这些文本信息建模,并向用户做出推荐也成为一个比较热门的研究领域。主题模型能够挖掘文本的潜在语义信息,从主题的层次建立文本的模型,这是主题模型与传统文本模型最大的不同点。主题模型在社交网络中的主题信息发掘能够克服社交网络中的文本字数少、噪音大的问题。本文在原始LDA模型的基础上实现了ATM-LDA模型以及MB-LDA模型。ATM-LDA将文档-主题建模方式转化为作者-主题的建模方式,实现了对作者的主题挖掘。MB-LDA模型在建模过程中引入了作者之间的关联以及文本之间的关联,将联系人之间的主题分布区别开来。本文在分析了现有推荐技术和主题模型的特点后,提出了基于用户兴趣特征和关键词序列的用户兴趣模型。该模型通过主题模型和用户关键词的提取,对用户进行特征表示。主题模型中引入了潜在主题这一隐含变量,通过吉布斯抽样计算用户的主题分布,对用户的潜在兴趣进行特征化表示。将用户兴趣特征与关键词结合,可以建立基于潜在语义和内容两个维度的兴趣模型。在用户兴趣模型的基础上,本文提出了基于主题模型和空间向量模型相结合的混合推荐算法,通过用户视角主题模型建立用户的兴趣特征向量,然后建立用户关键词序列的空间向量模型。最后对两种模型的相似度线性加权,产生推荐结果。实验采用了新浪微博的数据,实验结果表明,本文的混合推荐模型在准确度和多样性上都有不错的效果。
其他文献
随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域
使用对有种溶解气体分析的方法进行变压器故障诊断,可在变压器运行期进行故障分析的特点,对于变压器维修模式的转变有很大的推动作用,具有重要的研究意义。本文在分析现有变压器故障诊断方法的特点及其存在问题的基础上,将极限学习机算法应用于变压器故障诊断。提出了基于极限学习机的油浸式电力变压器故障诊断方法。分析了不同隐藏层激活函数对极限学习机的诊断性能的影响,给出了诊断的具体实现方法。这种方法有不容易出现局部
随着互联网的不断发展,新型网络应用的不断涌现,特别是语音、视频等多媒体流量的增加,网络信息流量呈现爆炸式增长,带宽资源变得更加紧张,拥塞问题更加严重。另一方面,人们对
智能照明系统在我们的生活中随处可见,一套优秀的智能照明系统不仅能最大限度地节约照明能源,而且能够创造一个良好的、舒适的工作环境,从而提高工作效率。近年来,国家正在大力提
随着计算机技术的不断进步,人类创造的数据正以爆炸式的速度增长,传统的集中式的信息检索在面对海量数据时往往不堪重负,分布式的信息检索系统开始越来越受到人们的重视。集合选
随着互联网的发展和普及,医疗服务类网站越来越多,功能也更加的智能化,网上挂号功能也得到了普遍应用,用户可以不出家门就能在网上预约挂号,方便了用户就诊,传统的导医采用人工方式
数据挖掘是当今计算机研究领域中一个热点问题,它的意义在于从海量数据中挖掘出有效的,新颖的,有潜在应用价值的并且最终可以被人们所理解的知识。传统的数据挖掘关注的是如何找
当今社会,计算机网络发展迅速,确保网络信息的安全性就显得尤为重要。能够主动保护信息安全的入侵检测技术,作为一种保障措施而备受关注。神经网络的优势在于,它能够作为一种方法
社交网络的快速发展使得丰富的社交信息被应用到智能推荐领域,个性化推荐面临着巨大变革。近年来,如何利用社交信息解决推荐过程中的用户冷启动问题并提高推荐结果的准确度成为
随着互联网技术的高速发展和众多数据密集型应用的普及,互联网数据规模呈爆炸式增长。为了应对大规模海量数据的存储和处理问题,云计算技术应运而生且发展迅速,Hadoop作为主流的