【摘 要】
:
微博是一个基于用户关系的信息分享、传播以及获取平台,内容简单、用户之间的交互性强、使用门槛低是微博的特点,近年在我国取得了快速发展。微博作为当下最流行的社会化网络
论文部分内容阅读
微博是一个基于用户关系的信息分享、传播以及获取平台,内容简单、用户之间的交互性强、使用门槛低是微博的特点,近年在我国取得了快速发展。微博作为当下最流行的社会化网络服务媒体,基于微博的用户兴趣挖掘研究也迅速成为一个新兴的研究课题:首先发现感兴趣的微博账户与信息是微博用户最重要的活动,微博平台则需要准确地基于用户的兴趣进行相关信息的推荐;其次用户兴趣识别系统是实现精准广告投放的基础,兴趣挖掘的准确度直接关系到广告投放的效果,关系到微博平台的盈利。本文作者在分析新浪微博的信息特点和用户行为特点的基础上,学习了传统的使用词向量进行文本特征表示的文本分类算法,并基于无监督、无层次结构的主题模型LDA (Latent Dirichlet Allocation,隐含狄利克雷分配),扩展实现了有监督、无层次结构的主题模型Labeled LDA,用于对微博用户兴趣分布的识别。本文主要研究了用户兴趣识别过程中涉及到的关键问题,主要包括以下三个方面的工作:(1)使用Python开发针对新浪微博的定制网络爬虫,绕开微博API的限制,实现微博文本的并发快速获取,为研究工作提供了及其丰富的实验数据;(2)学习文本分类技术,使用有监督、无层次结构的主题模型Labeled LDA,用微博主题账号的微博文本进行模型的训练,用于对其他微博用户兴趣的预测;(3)考虑海量数据的场景,使用Hadoop、Hive等分布式框架,实现海量中文文本数据的分布式分词与预处理。最终,通过用户兴趣识别系统得到的用户兴趣分布的数据在实际中成功的应用于用户个性化词云的产生与展现、搜索结果的调整与优化、广告的个人兴趣化定向投放等方面。
其他文献
M地产集团有限公司是中国Q集团公司的下属子公司,主要从事房地产开发、建筑安装等专业工程项目。由于该公司主营业务以工程项目为主,规模较大,地域分布较广,需要结合实际需求
青少年是祖国的未来与希冀。伴随着电视、网络、手机等大众媒介的兴起与普及,信息时代的青少年从出生开始便生活在信息环境中,他们每天通过媒介认识社会,大众媒介在很大程度上影
当今时代不仅是信息飞速传播的时代,更是追求权利的时代。知情权作为一个法律概念,是西方国家在上世纪中期首先提出的,经过半个多世纪的发展,如今已成为世界范围内的普遍共识。纳
拉曼光谱反映了入射光与分子振动、转动能级的相互作用,能提供分子特有的结构信息,因此在许多领域具有广泛的应用。但是分子的拉曼散射截面极小,分子的常规拉曼信号很弱,因此制约
《中华人民共和国公司法》第七十一条规定在有限责任公司中,股东转让其所持有股权时,公司其他股东享有优先购买的权利,这是由于有限责任公司具有人合性、资合性的特征所致。同时
随着科学技术的进步以及人们生活水平的提高,家用服务机器人逐渐进入人们的生活,其中智能清洁扫地机最为人们喜爱,它的出现不仅减轻了人们的生活负担,提高了人们的生活水平,更标志
目的本研究旨在初步形成河南省二三级医院护士层级、准入条件、工作职责等指标体系框架,以期为建立本土化的护士分层次使用体系和推进护士岗位管理提供参考。方法质性研究与量
摘要:我国的检测机构最初全部由国家统一设立和管理,所有检测均由国家检测机构执行。随着市场经济的不断深化,检测市场逐渐向民间及国际资本开放,政府指令性检测的范围不断缩
壮族歌仙刘三姐的故事家喻户晓。作为众所周知的少数民族代表人物,她的故事在我国民间广泛传颂。《刘三姐》经历了由传说故事—文学—戏剧—电影—山水实景(《印象·刘三姐》
未成年人监护制度不仅仅是一项重要的民事法律制度,更是保护未成年人权益的一项保障性制度。其目的在于保护无民事行为能力及限制民事行为能力的未成年人的人身、财产即其他