融合用户产生内容和行为日志的兴趣发现研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:kinds1118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线技术社区已成为技术爱好者或者从业者进行技术交流、咨询和分享的重要平台。然而,随着信息的爆炸式增长,信息泛滥的问题随之出现,这间接地给需要获取信息的用户和需要发布信息的社区运营者都带来了巨大的挑战。因此,研究如何从海量的用户产生内容和行为日志中识别出用户的技能或兴趣,进而对用户进行精准画像,具有重要的意义。这将有助于社区运营者为用户提供精准的推荐和个性化服务,从而增加用户的黏性和社区的活跃度。目前主流的用户技能或兴趣发现方法都是从内容生产者的角度出发,仅考虑了用户发表的文档,而没有站在内容消费者的角度来考虑用户阅读、评论或收藏的文档。针对以上问题,本文充分分析了在线技术社区中内容生产和消费的内在规律,通过融合用户产生内容和行为日志信息,提出了一种新颖的作者-读者-话题(ART)模型来同步发现社区中用户的技能和兴趣。首先,对海量原始数据进行了预处理,包括用户产生内容和行为日志记录。对于用户产生内容,首先根据噪声数据的分布特点以半监督的方法过滤掉博客文档中的噪声数据,包含代码块、HTML标签以及URL链接;然后通过构建IT领域的专有词典,并结合分词工具实现文档的分词及去停用词处理;最后根据文档中技术词汇的占比情况进行非技术类型文档的过滤。对于行为日志记录,通过对不同类型的行为日志进行解析,将行为对应的用户(读者)和文档关联起来,形成了规范化的日志记录。其次,提出了融合用户产生内容和行为日志的用户技能和兴趣发现算法。考虑到社区用户既是内容的生产者(作者)又是消费者(读者),生产者体现用户技能,消费者体现用户兴趣,本文提出了一种新颖的话题模型——ART模型,同时对用户的技能和兴趣进行建模。该模型可以有效地将文档的作者和读者关联起来,因而能够提升话题的聚集效果,产生更准确的作者话题分布和读者话题分布,进而能够更好地发现用户的技能和兴趣。最后,在CSDN技术社区的真实数据集上进行了一系列对比实验和分析,实验结果表明,本文提出的ART模型能够有效地发现用户的技能和兴趣,明显优于现有的相关话题模型。同时,通过对模型发现的用户技能和兴趣的分析,也验证了社区中用户技能相对集中、用户兴趣相对分散的假设。
其他文献
在人体发音过程中,声道的形状会实时变化,而声道的形状决定着声音的音色以及内容,因此,当声道形状改变时声音也会发生相应的改变。此外,当声道中介质的流动速度较高时,介质的
通过对谐波平衡方法的深入分析,提出了迭代谐波平衡方法并对比分析了牛顿谐波平衡方法和迭代谐波平衡方法的异同。从本质上说修正的谐波平衡方法主要是克服经典谐波平衡方法
复杂网络的出现,为复杂性研究提供了一种新视角与新方法,它以一种抽象的方式描述真实的网络。与此同时,演化博弈论的引入为人们解决社会困境问题提供了强有力的理论工具,两者
脆性材料在生产实践中有着广泛的应用,脆性材料的强度理论是材料学中的基本问题之一,在这方面的发展和创新,不仅具有学术意义,而且具有重要的应用价值。但是脆性材料品种繁多
数值域是当今数学比较热门的话题之一,自从Toeplitz-Hausdorff定理出现之后,关于数值域的研究开始变得活跃起来.关于数值域的研究涉及到基础数学和应用数学的许多分支,并且在
由于具有独特的性质,原子厚度的二维磁性材料受到广泛的关注。二维半导体材料通常是内秉非磁性的,这限制了它们在自旋电子学上的应用,为使其有效地应用于自旋电子器件,有必要
本文主要是通过广探树找曲面嵌入图中几类最短圈,这些研究在图论的研究中有着重要的地位.本文在第三章中重点研究如何找连通图的广探树问题,对边权相同的赋权连通图和边权不
合成生物学是21世纪新出现的一门交叉学科,它将工程化的思想运用到系统生物学研究中,为解决人类在医疗、环境及能源等方面面临的难题提供了新技术、新思路。目前基于合成生物
代数组合是个相对"年轻"的研究领域.从1984年日本代数组合学家Eiichi Bannai 和 Tatsuro Ito 出版了专著《Algebra Combinatorics Ⅰ:association scheme》后,"代数组合"这个
近年来,对复杂网络的研究已经受到计算机、数学、经济学、传播学和生物学等不同学科领域的关注,网络的结构与动力学是复杂网络科学的两个最基本问题。对于网络结构的探测包括