论文部分内容阅读
近年来,在线技术社区已成为技术爱好者或者从业者进行技术交流、咨询和分享的重要平台。然而,随着信息的爆炸式增长,信息泛滥的问题随之出现,这间接地给需要获取信息的用户和需要发布信息的社区运营者都带来了巨大的挑战。因此,研究如何从海量的用户产生内容和行为日志中识别出用户的技能或兴趣,进而对用户进行精准画像,具有重要的意义。这将有助于社区运营者为用户提供精准的推荐和个性化服务,从而增加用户的黏性和社区的活跃度。目前主流的用户技能或兴趣发现方法都是从内容生产者的角度出发,仅考虑了用户发表的文档,而没有站在内容消费者的角度来考虑用户阅读、评论或收藏的文档。针对以上问题,本文充分分析了在线技术社区中内容生产和消费的内在规律,通过融合用户产生内容和行为日志信息,提出了一种新颖的作者-读者-话题(ART)模型来同步发现社区中用户的技能和兴趣。首先,对海量原始数据进行了预处理,包括用户产生内容和行为日志记录。对于用户产生内容,首先根据噪声数据的分布特点以半监督的方法过滤掉博客文档中的噪声数据,包含代码块、HTML标签以及URL链接;然后通过构建IT领域的专有词典,并结合分词工具实现文档的分词及去停用词处理;最后根据文档中技术词汇的占比情况进行非技术类型文档的过滤。对于行为日志记录,通过对不同类型的行为日志进行解析,将行为对应的用户(读者)和文档关联起来,形成了规范化的日志记录。其次,提出了融合用户产生内容和行为日志的用户技能和兴趣发现算法。考虑到社区用户既是内容的生产者(作者)又是消费者(读者),生产者体现用户技能,消费者体现用户兴趣,本文提出了一种新颖的话题模型——ART模型,同时对用户的技能和兴趣进行建模。该模型可以有效地将文档的作者和读者关联起来,因而能够提升话题的聚集效果,产生更准确的作者话题分布和读者话题分布,进而能够更好地发现用户的技能和兴趣。最后,在CSDN技术社区的真实数据集上进行了一系列对比实验和分析,实验结果表明,本文提出的ART模型能够有效地发现用户的技能和兴趣,明显优于现有的相关话题模型。同时,通过对模型发现的用户技能和兴趣的分析,也验证了社区中用户技能相对集中、用户兴趣相对分散的假设。