论文部分内容阅读
随着互联网在民众中的深入普及,网民数量不断增加,加之信息技术进一步发展,社会化问答社区已然成为人们快速搜寻、交换信息和知识的热门场所,它能够突破时空界限,满足了用户碎片化时间的知识获取需要及交流需要,适应了现代人快速的工作和生活节奏。但在志愿式参与的社会化问答社区中,如国外的Yahoo!Answers和Stack Overflow,国内的知乎社区、搜狗问问、百度知道等社区,仍然存在用户提出的问题长时间得不到回应,或问题得不到专业性、完整性、满意度较高答案的现象,久而久之,提问者有可能产生沮丧情绪,对问答社区的期望降低,甚至会选择离开,这显然不利于问答社区的持续健康发展。因此,如何从问答社区知识共享的层面留住用户,寻求回答问题可能性高的专家用户,使得社区中新问题得到有效、专业的回复,是本次课题的研究重点所在。寻找回答问题几率较高的专业答题用户,能够满足提问者得到快速、专业、且令人信服的答案的期望,缩短提问者得到答案反馈的等待时间,助力社会化问答社区的健康持续发展,具有一定的现实意义。此前,也有学者探讨了如何识别问答社区某话题领域内的专家用户,或研究用户在社区知识共享的影响因素,或对相关算法的改进等,实际上,若专家用户受各种条件限制,无法及时回答问题时,社区中问题得不到回复或得不到满意回复的现状仍难以改善。因此,本文借助动机理论和社会资本理论结合专家发现的相关研究,力求找到专业且具有较大答题可能性的回答者,以解决以上问题。此外,本文在一定程度上丰富了相关的学术研究,也能够为专家推荐、问题路由等课题的研究提供一定的参考,因而具有一定的理论和现实意义。本次研究根据网络爬虫在知乎社区医学话题下所抓取的用户个人信息及其相关的问答信息构建实验所需的数据集,结合社会资本理论和动机理论分析用户在社区回答问题的可能性构建研究模型,旨在解决以下三个问题:(1)如何识别网络问答社区中特定话题下的专业用户?(2)什么样的用户回答问题的可能性较大?(3)如何在专家用户中找到回答问题可能性较大的用户?本次研究采用机器学习的方法,依据用户的背景资料、用户在问答社区的交互信息行为、用户在问答社区的活跃度指标,借助一般的数学方法和TOPSIS法来评价用户的可信性;运用tf-idf、LDA主题模型及一般的数学方法对用户在社会化问答社区的历史回答及文章主题信息的挖掘来分析用户的专业性;基于用户在知乎社区所形成的社交网络关系数据,借助PeopleRank算法分析用户在社区中的重要程度,结合用户在社区的发言影响力,测量用户的权威性。研究中,依据实验数据对模型的相关参数进行调试和优化,力求取得较好的实验效果,此外本文还与经典算法PageRank、HITS进行了对比实验分析,最终得出的实验结果验证了本文研究方法及研究模型的有效性及优越性。