论文部分内容阅读
近二十年,伴随着互联网技术的发展,大量的社交网络不断涌现。其中,在线Question Answering (QA)系统是一种供用户提问与回答的网站,正以其独特的方式实现信息和知识的共享。因此,在在线交流平台QA系统中引入专家发现的研究是非常有必要的。现有关于专家发现的研究主要基于统计语言模型和链接分析,并且已有部分学者将在线问答网站作为研究对象,如Yahoo Answers!。本论文以专业编程问答网站Stack Overflow为研究对象,考虑主题分布和链接关系双重影响,分别建立主题模型和得分传播模型。目标是实现对一条以自然语言形式输入的问题,返回一系列适合回答该问题的专家。论文具体研究内容如下:1)总结了现有关于专家发现以及在线问答系统的研究,针对存在的不足以及研究需求,提出在专业编程问答网站Stack Overflow中实现专家发现的整体思路与方案。同时,介绍了数据采集过程,并且对数据进行了一些统计与分析,同时对数据进行了必要的清洗和预处理;2)建立主题聚类模型,实现相应主题和专家的定位。首先,以数据集中的问题作为训练集,实现对主题的划分。进一步地,衡量问题与主题之间的距离,依据距离最短实现对所有问题的聚类。对此利用测试问题进行了实验,实验证明我们提出的主题模型和聚类方法能够实现较好的结果。3)建立得分传播模型,实现对主题内的专家的排序。根据获得的数据集中的问答记录,通过用户之间Authority和Hub两种属性的得分的传播计算,实现对用户的专业能力进行排序。对此,我们同样利用测试问题进行了实验,实验证明我们提出的得分传播模型能够实现对主题内用户的排序,并且具有一定的准确率。4)专家发现的具体实现。首先,依据主题聚类模型实现主题的定位。然后,依据对输入问题与主题内的问题之间的相似度衡量,建立隐含链接,构建用户关系网络。进一步地,利用得分传播模型返回一系列的专家,并对结果进行了分析。5)图形用户界面GUI的实现过程。该GUI能够形象地体现专家发现的工作。用户在输入文本框中键入自己的问题,系统就可以返回一系列专家到界面供用户参考。