论文部分内容阅读
互联网的快速发展改变了人们沟通的方式,更多的人依赖他们的互联网社区来获取信息、咨询专业知识,其中,社区问答(CQA)网站在公众中获得了广泛的普及。伴随着社区问答网站上越来越多的问题得到解答,社区问答已经建立了一个大规模的、可以自由获取知识的知识仓库。它在满足提问者的需求的同时,还可以为广大的社会群体提供有价值的信息和知识。高质量的回答不仅可以满足当前提问者的需求,而且会持续产生价值。本文通过为社区问答系统中新提出的问题推荐相应的专家来提高问题回答的质量,从而增强整个社区问答系统的效率和效果。在单一领域专家推荐时,本文构建了循环神经网络分类模型。在进行专家推荐时,将问题的最佳回答者看作是正例,将其他人看作是负例,采用了多种循环神经网络的模型进行社区问答系统的专家推荐,并且引入注意力机制,通过将文本特征进行加权表示,加强对分类较为重要的特征的权重。实验结果显示了循环神经网络在专家推荐时的有效性,并且带有注意力机制的双向循环神经网络表现出了独特的优越性。在跨领域专家推荐时,本文通过相似度排序和文本分类两种方法进行专家推荐。用户回答历史同新问题的共现信息被视为用户具有相关领域知识的证据。然而,社区问答中的问题往往很短以至于得不到足够的信息来对新提出问题和用户的回答档案进行共现词语匹配,也就是说,新问题和用户回答档案间存在一个语义鸿沟,本文采用分布式表示解决这个问题。实验结果显示分布式表示能够捕捉到文本中的语法和语义信息,提高系统的性能,并且卷积神经网络取得了良好的效果。本文在面向单一领域和多领域结合的Stack Overflow的真实数据集上分别进行了实验,实验结果表明论文提出的方法的有效性。