论文部分内容阅读
在线问答社区已成为人们解决问题、获取知识的重要平台。然而用户在社区提问时受限于自己的用语习惯导致问题描述不准确,往往难以获得高质量的回答。因此本文提出一种基于文本分析的专家推荐系统,该系统能够针对用户所提出的问题,通过改进后的Labeled-LDA模型以及BERT模型进行建模得出最适合回答该问题的若干专家。在专家文本分类部分,考虑到原Labeled-LDA模型存在过多无用词干扰,容易造成主题湮没的缺陷,本文在原模型基础上结合TF-IDF算法、卡方检验算法以及特定领域的特殊名词库进行改进,增大能够代表某一主题的特征词权重,提高模型的分类性能。在专家推荐部分,本文先将待回答问题通过改进后的Labeled-LDA模型进行分类以获知该问题所属的领域类别,然后从该类别下的专家列表中依次取出待匹配的专家信息文本。最后采用BERT语言模型将待回答问题与待匹配的专家信息进行向量化建模,计算两者向量之间的相似度,将相似度系数较高的专家推荐给该问题的提问者。本文旨在利用上述方法实现一个育儿网用户的专家推荐系统。实验部分首先通过Scrapy-Redis分布式爬虫系统获取育儿网近十年来用户的问答信息,预处理后得到每个专家用户的历史回答集合。然后使用改进后的Labeled-LDA模型对所有专家的文本数据进行建模,得到每个专家所擅长领域的概率分布以及各领域下的词汇概率分布,形成专家列表。最后通过BERT将待回答问题与专家信息进行相似度匹配,完成专家推荐。实验结果表明,该系统最终实现的推荐精确度与其他算法实现的推荐精确度相比有显著提高,由此证明了该系统的可行性,为专家推荐领域提供了新的思路。