论文部分内容阅读
随着互联网技术的发展,信息以爆炸式的速度发布、更新、传播。由于人们对于信息的需求,百科性质的在线平台迅速崛起,以满足人们对各种领域专业知识的需求。然而,更多开放性的问题才是人们关注的热点,问答式社区便是根据这一需求产生的。伴随着问答社区中问题的积累,如何高效简洁地组织问题资源成为社区管理者必须面对的问题。早期的问答社区采用分众分类法对问题进行类别标记,以标签的形式组织问题。然而,这种分类方法在解决问题的同时,也存在着缺陷。于是,人们探索是否可以采用自动推荐问题标签的方法,取代过去用户自主定义问题标签的形式。在相关研究愈发深入的同时,研究者不得不面对推荐系统存在的共性问题:推荐系统的冷启动问题、数据稀疏问题以及向量矩阵维数灾难问题等。不同的模型针对这些问题有着相应的处理办法,但也同样有着相应的缺陷。将多个模型的结果融合,从而获取一个更准确的结果便成为一种研究趋势。在这种背景下,本文采用一种称为GBDT(Gradient Boosting Decision Tree)的机器学习方法,对问答社区标签推荐问题进行了探索和研究。本文主要研究内容与研究成果如下:(1)本文首先研究了问题候选标签的获取方法。通过对问题关键词抽取过程的介绍和分析,分别讲述了中文分词、词性标注、Text Rank、TFIDF等一系列关键词抽取过程中涉及到的自然语言处理方法,通过对不同的方法进行比较分析,提出了适合本文的方法。(2)在问题特征的抽取方面,本文阐释了如何使用词向量、条件概率等模型将标签与问题建立关系,包括如何进行相似度计算以及问题标签扩展等技术的研究。通过实验分析,发现将问题类别信息引入特征可以提高标签推荐的准确率。(3)在模型的选择方面,本文提出了使用机器学习方法将不同模型获取的特征进行组合的思想,并最终使用GBDT解决问题推荐标签排序问题。通过实验对比分析,得出本文提出的方法比某问答平台的准确率高8个百分点。