基于GBDT的社区问题标签推荐技术研究

被引量 : 0次 | 上传用户:wd070703332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,信息以爆炸式的速度发布、更新、传播。由于人们对于信息的需求,百科性质的在线平台迅速崛起,以满足人们对各种领域专业知识的需求。然而,更多开放性的问题才是人们关注的热点,问答式社区便是根据这一需求产生的。伴随着问答社区中问题的积累,如何高效简洁地组织问题资源成为社区管理者必须面对的问题。早期的问答社区采用分众分类法对问题进行类别标记,以标签的形式组织问题。然而,这种分类方法在解决问题的同时,也存在着缺陷。于是,人们探索是否可以采用自动推荐问题标签的方法,取代过去用户自主定义问题标签的形式。在相关研究愈发深入的同时,研究者不得不面对推荐系统存在的共性问题:推荐系统的冷启动问题、数据稀疏问题以及向量矩阵维数灾难问题等。不同的模型针对这些问题有着相应的处理办法,但也同样有着相应的缺陷。将多个模型的结果融合,从而获取一个更准确的结果便成为一种研究趋势。在这种背景下,本文采用一种称为GBDT(Gradient Boosting Decision Tree)的机器学习方法,对问答社区标签推荐问题进行了探索和研究。本文主要研究内容与研究成果如下:(1)本文首先研究了问题候选标签的获取方法。通过对问题关键词抽取过程的介绍和分析,分别讲述了中文分词、词性标注、Text Rank、TFIDF等一系列关键词抽取过程中涉及到的自然语言处理方法,通过对不同的方法进行比较分析,提出了适合本文的方法。(2)在问题特征的抽取方面,本文阐释了如何使用词向量、条件概率等模型将标签与问题建立关系,包括如何进行相似度计算以及问题标签扩展等技术的研究。通过实验分析,发现将问题类别信息引入特征可以提高标签推荐的准确率。(3)在模型的选择方面,本文提出了使用机器学习方法将不同模型获取的特征进行组合的思想,并最终使用GBDT解决问题推荐标签排序问题。通过实验对比分析,得出本文提出的方法比某问答平台的准确率高8个百分点。
其他文献
儒家思想是中国传统文化的核心,它在整个传统文化体系中居于主导地位.儒学思想有着鲜明的人本主义色彩,它从尊重人出发,以"仁"为基础,以道德自律为核心,以中庸为其方法论,以
海洋是人类生存和发展的蓝色摇篮,随着各国对海洋资源开发、利用的步伐不断加快,制定强有力的海洋战略是当今世界每个国家增强核心竞争力的一种重要手段。海洋战略的有效实施
宗教长期以来在人类文明中占据有重要的地位,宗教对社会的作用是双刃的,可以是积极的,也可以是消极的,其正向功能指向了保障社会系统正常有序运转,其反向功能指向了固化传统
民粹主义是一个反复性的社会现象,网络民粹主义就是在中国社会现代化转型进程中,伴随网络发展而在网络空间产生的新型民粹主义表现。随着互联网时代的来临,一方面使得社会信
<正>世界已进入信息化时代。从全球来看,中国正在成为世界上少有的一个舆论超强磁场。从国内来看,人民法院不仅处在维护社会公平正义第一线,而且也处在社会舆论尤其是网络等
随着社会经济的高速发展,城市交通供需矛盾日益尖锐。大力发展城市公共交通成为世界公认的摆脱城市交通困境的有效举措。大城市公共交通系统呈现多模式化特点,如何建立高效的
<正>All isolated dsRNA bacterial viruses are similar and assigned to the Cystoviridae family.Their genomes are constituted of three dsRNA segments and the tripl
会议
医院在产前检查及诊断中存有过错,致使孕妇生育缺陷婴儿的,产前检查夫妇可以医院侵权为由提起损害赔偿诉讼;但医院仅对与其产前过错诊断具有因果关系的损害后果承担赔偿责任
<正> 问题案例一:甲诉请乙偿还货款1000万元,执行中法院查封并欲拍卖登记在乙名下之房产,丙提出此房产系其向乙购买并已支付全部货款,房产也已实际占有,要求法院解除查封以保
<正> 【裁判要旨】竞业限制,是指用人单位在劳动合同中限制劳动者自由选择职业的权利以及特定专长的充分施展,从而获得对某种技术秘密以及信息资源的垄断,进而获得商业利益。