基于深度学习的问题标签预测研究与实现

来源 :武汉大学 | 被引量 : 0次 | 上传用户:zhaojuan2582
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题标签作为社区问答系统中关键的推荐因素,如何有效且高效地对新问题和有回答的问题进行标签的推荐,成为很多社区问答系统亟待解决的难题。传统的社区问答系统,利用分词技术对问题标题和问题描述进行分词后,统计每个词在整个问题集合中的TF-IDF评分,这种方法虽然能够以比较贴合关键词和频繁标签的方式给用户推荐出部分标签,但却没有充分利用问题的标题、描述的语义和结构信息,并且在新词发现上也存在问题。本文针对无回答的问题的标签预测和有回答的标签预测问题,利用深度神经网络的深层次特征提取能力,弥补传统标签预测算法的不足。本文的主要工作如下:(1)现有的社区问答系统的问题标签推荐算法忽略了问题本身的语义和结构信息,本文从深度学习出发,利用神经网络的高层次文本特征提取能力,以弥补传统机器学习算法在文本特征提取方面的不足。(2)循环神经网络需要递归地对问题序列进行特征提取,存在着的性能问题;基于卷积神经网络的文本分类模型,在深层次网络中会出现难以收敛的问题。本文综合卷积神经网络在文本特征提取方面的能力;Highway网络可以直接将有用的特征信息直接传递到输出层,具有可以加速正样本的训练的能力以及超限学习机(Extreme Learning Machine)具有快速收敛的能力,提出融合卷积神经网络、Highway网络以及超限学习机的无回答的问题标签预测深度学习模型。在知乎数据集上的实验验证了无回答问题标签预测模型的有效性。(3)针对有回答的问题标签预测问题,现有的社区问答系统中多共用无回答的问题标签预测模型,忽略了问题的回答具有对问题进行补充说明的潜在能力。但是,在社区问答系统中,提取多个回答中的问题特征需要对回答进行多文档特征提取工作,需要大量的计算。为解决多文档提取时引入的多主题聚类及需要大量的计算时间等问题,本文利用Wilson评分算法得到置信度最高的回答,置信度最高的回答多是回答质量最高、最贴合问题的回答,将得到的基于用户投票得分最高的回答用于对问题进行补充说明。(4)得到的用户投票得分最高的回答作为问题标签预测的辅助输入,需要对回答进行摘要提取。传统的摘要提取算法主要分为提取式和摘要式,提取式的重点是找到文本中重要的句子,生成的摘要的连贯性和一致性方面无法得到保证;诸如注意力机制的式的文档摘要提取方法,能够在一定程度上实现对文本的理解,能够生成可读性较强的摘要。基于之前的工作,本文提出了利用Multi-Head Attention模型对问答的答案进行特征提取,并结合无回答的问题标签预测模型对有回答的问题进行标签预测。在知乎数据集上的实验验证了引入注意力机制的有回答问题标签预测模型的有效性。(5)将研究无回答和有回答的问题标签预测模型和问题文本预处理技术,以及其他问题标签预测系统核心模块,包括Web Server、数据缓存和负载均衡模块以及Model Server等应用于实际的问题标签预测中,设计了基于预训练模型的Restful服务框架。通过实际使用,验证了本文提出的基于深度学习的问题标签预测模型的有效性。
其他文献
血吸虫病是临床上常见的慢性寄生虫病,其危害程度仅次于疟疾。在全球范围内,有过2.3亿人感染血吸虫病,波及76个国家和地区,每年因血吸虫相关疾病死亡的患者至少有20万。血吸
地方政府采用举债融资的模式已有多年历史,在这期间,除了将债务资金合理利用以实现经济快速发展,风险也是一直需要重点把控的方面。如今,地方政府债务风险已经成为影响经济持续健康发展以及社会稳定的因素之一,因此地方政府债务管理中债务风险管理的重要性越发突出。天津市作为我国四大直辖市之一,此前保持经济较快发展水平,近年来随着国内产业升级、经济拉动由外需转换为内需,天津作为港口城市的经济增速有所下滑,同期其政
随着经济全球化节骤的加速,制造业企业之间的相互竞争渐趋白热化。供应链本身节点企业较多,各个企业的利益诉求点和功能以及在供应链之中的作用机制也不尽相同。轨道装备行业
步入二十一世纪以来,世界发生深刻变革,新兴经济体国家群体性崛起,世界多极化趋势加速发展,以美国为主导的国际秩序逐渐被打破,国际格局正发生历史性的深刻变化和调整,国际潮流不可逆转。以“百年未有之大变局”为研究课题,有利于准确把握和分析当前国际形势,更好把握世界变局和中华民族变局,对实现“两个一百年”奋斗目标具有重大战略意义,促进中华民族伟大复兴中国梦的实现。随着时代的发展,世界格局的演变,无论是对世
学位
随着集成电路产业飞速发展,传统半导体制造技术已逼近物理极限。将光子学器件与微电子技术相结合实现光互连,是当前国内外科学家努力探寻的关键技术之一。满足硅基光电集成的关键点在于解决硅是间接带隙半导体这一弊端,实现高效稳定的硅基光源。近年来,在硅基薄膜中引入合适的杂质作为发光中心,从而获得满足光互连的光电子发光器件是学术界关注的前沿热点。本论文针对全硅基材料发光效率低这一关键问题,在硅基薄膜中引入过渡金
由于金融危机的蔓延,导致一些世界领先的企业和公司倒闭,公司治理的概念受到了工业界和学术界的广泛关注。公司治理机制在公司实体到期和存续中的作用已成为全球公司治理结构的重要组成部分。该研究考察了公司治理机制对加纳公司绩效的影响。本研究以加纳非金融行业28家上市公司为研究对象,旨在探索上市公司良好的公司治理机制对公司业绩的影响,从而推动加纳的经济增长和发展。本研究使用了具有代表性的面板数据,以2008-
当今时代,以计算机、互联网、万维网等为代表的信息技术革命彻底改变了人们信息共享、互联互通等交互方式,各种各样的社会信息网络(社交网站)应运而生,如:Facebook,YouTube,Flicker,LiveJournal,Twitter,豆瓣网,新浪微博,抖音等。社会信息网络兼有信息网络和社会网络的特性,既反映了用户间社会关系,也逐渐成为用户间进行信息交互的主要载体,人们可以随时随地分享新闻、图片
图像分割作为图像处理的重要部分,可以应用于医学图像分析和产品监测等许多领域。图像分割的方法有许多种,基于水平集方法的图像分割模型,是学者们近年来研究较多的一个课题,由于它具有可以灵活处理图像的拓扑结构改变、数值计算简单等优点,使其在图像分割领域的应用越来越广泛。但目前基于水平集方法的图像分割模型仍存在许多问题,如分割准确度和精度较低、对初始轮廓敏感等,导致最后得不到我们想要的分割结果,所以该理论和
乏核燃料的处理是核电发展急需解决的重要问题,传统的乏燃料后处理工艺存在一些技术和安全问题。离子液体由于高的萃取效率、辐射稳定性和安全性,作为高放射性核素的分离用溶
植物繁育系统是当今进化生物学研究中最为活跃的领域,其中交配系统是核心。同一植株不同的交配系统会产生遗传组成不同的散布体,散布体的萌发特性代表着与环境的适应性机制。