非事实类问题的答案选取

被引量 : 0次 | 上传用户：green7116aaa

【摘要】

：

随着问答社区网站的兴起，越来越多的用户生成数据积累了起来。这些用户生成数据不仅具有海量的、多样性的等特点，还有着极高的质量和重用价值。为了高效的管理和利用这些数据，近

【作者】

：

田作辉

【发表日期】

：

2013年期

【关键词】

：

社区问答系统问题检索答案质量答案排序排序支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着问答社区网站的兴起，越来越多的用户生成数据积累了起来。这些用户生成数据不仅具有海量的、多样性的等特点，还有着极高的质量和重用价值。为了高效的管理和利用这些数据，近年来研究人员基于这些数据进行了大量的研究和实践，而社区问答就是一个被广泛研究的课题。社区问答研究基于问答社区数据，与传统的问答系统有着明显的不同。传统问答系统主要解决以短语和命名实体为答案的事实类问题，主要模块是问题理解和答案抽取。而社区问答则没有这样的限制，并且其特别适合回答询问建议或观点的非事实类问题。社区问答研究涵盖问题检索与推荐、问题的兴趣度、问题和答案的质量、答案的排序、用户权威性等研究方向。其中问题检索和答案的选取作为社区问答的核心模块更是受到了学术界和工业界的广泛关注。本课题主要工作为构建一个基于大规模问答社区数据的社区问答系统，并对其中涉及的问题分析、问题检索和答案选取技术进行了深入的研究。社区问答系统构建过程中，本课题收集了来自Yahoo! Answers等社区网站的超过1.3亿问题和10亿答案的大规模数据，和之前的基于百万量级的数据的问答社区相关研究工作相比有着明显的不同和极高的实用价值。在此数据的基础上，本课题通过查询自动分类方法来提高每次查询效率和效果。在问题检索过程中，本课题提出了应用查询问句和候选问题的结构信息和语义信息，并结合排序学习算法来融合多种不同类别的特征。通过训练数据生成排序模型来提高问题检索的相关性和词语不匹配等问题。实验表明，本课题应用Ranking SVM方法来训练的排序模型在不同数据集上，其准确率等评价指标上都相比以往的方法有着显著的提高。在通过问题检索找到与查询问句语义相似的候选问题后，本课题还提出了一个基于问答对的内容信息的新的无监督学习方法，来判定答案的质量以过滤低质量的答案。本课题对问答社区中的数据有以下三个假设：1、一个问题下的大部分答案都是正常的，只有少部分答案是低质量的需要被过滤掉；2、低质量答案可以通过对比同一问题下的其他答案而被检测出来；3、不同的答案应该有不同的判定答案质量高低的标准。基于以上假设，本课题应用基于内容的特征，通过最小化答案特征向量的方差，同时尽可能多的保留答案的方式来对检测低质量答案。实验表明，该方法相比于基准方法在ROC数值上有着明显的提高。在低质量答案过滤之后，本课题还应用问答对的文本信息和社区网站回答者的权威性信息，通过问答社区中的用户选出的最佳答案数据和Ranking SVM算法训练了一个答案排序模型，来对答案进行重新排序选取最佳的答案。通过以上几个步骤，本课题构建了一个高效、实用的社区问答系统，通过300个商业搜索引擎查询日志中高频问题的测试，有78.0%的问题可以给出正确的答案，并对于任意问句可在2秒中内给出结果，该社区问答系统具有很好效果与实用性。

其他文献

应用单双模式过调制技术的三电平SVP WM

将单模式和双模式过调制技术分别应用于三电平SVPWM，使得调制范围扩大为0≤MI≤1；结合三电平的特点进行了过调制技术的分析和比较；最后在以一片TI TMS320LF 2407A DSP为基础的二

期刊

空间电压矢量脉宽调制(SVP WM)过调制三电平逆变器

大学生职业生涯规划中的思想政治教育研究

当前，我国大学生职业生涯规划教育正在兴起。不仅很多大学开设了职业生涯管理课程，而且加强了对大学生职业生涯规划的指导。同时，我国的大学生思想政治教育已经相对完善，我国几乎

学位

大学生思想政治教育职业生涯规划

刘克庄题跋文研究

刘克庄现存题跋文400多篇,其题跋文不仅数量上极为可观,质量亦高,被视为宋末的最后一位题跋大家,《四库全书》更称其在题跋文的创作上独擅胜场。本文立足文本,对刘克庄题跋的

学位

刘克庄题跋文文学思想精神世界

青藏高原冬季NDVI与西南地区夏季气温的滞后关系

该文利用EOF分解得到的1982—2001年西南地区夏季平均、最高和最低气温的时空特征显示,西南地区夏季平均、最高气温的时空变化具有很好的一致性,尤其是川渝地区20世纪80年代

期刊

青藏高原NDVI西南地区气温

中药饮片特征提取和识别系统

甄别中药要尽量去避免用人工的方法，用中药饮片固有的图片信息进行科学地分辨和识别是最合适的，此处涉及了基于内容的图像特征提取，图像底层特征主要有三个方面，分别是纹理特征，颜

学位

中药饮片纹理分析模糊直方图Hu不变矩特征融合

贫困大学生的心理弹性及其影响因素研究

心理弹性研究的开展至今已有30多年，已经被确定为是心理学研究中的一个重要领域，越来越多的研究者加入了研究的行列。贫困大学生是高等院校的一个特殊群体，他们不但和非贫困大学

学位

贫困大学生心理弹性社会支持应对方式

团队认知能力、行为整合与团队创造力关系研究

在强调创新发展的今天，创新能力成为企业构建其竞争优势的新途径。如何在大环境下促进团队创造力的发挥成为学者和管理者们的关注热点。团队认知能力能帮助团队在运作过程中指

学位

认知能力行为整合团队创造力

组织多普勒Tei指数结合胎儿超声心动图多参数综合评价妊娠期糖尿病母亲胎儿心功能

背景糖尿病是妊娠期常见的合并症,影响着约7%的孕妇。妊娠期糖尿病是指妊娠后发生的或首次发现的不同程度的糖耐量异常。我国妊娠期糖尿病的发病率为1.31～3.75%,并呈逐年上升

学位

妊娠期糖尿病胎儿超声心动图组织多普勒成像Tei指数

五四时期的“问题与主义”论战研究

五四时期，中国思想文化界异常活跃，“问题与主义”之争持续时间不长，但却触碰到一些时代所关注的焦点和热点，其发生在五四时期的大背景下，事件当事人李大钊和胡适在论战中各自表达

学位

五四时期“问题与主义”之争李大钊胡适

直肠双平面探头在前列腺穿刺活检的应用研究

目的:直肠双面探头在前列腺穿刺活检中的临床应用价值研究分析。方法:选取我院2015年5月—2017年5月收治的下前列腺穿刺活检患者100例的临床资料作为研究对象,运用回顾分析法

期刊

直肠双平面探头前列腺癌穿刺活检并发症

非事实类问题的答案选取

其他学术论文