论文部分内容阅读
随着问答社区网站的兴起,越来越多的用户生成数据积累了起来。这些用户生成数据不仅具有海量的、多样性的等特点,还有着极高的质量和重用价值。为了高效的管理和利用这些数据,近年来研究人员基于这些数据进行了大量的研究和实践,而社区问答就是一个被广泛研究的课题。社区问答研究基于问答社区数据,与传统的问答系统有着明显的不同。传统问答系统主要解决以短语和命名实体为答案的事实类问题,主要模块是问题理解和答案抽取。而社区问答则没有这样的限制,并且其特别适合回答询问建议或观点的非事实类问题。社区问答研究涵盖问题检索与推荐、问题的兴趣度、问题和答案的质量、答案的排序、用户权威性等研究方向。其中问题检索和答案的选取作为社区问答的核心模块更是受到了学术界和工业界的广泛关注。本课题主要工作为构建一个基于大规模问答社区数据的社区问答系统,并对其中涉及的问题分析、问题检索和答案选取技术进行了深入的研究。社区问答系统构建过程中,本课题收集了来自Yahoo! Answers等社区网站的超过1.3亿问题和10亿答案的大规模数据,和之前的基于百万量级的数据的问答社区相关研究工作相比有着明显的不同和极高的实用价值。在此数据的基础上,本课题通过查询自动分类方法来提高每次查询效率和效果。在问题检索过程中,本课题提出了应用查询问句和候选问题的结构信息和语义信息,并结合排序学习算法来融合多种不同类别的特征。通过训练数据生成排序模型来提高问题检索的相关性和词语不匹配等问题。实验表明,本课题应用Ranking SVM方法来训练的排序模型在不同数据集上,其准确率等评价指标上都相比以往的方法有着显著的提高。在通过问题检索找到与查询问句语义相似的候选问题后,本课题还提出了一个基于问答对的内容信息的新的无监督学习方法,来判定答案的质量以过滤低质量的答案。本课题对问答社区中的数据有以下三个假设:1、一个问题下的大部分答案都是正常的,只有少部分答案是低质量的需要被过滤掉;2、低质量答案可以通过对比同一问题下的其他答案而被检测出来;3、不同的答案应该有不同的判定答案质量高低的标准。基于以上假设,本课题应用基于内容的特征,通过最小化答案特征向量的方差,同时尽可能多的保留答案的方式来对检测低质量答案。实验表明,该方法相比于基准方法在ROC数值上有着明显的提高。在低质量答案过滤之后,本课题还应用问答对的文本信息和社区网站回答者的权威性信息,通过问答社区中的用户选出的最佳答案数据和Ranking SVM算法训练了一个答案排序模型,来对答案进行重新排序选取最佳的答案。通过以上几个步骤,本课题构建了一个高效、实用的社区问答系统,通过300个商业搜索引擎查询日志中高频问题的测试,有78.0%的问题可以给出正确的答案,并对于任意问句可在2秒中内给出结果,该社区问答系统具有很好效果与实用性。