论文部分内容阅读
随着Internet的不断发展,网络已经成为人们获取信息的重要来源。如何快速方便的从网络中获取信息,已经成为人们努力研究的焦点。虽然搜索引擎和自动问答系统的出现很好的解决了这一问题,但是它们各自仍然存在着一些不足。搜索引擎以关键词的方式检索信息,很难清晰表达用户的意图,而且返回的结果是相关网页的集合,仍然需要用户自己手动查找答案。传统的自动问答系统虽然能够弥补搜索引擎的这些不足,接受用户输入问题,并返回准确答案,但是它需要独立维护一个非常庞大的知识库,因而信息覆盖范围小和更新速度慢成为了自动问答系统最主要的缺点。为了弥补这个不足,本文提出了一种基于网络搜索的问答系统,将互联网作为系统的知识库,利用搜索引擎检索网络中的信息,最后根据用户输入的问题,从中提取出正确答案,并返回给用户。本文根据传统问答系统的三个模块结构,详细设计了系统的整体框架,并针对各个模块进行任务划分。在问题分析模块主要进行了问题分类和关键词提取的工作。信息检索模块主要利用搜索引擎检索网络中的相关文档,并将其爬取下来。答案提取模块根据问题类型和信息来源分别制定了不同的答案提取和评分策略。本文利用命名实体识别技术对事实类问题进行答案抽取,利用答案相似度计算方法对非事实类问题进行答案抽取,并以概率计算的方式为每一个候选答案评分。即分别计算网页的先验概率和答案在网页中的条件概率,最终将评分最高的候选答案返回给用户。本文对问题分析和答案提取模块进行了一些改进。首先针对几种特殊类型的问题对原有的问题分类模型进行了改进。然后利用句法依存关系从问题中提取限定词,为每个关键词设定不同的权重。最后利用关键词的权重分别对答案评分方法和答案相似度计算方法进行了改进。本文在构建和实现基于搜索引擎的问答系统基础上,利用人工构建的问题测试集对系统的性能进行了测试,还对问题分类和答案提取的改进方案进行了评价分析。最后的实验数据表明了本文提出的改进方案的有效性。而系统的实际运行效果也证明了该系统在实际应用中的可行性。