基于多特征融合的中文自动问答系统研究与设计

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:tcsr888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以计算机与互联网为代表的信息采集、存储和处理技术的飞速发展和广泛应用,现代社会的信息急剧膨胀,如何更准确、快捷地从海量信息中获取用户真正需要的信息成了一个越来越重要的课题。问答系统由于具有能理解用自然语言表达的问题、可精确定位和抽取问题的正确答案的特点,成为解决此问题的有效手段,是该领域研究的热点之一。本文从设计实用中文自动问答系统的角度出发,在分析现有问答系统不足的基础上,针对中文语言和中文问题的特点,围绕问答系统的问题理解、信息检索和答案抽取等部分的关键技术问题展开研究,以期提高问答系统的性能。本文的主要工作如下:(1)针对问题理解中的问题分类技术,在分析中文问题中的疑问词、中心词与问题类型之间关系的基础上,结合中文语言和中文问题的特点,提出了基于疑问词-中心词启发式规则的问题分类方法,并通过实验验证了这种分类方法的有效性。(2)对于信息检索部分的设计问题,在分析现有信息检索技术的基础上,建议在开源全文检索框架Lucene的基础上,通过改进其中的文档评分方法,来构造适合于中文问答系统的文档检索器。(3)为提高答案抽取部分的准确性,在参考句子全信息特征的基础上,提出了一种基于多特征融合的答案抽取方法。该方法充分利用问题与答案之间存在的相似信息,在词形、句法、语义三个层次上同时考察问题句与候选答案句的相似度,把问题与答案在语义上的意相似性和句法上的形相关性统一起来,以更精确的完成答案检索以及答案抽取工作。实验证明,这种方法能够提高答案抽取的精度。(4)在以上研究基础上,本文开发了一个中文问答原型系统。
其他文献
电力负荷预测是电力系统规划决策、经济运行的前提和基础,电力负荷的准确预测对电力系统安全经济运行和国民经济发展具有重要意义。经典的负荷预测多采用以时间序列法为代表的线性模型方法,但由于短期负荷数据易受天气、节假同等各种干扰因素的影响而呈非线性特性,因此预测结果难以满足实际需要。本文在分析各种经典负荷预测方法优缺点的基础上,将适用于解决大规模样本训练问题的核心向量回归(Core Vector Regr
Web服务作为一个跨平台的用于点对点程序之间的通信技术,正随着计算技术、信息技术的发展,而逐渐成为下一个在迅速推动英特网发展中起到中流砥柱作用的新技术,Web服务极大地
近些年来,审计数据资源不断扩充,审计形式也从现场审计逐步转型为计算机联网审计。这就要求审计数据中心要能够适应新时代的审计需求。审计数据中心从一个存储审计数据的数据
随着互联网的蓬勃发展,网络上每天都会产生海量的数据,仅门户网站的新闻信息更新量就非常可观。如何从这些信息中提取中关注度最大的话题,一直是一个值得研究的课题,话题检测
无线传感器网络覆盖问题包括连通和覆盖两个方面。连通是指在无线传感器网络中任意两个节点间都能够直接或间接的通信,这是节点自组织成多跳网络的一个充分条件。覆盖是指通
随着信息技术的发展,信息数据不仅在量上与日倍增,在存储方式上也越来越形式多样。原有的信息系统在面对异构数据源的访问和集成问题时越来越无计可施。为了充分、有效地利用
搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高。元搜索引擎集成了多个独立的搜索引擎,它调
随着网络技术的快速发展和智能手机、移动终端的广泛普及,基于位置的服务(LBS,Location Based Services)已经融入人们的生活,正在改变人们旧有的行动模式。人们在享受位置服
云计算是一种新形成的网络技术,它分别经过了网格计算、分布式计算以及并行计算三个阶段。云计算通过和现在的互联网技术相互联合形成了一种新型的商业服务模式,并且其广泛的
随着处理器制造工艺的不断进步以及实际应用需要,多核结构已经成为当前高性能微处理器的发展趋势。然而,与此同时也带来了一些在单处理器结构中没有出现过的问题,在多核处理