问答系统中复合事实型问句分解技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cainong_111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户越来越倾向于输入自然语言作为查询,问句理解成为了问答系统等领域中的研究重点之一。然而现有问答系统技术对复合事实型问句的处理效果并不完美,不能很好地理解用户的需求。如何有效地对复合事实型问句分解,以帮助问答系统理解用户提出的复合事实型问句,提高问答系统回答此类问句的能力,这是本文的主要研究内容。面向复合事实型问句的分解任务,本文主要有如下工作:首先,由于复合事实型问句的分解任务是自然语言处理和问答系统中的新兴研究领域,国内外学者在这方面的积累都很少。作为研究的第一步,本文制定了详尽、规范、可执行的标注规则,构建了高质量的复合事实型问句分解语料库,并从所构建的语料中归纳总结出以原子分解类、并列分解类以及嵌套分解类这三类组成的复合事实型问句分解类别体系。其次,本文描述了复合事实型问句分解技术的整体框架,指出了复合事实型问句分解类别识别在整体分解框架中的重要作用。本文分析了复合事实型问句与其他文本类型的区别,提出使用复合事实型问句中的句法结构特征信息区分不同的分解类别。实验结果显示,而基于树核的方法可以充分利用事实型问句中的句法结构特征信息,出色地完成分解类别识别任务。最后,借助二进制编码的想法,本文提出了复合事实型问句分解标签的概念,该标签同时编码了子问句序列的长度信息和内容信息。使用这类问句分解标签,本文提出了两种子问句序列生成方法:基于依存句法分析的子问句序列生成方法,基于序列标注的子问句序列生成方法。其中前者具体使用了基于转移的依存句法分析器,而后者具体使用了线性链式条件随机场模型。最终通过详尽的实验结果以及与前人工作的对比,验证了上述两种生成子问句序列方法的有效性。
其他文献
随着计算机的普及和数据库系统的巨大成功,各种数据库系统以前所未有的速度开发出来并在各行业得到广泛应用,使得事务处理变得更加准确、高效,积累的数据更是以指数级的速度
说话人识别属于生物认证技术的一种,是一种根据语音波形中反映说话人生理和行为特征的语音参数来识别说话人身份的技术。在生物认证技术领域中,说话人识别技术以其独特的方便
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的
数字电视是目前最具发展前景的产业之一,我国也推出自己了的地面数字电视广播标准—DMB-TH。在这种形势下,各种针对DMB-TH的数字电视产品都被开发出来,便携式移动电视接收机
嵌入式软件的特殊性使得其开发过程比传统的通用计算机软件要复杂得多,而调试作为嵌入式系统开发中的关键环节,扮演着十分重要的角色。目前,国内在嵌入式调试技术方面所做的
数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向
2012年12月13日,我国的月球探测器嫦娥二号在距地球约700万公里的深空,以10.73km/s的速度770m的最近距离成功飞掠4179小行星Toutatis,获得了最高分辨率优于3m的系列可见光图
碎片复原技术是计算机视觉、图像分析和模式识别等领域中的重要研究课题,它开辟了模式识别新的应用领域,具有广泛的实用价值,一直为国内外学者所关注。本文在研究传统角点提
字符串相似性搜索在众多的领域具有广泛的应用,例如:数据清洗、数据集成、拼写检查、抄袭检测、生物序列分析等。到目前为止,有很多度量标准用来衡量字符串之间的相似程度,然
中间件是一种独立的系统软件或服务程序,能够屏蔽网络硬件平台的差异性和操作系统与网络协议的异构性,使得分布式应用软件得以在不同的技术之间共享资源。当前,面向对象分布