多领域任务型对话状态跟踪方法及其泛化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tzflz108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会的发展和技术的进步使得人机交互系统逐渐成为技术研究的热点,其中对话系统是一个重要的方面。而任务型对话又是对话系统中应用面最广的技术之一。随着对话系统应用面的推广,单个领域的对话系统已经不能满足实际需求了,多领域的对话系统及其相关技术的研究逐渐成为当前研究和应用的重点,而在此基础之上的模型跨语言能力的迁移泛化又是当前国际化不断推进带来的新的具有实际应用场景的研究方向。本文首先对现有的公开任务型对话数据集进行了分析和总结,并对目前两个常用的多领域数据集进行了详细的介绍和分析,并对其生成方式进行了完整的说明;还介绍了任务型对话常用的评价指标以及其中最关键的联合正确率指标以及计算方式。并且本文对模型和数据进行实验和分析时,采用“人工+规则”的半自动方式修正了常用公开数据集中存在的部分错误数据,获得了较高高质量的数据集。本文针对任务型对话系统中的对话状态跟踪这一关键技术进行研究和探索,改进设计了面向多领域的编解码结构的对话状态跟踪模型。从数据表示、信息获取方式以及预训练模型的微调任务对模型的结构和前后处理进行了设计,提升了人机交互过程中对用户表达的语义的连续理解能力,将多个领域信息融合进词槽信息并在结果中单独进行提取,模型在联合正确率等评价指标上相较于基准模型有所提升,对后续相关的模型设计给出了改进的思路。针对跨语言迁移泛化的场景和任务,设计了适用于任务型对话的模型迁移泛化学习任务以及数据处理方式,从联合学习、语料映射等角度对模型迁移泛化能力进行提升,在多领域的基础上对任务对话状态跟踪的跨语言泛化方法进行实验,并且根据数据的特点,从统计和规则的角度对数据和结果的进一步处理,在主要评价指标上取得了较好的效果。
其他文献
在人们对太空领域进行探索与利用的同时,空间技术迎来了长远的发展,出现了新的空间技术需求,例如空间站的维修、卫星回收、释放以及维护等。此外,在经历了近一个世纪频繁的太空活动之后,空间中充斥着很多太空垃圾,它们对未来的航空航天存在很大的威胁。另外,航天器所使用的宇航级CPU工作环境恶劣,面临宇宙辐射以及超过300摄氏度的温差的挑战,故宇航级CPU发展缓慢,现今国内外使用的宇航级CPU计算能力普遍低下,
舆情是社会民意的集中反映。网络舆情来源广泛,传播速度快,且海量多样。为了帮助政府机构、社会媒体能够在海量舆情文本中更有效率的掌握舆情发展动向,需要根据蕴含的信息对舆情文本进行准确的划分。相较于有监督方法,无监督的聚类算法不需要大量标注的数据,能在低人力成本的条件下得到相对理想的性能,是舆情划分的有效方法。近些年,融合表示学习和聚类目标的深度聚类算法得到了广泛关注并取得了出色的性能。现有的深度聚类算
随着大数据的流行,越来越多的分布式计算框架(比如Hadoop、Spark等)被应用到实际的大数据应用中。为了解决大数据平台下的数据管理核心问题,将传统数据管理系统中的核心查询操作扩展到大数据平台是非常有必要的。现有Spark内置的查询操作是针对Spark SQL的内置数据类型设计且实现的算法并不全面;另一方面,针对Spark平台面向数据管理核心查询操作的综合评测工作并不多且难以满足特定环境下的评测
导弹作为现代战争中的重要远程打击手段以及战略威胁武器的载体之一,是我国国防力量构成中的重要组成部分。导弹装填是导弹生产制造过程中的重要环节,其任务是将导弹装配到弹筒中。如何精确地将弹筒与导弹轨道架对接是一个关键问题。目前国内的导弹装填工作主要还是通过手工方式对简单的工装机构进行调整,由人推动架车进行最终的对接。这对工人的技术水平有着极高的要求,特别对于大型导弹的装填,时间消耗很长。随着计算机视觉技
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,
学位
海量数据上的高效用项集挖掘是一类非常重要的查询,高效用项集挖掘是频繁项集挖掘在项存在权重时的一种扩展,本文处理高效用项集挖掘的两类研究:高效用项集挖掘和top-k高效用项集挖掘。高效用项集挖掘给定效用阈值,返回效用不小于阈值的所有项集,而top-k高效用项集挖掘给定项集的个数k,返回效用最大的k个项集,这两类研究根据不同的条件而定,都能为用户提供相应的决策支持。首先,本文研究海量数据上的高效用项集
学位