英语考试自动答题技术的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:huai0407
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能近年来发展迅速,以自然语言理解为目标的认知智能技术研究成为大家广泛关注的课题。为了让机器具备对自然语言的深入理解及推理能力,关键在于我们需要研究如何实现机器对语言的建模学习。本文从自然语言理解领域一个基础的句子自动答题任务出发,探索研究具备高精准和灵活的可扩展性的自动答题技术。自动答题旨在从给定的词语或短语集合中选择最佳的候选答案填在目标句子的合适位置,使目标句子具有正确的语法和完整的语义。现阶段的自动答题技术,仍然以传统的词语特征和语言模型等方法为代表,缺乏对各类信息的有效利用,答题系统效果较低。与此同时,近年来以深度学习为代表的技术在自然语言理解领域广泛应用,但真正将其高效应用于句子自动答题任务的工作较少,且无法在统一的深度学习框架下实现对词法、句法等各类信息的合理融合学习,方法的扩展性很差。本文正是从句子自动答题领域的技术研究现状入手,提出开展英语考试自动答题技术研究,并围绕多维度语义分析、深度语义建模、基于句法的深度语义建模以及深度语义信息融合等多个方面开展研究工作,具体包括:首先,研究基于多维度语义分析自动答题方法。在自动答题领域被广泛使用的传统语言模型和隐语义分析方法,只能建模短距离的单词依赖,无法对长距离依赖以及语法问题进行精准建模。针对上述问题,本文相应提出了自动固定搭配挖掘和动词时态预测的方法,在此基础上,设计多维度语义分析方法,该方法相比传统方法效果提升明显,有效提升了答题系统的问题解决能力。其次,研究基于深度学习语义建模答题方法。针对传统机器学习中存在的数据表达稀疏问题,本文将词嵌入表达引入到答题任务上。在此基础上,采用最新的深度学习框架,提出了基于排序学习的自动答题框架。进一步地,为了缓解词嵌入存在的语义不精确问题,本文创新性提出了对立语义的词嵌入增强模型,除了在公开的GRE对立语义数据集上取得最优效果,还在统一的深度学习技术框架中,成功应用于句子答题任务中,有效提升了答题效果。再次,研究结合句法结构信息的深度语义答题方法。针对传统的循环神经网络结构的句子语义建模方法无法刻画句子语法结构等信息,在实际系统构建中往往存在信息利用单一,语义建模不够精准的问题。近年来虽有面向如何对句法结构进行建模使用的研究工作,但都表现出效率低、扩展性差等问题。本文提出了基于序列化句法结构的句子语义建模方法,有效解决了句法信息的使用问题,并在答题任务大幅度提升了系统性能。该方法为后续的融合模型提供了重要支撑。最后,研究基于深度语义特征融合方法。该方法针对英语试题统一句子层面建模存在细节丢失的问题,提出了基于位置隐含状态信息的深度排序模型,同时结合本文前述提出的多种方法,构建形成一个统一的多源信息融合模型,并在实际自动答题任务中得到了最优的系统效果。
其他文献
立体视觉坐标测量技术作为一种以立体视觉和光学成象原理为基础的非接触式三维测量技术,以其非接触性、并发测量速度快以及精度高等优点广泛应用于工业三维测量、虚拟现实建
场景中支撑关系提取是场景结构分析的重要内容,通过提取场景中的支撑关系能够获悉场景中不同目标之间的联系,对场景理解有着重要的意义。随着深度采集设备的发展,人们已经能
信息过载与信息安全问题随着网络的发展逐渐引起人们的重视,如何从海量信息中快速获取用户希望得到的信息对安全机制和推荐系统提出了更高的要求。对于信息安全,过往的研究主要
进程迁移系统能提高分布式系统的负载平衡性和可靠性,但在这一研究领域,国外处于领先地位。由于进程迁移几乎都是在各商用操作系统中实现的,其源代码不公开,所以很难得到广泛
软件的可测试性作为一个软件度量指标,是指软件在任意给定输入集合下进行测试的过程中,其中存在的错误能够被揭示出来的概率。开展对软件可测试性的研究有助于确定软件为了达
端到端的伪线仿真是在包交换网络上提供模拟传统L1和L2层网络业务的机制。端到端的伪线仿真技术的成熟和应用,将使得电信运营商在只建设和运营维护一个融合的IP网络的情况下,
目标跟踪是计算机视觉领域的重要任务之一,在军事、商业、医学等领域均有重要应用价值。目标跟踪的主要挑战在于如何区分并处理目标外观发生的本征和非本征变化,因此,鲁棒性
随着整个社会自动化和信息化的发展,人们对安全可靠的个人身份认证技术有了较高的要求。传统的个人身份认证技术的局限性及弊端日渐明显,而生物识别技术以其独有的优势成为了新
虽然Java语言有自己的垃圾回收机制,但是在Java软件中仍然存在着内存泄漏问题。Java的内存泄漏主要因无用对象没有断开引用造成。它可能影响程序的正常执行,特别是对于那些长期
目标跟踪是指从一段摄像机记录的视频序列中连续标记出特定目标运动轨迹的技术,是当前计算机视觉研究中一个重要的研究课题,推动了图像处理、模式识别和人工智能等领域的理论